Gate News message, April 27 — Logan Kilpatrick, senior product manager at Google DeepMind and product lead for Google AI Studio, stated on X that every company building AI-based products should establish its own custom benchmarks to measure AI model performance. He described this as a method to make model improvements “disproportionately benefit your company” and urged founders and business leaders to “start tomorrow.”

Most companies currently rely on public leaderboards to select AI models, but these measure general capabilities that often misalign with specific business scenarios. Kilpatrick cited the example of a contract review company most concerned with clause extraction accuracy—a capability absent from public benchmarks, making it impossible to assess model performance on that task. Custom benchmarks offer two key advantages: first, they enable companies to evaluate each model update against their own business tasks and select the model that performs best in their actual use case rather than the highest-ranked model overall; second, they allow companies to share these test sets with model providers, driving continuous optimization in areas that matter to their business.

Kilpatrick noted that companies like Zapier and Sierra are already implementing this approach, stating that “there is a lot of alpha that can be created here.”

Afficher la source

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Sam Altman, Dario Amodei sont tous les deux insupportables ! Les discours sur une fin du monde liée à l’IA et le sentiment de relative privation rendent les Américains hostiles à l’IA

Actualités de l’industrie de l’IA

Le célèbre podcast de la Silicon Valley « All-In Podcast » a discuté de l’industrie de l’IA et a livré une observation assez incisive : l’attitude de la société américaine envers l’IA est en train de basculer vers le négatif, et le moyen de décharge le plus concret de cette émotion se trouve être les centres de données que les entreprises d’IA construisent en ce moment partout aux États-Unis. Cette hostilité pourrait provenir de plusieurs facteurs, notamment d’une vision apocalyptique de l’IA, de la peur du chômage, ou d’un mécontentement plus profond : la nouvelle vague d’innovation technologique semble encore une fois n’enrichir que quelques personnes, tandis que la vie de la majorité n’enregistre pas d’amélioration manifeste. Les autorités locales américaines ont déjà annulé des cas de construction de centres de données Chamath Palihapitiya a déclaré dans l’émission que les problèmes auxquels fait face l’industrie de l’IA ne tiennent pas seulement à la concurrence entre les modèles, aux dépenses d’investissement ou à une pénurie de puissance de calcul, mais à « l’impression grandissante que la population américaine, dans son ensemble, en a assez de l’IA ». Il a précisé que cette réticence pourrait être liée notamment à l’IA

ChainNewsAbmediaIl y a 44m

Questions de la communauté : Biais idéologique dans les modèles d’IA grand public, le 4 mai

Actualités de l’industrie de l’IA

D’après BlockBeats, le 4 mai, un utilisateur de la communauté IA sur X, Freeze, a remis en question le fait que des modèles d’IA grand public, dont ChatGPT, Claude et Gemini, présentent un biais systématique en étant moins alignés sur des positions conservatrices sur des sujets tels que le genre, l’immigration et la criminalité. L’utilisateur a suggéré que, comme l’IA

GateNewsIl y a 2h

Cerebras prévoit une introduction en bourse (IPO) à $4B au Nasdaq, et démarre une tournée de présentation le 4 mai à 115 $ à 125 $ par action

Actions Actualités de l’industrie de l’IA

Selon Reuters, le fabricant de puces IA Cerebras Systems a lancé son roadshow pour une introduction en bourse le 4 mai en vue d'une cotation au Nasdaq sous le ticker CBRS. La société prévoit de fixer le prix des actions entre 115 dollars US et 125 dollars US et pourrait lever jusqu’à US$4 milliard de dollars à une valorisation d’environ 40 milliards de dollars. Il s’agit de la deuxième

GateNewsIl y a 2h

L’IA fait progresser le PIB des États-Unis de 75% au T1, et les cinq principaux géants pourraient augmenter leurs dépenses en capital à plus de 1,1 billion de dollars d’ici 2027

Actions Actualités de l’industrie de l’IA

Morgan Stanley relève de nouveau ses prévisions de dépenses d’investissement (capex) pour les cinq plus grands géants du cloud aux États-Unis : environ 805 milliards de dollars en 2026, environ 1,116 billion de dollars en 2027, et des dépenses en 2026 comparables à celles de 2025 hors secteur technologique. David Sacks estime que le capex lié à l’IA contribue à hauteur d’environ 2,5 % au PIB, et qu’il pourrait dépasser 3 % l’an prochain, étant perçu comme un nouvel moteur de l’économie américaine.

ChainNewsAbmediaIl y a 3h

Pour rattraper la vague des IPO de SpaceX, OpenAI et Anthropic, le Nasdaq et le S&P assouplissent leurs critères

Actions Indices Actualités de l’industrie de l’IA

Le Wall Street Journal indique que, pour préparer des IPO de SpaceX, OpenAI, Anthropic et d’autres, le S&P et le Nasdaq assouplissent les critères d’inclusion des valeurs. Le S&P réduit la période d’observation des nouvelles actions à 6 mois, ou accorde une dispense du seuil de profit ; le Nasdaq 100 lance une intégration rapide, et les IPO géantes peuvent être ajoutées à l’indice dès le 15e jour de cotation. L’inclusion se fera désormais selon la capitalisation boursière totale, en supprimant l’exigence de flottant minimum, et en adoptant une pondération dynamique. Des experts doutent que cela puisse amplifier les risques liés aux valeurs à la mode et fausser la formation des prix en cas d’insuffisance de découverte des prix.

ChainNewsAbmediaIl y a 3h

L’ASX met en garde les entreprises contre l’exagération de l’impact de l’IA le 4 mai

Actions Actualités de l’industrie de l’IA

Selon Bloomberg, le 4 mai, l’opérateur de la bourse australienne ASX a averti les entreprises de ne pas surestimer l’impact de l’intelligence artificielle sur leurs activités. La directrice de la conformité de l’ASX, Lucinda McCann, a déclaré que la bourse surveillait les « ramping » ou les allégations visant à faire monter les cours des actions

GateNewsIl y a 3h

Commentaire

0/400

Aucun commentaire