Gate News message, April 27 — Logan Kilpatrick, senior product manager at Google DeepMind and product lead for Google AI Studio, stated on X that every company building AI-based products should establish its own custom benchmarks to measure AI model performance. He described this as a method to make model improvements “disproportionately benefit your company” and urged founders and business leaders to “start tomorrow.”
Most companies currently rely on public leaderboards to select AI models, but these measure general capabilities that often misalign with specific business scenarios. Kilpatrick cited the example of a contract review company most concerned with clause extraction accuracy—a capability absent from public benchmarks, making it impossible to assess model performance on that task. Custom benchmarks offer two key advantages: first, they enable companies to evaluate each model update against their own business tasks and select the model that performs best in their actual use case rather than the highest-ranked model overall; second, they allow companies to share these test sets with model providers, driving continuous optimization in areas that matter to their business.
Kilpatrick noted that companies like Zapier and Sierra are already implementing this approach, stating that “there is a lot of alpha that can be created here.”
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'
avertissement.
Articles similaires
Megazone Cloud s’associe à AWS pour un programme de formation à l’IA en Corée du Sud
Megazone Cloud, une entreprise sud-coréenne de services cloud, a été sélectionnée par Amazon Web Services le 4 mai comme partenaire des opérations pour AWS Agentic AI GameDay en Corée du Sud, indique l’annonce de l’entreprise. Le programme est un événement de formation pratique mené par le Centre d’innovation en IA générative d’AWS,
CryptoFrontierIl y a 20m
Le cofondateur de Solana avertit que l’IA pourrait déchiffrer la cryptographie post-quantique d’ici le « Breakpoint » de 2026
D’après le cofondateur de Solana, Anatoly Yakovenko, s’exprimant lors de la conférence 2026 Solana Breakpoint à Amsterdam, l’intelligence artificielle représente une menace existentielle plus importante pour la sécurité de la blockchain que les ordinateurs quantiques. Yakovenko a averti que les modèles d’IA pourraient exploiter des schémas mathématiques subtils dans po
GateNewsIl y a 40m
Des toilettes aux fabricants d’assaisonnements : le débordement de la valeur des chaînes d’approvisionnement alimentées par l’IA a favorisé quelles entreprises ?
La vague de dividendes de l’IA continue de se propager, de Nvidia aux géants de la technologie comme TSMC. Désormais, des entreprises japonaises qui fabriquent des toilettes et un groupe agroalimentaire lancé par la production de glutamate monosodique deviennent, en silence, des gagnants invisibles de cette ruée vers les infrastructures d’IA. Leur essor met en lumière une tendance clé : l’effet de débordement de la valeur tout au long de la chaîne d’approvisionnement de l’IA s’est depuis longtemps infiltré dans l’industrie manufacturière traditionnelle, faisant émerger davantage d’opportunités de transformation diversifiées.
Fabricant de toilettes TOTO : sa technologie de céramique trouve inopinément un besoin dans la production de plaquettes
Le géant japonais de l’équipement de salle de bain TOTO, connu dans le monde entier pour ses couvercles de toilettes de haute qualité, se spécialise dans la fabrication de céramique depuis plus de 40 ans. Pourtant, cette tradition artisanale qui semblait n’avoir aucun lien avec la technologie a permis à l’entreprise de trouver un nouveau terrain dans les procédés de semi-conducteurs.
TOTO a récemment annoncé qu’elle allait exploiter son expertise en technologie céramique pour produire des chucks électrostatiques (Electrostatic Chuck) utilisés dans la fabrication de puces. À peine l’information révélée, le cours de l’action a commencé à…
ChainNewsAbmediaIl y a 2h
MediaTek embauche un ancien cadre de TSMC pour étendre ses puces d’IA
Le concepteur taïwanais de puces MediaTek a nommé, le 4 mai, l’ancien dirigeant de Taiwan Semiconductor Manufacturing Co (TSMC) Douglas Yu comme conseiller à temps partiel, selon Reuters. Cette décision soutient l’expansion de MediaTek sur le marché des puces pour l’IA et ses progrès en matière de technologie d’emballage.
Advanced
CryptoFrontierIl y a 2h
OpenAI s’associe à Yubico pour proposer des clés de sécurité matérielles personnalisées
D’après Yubico, OpenAI s’est associé au fabricant de clés de sécurité basé à Stockholm pour proposer des YubiKeys personnalisées via son programme d’Advanced Account Security. Le programme vise des utilisateurs présentant un risque plus élevé d’attaques par hameçonnage et de prise de contrôle de compte.
Le pack comprend une YubiKey C NFC pour les appareils mobiles et une Y
GateNewsIl y a 2h
L’Inde met en garde contre les risques cybernétiques alors que l’IA Mythos d’Anthropic contourne les défenses dans 83 cas d’essai sur 100
D’après The Economic Times, l’agence indienne de cybersécurité a récemment publié une alerte d’une sévérité élevée après que l’IA Mythos d’Anthropic a démontré sa capacité à repérer des dizaines de milliers de vulnérabilités et à transformer des bogues logiciels en attaques exploitables en quelques minutes.
Palo Alto Networks' Unit 42 et
GateNewsIl y a 4h