Google DeepMind-Manager: Jede KI-Produktfirma sollte benutzerdefinierte Benchmarks entwickeln

Gate-News-Meldung, 27. April — Logan Kilpatrick, Senior-Produktmanager bei Google DeepMind und Produktleiter für Google AI Studio, sagte auf X, dass jede Firma, die KI-basierte Produkte entwickelt, eigene benutzerdefinierte Benchmarks festlegen sollte, um die Leistung von KI-Modellen zu messen. Er beschrieb dies als eine Methode, um Modellverbesserungen „unverhältnismäßig vorteilhaft für Ihr Unternehmen“ zu machen, und forderte Gründer und Führungskräfte auf, „morgen anzufangen.“

Die meisten Unternehmen verlassen sich derzeit auf öffentliche Ranglisten, um KI-Modelle auszuwählen, aber diese messen allgemeine Fähigkeiten, die oft nicht zu konkreten Geschäftsszenarien passen. Kilpatrick nannte das Beispiel eines Vertragsprüfungsunternehmens, das vor allem auf die Genauigkeit der Extraktion von Klauseln bedacht ist – eine Fähigkeit, die in öffentlichen Benchmarks nicht vorkommt, wodurch es unmöglich ist, die Modellleistung bei dieser Aufgabe zu bewerten. Benutzerdefinierte Benchmarks bieten zwei zentrale Vorteile: Erstens ermöglichen sie es Unternehmen, jede Modellaktualisierung anhand ihrer eigenen Geschäftstasks zu bewerten und das Modell auszuwählen, das in ihrem tatsächlichen Anwendungsfall am besten abschneidet, statt das insgesamt höchstrangige Modell zu nehmen; zweitens erlauben sie es Unternehmen, diese Testsätze mit den Modellanbietern zu teilen und so eine kontinuierliche Optimierung in Bereichen zu erreichen, die für ihr Geschäft relevant sind.

Kilpatrick bemerkte, dass Unternehmen wie Zapier und Sierra diesen Ansatz bereits umsetzen, und sagte: „Hier lässt sich sehr viel Alpha erzeugen.“

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare