Nach Rechenleistung, entscheidet die Qualität des Sprachkorpus oder bestimmt die obere Grenze der Fähigkeit großer Modelle

世链财经_

2025-02-25 02:01:52

ARPA-3,02%

Vom 21. bis 23. Februar wird in Shanghai die Global Developer Conference 2025 (GDC) stattfinden. Laut der Shanghai Economic and Information Commission werden sich etwa 100 in- und ausländische Entwicklergemeinschaften wie Hugging Face, die Microsoft-Entwicklergemeinschaft, CSDN, die Alibaba MoDa-Community, die Linux Foundation, die ARPA-Stiftung und die Huawei-Community an der diesjährigen GDC beteiligen. Sie konzentrieren sich auf Kerntechnologien wie große Modelle, Rechenleistung, Korpora, Werkzeuge, Softwareplattformen usw. Die teilnehmenden Entwicklergruppen decken Hardwareentwicklung, Cloud-Computing, Big Data, das Internet der Dinge, KI, Roboter, Blockchain und Metaverse ab.

Die Shanghai Kupas Technology Co., Ltd. ist eines der Unternehmen, die an der Konferenz teilnehmen. Kupas ist ein Unternehmen, das speziell nach den Anforderungen des Stadtparteikomitees und der Stadtregierung Shanghai gegründet wurde und sich auf Plattformen für künstliche Intelligenz-Korpusdaten spezialisiert hat. Das Unternehmen positioniert sich als eine professionalisierte Betriebsplattform für funktionale Korpusdienste und engagiert sich für die Bereitstellung von kostengünstigen und qualitativ hochwertigen Korpusdatendiensten für Basismodule, vertikale Modelle und kleine bis mittlere innovative Unternehmer.

“Unser gesamtes Team hat sich seit dem vierten Tag des Mondneujahrs nicht ausgeruht, und wir haben die Innovationen von DeepSeek erforscht und weiterverfolgt.” Huang Haiqing, CEO von Coupas, sagte gegenüber Jiemian News, dass das Aufkommen von DeepSeek die gesamte KI-Branche sowohl aufgeregt als auch ängstlich gemacht hat. Der Hauptgrund zur Sorge ist, warum das bestehende große Modell so viel Geld investiert hat, aber nicht den gleichen Effekt wie DeepSeek erzielt hat.

Er glaubt, dass der Schlüssel zum Erfolg von DeepSeek nicht nur in der innovativen ursprünglichen Algorithmus liegt, sondern auch darin, dass hochwertige Sprachdatensätze verwendet werden, was die Rechenleistung und Daten erheblich einsparen kann und der chinesischen Großmodellbranche einen Weg für einen “Innovationsüberholvorgang” bietet. Huang Haiqing sagte, dass gemäß der aktuellen Entwicklung von Großmodellen qualitativ hochwertige Sprachdatensätze die Obergrenze der Leistung von Großmodellen bestimmen werden, und eine qualitativ hochwertige Bereitstellung von Sprachdaten die Schulungskosten von Großmodellunternehmen erheblich senken kann.

Er sagte, dass Kuppas bereits mit dem Aufbau von Branchenkorpora in den Bereichen verkörperte Intelligenz, Finanzen, Fertigung, Bildung, Gesundheitswesen, Unterhaltung, städtische Governance usw. begonnen hat. Die Betriebsplattform 1.0 für Korpora ist bereits in Betrieb und beschleunigt die Entwicklung der Plattform 2.0 von der realen Welt über Simulation bis zur Datensynthese. Das Unternehmen hat derzeit mehr als 50 ökologische Partner für Korpora verbunden und senkt die Kosten für große Modelle, indem es den Partnern hochwertige und effektive Datensätze bereitstellt.

Die Skalierungsgesetze wirken immer noch, aber die Geschwindigkeit hat bereits nachgelassen, urteilte Huang Haiqing. Er glaubt, dass in Zukunft die Anwendung von multimodalen Großmodellen neben den sprachlichen Großmodellen explodieren wird, und das Geschäftsmodell von ToB (Unternehmen) und ToG (Regierung) wird die Hauptentwicklungsrichtung der Großmodellunternehmen sein. Derzeit verlagern sich viele grundlegende Großmodellunternehmen auf die Branchenkategorien, und in Zukunft werden weniger als zehn grundlegende Großmodellunternehmen auf dem chinesischen Markt überleben.

In konkreten Branchen glaubt er, dass Finanzwesen, Bildung, Gesundheitswesen und Industrie bereits Priorität auf große Modelle gelegt haben. In Schlüsselbereichen wie Autonomes Fahren, verkörperte Intelligenz, wissenschaftliche Intelligenz usw. werden auch aktiv große Modelle eingesetzt. Mit der Zeit werden auch die Verkehrs- und Einzelhandelsbranche in Zukunft große Modelle anwenden. Dies erfordert auch eine größere und qualitativ hochwertigere Nachfrage nach vertikalen Branchenkorpora. Für Inferenzmodelle muss der Inferenzprozess auf den vorhandenen Daten aufgebaut werden, was auch neue Anforderungen an die Korpusproduktion stellt.

Bei der Erfassung und Erstellung von Korpusdaten schlägt Huang Haiqing auch vor, das Urheberrechtsgesetz kontinuierlich zu aktualisieren, um eine angemessene Definition des Umfangs der KI- und Großmodell-Trainingskorpusdaten zu ermöglichen.

“Das bedeutet nicht, die Vergangenheit zu ändern, sondern hinzuzufügen und zu aktualisieren. Ich denke, dies ist ein ziemlich geeigneter und handhabbarer Weg”, sagte Huang Haiqing. “In den Bereichen künstliche Intelligenz, große Modelle und Korpusdaten war das frühere Urheberrecht nur für Menschen gedacht. Bei der Schulung von Korpusdaten mit großen Modellen ist es möglicherweise nicht angemessen, die Standards des maschinellen Lernens mit früheren Maßstäben zu messen. Darüber hinaus hat dieses Problem bereits Auswirkungen auf die Kosten für den Erwerb von Korpusdaten großer Modellunternehmen und rechtliche Risiken.”

Er schlägt vor, die vernünftige Nutzung von großen Modellsprachdaten zu beschleunigen, um die Anwendung von “Text- und Daten-Mining” im Bereich des vortrainierten Trainings voranzutreiben; die vernünftige Nutzung von Daten für maschinelles Lernen im Inland zu fördern, um das Problem der schwierigen Genehmigung zu lösen und das Gleichgewicht zwischen den Rechten der Urheber und den Bedürfnissen der technologischen Entwicklung zu wahren; die Regierung sollte förderliche Politiken erlassen, um Sprachdatenunternehmen bei der Stärkung der Entwicklung von automatisierten Tool-Chain-Plattformen zu unterstützen und die Kosten für Sprachdaten zu senken; die Schaffung einer AI-automatisierten Reinigungs- und Markierungstool-Chain-Plattform, um die Kosten für Sprachdaten zu senken; die rechtliche Forschung zum Schutz von AI-generierten Werken zu beschleunigen und klare Regeln für die Eigentumsrechte und die Verantwortung von AI-generierten Werken festzulegen.

Huang Haiqing sagte auch, dass KI in Zukunft die Markierung und Reinigung von Daten dominieren wird, und die Datenmarkierung wird sich von arbeitsintensiven Industrien zu wissens- und technologiebasierten Industrien wandeln.

（Artikelquelle: Jiemian News）

Quelle: Eastmoney

Autor: Jiemian News

Original anzeigen

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Kommentieren

0/400

GateUser-91487898

· 2025-02-25 02:02

Apein ApeinApeinApeinApein

Antworten0