Rakuten annonce en grande pompe son « plus grand modèle d'IA japonais », la communauté découvre que le cœur est DeepSeek V3

動區BlockTempo

Rakuten Group a annoncé aujourd’hui Rakuten AI 3.0, en se présentant comme « le plus grand modèle d’IA haute performance du Japon », entièrement open source sous licence Apache 2.0 et revendiquant dépasser GPT-4o dans plusieurs tests en japonais. Moins de quelques heures après l’annonce, la communauté a découvert un détail embarrassant : en ouvrant la page du modèle sur HuggingFace, le fichier config.json indique clairement : model_type: deepseek_v3, architectures: DeepseekV3ForCausalLM.

Avec un total de 671 milliards de paramètres, une inference de 37 milliards, et une fenêtre contextuelle de 128K, chaque chiffre correspond exactement à DeepSeek V3. En d’autres termes, Rakuten AI 3.0 n’est pas un modèle développé en interne, mais une version fine-tunée en japonais de DeepSeek V3, basé sur ce dernier.

Financé par le gouvernement japonais, mais basé sur un modèle chinois

Ce qui est encore plus intéressant, c’est l’identité officielle de ce modèle. Rakuten AI 3.0 est le fruit du projet GENIAC (Generative AI Accelerator Challenge), mené conjointement par le ministère japonais de l’Économie, du Commerce et de l’Industrie (METI) et l’Agence de développement technologique pour les nouvelles énergies (NEDO), avec un soutien partiel en puissance de calcul fourni par le gouvernement japonais.

Dans son annonce, Rakuten se contente de mentionner « l’utilisation optimale des résultats de la communauté open source » comme source du modèle de base, sans faire référence à DeepSeek.

Quelle puissance pour DeepSeek V3 ?

Lancé en décembre 2024, DeepSeek V3 est le modèle phare open source développé par la société chinoise DeepSeek. Son coût d’entraînement est estimé entre 5 et 6 millions de dollars, soit plus de 20 fois moins cher que GPT-4, tout en égalant ou surpassant plusieurs modèles propriétaires dans divers benchmarks, provoquant un véritable bouleversement dans le secteur de l’IA.

Grâce à la licence open source Apache 2.0, tout le monde peut l’utiliser commercialement, le fine-tuner ou le redistribuer légalement. Mais « légal » ne signifie pas toujours « honnête et transparent ».

Voici la configuration de Rakuten AI 3.0 :

  • Architecture : MoE (Experts Mixtes), basé sur DeepSeek V3
  • Total de paramètres : 671 milliards, inference : 37 milliards
  • Fenêtre contextuelle : 128K tokens
  • Optimisation linguistique : principalement japonais
  • Licence : Apache 2.0 (usage commercial illimité)

L’influence de DeepSeek s’étend à un niveau intéressant : un géant du commerce électronique japonais comme Rakuten, utilisant des ressources subventionnées par le gouvernement pour fine-tuner un modèle open source chinois, puis le rebaptisant avec sa propre marque. DeepSeek, sans dépenser en marketing, devient ainsi une publicité indirecte très efficace.

Voir l'original
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire