J'ai demandé à GPT Image 2.0 de créer un tableau de référence d'Opus 4.7 contre GPT 5.5.


Ce modèle d'image est devenu vraiment performant.
GPT-5.5 remporte le tableau de score principal. Mais regardez de plus près.
OSWorld 78,7 contre 78,0. GDPval 84,9 contre 80,3. Toolathlon 55,6 contre 54,6 (plus de 5,4, pas Opus).
Opus conserve toujours le SWE-Bench Pro, MCP Atlas, GPQA Diamond, HLE no-tools.
OpenAI décroche la ceinture polyvalente. Anthropic garde la couronne du codage. Sur le papier.
Voir l'original
post-image
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler