OpenAI dit que la référence utilisée pour mesurer la compétence en codage de l'IA est « contaminée » — voici pourquoi
En bref
OpenAI soutient que SWE-bench Verified ne reflète plus réellement la capacité de codage, car le benchmark serait prétendument contaminé. Il pousse désormais SWE-bench Pro comme un remplacement plus difficile. Les scores ont chuté d’environ 70 % à environ 23 % sur le nouveau benchmark,
Le nombre que chaque grand laboratoire d’IA a b
Decrypt·02-24 21:35
