Клод Фейбл 5 повернувся до роботи 1 липня, що спричинило суперечливі оцінки продуктивності від двох платформ тестування ШІ. BridgeBench повідомив про падіння показника налагодження з 86,2 до 25,9, тоді як Arena.AI виявила, що продуктивність залишилась майже незмінною за результатами тисяч сліпих голосувань за вподобаннями людей. Розбіжність виникає через новий класифікатор безпеки Anthropic, який спрямовує більшість завдань з кодування до Claude Opus 4.8, а не через фактичне зниження можливостей моделі, згідно з аналізами, опублікованими 2 липня. Класифікатор було впроваджено як умову відновлення після того, як дослідники Amazon продемонстрували техніку злому в червні, що спричинило втручання уряду США з міркувань національної безпеки.
BridgeMind повторно запустив повний набір тестів кодування для версії Fable 5 від 1 липня в день її повернення. BridgeBench тестує реальні завдання з кодування в таких категоріях, як налагодження, рефакторинг та стійкість до галюцинацій, оцінюючи від 0 до 100, наскільки добре модель виконує кожну категорію. Налагодження впало з 86,2 до 25,9, рефакторинг — з 73,6 до 38,4, а стійкість до галюцинацій — з 75,9 до 61,7.
З 12 завдань на налагодження TypeScript лише три фактично дійшли до Fable 5. Решту дев'ять перехопив новий класифікатор безпеки Anthropic і перенаправив на Claude Opus 4.8. BridgeBench оцінює кожен зворотний виклик як нуль, оскільки модель, яка відповіла, не була тією, що оцінюється. Класифікатор навчений блокувати техніку злому, про яку повідомили Amazon — ту, що дозволяла Fable 5 ідентифікувати та демонструвати вразливості програмного забезпечення. Налагодження TypeScript для класифікатора виглядає досить схожим на роботу з безпекою, тому зворотний виклик спрацьовує постійно.
Arena.AI оцінила те саме питання через іншу призму. Платформа збирає тисячі сліпих голосувань за вподобаннями людей у кількох категоріях — текст, зображення, документи, код та агенти — і ранжує моделі за допомогою системи Ело. Коли дві моделі змагаються анонімно, а люди обирають переможця, бал відображає фактичну сприйняту якість, а не маршрутизацію інфраструктури.
Порівняння до та після показало, що Fable 5 значною мірою тримається на своєму рівні. Фронтенд-код впав з 1650 до 1623 Ело — різницю, яку Arena зазначає, знаходиться в межах довірчого інтервалу, оскільки дані продовжують накопичуватися. Продуктивність документів покращилася на 34 пункти. Експертний текст зріс на 25. Креативне письмо трохи піднялося на 9. Категорії, які знизилися — кодування на -18, складні запити на -3 — це саме ті, де класифікатор найімовірніше перехопить запит до того, як Fable зможе відповісти.
Звичайні користувачі, які займаються креативним письмом, аналізом документів, дослідженнями та запитами на експертному рівні, навряд чи помітять якусь різницю. Це категорії, де Arena.AI показує пласку або покращену продуктивність. Письменники, дослідники та аналітики отримають Fable 5, якого очікували.
Ті, хто працює в сфері, пов'язаній з безпекою — кодування керування пам'яттю, будь-що, що стосується таких слів, як вразливість, експлойт, хук або навіть виправлення — будуть регулярно потрапляти на зворотний виклик. Розрив між колапсом BridgeBench і стабільністю Arena зводиться до типу завдань. BridgeBench завантажує свій набір саме тими запитами на виправлення коду та налагодження, які викликають новий класифікатор. Люди-голосувальники Arena ставлять набагато ширший спектр речей, і більшість з них не виглядають як код експлойта для рівня безпеки.
Anthropic заявив, що класифікатори з часом покращуватимуться, визнаючи, що наразі вони охоплюють занадто широку мережу. Оригінальна заборона виникла після того, як дослідники Amazon знайшли техніку, яка змусила Fable ідентифікувати та демонструвати вразливості програмного забезпечення — і уряд США розцінив це як загрозу національній безпеці. Виправлення полягало в тому, щоб зробити класифікатор достатньо консервативним, щоб він ловив це та все навколо, а потім налаштувати його згодом. Anthropic не вказав терміну, коли це станеться.
Чому бал налагодження Claude Fable 5 впав з 86,2 до 25,9 на BridgeBench?
Класифікатор безпеки перенаправив дев'ять з дванадцяти завдань налагодження TypeScript на Claude Opus 4.8 замість Fable 5. BridgeBench оцінює кожен зворотний виклик як нуль, оскільки оцінювана модель не виконала завдання, що спричиняє серйозне падіння балів, незважаючи на відсутність змін у фактичних можливостях Fable 5.
Що виявила Arena.AI щодо продуктивності Fable 5 після поновлення 1 липня?
Arena.AI зібрала тисячі сліпих голосувань за вподобаннями людей і виявила, що продуктивність Fable 5 в основному не змінилася порівняно з червневою версією. Продуктивність документів покращилася на 34 пункти, а експертний текст — на 25 пунктів, тоді як фронтенд-код впав з 1650 до 1623 Ело — різниця в межах довірчого інтервалу.
Пов’язані новини
Microsoft запускає компанію Frontier з інвестиціями в ШІ на суму 2,5 мільярда доларів
快手「可靈 AI」即將完成 30 億美元融資,騰訊與阿里列潛在投資人名單
Акції Meta входять у хмарні обчислення, спричиняючи ланцюгове падіння акцій апаратного забезпечення AI.
США скасовує експортні обмеження на моделі штучного інтелекту Fable 5 та Mythos 5 від Anthropic.