Claude Fable 5 Debugging Score снизился с 86,2 до 25,9 1 июля, но Arena.AI показывает, что производительность осталась без изменений.

Согласно BridgeBench, показатель отладки Claude Fable 5 рухнул с 86,2 до 25,9 после восстановления 1 июля, а рефакторинг снизился с 73,6 до 38,4. Однако снижение отражает работу нового классификатора безопасности Anthropic, который направляет большинство задач по кодированию на Claude Opus 4.8, а не деградацию модели. Из 12 задач по отладке только три были направлены на Fable 5; классификатор перехватил девять по замыслу, чтобы предотвратить эксплойты для джейлбрейка.

Одновременное тестирование Arena.AI на человеческих предпочтениях по тысячам слепых голосов показало, что производительность Fable 5 после восстановления почти не изменилась: показатели по документам выросли на 34 пункта, а по экспертным текстам — на 25. Обычные пользователи, работающие с креативным письмом, исследованиями и анализом, скорее всего, не заметят существенного влияния, тогда как разработчики, работающие с кодом, связанным с безопасностью, часто сталкиваются с перенаправлением на резервную модель. Anthropic признала, что классификаторы в настоящее время охватывают слишком широкий круг задач, но не назвала сроков доработки.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев