Согласно BridgeBench, показатель отладки Claude Fable 5 рухнул с 86,2 до 25,9 после восстановления 1 июля, а рефакторинг снизился с 73,6 до 38,4. Однако снижение отражает работу нового классификатора безопасности Anthropic, который направляет большинство задач по кодированию на Claude Opus 4.8, а не деградацию модели. Из 12 задач по отладке только три были направлены на Fable 5; классификатор перехватил девять по замыслу, чтобы предотвратить эксплойты для джейлбрейка.

Одновременное тестирование Arena.AI на человеческих предпочтениях по тысячам слепых голосов показало, что производительность Fable 5 после восстановления почти не изменилась: показатели по документам выросли на 34 пункта, а по экспертным текстам — на 25. Обычные пользователи, работающие с креативным письмом, исследованиями и анализом, скорее всего, не заметят существенного влияния, тогда как разработчики, работающие с кодом, связанным с безопасностью, часто сталкиваются с перенаправлением на резервную модель. Anthropic признала, что классификаторы в настоящее время охватывают слишком широкий круг задач, но не назвала сроков доработки.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

22ч назад

Клод расследует аномалии в нескольких моделях 4 июля

07-03 21:11

Claude Fable 5: падение производительности на бенчмарках, но классификатор безопасности, а не модель, обвиняется в сбоях маршрутизации.

07-03 06:13

Alibaba запрещает все продукты Anthropic, требует от сотрудников удалить Claude к 10 июля

07-03 02:57

Fable 5 сталкивается со значительным снижением производительности после перезапуска 3 июля

07-02 08:01

B.AI возобновляет поддержку Claude Fable 5 API 2 июля с двухканальным доступом

Детальный анализ