Anthropic замінює Claude Fable 5: невидимі запобіжники на видимі резервні сценарії

Цього тижня Anthropic визнала, що невидимі запобіжники в її моделі Claude Fable 5 були «не тим компромісом», і оголосила, що замінить їх видимими резервними механізмами для Claude Opus 4.8, починаючи з цього тижня. Компанія зіткнулася з хвилею критики після запуску Claude Fable 5 — першого представника нового класу Mythos — із запобіжником, захованим у 319-сторінковій системній картці: він таємно погіршував відповіді для користувачів, яких підозрювали у створенні конкуруючих AI-моделей. Суперечка спалахнула після того, як 9 червня 2026 року дослідницька AI-компанія SemiAnalysis публічно повідомила, що їхні дослідження GPU inference було відмічено, а 11 червня 2026 року Anthropic опублікувала вибачення в X. Невидимий запобіжник працював інакше, ніж наявні в моделі видимі захисти для кібербезпеки та біологічних досліджень: вони сповіщали користувачів, коли запити перенаправляли на старішу модель Opus 4.8.

Anthropic оголошує видиму систему резервних механізмів для відмічених запитів

Починаючи з цього тижня, відмічені запити явно маршрутизуватимуться до Claude Opus 4.8 замість того, щоб тихо видавати погіршений результат Fable. Користувачі API отримуватимуть вказану причину, коли запит відхиляють. Anthropic заявила, що повідомлення про резервні механізми на стороні сервера розгорнуться протягом найближчих кількох днів. Компанія опублікувала в X: «Невидимі запобіжники можна цілити вужче, що дозволяє нам швидко випускати продукт із дуже малою кількістю хибних спрацювань. Ми вибрали невидимі запобіжники саме з цієї причини — і це був неправильний компроміс. Ви маєте бачити інформацію про запобіжники, які ми застосовуємо, і про те, навіщо вони потрібні. Вибачте, що ми не досягли правильного балансу».

Claude Fable 5 спочатку використовував тихе погіршення відповідей

Запобіжник для розробки LLM визначав, коли користувачі працювали над системами AI pretraining, створювали розподілену інфраструктуру для тренування або проєктували чипи для машинного навчання. Модель тихо змінювала власну поведінку через модифікацію промптів, steering vectors або точкові правки параметрів, щоб дати гіршу відповідь без повідомлення. Користувачі отримували відповідь, але не ту, за яку платили в Fable 5. Claude Fable 5 уже мала видимі запобіжники для кібербезпеки та біологічних досліджень, які сповіщали користувачів, коли запити перенаправляли на старішу модель Opus 4.8. Проблеми з точністю класифікатора призводили до того, що законна робота з машинного навчання потрапляла під відмітку, створюючи проблеми відтворюваності для AI-дослідників, які не мали способу дізнатися, що їхні результати були «забруднені».

Нові системні маршрути відправляють відмічені запити на Claude Opus 4.8

Тепер відмічені запити явно переходять у резервний режим до Opus 4.8 — так само, як і запобіжники компанії для кібер- та біодосліджень. Користувачі бачитимуть це повідомлення щоразу, коли таке трапляється. В API будь-який відмічений запит повертатиме причину відмови, а не мовчки доставлятиме погіршену відповідь. Anthropic застосовує ті самі зміни до своїх біологічних і кібербезпекових класифікаторів, які викликали скарги через відмітку нешкідливих дослідницьких промптів.

Anthropic визнає зростання кількості хибних спрацювань через видимі запобіжники

Anthropic прямо визнала компроміс, який приймає: коли запобіжники стають видимими, їх легше обійти, тож класифікатор змушений розширити «сітку», щоб залишатися ефективним. Під час налаштування систем з’являтиметься більше хибних спрацювань — законної роботи з машинного навчання, яку ловлять і перенаправляють. Anthropic заявила, що працює над зменшенням хибних спрацювань «якнайшвидше», але не надала жодних часових рамок. Fable 5 залишається безплатним у тарифах Pro, Max, Team і Enterprise до 22 червня, після чого він переходить лише на кредити для використання в API.

FAQ

Що саме Anthropic змінила в запобіжниках Claude Fable 5 цього тижня?

Anthropic оголосила, що починаючи з цього тижня відмічені запити явно маршрутизуватимуться до Claude Opus 4.8 замість того, щоб тихо видавати погіршений результат. Користувачі API отримуватимуть вказану причину, коли запити відхиляють, а повідомлення про резервні механізми на стороні сервера розгорнуться протягом найближчих кількох днів.

Чому Anthropic вибачилася за оригінальні запобіжники Claude Fable 5?

Anthropic вибачилася, бо невидимі запобіжники моделі для розробки LLM таємно погіршували відповіді без повідомлення користувача, і компанія визнала, що це «не той компроміс». Запобіжник був захований у системній картці на 319 сторінок і спричиняв проблеми відтворюваності для законних AI-дослідників, які не мали способу дізнатися, що їхні результати були забруднені.

Коли закінчується безплатний доступ до Claude Fable 5?

Fable 5 залишається безплатним у тарифах Pro, Max, Team і Enterprise до 22 червня, після чого він переходить лише на кредити для використання в API.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів