Повідомлення Gate News, 23 квітня — інженерна команда Anthropic підтвердила, що погіршення якості Claude Code, про яке повідомляли користувачі протягом минулого місяця, було спричинене трьома незалежними змінами на рівні продукту, а не проблемами API чи базової моделі. Три проблеми були виправлені відповідно 7 квітня, 10 квітня та 20 квітня, а нинішня фінальна версія має v2.1.116.

Перша зміна сталася 4 березня, коли команда зменшила рівень зусиль за замовчуванням для міркувань Claude Code з “high” до “medium”, щоб усунути епізодичні надмірні піки затримок у Opus 4.6 за високої інтенсивності міркувань. Після численних скарг користувачів на зниження продуктивності команда повернула цю зміну 7 квітня. Нині поточне значення за замовчуванням — “xhigh” для Opus 4.7 і “high” для інших моделей.

Друга проблема була багом, внесеним 26 березня. Система була спроєктована очищати старі записи міркувань після того, як бездіяльність у розмові перевищувала одну годину, щоб зменшити витрати на відновлення сесії. Однак недолік у реалізації спричинив те, що очищення виконувалося повторно на кожному наступному ході, а не один раз, через що модель поступово втрачала попередній контекст міркувань. Це проявлялося як зростаюча забудькуватість, повторювані операції та ненормальні виклики інструментів. Баг також спричинив збіги кешу на кожен запит, пришвидшуючи витрачання квот користувачів. Два не пов’язані з цим внутрішні експерименти приховали умови відтворення, розтягнувши процес дебагу більш ніж на тиждень. Після виправлення 10 квітня команда переглянула проблемний код, використовуючи Opus 4.7, і виявила, що Opus 4.7 може ідентифікувати цей баг, тоді як Opus 4.6 — ні.

Третя зміна була запущена 16 квітня разом із Opus 4.7. Команда додала інструкції до системного промпту, щоб зменшити надмірний повторюваний вивід. Внутрішнє тестування протягом кількох тижнів показало відсутність регресії, але після запуску взаємодія з іншими промптами погіршила якість кодування. Розширене оцінювання виявило 3% падіння продуктивності в обох випадках — Opus 4.6 і 4.7 — що призвело до відкату 20 квітня.

Ці три зміни вплинули на різні групи користувачів у різний час, а їхня сукупна дія спричинила поширене та непослідовне падіння якості, ускладнивши діагностику. У Anthropic заявили, що тепер для використання того самого публічного номера версії збірки, що й у користувачів, знадобиться задіяти більше внутрішніх співробітників, виконувати повні комплекти оцінювання моделей для кожної модифікації системного промпту та впроваджувати етапні періоди розгортання. Як компенсацію, Anthropic скинув квоти використання для всіх передплатників.

Переглянути джерело

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Meituan Тихо Запустила Модель ШІ LongCat-2.0-Preview із Трильйоном Параметрів, Без Офіційного Оголошення

Новини індустрії ШІ

Повідомлення Gate News, 28 квітня — Meituan тихо розгорнув нову модель ШІ, LongCat-2.0-Preview, на платформі LongCat API з журналом оновлень, датованим 20 квітня, але не публікував жодного офіційного оголошення чи технічного звіту. На відміну від попередніх моделей серії LongCat

GateNews28хв. тому

Kimi K2.6 очолює рейтинги LLM OpenRouter у перший тиждень, використання зростає на 7 683%

Новини індустрії ШІ

Повідомлення Gate News, 28 квітня — Kimi K2.6, флагманська модель від Moonshot AI, досягла першого місця в щотижневих рейтингах LLM OpenRouter, споживши 1,88 трильйона токенів, та виросла на 7 683% у порівнянні з попереднім тижнем. Модель, запущена на OpenRouter 20 квітня, випередила Claude Sonnet 4.6 (1.35T, -3%) та DeepSeek

GateNews39хв. тому

Після появи ChatGPT кількість подань у журнали з менеджменту зросла на 42%: ШІ просуває академічну сферу не до «якості», а до «кількості»

Новини індустрії ШІ

Редакційна стаття зазначає, що після запуску ChatGPT кількість публікацій зросла на 42%, а штат редакції також суттєво поповнили. ШІ спричинив потік матеріалів низької якості, що призвело до подвоєння навантаження на рецензування; особливо гостро досі стоїть тиск на первинний відбір. Моллік вказує, що проблема полягає в тому, що система мотивації надає перевагу «більшому» замість «кращого», і що потрібно підвищувати довіру шляхом механізмів, орієнтованих на якість, а також запроваджувати простежувані етапи дослідження тощо; він також застерігає, що інші сфери, де потрібен людський розгляд, стикаються з подібними викликами.

ChainNewsAbmedia55хв. тому

DeepMind × Південна Корея MOU: перший закордонний AI-кампус для навчання, Хассабіс підписав особисто

Новини індустрії ШІ

Генеральний директор DeepMind Хассабіс особисто прибув до Сеула та підписав Меморандум (MOU) з урядом Південної Кореї, щоб за допомогою ШІ прискорити науки про життя, дослідження клімату та наукові відкриття. Його суть полягає в тому, щоб створити закордонний AI Campus у Google Seoul, забезпечити доступ до моделей і обмін між дослідниками, а також у 2026 році запустити державний рівня AI науковий дослідницький центр, зосередившись на науках про життя, кліматі та фундаментальних науках, водночас розгорнути співпрацю з компаніями Samsung, SK Hynix, Hyundai, LG тощо, демонструючи глобальну конкурентоспроможність і впливовість Кореї в сфері ШІ та напівпровідників.

ChainNewsAbmedia57хв. тому

Google тестує функцію пошуку в чат-боті на основі ШІ "Ask YouTube"

Новини індустрії ШІ

Повідомлення Gate News, 28 квітня — Google тестує експериментальну функцію з підтримкою ШІ під назвою "Ask YouTube" ("Запитай YouTube"), яка дає змогу користувачам виконувати пошук за відеоконтентом, використовуючи запити природною мовою. Наразі функція доступна лише для користувачів віком від 18 років у Сполучених Штатах, які мають YouTube Premium

GateNews1год тому

Nanya to Supply LPDDR5X Memory for Nvidia's Vera Rubin AI Platform

Новини індустрії ШІ

Gate News message, April 28 — Taiwan memory chipmaker Nanya Technology will supply LPDDR5X low-power DRAM for Nvidia's next-generation Vera Rubin AI platform, using the SOCAMM2 memory module format. Nvidia is adding Nanya as a backup supplier alongside Samsung Electronics and SK Hynix to reduce sup

GateNews1год тому

Прокоментувати

0/400

Немає коментарів