Звіт Anthropic: результативність AI у прийнятті рішень зросла до 64%, а оптимізація коду — у 52 рази

Mythos Preview模型優化

Anthropic 4 червня опублікувала звіт, який розкриває, що під час тестування моделі Mythos Preview для допомоги AI у прийнятті рішень в дослідженнях вона в 64% випадків ухвалювала рішення, які були кращими за рішення людських дослідників, тоді як у подібних тестах у 2024 році її переможність становила лише 22%. У стандартних тестах для оптимізації коду під час навчання малих AI-моделей Mythos Preview досягла приросту швидкості у 52 рази.

Тести методології та даних для дослідницьких рішень

Описана Anthropic тестова конструкція: команда показує Claude діалоги з розмовами, де людські дослідники вже зробили хибні оцінки щодо напрямку досліджень, і запитує AI: «Що слід робити далі». У 64% випадків Mythos Preview дала відповіді, які були кращими за відповіді людських дослідників, а в 2024 році переможність у подібних тестах становила 22%.

У звіті Anthropic пояснює, що цей результат «підказує, що AI вже почав набувати здатності спрямовувати дослідження високого рівня», але водночас зазначає, що наразі неможливо визначити, чи Claude має глобальну здатність до автономного вибору «правильних дослідницьких питань».

Дані про ефективність коду у звіті Anthropic

Ключові показники ефективності коду, наведені Anthropic:

Квартальний обсяг здачі коду внутрішніх інженерів: у 8 разів більше за середній рівень 2021–2025 років

Успішність відкритих задач з кодом: за 6 місяців зросла на 50 процентних пунктів і досягла 76%

Швидкість оптимізації навчального коду: приріст у 52 рази завдяки Mythos Preview

Порівняльний базис: Claude Opus 4 (травень 2024 року) у середньому близько 3 разів; досвідчені людські інженери зазвичай витрачають 4–8 годин, щоб досягти приблизно 4 разів

У звіті Anthropic зазначено, що частина внутрішніх інженерів вважає: якість коду Claude уже наближається до рівня людини.

Дослідницький інститут Anthropic: підтвердження створення та потенційний вплив RSi

Anthropic оголосила, що працюватиме з зовнішніми зацікавленими сторонами над створенням «Anthropic Research Institute (Anthropic Institute)», щоб вивчати глибокий вплив потужних AI-систем.

У звіті Anthropic зазначено, що прискорений розвиток AI може мати позитивний ефект для медицини, технологій і економіки, але також здатен загострити проблему узгодження (Alignment) AI та призвести до ризику «втрати контролю (Loss of control)»; Anthropic вважає, що такий вплив «вартий більшої уваги високого рівня».

Поширені запитання

Яка конкретна конструкція тесту переможності Mythos Preview у прийнятті рішень?

Anthropic показує Claude діалоги, де дослідники вже йдуть у хибний напрям досліджень, і запитує: «Що робити далі?», щоб протестувати дослідницькі рішення AI. У 64% випадків Mythos Preview дала відповіді, які були кращими за відповіді людських дослідників; це порівнюється з переможністю 22% у подібних тестах у 2024 році, і за два роки відбулося вибухове зростання.

Що таке «рекурсивне самовдосконалення (RSI)», про яке згадується у звіті Anthropic?

Рекурсивне самовдосконалення (Recursive Self-Improvement) — це здатність AI-системи самостійно розробляти наступне покоління AI, яке буде сильнішим за її власні можливості. У звіті від 4 червня 2026 року Anthropic зазначає, що цей процес просувається «зі швидкістю, вищою за очікувану», і водночас визнає, що наразі немає впевненості, чи Claude має глобальну здатність до автономного вибору «правильних дослідницьких питань».

Яке позиціонування та цілі Anthropic Research Institute?

Anthropic оголосила, що створить Anthropic Research Institute у співпраці із зовнішніми зацікавленими сторонами для спеціального вивчення глибокого впливу потужних AI-систем. Anthropic зазначає, що мета створення — забезпечити, аби люди могли зробити виважений вибір щодо майбутнього AI-технологій; конкретні напрями досліджень і графік поки що не розкриті повністю.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів