Sakana AI Fugu Ultra проти Fable 5: Порівняння бенчмарків поставлено під сумнів через відмінності в тестових середовищах

2026-06-26 09:41:31

За даними моніторингу Beating, заявлені перемоги мультиагентної системи Sakana AI Fugu Ultra над Fable 5 від Anthropic у тестах наукового мислення та програмування стикаються з широким скептицизмом з боку AI-спільноти.

Критики стверджують, що результати тестів сильно залежать від тестових каркасів (scaffolds), які використовуються під час оцінювання. Різні реалізації каркасів можуть призводити до варіацій у 10–20 пунктів, тобто заявлені відмінності у продуктивності можуть відображати оптимізацію системної інженерії, а не фундаментальні досягнення в можливостях моделі. І Sakana AI, і Anthropic опублікували результати на основі власних специфічних каркасів (scaffolds) без єдиного стороннього тестового середовища, що обмежує надійність прямих порівнянь.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

2год тому

Sakana AI та KPMG представляють CoffeeBench, 90-денну симуляцію торгівлі AI-агентів; GPT-5.5 і Claude демонструють протилежні стратегії

8год тому

Google реорганізовує цільову групу з кодування ШІ, оскільки два ключові дослідники залишають її цього тижня, акції падають на 5%

8год тому

Карпаті стикається з критикою на X після похвали Claude; Маск обіцяє перегляд алгоритму.

11год тому

Anthropic блокує доступ ЄС до Fable 5 та Mythos 5 через побоювання щодо безпекового джейлбрейку.

06-25 06:33

Система Fugu Ultra Multi-Agent від Sakana AI запускається на OpenRouter, перевершує Fable 5 у тестах.

Поглиблений аналіз