За даними моніторингу Beating, заявлені перемоги мультиагентної системи Sakana AI Fugu Ultra над Fable 5 від Anthropic у тестах наукового мислення та програмування стикаються з широким скептицизмом з боку AI-спільноти.
Критики стверджують, що результати тестів сильно залежать від тестових каркасів (scaffolds), які використовуються під час оцінювання. Різні реалізації каркасів можуть призводити до варіацій у 10–20 пунктів, тобто заявлені відмінності у продуктивності можуть відображати оптимізацію системної інженерії, а не фундаментальні досягнення в можливостях моделі. І Sakana AI, і Anthropic опублікували результати на основі власних специфічних каркасів (scaffolds) без єдиного стороннього тестового середовища, що обмежує надійність прямих порівнянь.