Згідно з оприлюдненням системної картки від Anthropic, модель Mythos 5 дала змогу універсальним мікробіологам обійти спеціалістів у 16-годинному навчанні для red team з біозахисту: 2 з 3 універсальних команд перевершили всі 3 експертні команди за науковою якістю та здійсненністю. Експерти оцінили, що ця задача зазвичай вимагатиме від 40 до 95 робочих днів без допомоги ШІ, у середньому — 72,5 дня.
Однак Anthropic зазначила, що Mythos 5 залишається обмеженою в автономних дослідницьких можливостях. Модель демонструвала слабку відкриту ідеацію, тяжіла до повторного поєднання наявної літератури замість запропонування нових підходів, а також могла продовжувати дотримуватися помилкових рамок навіть після виявлення дефектів. Науковий прогностичний бенчмарк CUSP підтвердив ці висновки: GPT-5.4 досяг 81,9% точності на задачах з ідентифікації механізмів, але лише 45,3%–51,9% у бінарній класифікації того, чи справді наукові досягнення вдасться реалізувати, тобто на рівні, близькому до випадкового вгадування.