Artificial Analysis сьогодні опублікувала новий Coding Agent Index, щоб оцінити, як AI-моделі працюють у поєднанні з агентськими фреймворками на ключових бенчмарках, зокрема SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 і SWE-Atlas-QnA. Zhipu GLM-5.1 посів перше місце серед моделей із відкритим кодом у цьому оцінюванні, продемонструвавши лідерську продуктивність у сценаріях реальних кодингових агентів.
Related News
OpenAI запускає програму безпеки Daybreak, трирівневу архітектуру GPT-5.5 проти Anthropic Mythos
Повний гід Gemini 2026: усі лінійки продуктів Google AI, варіанти підписки та політика конфіденційності — все в одному місці
Стэнфорд запустив Agent Island: AI-моделі в іграх у стилі Survivor вдаються до стратегічних зрад і взаємного голосування за усунення