Google DeepMind AI співматематик досяг 47,9% у FrontierMath Tier 4, обійшов GPT-5.5 Pro та розв’язав 3 раніше нерозв’язні задачі

Google DeepMind випустила AI співматематика — багатoагентного помічника з математичних досліджень, який досяг 47,9% точності на бенчмарку FrontierMath Tier 4, перевершивши попередній рекорд GPT-5.5 Pro: 39,6% (станом на 9 травня). Система розв’язала 23 із 48 задач, зокрема 3, які не змогли розв’язати всі попередні моделі. Побудована на Gemini 3.1 Pro, архітектура використовує ієрархічну конструкцію: агент-координатор проєкту розподіляє завдання між підагентами, що займаються пошуком літератури, кодуванням і міркуванням, а кілька агентів-рецензентів перевіряють докази перед поданням.

Epoch AI провела сліпе тестування, не даючи команді DeepMind бачити задачі, при цьому на кожне питання відводилося 48 годин обчислень. У реальному застосуванні математик Марк Лакенбі використав систему, щоб розв’язати відкриту гіпотезу з Kourovka Notebook, продемонструвавши її практичну цінність для досліджень. Наразі система доступна обмеженій кількості математиків у бета-тестуванні.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Суддя США постановив, що грант із DOGE урізано незаконно після використання ChatGPT і DEI-ключових слів, та заблокував виконання в четвер

За повідомленням ABC News, у четвер федеральний суддя США постановив, що скорочення грантів, здійснені за підтримки Елона Маска ініціативою DOGE, були незаконними. Окружний суддя США Колін МакМахон у Нью-Йорку заявила, що співробітники використовували ChatGPT і пошук за ключовими словами, зокрема «DEI», «Equity», «Inclusion» та «LGBTQ», щоб допомогти припинити програми фінансування в межах National Endowment for the Humanities. Суддя заборонила адміністрації Трампа застосовувати спірні скасуванн

GateNews2хв. тому

Офіційний представник ЄЦБ заявив, що ризики, пов’язані з ШІ, спонукають до перегляду фінансової інфраструктури в суботу

Хосе Льюїс Ескріва, член керівної ради Європейського центрального банку та голова Банку Іспанії, у суботу заявив, що центральні банки мають переглянути стійкість фінансової інфраструктури та кібербезпеку через зростання ролі штучного інтелекту. «Нещодавні події в галузі штучного інтелекту змушують нас заново оцінити надійність нашої фінансової інфраструктури та нашої кібербезпеки», — сказав Ескріва на заході в Таррагоні. Він також підкреслив роль центральних банків як остаточного гаранта проти р

GateNews32хв. тому

Акції Cloudflare падають на 23,62% 8 травня після результатів за 1-й квартал та оголошення звільнення 1 100 співробітників

Акції Cloudflare впали на 23,62% 8 травня до $196,13 за акцію після публікації компанією звіту про прибутки за перший квартал і оголошення приблизно 1 100 звільнень. Хоча виручка за Q1 у розмірі $640 мільйонів перевищила очікування та зросла на 34% у річному вимірі, прогноз виручки на другий квартал — $664–$665 мільйонів — виявився нижчим за попереднє ринкове очікування $666 мільйонів. Звільнення, що становлять приблизно 20% штату, є частиною переходу компанії до моделі роботи “AI-agent-first”,

GateNews2год тому

Helsing прагне залучити фінансування за оцінкою в $18 мільярдів

Згідно з Financial Times, Helsing, німецький стартап із дронів на базі ШІ, планує залучити нове фінансування за оцінкою приблизно $18 млрд.

GateNews2год тому

Система винагород OpenAI ненавмисно оцінює ланцюги міркувань на 6 моделях, зокрема GPT-5.4

За даними команди з узгодження (alignment) OpenAI, компанія нещодавно виявила критичну помилку під час тренування, що вплинула на 6 великих мовних моделей, зокрема GPT-5.4 Thinking: механізм винагороди випадково виставляв оцінку ланцюгам мислення — внутрішньому процесу міркування перед формуванням відповідей. GPT-5.5 не зазнав впливу. Інцидент порушує базовий принцип безпеки ШІ, згідно з яким ланцюги мислення ніколи не можна оцінювати, адже це може спонукати моделі вигадувати міркування, щоб отр

GateNews4год тому

Alibaba не вела переговорів із DeepSeek, повідомляють ринкові джерела 9 травня

За даними ринкових джерел, на які посилався Caixin Daily 9 травня, Alibaba не вела переговорів із DeepSeek щодо фінансування. Це уточнення з’явилося після попередніх повідомлень у медіа, які припускали, що переговори між цими компаніями зайшли в глухий кут. DeepSeek у квітні запустила масштабний раунд зі збору коштів, який викликав інтерес і з боку Tencent, і з боку Alibaba.

GateNews4год тому
Прокоментувати
0/400
Немає коментарів