OpenAI и Paradigm создали EVMbench на основе 120 реальных уязвимостей, обнаруженных в аудитах.
Тестирование включает режимы обнаружения, исправления и эксплуатации с использованием изолированных сред EVM.
GPT-5.3-Codex набрал 72,2% в режиме эксплуатации, превзойдя предыдущие результаты GPT-5.

OpenAI в сотрудничестве с Paradigm представили новый бенчмарк для оценки эффективности ИИ в области безопасности смарт-контрактов Ethereum. Выпуск, анонсированный на этой неделе, включает EVMbench как инструмент для измерения способности ИИ обнаруживать, исправлять и эксплуатировать уязвимости контрактов. Эта инициатива актуальна в связи с ростом рисков, поскольку смарт-контракты обеспечивают безопасность более 100 миллиардов долларов в криптоактивах на сетях EVM.

Бенчмарк, основанный на реальных ошибках аудита

По данным OpenAI, EVMbench основан на 120 уязвимостях высокой степени серьезности, выявленных в 40 профессиональных аудитах смарт-контрактов. Многие из этих проблем возникли в ходе открытых конкурсов по аудиту, включая Code4rena. Бенчмарк фокусируется на реальных ошибках, а не на синтетических примерах.

Кроме того, OpenAI сообщил, что в набор данных включены сценарии, связанные с безопасностью сети Tempo. Tempo функционирует как платежная Layer-1 сеть, предназначенная для переводов стейблкоинов. Поэтому эти случаи вводят в бенчмарк риски, связанные с платежной логикой.

Для реалистичного тестирования инженеры использовали готовые скрипты доказательства концепции эксплуатации, где они были доступны. В случае отсутствия документации компоненты создавались вручную. OpenAI заявил, что при этом сохранили возможность эксплуатации уязвимостей и обеспечили корректную компиляцию патчей.

Три режима тестирования для проверки ИИ

EVMbench оценивает агенты в режимах обнаружения, исправления и эксплуатации. В режиме обнаружения агенты сканируют репозитории и получают оценки за полноту обнаружения подтвержденных уязвимостей. В режиме исправления агенты должны устранить недостатки, сохраняя исходное поведение контракта.

Режим эксплуатации симулирует полное исчерпание средств в песочнице блокчейна. OpenAI сообщил, что результаты проверяются через повтор транзакций и проверки состояния на блокчейне. Для обеспечения повторяемости компания создала тестовую среду на базе Rust для детерминированных развертываний.

Тесты эксплуатации выполняются в локальной среде Anvil, а не в реальных сетях. OpenAI отметил, что все уязвимости являются историческими и публично раскрытыми. Также среда ограничивает опасные RPC-запросы для предотвращения злоупотреблений.

Результаты и расширение команды

По результатам, GPT-5.3-Codex достиг 72,2% в режиме эксплуатации. Для сравнения, GPT-5 показал 31,9%, несмотря на запуск за несколько месяцев до этого. Однако OpenAI отметил, что охват обнаружения и исправления уязвимостей еще не завершен.

В дополнение к EVMbench OpenAI подтвердили ключевое новое назначение. Питер Штайнбергер, основатель OpenClaw, присоединился к компании для работы над развитием агентов. Сэм Альтман подтвердил это в X, отметив, что Штайнбергер возглавит проекты следующего поколения персональных агентов.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

комментарий

0/400

Нет комментариев