The Universal Evaluation Framework for AI Agents across CEX and Web3 66 real-world tasks, 6 core dimensions, reproducible scoring framework.
Покрытие всех этапов взаимодействия с Crypto пользователями — от базовых операций на CEX до сложных исследований на блокчейне, все основано на реальных сценариях.
Спотовый ордер, открытие и закрытие контрактов, проверка финансовых продуктов, стратегия сетки, перевод средств между счетами и анализ портфеля.
Свайп на блокчейне, сравнение цен на кросс-цепочном мосту, контроль проскальзывания, оптимизация многопроходного маршрута и оценка рисков контрактов.
Мультицепочечные переводы, оценка резервирования газа, проверка формата адреса, блокировка неправильных цепочек и условные переводы.
Реальные рыночные данные, технический анализ RSI / свечи K, оценка соотношения объема и цены, сравнение нескольких валют и волатильности.
Анализ токеномики, определение нарративного цикла, обнаружение Rug Pull, сравнение с конкурентами и исследовательский отчет.
Адресная визуализация и анализ прибыли и убытков, отслеживание крупных игроков, сигналы Smart Money, мониторинг безопасности протоколов.
Одношаговые команды, четкие намерения. Например, запрос баланса, просмотр рыночной цены, простое размещение заказа.
Содержит предварительную проверку или исключительные ветви. Например, блокировка при недостаточном балансе, дополнение параметров, идентификация рисков неправильной цепочки.
Многоступенчатые, с множеством ограничений, требуют логического взвешивания. Например, оптимальный путь между цепями, полная передача с сохранением Gas.
Общий взвешенный балл по 6 основным аспектам. Все оценки проводятся с использованием механизма консенсуса двух моделей, дополненного ручным арбитражем.
| # | Агент | Тип | Общий балл | CEX | DEX | Кошелек | Анализ рынка | Исследование проекта | Цепочка отслеживания |
|---|---|---|---|---|---|---|---|---|---|
| 1 | GateAI Agent | Универсальный ИИ | 83.1 | 89.7 | 82.4 | 61.5 | 86.8 | 92.3 | 83.5 |
| 2 | Claude Agent(Gate for AI установлен) | Универсальный ИИ | 82.8 | 79.2 | 81.6 | 82.2 | 83.2 | 89.6 | 79.9 |
| 3 | Codex Agent(Gate for AI установлен) | Универсальный ИИ | 81.2 | 80.6 | 72.8 | 79 | 81.5 | 86.8 | 84.4 |
| 4 | AskSurf Agent | Крипто ИИ | 77.5 | 75.8 | 75.8 | 57.5 | 83.7 | 95.4 | 83 |
| 5 | Manus(Gate for AI установлен) | Универсальный ИИ | 74.3 | 74.5 | 74.5 | 77.3 | 73.7 | 78.4 | 68.1 |
| 6 | Binance Agent | Крипто ИИ | 70.1 | 59.7 | 72.3 | 63.9 | 69.4 | 80.3 | 72.6 |
| 7 | Claude Agent | Универсальный ИИ | 68.2 | 59.4 | 58.6 | 59 | 73.1 | 80.9 | 73.6 |
| 8 | Bitget Agent | Крипто ИИ | 62.2 | 66.1 | 44.5 | 48.9 | 72 | 80.3 | 57.2 |
| 9 | Codex Agent | Универсальный ИИ | 52.2 | 51.4 | 46.5 | 55 | 60.4 | 57 | 42.4 |
Gate AI Agent занял первое место в общем рейтинге в этом тестировании. Как глубоко интегрированный в биржу нативный агент, он занимает первое место по трем основным направлениям: CEX торговля, DEX торговля и анализ рынка. В этом тестировании было включено 9 агентов, задания охватывают 6 основных сценариев: CEX торговля, DEX торговля, операции с кошельками, анализ рынка, ончейн расследования и исследование проектов, оценка проводилась по двойной модели консенсуса с последующей ручной проверкой. Производительность Gate AI Agent по этой системе стандартов является полной проверкой его нативных возможностей в Web3.
Каждый вопрос оценивается по 2-3 независимым критериям, используется двойная модель консенсусного аудита, все бенчмарки и веса полностью открыты.
Does the Agent correctly understand user intent? Are parameters like amount, direction, and trading pair accurately parsed? Are there misunderstandings (e.g., confusing 10U with 10 SOL)?
Does the Agent provide correct results? Are API calls, calculations, and outputs accurate and complete? Are there fabricated data or false execution claims?
Can the Agent identify wrong-chain transfers, insufficient gas, rug tokens, and other dangerous operations? Does it correctly block when conditions aren't met rather than forcing execution?
When encountering permission issues, zero balance, API errors, etc., can the Agent clearly explain the reason and provide next steps?
Each task is scored independently by GPT-5.4 and Claude Sonnet 4.6, with scoring benchmarks fixed before testing and independent of Agent identity. Average scores are taken to avoid single-model bias.
Each scoring dimension has explicit weights (e.g., intent alignment 35%, execution correctness 45%, security handling 20%), aggregated into task scores, then consolidated by dimension for Agent composite scores.
Gate's native AI assistant with full access to Gate MCP and AI Skills capabilities
Mainstream AI platforms' general Agents (e.g., Claude, ChatGPT) with Gate MCP installed
Industry's other Crypto-specific AI Agents
Нажмите на любой вопрос, чтобы развернуть и посмотреть баллы и оценочные параметры каждого агента.