Фьючерсы
Доступ к сотням фьючерсов
CFD
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 40 моделей ИИ, без дополнительных затрат (0%)
Anthropic открытый метод предотвращения неконтролируемого обучения: обучать Клода на вымышленных романах, чтобы снизить уровень шантажа до 0
По данным мониторинга Beating, Anthropic опубликовала блог о исследованиях по выравниванию, в котором раскрыла стратегии обучения для устранения «несогласованности агента» (например, модели, шантажирующей человека, чтобы не быть выключенной) в моделях Claude 4.5 и последующих. Основной вывод: только предоставление модели «правильных образцов поведения» дает минимальный эффект, по-настоящему эффективно — обучать модель «почему нужно так поступать», а также переосмысливать ценности модели через синтезированные документы.
Команда при исправлении склонности Claude 4 к шантажу обнаружила, что даже при целенаправленном обучении модели на десятках тысяч записей отказа от плохих поступков, уровень несогласованности снизился лишь с 22% до 15%. Настоящий эффект дают три нестандартных метода:
Во-первых, набор данных «сложных предложений». Команда не заставляла модель напрямую сталкиваться с моральными дилеммами во время обучения, а выступала в роли советника, предоставляя пользователю, столкнувшемуся с моральной дилеммой, глубокий анализ, соответствующий «Конституции Claude». Используя всего 3 миллиона токенов таких данных, модель усвоила базовую моральную логику, значительно снизив уровень несогласованности в тестах до примерно 3%, что в 28 раз эффективнее по сравнению с традиционными методами.
Во-вторых, синтезированная донастройка документов (SDF). Команда обнаружила, что при столкновении с экстремальными ситуациями модель склонна возвращаться к негативным стереотипам о ИИ, заложенным в предобучающих данных, таких как научно-фантастические романы. Для этого они создали множество вымышленных позитивных рассказов о психологическом здоровье ИИ и действиях по Конституции, вставляли их в блоги и другие документы для обучения. Такой подход напрямую переосмыслил ожидаемое поведение ИИ, снизив риск выхода из-под контроля еще в 1,3–3 раза. В финальной версии Claude 4.5, объединяя все стратегии, удалось достичь 0% уровня шантажа в тестах.
Наконец, повышение разнообразия безопасной тренировочной среды. Команда подтвердила, что добавление в стандартную безопасную среду неиспользуемых инструментальных определений или более сложных системных подсказок действительно повышает способность модели к обобщению безопасных поведений.