В мире криптовалют одна неправильно интерпретированная новость может привести к ошибочным оценкам на миллионы долларов. Наш устоявшийся системы анализа настроений — гибрид открытых моделей и собственных LLM — уже не справлялись с потоками новостей в реальном времени на 25 языках мира. Типичный сценарий сбоя: когда такие события, как «мерж Ethereum», вызывают противоположные интерпретации в разных языковых сообществах, наша система либо задерживается, либо выдает противоречивые метки настроений. Это заставило нас пересмотреть главный вопрос: как обеспечить глобальным пользователям быстрый и точный рыночный анализ? Ответ в конечном итоге привел к тщательно спроектированной архитектуре «многомодельного консенсуса».
Источник: InterSystems
Эволюция архитектуры: от единой модели к экспертному совету
Изначально мы попали в ловушку поиска «универсальной модели». Практика показала, что ни одна LLM не может одновременно обеспечить скорость обработки, многоязычную точность и глубокие знания в области криптовалют. Claude 3 Haiku быстро реагирует, но плохо понимает сленг китайского сообщества; наша донастроенная модель Mistral хорошо разбирается в белых книгах проектов, но сталкивается с узким местом при обработке длинных текстов. Еще более серьезной проблемой стала инфраструктурная нагрузка при собственном размещении моделей — конкуренция за GPU-ресурсы в пиковые моменты и постоянные сложности в эксплуатации утомляли команду. Именно эти боли подтолкнули нас к концепции федеративных моделей: дать специализированным моделям выполнять свои функции, объединяя их через интеллектуальный механизм арбитража.
Дизайн асинхронной двухпоточной линии
Ключевая особенность новой системы — асинхронная двухпоточная линия, работающая на AWS, с целью обеспечить строгое управление задержками P99 в пределах секунд при сохранении резервирования.
Текст новостей сначала параллельно поступает в два обработчика. Первый — быстрый канал, напрямую вызывает Claude 3 Haiku на Amazon Bedrock для первичной оценки настроений и извлечения ключевых сущностей, обычно за 300 миллисекунд. Второй — глубокий анализ, отправляет текст в модель Mistral 7B, донастроенную на Amazon SageMaker, для усиления контекстуальной информации, например, чтобы отличить «взлет газовых сборов» из-за общего перегрева сети или из-за популярного NFT-монетирования, этот процесс занимает около 600 миллисекунд.
Настоящее новшество — легкий слой арбитража. Он в реальном времени сравнивает результаты двух каналов. Когда результаты совпадают, приоритет отдается быстрому каналу для обеспечения максимальной скорости; при расхождениях — на основе заранее заданных правил и доверительных оценок за 20 миллисекунд формируется итоговое решение. Эта система гарантирует, что большинство запросов получают надежный анализ за менее чем секунду, сочетая скорость и глубину.
Тайные битвы в каналах данных
Создание модели — лишь верхушка айсберга инженерных задач, настоящая сложность скрыта в каналах передачи данных. Потоки новостей и соцсетей из разных стран наполнены шумом: многоязычностью, эмодзи, сленгом. Для этого мы разработали многоуровневую фильтрацию — с использованием языковых регулярных выражений и моделей на базе FastText для оценки чистоты входных данных. Надежность этой предварительной обработки напрямую влияет на качество последующего анализа.
Еще более важна система оценки. Мы не только полагаемся на ручную разметку командой экспертов по разным языкам, но и вводим реакцию рынка как динамический индикатор проверки: сопоставляем выводы настроений с краткосрочными колебаниями цен активов, постоянно совершенствуя критерии оценки. Это позволяет системе перейти от статической точности разметки к эффективности отслеживания динамики рыночных настроений.
Философия затрат на инфраструктуру
Переход на Bedrock API кардинально изменил режим эксплуатации. Самое важное — устранение инфраструктурных затрат и почти неограниченная масштабируемость: при резком росте трафика на 300% система без вмешательства человека стабильно реагирует. В финансовом плане, несмотря на оплату по токенам, за счет интеллектуального кэширования популярных шаблонов и постоянной оптимизации подсказок, общие расходы снизились примерно на 35% по сравнению с собственным GPU-кластером. Этот переход освободил инженеров для сосредоточения на арбитражных логиках и оптимизации каналов, что стало ключевым фактором инноваций.
Выводы и направления развития
Главный урок этой эволюции — для систем с экстремальной производительностью «одна авторитетная модель» часто уступает «совету экспертов, каждый со своей специализацией». Объединяя скорость универсальных LLM и глубокое понимание специализированных моделей, мы создали систему анализа настроений, способную выдержать испытания глобального рынка в реальном времени.
В будущем мы развиваем систему от «анализа настроений» к «нарративному отслеживанию» — создаем интеллектуального агента, который не только определяет полярность эмоций, но и отслеживает формирование, распространение и угасание новых нарративов, таких как «токенизация реальных активов». Это требует более развитых механизмов памяти и причинно-следственного анализа, что откроет путь к следующему поколению интеллектуальной финансовой инфраструктуры.