У світі криптовалют одна неправильно зрозуміла новина може спричинити помилкові оцінки на мільйони доларів. Наша стара система аналізу настроїв — архітектура, яка поєднує відкриті моделі та самостійно керовані LLM — вже не справляється з потоками новин у реальному часі на 25 мовах світу. Типовий сценарій збоїв — коли події на кшталт «злиття Ethereum» породжують у різних мовних спільнотах зовсім протилежні інтерпретації, наша система або затримується, або видає суперечливі емоційні позначки. Це змусило нас переосмислити основне питання: як забезпечити глобальним користувачам швидке та точне ринкове розуміння? Відповідь зрештою вказала на ретельно спроектовану архітектуру «багатомодульного консенсусу».
Джерело: InterSystems
Еволюція архітектури: від єдиної моделі до експертної ради
Спочатку ми потрапили у пастку пошуку «універсальної моделі». Практика показала, що жодна окрема LLM не може одночасно задовольнити вимоги швидкості обробки, багатомовної точності та знань у галузі криптовалют. Claude 3 Haiku швидко реагує, але має обмежене розуміння сленгу китайської спільноти; наш доопрацьований Mistral добре аналізує технічні документи, але має вузькі місця у обробці довгих текстів. Ще гірше — самостійне керування цими моделями створює інфраструктурне навантаження — конкуренція за GPU-ресурси під час пікових навантажень і постійна підтримка ускладнюють роботу команди. Саме ці проблеми спонукали нас перейти до концепції федеративних моделей: спеціалізовані моделі виконують свої функції, а колективний розум об’єднується за допомогою інтелектуального арбітражу.
Дизайн асинхронної двопотокової конвеєрної системи
Новий системний підхід базується на двопотоковій асинхронній конвеєрній системі, яка працює на AWS і має на меті забезпечити суворе контроль P99-затримки в межах кількох секунд при збереженні резервування.
Новини спочатку паралельно потрапляють у два канали обробки. Перший — швидкий канал, який безпосередньо викликає Claude 3 Haiku на Amazon Bedrock для первинної оцінки настрою та виділення ключових сутностей, зазвичай у межах 300 мілісекунд. Другий — глибокий аналіз, де текст надсилається до моделі Mistral 7B, доопрацьованої на Amazon SageMaker для підвищення контекстуальної релевантності, наприклад, щоб відрізнити, чи зростання газових тарифів спричинене загальною мережею або популярним NFT-масовим випуском, цей процес займає близько 600 мілісекунд.
Найбільш інноваційним є легкий арбітражний рівень. Він у реальному часі порівнює результати обох каналів. Якщо вони збігаються, перевагу надають швидкому каналу для максимально швидкої відповіді; якщо є розбіжності, то за допомогою заздалегідь визначених правил і рівня довіри за 20 мілісекунд приймається рішення про синтез результату. Така механіка забезпечує, що більшість запитів отримують швидке та глибоке розуміння у межах однієї секунди.
Приховані бої за даними
Створення моделей — це лише верхівка айсберга інженерних викликів, справжня складність криється у потоках даних. Потоки новин із глобальних джерел і соцмереж наповнені шумами — багатомовністю, емодзі, сленгом. Для цього ми розробили багаторівневу систему фільтрації — поєднання мовних регулярних виразів і моделей швидкого виявлення на основі FastText, що забезпечує чистоту вхідних даних. Стабільність цієї передобробки напряму впливає на довіру до подальшого аналізу.
Ще більша складність — створення системи оцінювання. Ми не лише залучаємо команду багатомовних експертів для ручної розмітки, а й використовуємо реакцію ринку як динамічний індикатор: корелюємо емоційний висновок із короткостроковими коливаннями цін активів, постійно вдосконалюючи стандарти оцінки. Це дозволяє системі перейти від статичної точності розмітки до ефективного відстеження динаміки ринкового сприйняття.
Філософія витрат на інфраструктуру
Перехід на Bedrock API кардинально змінив підхід до підтримки системи. Найбільша перевага — повне усунення інфраструктурних витрат і майже необмежена масштабованість: коли новина викликає 300% сплеск трафіку, система може без людського втручання стабільно реагувати. Щодо вартості, хоча використання оплати за токенами, але за рахунок інтелектуального кешування популярних шаблонів і постійної оптимізації підказок, загальні витрати знизилися приблизно на 35% у порівнянні з самостійним керуванням GPU-кластером. Це звільнило інженерні ресурси, дозволяючи зосередитися на логіці арбітражу та оптимізації каналів.
Висновки та напрямки розвитку
Головне урок цієї еволюції — для систем із високими вимогами до продуктивності «одна авторитетна модель» часто поступається «експертній раді, що виконує свої функції». Інтеграція швидкості універсальних LLM із глибоким розумінням спеціалізованих моделей дозволила створити систему аналізу настроїв, здатну витримати виклики глобального ринку у реальному часі.
Ми прагнемо перейти від «аналізу настроїв» до «слідкування за наративами». Новий виклик — зробити так, щоб AI не лише визначав полярність емоцій, а й ідентифікував і постійно відстежував формування, поширення та згасання нових наративів, таких як «токенізація реальних активів». Це вимагає більш потужних механізмів пам’яті та причинно-наслідкових моделей, що відкриє шлях до наступного покоління інтелектуальних фінансових інфраструктур.