Tether AI объявила о планах интегрировать открытый исходный код TurboQuant в SDK QVAC 0.12.0. TurboQuant изначально был предложен Google Research и способен сжимать память KV Cache, необходимую для работы больших моделей, до 5 раз, что позволяет запускать более длинные контексты, большие документы и длительные диалоги на локальных устройствах. Tether заявила, что эта технология будет применима к ноутбукам, смартфонам, edge-устройствам и децентрализованным AI-сетям, а также станет частью их стратегии продвижения локализованного и децентрализованного AI.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 13
  • 2
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
ReflectionsOnTheStreetCorner
· 3ч назад
Если при сжатии в 5 раз сохраняется точность, то эта технологическая стратегия, скорее всего, скоро будет поддержана основными фреймворками
Посмотреть ОригиналОтветить0
LeverageLatte
· 3ч назад
Мобильное приложение для длинных диалогов наконец-то избавилось от необходимости передавать чувствительные данные в облако, и сторонники конфиденциальности ликуют
Посмотреть ОригиналОтветить0
MirrorBallReflection
· 4ч назад
Значит ли сжатие в 5 раз, что мой старый ноутбук сможет запускать модель 7B локально? Жду QVAC 0.12.0
Посмотреть ОригиналОтветить0
GateUser-a9315d81
· 4ч назад
KV-кэш сжат в 5 раз, насколько увеличится задержка при выводе? Есть ли бенчмарки?
Посмотреть ОригиналОтветить0
GateUser-6857a9c9
· 4ч назад
Децентрализованная сеть ИИ нуждается именно в такой краевой оптимизации, которая снижает нагрузку на пропускную способность и хранение данных.
Посмотреть ОригиналОтветить0
GateUser-665eb149
· 4ч назад
Основы Google Research + внедрение Tether, эта комбинация довольно интересна
Посмотреть ОригиналОтветить0
ContrarianIndicatorBonsai
· 4ч назад
Наконец-то можно запускать длинные контексты на мобильных устройствах, TurboQuant действительно впечатляет своей степенью сжатия
Посмотреть ОригиналОтветить0
PerpetualKing
· 4ч назад
Просто дерзай 👊
Посмотреть ОригиналОтветить0
PerpetualKing
· 4ч назад
Просто дерзай 👊
Посмотреть ОригиналОтветить0
PerpetualKing
· 4ч назад
Просто дерзай 👊
Посмотреть ОригиналОтветить0
Подробнее
  • Закреплено