Дослідження Mind Lab LoRA: приріст параметрів на 0,12% підвищує пам’ять AI у 1,31 раза

Mind Lab AI研究

機器之心 2 червня повідомило, що Mindverse — компанія в складі Mindverse — нещодавно одночасно публікує результати досліджень щодо LoRA та PEFT ефективного донавчання. Ключовим показником δ-mem є: за приросту параметрів усього 0,12% у Memory Agent Bench і під час тестів із важким навантаженням на базові сценарії пам’яті LoCoMo досягається підвищення продуктивності в 1,31 раза та 1,20 раза відповідно.

δ-mem: підтверджені технічні механізми та цифри бенчмарків

δ-mem — це паралельно-змішана лінійна архітектура уваги, розроблена спеціально під особливості LoRA. У традиційному Transformer KV cache під час інференсу використовується заморожений кеш, який сам по собі не вміє оновлюватися; δ-mem вводить «онлайн-стан асоціативної пам’яті» (Online State of Associative Memory), підтримуючи матрицю 8×8. У процесі введення токенів вона безперервно оновлюється за правилами інкрементного навчання (delta-rule learning), а під час генерації на Attention Query та Output магістральної мережі накладаються корекції низького рангу (low-rank corrections).

За офіційними даними Mind Lab:

Приріст параметрів: аж до 0,12%

Memory Agent Bench підвищення: у 1,31 раза

LoCoMo підвищення: у 1,20 раза

Навіть із вилученням явного історичного контексту: усе ще вдається відновлювати великий обсяг релевантної інформації

MinT: підтверджені показники ефективності базової інфраструктури для мільйона LoRA-тренувань

MinT — керована інфраструктурна система, спеціально створена для LoRA-тренувань і онлайн-сервісів. Ключова ідея: базова модель постійно перебуває в режимі готовності в процесах навчання та інференсу. Після завершення кожного тренування експортується легкий LoRA Adapter (за конфігурації Rank-1 він може бути аж до ~0,1% від базової моделі). Під час запуску нових стратегій не потрібно об’єднувати повну модель чи заново завантажувати її цілком.

За офіційними даними Mind Lab:

Час передачі з етапу завершення тренування до доступності в сервісі інференсу скорочується: до 18,3 раза

Прискорення миттєвого завантаження (через пакування тензорів MoE LoRA): у 8,5–8,7 раза

За дворівневого механізму rollout: видиме користувачам завантаження p95 опускається до 0

Скорочення TTFT p95 для першого запиту: у 2,3 раза

Трьома основними осями масштабування, які описує стаття про закон розширення LoRA «On the Scaling of PEFT», є: Scale up (виправлення проблеми з неефективністю механізму повторного відтворення маршрутизації в розрідженому MoE обсягом 1T), Scale down (OLoRA-tail ініціалізація: використання другорядних сингулярних векторів для підвищення стабільності Rank-1 без збільшення параметрів), Scale out (LoRA as Memory: концепція пам’яті, де за наявності голосування між кількома моделями точність зростає за логарифмічним законом відносно кількості моделей k).

Macaron-A2UI: підтверджені результати бенчмарків

Macaron-A2UI працює на платформі MinT і по черзі використовує LoRA-зумовлене SFT та GRPO для підсилювального навчання на базах великомовних моделей 30B, 235B та 754B. Окрім текстового виводу, модель здатна генерувати структуровані A2UI-виконавчі дії (множинні поля вибору, повзунки, картки підтвердження тощо).

За офіційними даними Mind Lab: Macaron-A2UI-Venti на A2UI-Bench набирає 75,6 бала та в сценарії використання лише легковагових Schema-підказок перевершує найсильніший передовий базовий моделний рівень, який використовує повний довгий Schema (довжина приблизно у 27 разів більша).

Поширені запитання

Як δ-mem із приростом параметрів у 0,12% здатна реалізувати підвищення продуктивності пам’яті за такої низької вартості?

δ-mem вводить матрицю 8×8 онлайн-стану асоціативної пам’яті (замість традиційного статичного KV cache). Її безперервно оновлюють за інкрементним правилом під час генерації, а також накладають низькорангові корекції на магістраль Transformer. Такий дизайн дає змогу моделі відновлювати релевантну інформацію без опори на явний історичний контекст, і для досягнення підвищення пам’яті в 1,31 раза достатньо лише приросту параметрів у 0,12%.

Як MinT керує мільйонними обсягами LoRA без повторного завантаження повної моделі?

MinT тримає базову модель постійно в режимі готовності для тренування та інференсу; кожне оновлення передбачає лише переміщення й завантаження легких LoRA Adapter. Зазвичай їхній обсяг становить менше 1% від базової моделі. Пакування тензорів MoE LoRA знімає безліч вузьких місць, пов’язаних із читанням/записом багатьох дрібних об’єктів; дворівневий механізм rollout гарантує, що LoRA в межах admission control виконає попередній прогрів, перш ніж стане видимою для потоків трафіку користувачів, зводячи p95-затримку завантаження до 0.

Чим Macaron-A2UI принципово відрізняється від традиційних AI-помічників, що працюють лише з чистим текстом?

Macaron-A2UI, окрім текстового виводу, у режимі миттєвої взаємодії може генерувати структуровані A2UI-виконавчі дії (множинні поля вибору, повзунки, картки підтвердження тощо). Мета — знизити когнітивне навантаження під час виконання складних завдань і безперервно вчитись відповідно до персоналізованих звичок користувача.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів