
6月2日付の報道によると、Mindverse(Mindverse)傘下のMind Labは、LoRAおよびPEFTの高効率微調に関する研究成果をこのところ連続して発表している。δ-memの主要指標は、パラメータ増分を0.12%まで低く抑えつつ、Memory Agent BenchおよびLoCoMoの重度記憶基準テストでそれぞれ1.31倍、1.20倍の性能向上をもたらす点だ。
δ-mem:確認された技術メカニズムとベンチマーク数値
δ-memは、LoRAの特性に合わせて設計された並列混合型のリニア注意(linear attention)アーキテクチャである。従来のTransformerにおけるKVキャッシュは推論中に凍結されたキャッシュであり、そもそも更新能力を持たない。δ-memは「オンラインの連想メモリ状態」(Online State of Associative Memory)を導入し、8×8の行列を維持する。token入力の過程で増分ルール(delta-rule learning)により継続的に更新され、生成時にはバックボーンネットワークのAttention QueryとOutputに低ランク補正(low-rank corrections)を適用する。
Mind Lab公式の数値によれば:
パラメータ増分:0.12%まで
Memory Agent Benchの向上:1.31倍
LoCoMoの向上:1.20倍
明示的な履歴コンテキストを削除しても:それでも大量の関連情報を復元できる
MinT:百万規模LoRA訓練基盤の確認された性能指標
MinTは、LoRA訓練およびオンラインサービス向けに設計されたマネージド基盤インフラのシステムである。設計の中核は、基礎モデルを訓練と推論サービスの間で長期的に常駐させることだ。毎回の訓練が完了した後にエクスポートされるのは軽量なLoRA Adapterで(Rank-1構成では基礎モデルの約0.1%まで可能)、新しい戦略を公開する際に完全なモデルを統合したり、再読み込みしたりする必要がない。
Mind Lab公式の数値によれば:
訓練完了から推論サービスで利用可能になるまでの引き渡し時間:最大18.3倍短縮
エンジンの即時ロード速度の向上(MoE LoRAのテンソルをパッケージ化):8.5〜8.7倍
二段階rolloutメカニズムのもとで:ユーザーに見えるLoRA読み込みのp95が0に
初回リクエストのTTFT p95を短縮:2.3倍
LoRA拡張の法則を扱う論文「On the Scaling of PEFT」は、3つの拡張軸を提示している。Scale up(1Tの疎なMoEにおけるルーティング再生メカニズムが失敗する問題を修正)、Scale down(OLoRA-tailの初期化で、主要でない特異ベクトルを利用してRank-1の安定性を高め、パラメータの増加なし)、Scale out(LoRA as Memoryという概念で、複数モデルの投票により正確率がモデル数kに対して対数的に増加するという成長則)。
Macaron-A2UI:確認されたベンチマーク成績
Macaron-A2UIはMinTプラットフォームに基づき、30B、235B、754Bの大規模言語モデルのベース上で、順にLoRAベースのSFTとGRPOによる強化学習訓練を行って作られている。モデルは、テキスト出力に加えて、構造化されたA2UIの実行アクション(複数選択枠、スライダー、確認カードなど)を生成できる。
Mind Lab公式の数値によれば:Macaron-A2UI-VentiはA2UI-Benchで75.6点を獲得し、軽量なSchemaプロンプトのみを使用する場合に、入力の完全な冗長Schema(長さは約27倍)を用いる最強の最先端モデルのベースラインを上回った。
よくある質問
δ-memの0.12%というパラメータ増分は、なぜこれほど低いコストで記憶性能向上を実現できるのですか?
δ-memは、従来の静的KVキャッシュではなく、8×8のオンライン連想メモリ状態行列を導入する。増分ルールで継続的に更新し、生成時にはバックボーンのTransformerに低ランク補正を適用する。この設計により、モデルは明示的な履歴コンテキストに依存せずに関連情報を復元でき、0.12%のパラメータ増分だけで1.31倍の記憶向上を実現できる。
MinTは、完全なモデルを再読み込みせずに、百万規模のLoRAをどのように管理しますか?
MinTは基礎モデルを訓練および推論サービスに長期的に常駐させ、更新のたびに移動し読み込むのは軽量なLoRA Adapterだけとする。サイズは通常、基礎モデルの1%未満だ。MoE LoRAのテンソルをパッケージングすることで、多数の小物の読み書きに関するボトルネックを解決する。さらに二段階rolloutメカニズムにより、LoRAはadmission制御下で事前ウォームアップが完了してからユーザーのトラフィックに可視化され、読み込み遅延のp95が0にまで下がる。
Macaron-A2UIは、従来の純テキストAIアシスタントと比べて何が根本的に違いますか?
Macaron-A2UIは、テキスト出力に加えて、リアルタイムのインタラクションの中で構造化されたA2UIの実行アクション(複数選択枠、スライダー、確認カードなど)を生成できる。複雑なタスクに対する認知負荷を下げることを狙い、またユーザーのパーソナライズされた嗜好に基づいて継続的に学習する。