
Ji Qi Zhi Xin informó el 2 de junio que, Mindverse, del grupo Mind Lab, ha publicado de forma consecutiva recientemente resultados de investigación sobre ajuste eficiente de LoRA y PEFT. Los indicadores clave de δ-mem son: incrementos de parámetros tan bajos como 0,12%, con mejoras de rendimiento de 1,31 veces y 1,20 veces en las pruebas de referencia Memory Agent Bench y LoCoMo para memoria intensiva.
δ-mem: mecanismos técnicos confirmados y cifras de pruebas de referencia
δ-mem es una arquitectura de atención lineal de mezcla paralela diseñada para las características de LoRA. En la inferencia, el KV cache de los Transformer tradicionales queda congelado en caché y no tiene capacidad de actualización; δ-mem introduce el “estado de memoria asociativa en línea” (Online State of Associative Memory), manteniendo una matriz de 8×8 que se actualiza continuamente durante la entrada de tokens mediante una regla incremental (delta-rule learning). En la generación, aplica correcciones de baja rangura (low-rank corrections) a la Attention Query y al Output de la red troncal.
De acuerdo con las cifras oficiales de Mind Lab:
Incremento de parámetros: tan bajo como 0,12%
Mejora en Memory Agent Bench: 1,31 veces
Mejora en LoCoMo: 1,20 veces
Incluso al eliminar el contexto histórico explícito: aún puede recuperar gran cantidad de información relacionada
MinT: indicadores de rendimiento confirmados para infraestructura base de entrenamiento de LoRA de cientos de miles a millones
MinT es un sistema de infraestructura administrada diseñado específicamente para el entrenamiento de LoRA y servicios en línea. Su núcleo de diseño: el modelo base permanece a largo plazo en ejecución continua tanto en entrenamiento como en servicios de inferencia; después de cada entrenamiento se exporta un adaptador LoRA ligero (con configuración Rank-1, puede ser tan bajo como ~0,1% del modelo base), y al subir nuevas estrategias no es necesario fusionar el modelo completo ni recargarlo.
De acuerdo con las cifras oficiales de Mind Lab:
Tiempo de traspaso de entrenamiento a disponibilidad en el servicio de inferencia: hasta 18,3 veces
Mejora en la velocidad de carga en tiempo real del motor (mediante empaquetado de tensores de MoE LoRA): de 8,5 a 8,7 veces
Bajo el mecanismo de rollout en dos etapas: la carga de LoRA visible para el usuario hace que el p95 caiga a 0
Reducción del TTFT p95 en la primera solicitud: 2,3 veces
El paper “On the Scaling of PEFT”, sobre la ley de expansión de LoRA, propone tres ejes principales de escalamiento: Scale up (corrección de un problema donde falla el mecanismo de reejecución de enrutamiento en MoE disperso de 1T), Scale down (inicialización OLoRA-tail, usando vectores singulares secundarios para mejorar la estabilidad de Rank-1 sin aumentar parámetros), Scale out (LoRA as Memory: bajo un voto de múltiples modelos, la precisión crece según una regla de crecimiento logarítmico con el número de modelos k).
Macaron-A2UI: resultados de referencia confirmados
Macaron-A2UI se basa en la plataforma MinT; en los modelos de lenguaje de gran tamaño base de 30B, 235B y 754B, se utiliza secuencialmente SFT basado en LoRA y entrenamiento de refuerzo GRPO. Además de generar texto, el modelo puede producir acciones ejecutables estructuradas de A2UI (cuadros de selección múltiples, deslizadores, tarjetas de confirmación, etc.).
De acuerdo con las cifras oficiales de Mind Lab: Macaron-A2UI-Venti obtuvo 75,6 puntos en A2UI-Bench; en el caso de usar únicamente indicaciones de Schema ligeras, superó la mejor línea base de modelos frontales del estado del arte al ingresar un Schema largo y completo (longitud de aproximadamente 27 veces).
Preguntas frecuentes
¿Cómo el incremento de parámetros del 0,12% en δ-mem logra una mejora del rendimiento de memoria con un costo tan bajo?
δ-mem introduce una matriz de 8×8 de estado de memoria asociativa en línea (en lugar del KV cache estático tradicional), que se actualiza continuamente con una regla incremental y, durante la generación, aplica correcciones de baja rangura al Transformer troncal. Este diseño permite que el modelo recupere información relacionada sin depender de contexto histórico explícito; con solo un incremento de parámetros del 0,12% se logra una mejora de memoria de 1,31 veces.
¿Cómo gestiona MinT LoRA de nivel de millón sin recargar el modelo completo?
MinT mantiene el modelo base de manera continua en los servicios de entrenamiento e inferencia; en cada actualización, solo mueve y carga los ligeros adaptadores LoRA, cuyo tamaño normalmente es inferior al 1% del modelo base. El empaquetado de tensores de MoE LoRA resuelve cuellos de botella de lectura/escritura de multitud de objetos pequeños; el mecanismo de rollout en dos etapas asegura que, bajo control de admisión, el LoRA complete el precalentamiento antes de ser visible para el tráfico de los usuarios, reduciendo la latencia de carga del p95 a 0.
¿Cuál es la diferencia fundamental entre Macaron-A2UI y los asistentes de IA tradicionales de solo texto?
Además de la salida de texto, Macaron-A2UI puede generar, durante la interacción en tiempo real, acciones ejecutables estructuradas de A2UI (cuadros de selección múltiples, deslizadores, tarjetas de confirmación, etc.), con el objetivo de reducir la carga cognitiva de tareas complejas y continuar aprendiendo según las preferencias personalizadas de los usuarios.