Meituan LongCat publica como código abierto VitaBench 2.0 para el modelado de usuarios a largo plazo

Según Jin10, Meituan LongCat anunció hoy el lanzamiento open-source de VitaBench 2.0, el primer benchmark diseñado para evaluar agentes de modelos de lenguaje de gran escala (LLM) en escenarios dinámicos de interacción con usuarios a largo plazo y en entornos reales. El benchmark evalúa sistemáticamente las capacidades de personalización y proactividad de los LLM en un compromiso sostenido con el usuario.
Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios