Meituan LongCat disponibiliza como código aberto o VitaBench 2.0 para modelagem de usuários de longo prazo

De acordo com a Jin10, a Meituan LongCat lançou hoje como código aberto o VitaBench 2.0, o primeiro benchmark para avaliar agentes de modelos de linguagem de grande porte em cenários de interação dinâmica com usuários no mundo real e de longo prazo. O benchmark avalia sistematicamente as capacidades de personalização e proatividade dos LLMs no engajamento contínuo com os usuários.
Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários