De acordo com a mais recente avaliação Vending-Bench 2 da Andon Labs, o GLM 5.2 classificou-se em segundo lugar num teste de simulação empresarial de longo prazo. O benchmark simulou as operações de 365 dias de uma empresa de máquinas de venda automática, com os modelos a tomarem decisões diárias sobre inventário e preços com base em dados financeiros para avaliar a coerência das decisões ao longo de tarefas prolongadas.
As versões GLM demonstraram um crescimento linear consistente, com uma melhoria média do lucro mensal perto de 1 000 dólares (GLM 5 obteve uma média de 4 432 dólares, GLM 5.1 atingiu 5 634 dólares). Em contraste, o Kimi K2.7 Code teve um desempenho inferior ao K2.6, enquanto o Minimax M3 melhorou significativamente em relação ao M2.5, mas manteve-se substancialmente abaixo de ambas as séries Kimi e GLM em termos de rentabilidade global.