De acordo com divulgações de relações com investidores em 12 de maio, o chip de inferência em desenvolvimento de Yuntianliyifei adota uma arquitetura GPNPU como tecnologia-base do seu roteiro. Os principais destaques técnicos incluem capacidade de programação universal no nível GPGPU compatível com ecossistemas CUDA comuns, núcleos NPU otimizados para eficiência na inferência e uma arquitetura de memória empilhada em 3D projetada para aumentar a largura de banda e reduzir a latência de acesso, superando o gargalo do limite de memória.
A empresa também utiliza uma arquitetura modular de computação para suportar a construção de supernodes em escala a nível de rack para inferência de modelos MoE em escalas de trilhão e cem-trilhões. O roteiro de tecnologia busca reduzir exponencialmente o custo dos tokens e acelerar a implantação de aplicações de grandes modelos.