O analista Zeitgeist afirmou que a procura de chips de memória usados em inteligência artificial excede a capacidade de produção global atual em ordens de magnitude, sugerindo que os stocks dos fabricantes de memória poderiam multiplicar-se por dez se fossem avaliados pelas necessidades reais de computação em vez dos máximos históricos. Zeitgeist apresentou um exemplo de investimento: 50.000 dólares em ações da Micron em setembro do ano passado valeriam aproximadamente 489.000 dólares hoje. O analista atribuiu o desequilíbrio oferta-procura aos limites fixos de memória de banda larga (HBM) nos aceleradores de IA e à adoção rápida de agentes de IA, que consomem muito mais memória por sessão do que os chatbots tradicionais — uma mudança que acontece porque a produção de memória cresce mais lentamente do que o aumento do consumo.
Aceleradores de IA enfrentam limites fixos de memória
Cada acelerador de IA é enviado com uma quantidade fixa de memória rápida que não pode ser expandida após a implementação. Segundo Zeitgeist, um chip H100 padrão tem 80 GB de HBM; as gerações mais recentes oferecem até 192 GB, e o futuro B300 terá 288 GB. Esse teto determina quantas solicitações um único acelerador consegue processar em simultâneo.
O analista explicou que a principal carga de memória não vem dos pesos do modelo, mas da cache KV — memória de sessão que cresce com cada token gerado. Zeitgeist calculou que uma sessão com um contexto de 128.000 tokens requer aproximadamente 20 GB de memória, o que significa que apenas quatro dessas sessões esgotariam totalmente os recursos de um único H100. Modelos avançados como Claude Opus 4.8 ou GPT-5.5 exigem 40 GB a 100 GB para uma única solicitação longa, de acordo com o analista.
Analista calcula défice de memória 60x devido à adoção de agentes
Zeitgeist identificou a mudança de chatbots simples para agentes de IA como o principal motor da procura de memória. Embora uma pergunta normal imponha uma carga mínima à memória, um agente que chama ferramentas de forma independente e acumula contexto pode facilmente atingir 100.000 tokens ou mais. O analista calculou que um único trabalhador do conhecimento a executar dez desses agentes em paralelo exigiria aproximadamente 152 GB de memória.
Zeitgeist referiu que há aproximadamente 250 milhões de trabalhadores do conhecimento em todo o mundo. O analista estimou que, com 100 sessões agentic por pessoa por dia, o mundo precisaria de cerca de 60 vezes mais memória do que aquela que será produzida em 2026. Zeitgeist reconheceu que novos métodos de atenção podem reduzir o uso de memória em quatro a oito vezes, mas afirmou que a procura está a crescer mais depressa, à medida que os agentes substituem chats simples, as janelas de contexto passam de 128.000 para 10 milhões de tokens, e o uso de IA por cada trabalhador evolui de zero para centenas de sessões.
SK Hynix ultrapassa a Samsung à medida que a procura de memória para IA dispara
O fabricante sul-coreano de memória SK Hynix ultrapassou a Samsung como a empresa cotada mais valiosa do país, impulsionado pela sua posição em chips de memória de banda larga usados para cargas de trabalho de inteligência artificial. Zeitgeist afirmou que esta mudança reforça a tese de que os produtores de memória se estão a tornar grandes beneficiários da corrida pela infraestrutura de IA, com empresas capazes de produzir chips de memória avançados posicionadas para ver aumentar acentuadamente as receitas e as valorizações à medida que a procura de HBM cresce mais rapidamente do que a oferta.
FAQ
O que disse o analista Zeitgeist sobre a valorização das ações de chips de memória?
Zeitgeist afirmou que as ações dos fabricantes de memória poderiam subir dez vezes face aos níveis atuais se fossem avaliadas pelas necessidades reais de computação e não pelos máximos históricos, citando uma procura de memória para IA que excede a capacidade de produção global em ordens de magnitude.
Quanto de memória uma sessão de agente de IA requer, segundo Zeitgeist?
Zeitgeist calculou que uma sessão com um contexto de 128.000 tokens requer aproximadamente 20 GB de memória, enquanto modelos avançados como Claude Opus 4.8 ou GPT-5.5 exigem 40 GB a 100 GB para uma única solicitação longa. O analista estimou que um trabalhador do conhecimento a executar dez sessões de agente em paralelo precisaria de aproximadamente 152 GB de memória.