El último episodio de All In Podcast: ¿cómo ven varios expertos a Micron, los cuellos de botella de almacenamiento, los modelos open source chinos y la inferencia distribuida?


Este episodio de All In Podcast tiene mucha información. He seleccionado algunos temas que creo que son más interesantes para compartir.
Primero, hablemos de la línea de modelos open source chinos, cuyo progreso es más rápido de lo esperado.
Zhipu AI lanzó su nuevo modelo open source de nivel Frontier, GLM 5.2, con 744 mil millones de parámetros y un contexto de 1 millón de tokens, bajo la licencia MIT. Los datos de evaluación son sorprendentes: superó a GPT-5.5 en pruebas de programación de ingeniería de software, y está a menos del 1% del Claude Opus 4.8, el modelo más avanzado de Anthropic, pero su precio de API es un 85% más barato que el de modelos estadounidenses de rendimiento equivalente.
Hay un detalle interesante en el programa: un método que los equipos chinos están utilizando para acelerar el progreso. Utilizan miles de teléfonos móviles y iPads para formar una granja de dispositivos, realizan preguntas de alta densidad a las API de los modelos Frontier de EE. UU. utilizando cuentas cifradas, capturan las cadenas de razonamiento de los modelos rivales y las utilizan para entrenar por refuerzo sus propios modelos open source. Esto equivale a usar las respuestas estándar que los laboratorios estadounidenses han logrado con grandes inversiones como una "chuleta", logrando un rendimiento similar a un costo muy bajo.
La actitud de Sacks fue bastante crítica. Criticó a Dario de Anthropic por haber impulsado previamente al gobierno de EE. UU. a establecer procesos de revisión de seguridad engorrosos, y argumentó que esta auto-restricción ralentiza el ritmo de EE. UU. El modelo Fable fue retirado del mercado debido a acusaciones de jailbreak, y la aprobación de nuevos modelos de OpenAI también es difícil. Su juicio es que los modelos chinos están actualmente unos 9 meses por detrás en tecnología y unos 24 meses por detrás en chips, pero ya han completado el entrenamiento de la familia GLM5 utilizando chips locales como Huawei Ascend. En el futuro, estas "cajas de IA" optimizadas para chips locales, baratas y útiles, podrían ser vendidas a bajo precio en el mercado global, mientras que EE. UU. se pone restricciones, perdiendo así un mercado de exportación de billones de dólares.
En cuanto a las ganancias de Micron esta vez, el programa dio una posición precisa: la DRAM es el verdadero cuello de botella de toda la ola de IA.
Los ingresos trimestrales de Micron se dispararon cuatro veces interanual, de 9 mil millones a 42 mil millones, superando ampliamente las expectativas. La capacidad de HBM para 2026 ya está completamente agotada.
Hubo un punto muy directo en el programa: antes, la gente buscaba en Twitter varias empresas japonesas pequeñas de componentes auxiliares como "acciones de cuello de botella", pero la verdadera clave es solo la DRAM, especialmente HBM. La razón es simple: el ancho de banda y la capacidad de la memoria determinan el techo físico del rendimiento de inferencia de todos los modelos grandes, una restricción dura que no se puede evitar. Incluso se mencionó que la superfábrica que Musk está construyendo tiene su núcleo técnico en DRAM, no en fibra óptica, fuentes de alimentación o flash NAND.
Micron también hizo un cambio interesante en su modelo de negocio: firmó acuerdos de suministro a largo plazo con los principales proveedores de nube que incluyen protección de "precio mínimo y máximo", bloqueando el 50% de los ingresos futuros. Esto significa que incluso si el ciclo de la industria cae en el futuro, el precio mínimo contratado será más alto que el pico de margen bruto de cualquier ciclo anterior.
En cuanto a las barreras de entrada, aunque ChangXin Memory Technologies (CXMT) de China se está preparando para cotizar en bolsa y podría aliviar la presión de costos de grandes empresas como Apple con memoria de consumo de gama baja y media a bajo precio, en el campo HBM de gama alta necesaria para servidores de IA, actualmente solo tres empresas en el mundo pueden producir: Micron, SK Hynix y Samsung. La dificultad del proceso es extremadamente alta y no se puede alcanzar a corto plazo.
El programa dio una predicción bastante exagerada: el próximo año, entre el 30% y el 40% del gasto de capital global en hiperescala se dirigirá directamente a los fabricantes de chips DRAM. Este aumento de costos ya ha llevado a Apple a subir los precios minoristas de toda la línea MacBook y Mac Studio.
En cuanto a la computación en el borde y la inferencia distribuida, esta es la parte más imaginativa del episodio. Compartiré algunas ideas interesantes.
El 18 de junio, Tesla solicitó una marca comercial de hardware llamada "Megapod". La lógica física detrás de esto es: construir un centro de datos de 1 GW en tierra implica procesos de aprobación extremadamente largos para terrenos, energía y refrigeración líquida. La idea de Megapod es integrar GPU, redes de baterías y sistemas de refrigeración en un centro de datos modular tipo contenedor, que se despliega directamente en la red de supercargadores de Tesla, que ya tienen aprobaciones, redes eléctricas existentes y terrenos disponibles, evitando así los mayores cuellos de botella en la construcción de centros de datos tradicionales: la aprobación y la conexión eléctrica.
La lógica de la inferencia distribuida también es interesante: responder a una pregunta se puede dividir en dos etapas: la etapa de Prefill para comprender la pregunta y la etapa de Decode, que consume mucho ancho de banda y memoria. Los grandes inversores pueden adquirir tarjetas gráficas usadas y depreciadas, y agregarles chips especializados para optimizar la decodificación, formando una red de inferencia distribuida de menor costo.
Una idea más loca es ofrecer descuentos a los usuarios que compren baterías domésticas Powerwall, obligando a instalar chips de IA en cada batería, y luego, combinado con conexión satelital Starlink, cuando las baterías estén inactivas, se formará automáticamente una gran red de inferencia P2P distribuida, obteniendo un flujo constante de poder de cómputo casi gratuito en el extranjero. Si esta idea se materializa, sería un golpe demoledor para los grandes proveedores de nube tradicionales.
La parte más loca es la computación espacial. Construir un centro de datos de 1 GW en la Tierra requiere 35 mil millones de dólares en costos de chips y 25 mil millones en costos de refrigeración y mano de obra, además de enfrentar diversas disputas de uso del suelo. Pero con la reutilización completa de Starship de SpaceX, el costo de lanzar 1 GW de poder de cómputo a la órbita terrestre mediante interconexión láser podría reducirse drásticamente a solo 5 mil millones de dólares. El entorno de frío extremo natural del espacio y la energía solar casi ilimitada podrían hacer que la economía operativa de los centros de datos espaciales supere a la de los centros de datos terrestres en 3 a 4 años.
DRAM-4,91%
SKHYNIX-8,97%
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios