DeepSeek y Xiaomi recortan precios de API mientras los laboratorios estadounidenses suben tarifas
DeepSeek hizo permanente su descuento del 75% en DeepSeek V4-Pro el 22 de mayo de 2026, fijando el precio de salida en 0,87 USD por millón de tokens. Xiaomi siguió el 26 de mayo, recortando los precios de la API de MiMo-V2.5 hasta un 99% para entradas en caché, y el modelo Pro ahora está en 0,0036 USD por millón de tokens para entrada en caché. Las reducciones de precios provienen de optimizaciones técnicas en frameworks de inferencia y en la arquitectura de KV cache. Estos recortes llegaron justo cuando OpenAI duplicó los precios de salida de GPT-5.5 hasta 30 USD por millón de tokens en su lanzamiento a finales de abril, y Anthropic envió Claude Opus 4.7 con un nuevo tokenizador que produce hasta un 35% más de tokens para el mismo texto de entrada, lo que podría inflar los costos reales pese a tarjetas de tarifas sin cambios.
Cambios permanentes de precios anunciados
DeepSeek V4-Pro ahora funciona a 0,435 USD de entrada y 0,87 USD de salida por millón de tokens. El descuento del 75%, que antes estaba previsto para expirar, se volvió permanente a inicios de esta semana. Xiaomi's MiMo-V2.5-Pro empata el mismo 0,435/0,87 USD por millón de tokens tras los recortes del 26 de mayo. Los aciertos de caché para MiMo-V2.5 cayeron a 0,0036 USD por millón de tokens. La mejora de facturación de Xiaomi da a los usuarios de 5 a 8 veces más tokens al mismo precio. El plan Max, ahora a 100 USD, proporciona 82 mil millones de tokens, frente a 1,6 mil millones.
Implementación técnica detrás de las reducciones de precio
Fuli Luo, jefe del equipo MiMo de Xiaomi y ex desarrollador principal de DeepSeek que co-diseñó DeepSeek-V2, publicó una explicación técnica en X el 27 de mayo. El framework de inferencia ahora admite optimización jerárquica de KV cache para SWA. Las pruebas del motor de inferencia en producción muestran que esta optimización incrementa la capacidad de tokens en caché aproximadamente cinco veces. El sistema reduce los costos de almacenamiento y procesamiento en alrededor de un 80%. “Operando con estos nuevos precios de API reducidos, nuestro motor de inferencia en producción está funcionando con una capacidad cercana al 100% y aun así podemos esencialmente empatar”, escribió Luo.
DeepSeek V4 usa dos tipos de atención entrelazados: uno comprimiendo cada cuatro tokens para atención selectiva y otro colapsando cada 128 tokens para contexto global. Con un millón de tokens de contexto, la KV cache de V4-Pro es el 10% del tamaño del predecesor. La inferencia de un solo token se ejecuta al 27% del costo de cómputo anterior.
Evaluaciones de rendimiento y precios comparativos
DeepSeek V4-Pro obtuvo 80,6% en SWE-Verified. Claude Opus 4.6 alcanzó 80,8% en el mismo benchmark que mide la resolución real de issues de GitHub. La brecha de precios entre ambos modelos: 34x en salida. DeepSeek V4-Pro es un modelo de 1,6 billón de parámetros.
Claude Opus 4.7 cuesta 5 USD por millón de tokens de entrada y 25 USD por millón de tokens de salida. GPT-5.5 funciona a 30 USD por millón de tokens de salida, duplicando la tarifa de su predecesor. Gemini 2.5 Pro se sitúa en 1,25 USD de entrada y 10 USD de salida por millón de tokens.
MiniMax M2.7 cuesta 0,30 USD de entrada y 1,20 USD de salida por millón de tokens. Kimi K2.5 de Moonshot AI, con 76,8% en SWE-bench Verified, ejecuta 0,60 USD de entrada y 2,50 USD de salida. GLM-5.1 de Z.AI superó a Claude Opus 4.6 en un benchmark de codificación en el 2T de 2026. Cuatro modelos fronterizos chinos se lanzaron en una ventana de 12 días a inicios de mayo, todos con menos de un tercio del costo por token de Opus 4.7. El costo de DeepSeek V4-Pro para tokens de entrada en caché es de 0,003625 USD por millón de tokens.
Posicionamiento en el mercado entre proveedores
La brecha de precios del 2T de 2026 entre modelos fronterizos chinos y estadounidenses oscila entre 15x y 30x, dependiendo de la comparación de modelos. Este punto de referencia existe antes de los descuentos por caché. Anthropic mantuvo la tarjeta de tarifas de Claude Opus 4.7 sin cambios, pero lo envió con un nuevo tokenizador que puede producir hasta un 35% más de tokens para el mismo texto de entrada.