Mensaje de Gate News, 24 de abril — DeepSeek ha lanzado la serie V4 de modelos de código abierto bajo la Licencia MIT, con pesos ahora disponibles en Hugging Face y ModelScope. La serie incluye dos modelos (MoE) de mezcla de expertos: V4-Pro con 1,6 billones de parámetros totales y 49 mil millones activados por token, y V4-Flash con 284 mil millones de parámetros totales y 13 mil millones activados por token. Ambos admiten una ventana de contexto de 1 millón de tokens.
La arquitectura presenta tres mejoras clave: un mecanismo de atención híbrida que combina atención dispersa comprimida (CSA) y atención altamente comprimida (HCA) que reduce significativamente la sobrecarga para contextos largos: los FLOPs de inferencia para 1M de contexto de V4-Pro son solo el 27% de los de V3.2, y la caché KV (VRAM para almacenar información histórica durante la inferencia) es solo el 10% de la de V3.2; enlaces hiperconectados con restricción de manifold (mHC) que reemplazan las conexiones residuales tradicionales para mejorar la estabilidad de la propagación de señales entre capas; y el optimizador Muon para una convergencia de entrenamiento más rápida. El preentrenamiento utilizó más de 32 billones de tokens de datos.
El postentrenamiento emplea un enfoque de dos etapas: primero, entrenar expertos específicos del dominio mediante fine-tuning supervisado (SFT) y aprendizaje por refuerzo con GRPO, luego fusionarlos en un único modelo mediante destilación en línea. V4-Pro-Max (modo de inferencia más alto) afirma ser el modelo de código abierto más potente, con puntos de referencia de codificación de nivel superior y brechas significativamente reducidas frente a modelos de frontera de código cerrado en tareas de razonamiento y de agentes. V4-Flash-Max logra un rendimiento de razonamiento a nivel Pro con un presupuesto de cómputo suficiente, pero se ve limitado por la escala de parámetros en conocimiento puro y tareas de agentes complejas. Los pesos se almacenan en precisión mixta FP4+FP8.
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el
Aviso legal.
Artículos relacionados
La Academia prohíbe el contenido de IA en los 99 Oscars, obligando a que las victorias sean solo humanas
La Academia de Artes y Ciencias Cinematográficas ha establecido estrictas nuevas normas para los 99.ª Premios Oscar, prohibiendo oficialmente el contenido generado por IA en las principales categorías para proteger la creatividad humana.
Puntos clave:
La Junta de la Academia prohíbe la IA para los 99.ª Premios Oscar, exigiendo que el crédito sea solo para humanos para la actuación en la…
CoinpediaHace22m
La división NVentures de Nvidia invierte $50M en la ampliación de la Serie D de la plataforma de IA legal de Legora
Según ChainCatcher, la filial de capital de riesgo de Nvidia, NVentures, ha participado en la ampliación de la ronda Serie D de Legora por 50 millones de dólares, marcando su primera inversión en IA legal. La startup sueca de legal tech, que compite con Harvey, vio cómo sus ingresos recurrentes anuales (ARR) superaban los 100 millones de dólares,
GateNewsHace33m
El CFO de OpenAI sugiere retrasar la salida a bolsa hasta 2027 en medio de una desaceleración del crecimiento, mientras que el CEO prefiere el 4T de 2026
Según Odaily, la directora financiera (CFO) de OpenAI, Sarah Friar, habría recomendado en privado posponer la IPO de la empresa hasta 2027, citando el incumplimiento de las normas de información financiera de las empresas cotizadas, mientras que el CEO Sam Altman busca acelerar la salida a bolsa en el 4T de 2026. Los usuarios activos semanales de ChatGPT alcanzaron 900 millones en
GateNewshace1h
Bakkt completa la adquisición de DTR en medio del crecimiento de los ingresos y una reestructuración estratégica
Bakkt ha completado la adquisición de Distributed Technologies Research, una medida diseñada para integrar infraestructura de stablecoin nativa de inteligencia artificial (IA) en sus servicios financieros centrales.
Modernizando la liquidación global
Bakkt Inc. ha finalizado su adquisición de Distributed Technologies
Coinpediahace2h
CEO de Berkshire: La construcción de centros de datos a gran escala crea importantes oportunidades de crecimiento para las utilities
Según el CEO Greg Abel en la reunión anual de accionistas de Berkshire Hathaway, el 3 de mayo, la construcción de centros de datos a gran escala y la consiguiente demanda de electricidad están creando importantes oportunidades de crecimiento para las compañías de servicios públicos. Abel declaró que la empresa mantiene un enfoque prudente para el despliegue de IA, u
GateNewshace2h