Mensaje de Gate News, 22 de abril: el estudiante de doctorado de Princeton, Yifan Zhang, divulgó en X las especificaciones técnicas completas de DeepSeek V4, después de un adelanto el 19 de abril. V4 cuenta con 1.6 billones de parámetros totales y una variante liviana, V4-Lite, con 285 mil millones de parámetros.
El modelo emplea el mecanismo de atención DSA2, que combina la (DeepSeek Sparse Attention) previa de DeepSeek del V3.2 y la (Native Sparse Attention) NSA con embeddings de cabeza de 512 dimensiones, junto con (Sparse Multi-Query Attention)MQA( y )Sliding Window Attention(SWA). La capa MoE (Mixture of Experts) contiene 384 expertos con 6 activados por cada pase hacia adelante, utilizando el Fused MoE Mega-Kernel. Las conexiones residuales emplean la arquitectura Hyper-Connections.
Los detalles de entrenamiento revelados por primera vez incluyen el uso del optimizador Muon (applying Newton-Schulz orthogonalization to momentum updates), una ventana de contexto de preentrenamiento de 32K tokens y GRPO Group Relative Policy Optimization con corrección de divergencia KL durante el aprendizaje por refuerzo. La ventana de contexto final se extiende hasta 1 millón de tokens. El modelo es solo texto.
Zhang no está empleado por DeepSeek, y la empresa no ha comentado oficialmente la información divulgada.
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el
Aviso legal.
Artículos relacionados
Las inversiones de Anthropic y OpenAI superan los 1,1 billones de dólares en operaciones de cripto retail desde el inicio de 2026
Según Bloomberg, los inversores minoristas han inyectado aproximadamente 1,13 mil millones de dólares en operaciones apalancadas de derivados de empresas privadas de IA desde el inicio de 2026. Las plataformas cripto Ventuals y PreStocks permiten operar 24 horas al día en firmas como Anthropic, OpenAI y SpaceX sin otorgar acceso directo e
GateNewsHace2m
El veterano de Qualcomm Alex Katouzian se une a Intel como vicepresidente ejecutivo de computación para clientes y de IA física
Según Intel, el 5 de mayo, Alex Katouzian se incorporó a la empresa como vicepresidente ejecutivo y gerente general de la división de Client Computing y Physical AI. Katouzian anteriormente se desempeñó como vicepresidente ejecutivo y gerente general del negocio de móvil, cómputo y XR de Qualcomm. Intel también
GateNewsHace3m
La descripción general de IA de Google entrega decenas de millones de respuestas incorrectas cada hora; la precisión de Gemini 3 es del 91%
Según The New York Times, la función AI Overview de Google tiene una tasa de precisión del 91% con Gemini 3, lo que significa que ofrece decenas de millones de respuestas incorrectas cada hora. Basado en el procesamiento de Google de más de 5 billones de búsquedas al año, esto se traduce en cientos de miles de información inexacta
GateNewsHace10m
Anthropic prepara un asistente proactivo Orbit que conecta seis herramientas, incluido GitHub y Figma
De acuerdo con hallazgos de código monitoreados por Beating, Anthropic está preparando una nueva función de asistente proactivo llamada Orbit que se conecta a Gmail, Slack, GitHub, Calendar, Drive y Figma. La función utiliza un mecanismo de participación voluntaria y genera resúmenes personalizados a partir de herramientas de trabajo conectadas mientras
GateNewsHace55m
Vertex Ventures respalda la startup de IA de Singapur ReN3 con $5M el 5 de mayo
Según Vertex Ventures Southeast Asia e India, el 5 de mayo la startup de IA empresarial ReN3, con sede en Singapur, recaudó 5 millones de dólares en financiación semilla para expandirse en el sudeste asiático y para invertir en el desarrollo de productos. La empresa planea profundizar su canal de socios
GateNewshace1h
OpenAI lanza ChatGPT para la app de Intune con integración nativa de Microsoft
Según el canal de Telegram Beating, OpenAI ha lanzado ChatGPT para Intune, una aplicación iOS independiente diseñada para organizaciones empresariales y educativas. La app se integra nativamente con Microsoft Intune, lo que permite a los departamentos de TI gestionar la aplicación a través de su plataforma unificada de administración de endpoints pr
GateNewshace1h