Resultados de la búsqueda para "DEEPSEEK"
Hoy
05:21

Cambricon Completa la Adaptación del Día 0 de DeepSeek-V4, Marcando un Hito para el Ecosistema de Chips de IA de China

Mensaje de Gate News, 24 de abril — Cambricon anunció hoy que ha completado la adaptación del Día 0 de DeepSeek-V4, el último modelo de lenguaje grande de DeepSeek, utilizando su ecosistema propietario de software NeuWare y el framework vLLM. El código de adaptación se ha publicado simultáneamente como código abierto, marcando el
Más
03:21

Los datos de entrenamiento de DeepSeek V4 se duplicaron hasta 33T, lo que provocó una inestabilidad que retrasó el lanzamiento

Mensaje de Gate News, 24 de abril — El informe técnico de V4 de DeepSeek revela que V4-Flash y V4-Pro fueron preentrenados con 32T y 33T tokens, respectivamente, duplicando los aproximadamente 15T tokens usados para V3. El informe reconoce haber encontrado "retos importantes de inestabilidad" durante el entrenamiento, con picos de pérdida que ocurren repetidamente debido a anomalías en la capa Mixture-of-Experts MoE; el mecanismo de enrutamiento en sí mismo agrava estas anomalías, y un simple rollback no puede resolver el problema.
Más
09:45

DeepSeek hace de código abierto TileKernels, biblioteca de kernels de GPU para el entrenamiento e inferencia de modelos grandes

Noticias de Gate, 23 de abril — DeepSeek ha hecho de código abierto TileKernels bajo la licencia MIT, una biblioteca de kernels de GPU escrita en TileLang para el entrenamiento y la inferencia de modelos de lenguaje de gran tamaño. TileLang es un lenguaje específico de dominio desarrollado por el equipo tile-ai para expresar kernels de GPU de alto rendimiento en
Más
20:02

DeepSeek估值跃升超过$20 十亿美元,腾讯和阿里巴巴权衡投资

DeepSeek寻求超过$20B 的融资方案,腾讯/阿里巴巴讨论投资;Nvidia警告称,美国的芯片优势可能会被华为削弱;随着Vast Data的$1B 轮融资以及OpenAI/Anthropic/xAI的投资,AI资金继续激增。 DeepSeek计划在与腾讯和阿里巴巴的沟通中,将估值推高至超过$20 十亿美元,同时Nvidia警告称,如果将AI模型转向华为芯片,可能会削弱美国的领先地位。该报道还提到,全球AI融资出现激增,包括Vast Data的$1 十亿美元轮融资,估值为$30 十亿美元,以及对OpenAI、Anthropic和xAI的重大投资。
Más
14:05

Yifan Zhang divulga las especificaciones técnicas completas de DeepSeek V4: 1.6T parámetros, 384 expertos con 6 activaciones

Mensaje de Gate News, 22 de abril: el estudiante de doctorado de Princeton, Yifan Zhang, divulgó en X las especificaciones técnicas completas de DeepSeek V4, después de un adelanto el 19 de abril. V4 cuenta con 1.6 billones de parámetros totales y una variante liviana, V4-Lite, con 285 mil millones de parámetros. El modelo emplea el mecanismo de atención DSA2
Más