Velocidad máxima de 3 veces y sin pérdida, modelo de decodificación especulativa MTP de toda la serie Gemma4 de código abierto de Google

BlockBeatNews

Según la monitorización de Beating, Google ha lanzado y abierto el código del borrador del modelo de predicción de múltiples tokens (MTP) de la serie Gemma 4. Este es un modelo auxiliar liviano que utiliza una arquitectura de decodificación especulativa, capaz de acelerar la inferencia hasta 3 veces en comparación con el modelo principal, manteniendo la calidad de salida y la capacidad de razonamiento lógico.

Los modelos de lenguaje grande estándar solo pueden generar un token a la vez, lo que los hace susceptibles a limitaciones de ancho de banda de memoria de video y provoca inactividad en la potencia de cálculo. La solución MTP permite que el modelo auxiliar liviano utilice la potencia de cálculo ociosa para predecir de manera anticipada múltiples tokens futuros en una sola vez, y luego estos sean verificados en paralelo por el modelo objetivo pesado, como el de 31B. Si el modelo objetivo aprueba el borrador, recibe toda la secuencia de una sola vez. Para mejorar aún más la eficiencia, el modelo auxiliar comparte directamente el estado de activación y la caché KV del modelo objetivo (que almacena el contexto histórico para evitar cálculos repetidos); para los modelos en el extremo, E2B y E4B, el equipo también introdujo técnicas de agrupamiento en la capa de embedding.

Actualmente, el modelo MTP ha sido completamente abierto bajo la misma licencia Apache 2.0 que Gemma 4, y soporta de forma nativa frameworks de inferencia como vLLM, SGLang y Ollama. Esta optimización de velocidad reduce significativamente la barrera de entrada, permitiendo a los desarrolladores ejecutar modelos de 26B MoE y 31B densos en tarjetas gráficas de consumo comunes, y también soportar interacciones de IA en tiempo real en dispositivos móviles con menor consumo de energía.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

Los sueños de Claude de Anthropic: el agente se organiza la memoria entre tareas, eliminando duplicados y contradicciones

Anthropic en la conferencia Code with Claude dio a conocer Dreams, con el que Claude Managed Agents puede ordenar automáticamente la memoria entre múltiples conversaciones, eliminar duplicados y contradicciones, y actualizar entradas desactualizadas, generando un repositorio de memoria posterior verificable. El límite de entrada es de 100 sesiones y 4.096 caracteres; se ejecuta de forma asíncrona y se completa en minutos a decenas de minutos, con soporte para observación en streaming. La vista previa para investigación requiere solicitud; por ahora solo admite claude-opus-4-7 y claude-sonnet-4-6, y la fecha de lanzamiento oficial aún no está definida.

ChainNewsAbmediahace2h

Anthropic compite con el poder de cómputo de SpaceX: logra Colossus 1 con 22.000 GPU en toda la infraestructura, Claude elimina los límites de uso

Anthropic anunció que llegó a un acuerdo de colaboración de potencia informática con SpaceX para el centro de datos Colossus 1, utilizando más de 220.000 GPU Nvidia, con una capacidad de más de 300MW. Se espera que en el plazo de un mes se despliegue completamente para el uso de Anthropic, mejorando el rendimiento y la experiencia de Claude y Code. Al mismo tiempo, se amplían los límites de uso por cada 5 horas para Pro/Max/Team/Enterprise, se elimina el límite en horas pico y se incrementa la velocidad de la API de Opus. La infraestructura en Asia y Europa también se expande simultáneamente; a futuro hay otras intenciones como “cómputo de IA en órbita”, aunque aún no se ha cerrado ningún contrato.

ChainNewsAbmediahace2h

Ingeniero de Coinbase: los agentes de IA podrían alterar el modelo de publicidad web

Erik Reppel, un ingeniero de Coinbase, dijo que los agentes de inteligencia artificial podrían socavar fundamentalmente el modelo de negocio de internet, que depende de la publicidad. Según Reppel, la economía web depende en gran medida de los ingresos publicitarios generados por usuarios humanos, pero los agentes de IA eluden ese sistema

CryptoFrontierhace3h

Anthropic duplica los límites de tasa de Claude Code después de asegurar 300MW de capacidad mediante un acuerdo con SpaceX

Según Odaily, Anthropic ha firmado un acuerdo con SpaceX para acceder a la capacidad informática total del centro de datos Colossus 1, asegurando más de 300 megavatios de nueva capacidad y más de 220.000 GPUs NVIDIA en el plazo de un mes. En vigor de inmediato, los límites de tasa de Claude Code de cinco horas para Pro,

GateNewshace3h

OpenAI publica el protocolo de la red supercomputadora MRC. En colaboración con NVIDIA, AMD y Microsoft para crear la infraestructura de Stargate

OpenAI publica el protocolo MRC para una red de supercomputación de IA, en colaboración con AMD, Microsoft, NVIDIA, etc., y lo abre bajo OCP. MRC divide los datos y los hace seguir múltiples rutas al mismo tiempo, evita obstáculos a nivel de microsegundos, reduce la congestión y mantiene la sincronización de GPU, resolviendo el cuello de botella de transmisión en grandes clústeres de entrenamiento. Sitios base como Stargate en Abilene, Texas, ya han desplegado interfaces de 800Gb/s y se han puesto en marcha en entrenamientos reales.

ChainNewsAbmediahace3h
Comentar
0/400
Sin comentarios