Elon Musk (馬斯克) anunció en X el 15 de mayo que el último algoritmo de X ya fue publicado en GitHub. Según el repositorio xai-org/x-algorithm que xAI hace público en GitHub, el eje principal del contenido liberado esta vez es el sistema central de recomendación que impulsa el flujo de información «Para ti» (For You) de la plataforma X. El sistema combina contenido en la plataforma rastreado por el usuario (cuentas seguidas) con contenido fuera de la plataforma extraído mediante aprendizaje automático desde un repositorio global de contenidos; finalmente, el modelo transformer basado en la arquitectura Grok se encarga de ordenar.

El proyecto utiliza la licencia Apache 2.0 y está escrito principalmente en Rust y Python; al momento de la consulta, GitHub muestra alrededor de 21 mil stars y 3.800 forks.

Arquitectura de recomendación de For You: Thunder encuentra contenido seguido, Phoenix excava contenido fuera de la plataforma

De acuerdo con la documentación del repositorio, el flujo For You de X se compone principalmente de dos fuentes de contenido candidato.

La primera es contenido dentro de la plataforma, a cargo de Thunder. Thunder es un área de almacenamiento de publicaciones en memoria y una canalización de ingesta de datos en tiempo real: consume eventos de creación y eliminación de publicaciones desde Kafka, rastrea las publicaciones recientes de todos los usuarios y proporciona al solicitante candidatos de contenido provenientes de sus cuentas seguidas. El documento subraya que Thunder puede ofrecer consultas de nivel de submilisegundos para candidatos de contenido dentro de la plataforma sin necesidad de consultar bases de datos externas.

La segunda es contenido fuera de la plataforma, a cargo de Phoenix Retrieval. Phoenix busca dentro del repositorio global de contenidos publicaciones que el usuario podría considerar de interés pero que no provienen de cuentas seguidas. En su fase de recuperación, utiliza un modelo de dos torres (Two-Tower Model): User Tower codifica características del usuario e historial de interacciones en vectores; Candidate Tower codifica las publicaciones candidatas en vectores, y luego encuentra el contenido más relevante mediante similitud por producto punto.

Estos candidatos pasan a Home Mixer, que es la capa de coordinación del flujo For You. Home Mixer se encarga de consultar el contexto del usuario, obtener contenido candidato, completar información de publicaciones y autores, filtrar contenido no apto, llamar al modelo de ordenamiento, aplicar ajustes de puntuación y, al final, seleccionar las publicaciones que se mostrarán en la página For You del usuario. El documento también indica que Home Mixer ofrece hacia el exterior el endpoint gRPC ScoredPostsService, para devolver publicaciones ya ordenadas a usuarios específicos.

Grok se convierte en el núcleo del sistema de recomendación

Lo que más ha llamado la atención en esta ocasión es que el sistema de recomendación de X introduce explícitamente Grok.

El README de GitHub indica que el contenido del feed For You será ordenado por Phoenix, que es un modelo transformer basado en Grok. Phoenix predice la probabilidad de que cada publicación genere interacciones y, finalmente, combina esos valores de predicción mediante una combinación con pesos para obtener la puntuación final. El documento también aclara que la implementación transformer incluida en este repositorio está trasladada desde Grok-1, de código abierto por xAI, y ajustada para el caso de uso del sistema de recomendación; por ejemplo, agrega embeddings de entrada personalizados y un attention mask para aislar los candidatos.

Pero esto no equivale a que X haya publicado todo el modelo del entorno de producción. En el README de Phoenix se especifica con claridad que esta liberación corresponde a una versión mini; la producción utiliza un modelo más grande, con más capas y embeddings más anchos. Además, el checkpoint público se congela como una instantánea en un punto de tiempo extraído del flujo de entrenamiento continuo, mientras que Phoenix en producción continuará entrenándose de manera continua con datos en tiempo real.

Actualización del 15 de mayo: inferencia end-to-end ejecutable, modelo mini Phoenix, sistema de mezcla de anuncios

Según las notas de actualización de GitHub, la versión del 15 de mayo añadió varios componentes clave.

Primero, el flujo de inferencia end-to-end. El nuevo phoenix/run_pipeline.py reemplaza a los scripts separados run_ranker.py y run_retrieval.py anteriores: permite encadenar el proceso de «retrieval → ranking» con una sola entrada y ejecuta checkpoints exportados para simular en qué se combinan los dos pasos del entorno de producción.

Segundo, artifacts del modelo preentrenado. El mini Phoenix model liberado esta vez se distribuye vía Git LFS; el documento afirma que contiene 256 dimensiones de embeddings, 4 heads de attention y 2 capas de transformer, con un tamaño aproximado de 3GB. Esto permite que los desarrolladores puedan hacer inferencia out-of-the-box sin tener que entrenar el modelo por su cuenta. El README de Phoenix también indica que el demo corpus público es un conjunto de datos de publicaciones sobre temas deportivos de una ventana de 6 horas, con alrededor de 537 mil registros, usado para mostrar la fase de retrieval.

Además, el repositorio también añadió un Grox content-understanding pipeline para tareas de comprensión de contenido como detección de spam, clasificación de categoría de post y enforcement de políticas PTOS; al mismo tiempo, añadió en Home Mixer el sistema de mezcla de anuncios, responsable de la inserción de anuncios en el flujo de información y de su planificación de ubicación, e incorporando el seguimiento de seguridad de marca.

El modelo de ordenamiento predice 15 tipos de interacciones, no solo una única puntuación abstracta de «relevancia»

El modelo de ordenamiento de Phoenix no se limita a devolver una sola puntuación abstracta de «relevancia»; en su lugar, predice simultáneamente la probabilidad de ocurrencia de múltiples conductas de interacción.

Según la documentación, el modelo predice probabilidades de 15 tipos de acciones, incluyendo favorite, reply, repost, quote, click, profile click, video view, photo expand, share, dwell, follow author, además de not interested, block author, mute author, report, etc.

Luego, Weighted Scorer combina estas probabilidades de interacción ponderándolas para obtener la puntuación final: las acciones positivas como dar like, repostear y compartir reciben pesos positivos; las negativas como bloquear y silenciar, o denunciar, reciben pesos negativos, empujando hacia abajo el contenido que el usuario probablemente no quiera.

Una vez calculada la puntuación del modelo, el sistema aplica otras correcciones. Por ejemplo, Author Diversity Scorer reduce la puntuación de autores repetidos para mantener la diversidad del flujo; OON Scorer ajusta el contenido out-of-network, es decir, el contenido que no proviene de cuentas seguidas.

Esto significa que el «Para ti» (For You) de X no consiste simplemente en subir las publicaciones más propensas a gustar; más bien, separa la predicción de múltiples tipos de interacción y forma el orden final mediante el diseño de pesos. También implica que el juicio de valor real del algoritmo no solo existe en el modelo en sí, sino también en diversos pesos de interacción y reglas de postprocesamiento.

Aislamiento de candidatos: la puntuación de una publicación no debería verse afectada por otras publicaciones del mismo lote

Lo más destacable de la documentación en esta ocasión es el «aislamiento de candidatos» (Candidate Isolation).

El README de Phoenix indica que, en la fase de ranking, entre publicaciones candidatas no pueden atenderse mutuamente (no pueden attend entre ellas); solo pueden prestar atención al usuario y su historial. El propósito de este diseño es asegurar que la puntuación de una sola publicación no cambie según con qué otras publicaciones se incluya en un batch. En otras palabras, la puntuación de una publicación debe depender de su relación con el usuario, no de qué publicaciones competitivas coincidan en el mismo lote.

Esto también puede tener implicaciones para los creadores. En el pasado, muchas operaciones comunitarias han supuesto que el momento de publicación debería evitar eventos populares o publicaciones con alta interacción, para que el contenido fuerte no la aplaste dentro del grupo de recomendación. Pero si se aplica el aislamiento de candidatos como describe el documento, al menos en la capa de inferencia del modelo, la puntuación de una publicación no cambiaría directamente porque, en el mismo batch, aparezcan otras publicaciones fuertes.

Sin embargo, esto no significa que el momento de publicación deje de ser importante. Porque factores de la primera fase de recuperación de candidatos, frescura del post, periodos en que el usuario está en línea, filtrado por contenido ya visto, atención competitiva por eventos populares, etc., aún pueden influir en la exposición final.

El relato de «sin características manuales» sigue generando controversia: además del ranking del modelo, aún existen reglas manuales

En el documento, xAI afirma que el sistema eliminó todas las características de diseño manual y la mayor parte de las reglas heurísticas, dependiendo principalmente de un Grok-based transformer que aprende la relevancia a partir de la secuencia de interacciones del usuario. El documento también enumera cinco diseños centrales, como características sin diseño manual, aislamiento de candidatos en la fase de ranking, embeddings tipo hashing, predicción de múltiples conductas y una arquitectura de pipeline componible.

Pero esta afirmación requiere una interpretación más precisa. Incluso en el mismo documento puede verse que, antes de entrar al ranking, el feed For You pasa por numerosos filtros de pre-scoring, como eliminar publicaciones duplicadas, posts demasiado antiguos, las publicaciones del propio usuario, cuentas bloqueadas o silenciadas, palabras clave en silencio, contenido ya visto o que apareció recientemente, y contenido de suscripción que no cumpla los criterios de elegibilidad. Después del ranking, también se aplican filtros post-selection, como eliminación adicional, detección de spam, contenido violento y sangriento, y ramas de repetición de hilos de conversación.

Por lo tanto, una descripción más precisa sería: X afirma que el «ranking de candidatos por relevancia de contenido» se obtiene principalmente mediante un Grok-based transformer que ya no depende de las características tradicionales de contenido hecho a mano; pero, en el conjunto del flujo For You, todavía hay muchas reglas de producto, filtros, pesos y mecanismos de postprocesamiento. Estas reglas también moldean el contenido final que ve el usuario.

Práctica: cómo gestionar una cuenta usando el algoritmo de X

En la práctica, si los creadores quieren «gestionar la cuenta siguiendo el algoritmo», el enfoque ya no es solo buscar likes o reposts, sino entender que el sistema For You evalúa simultáneamente múltiples señales de interacción. Las señales positivas incluyen tiempo de permanencia, clics, respuestas, reposts, seguir autores, ver videos y expandir imágenes; las señales negativas incluyen no estar interesado, silenciar, bloquear y denunciar.

Esto significa que el contenido no puede depender solo de títulos sensacionalistas para atraer clics, porque si el usuario entra y se desplaza rápido, marca «no me interesa» o incluso bloquea al autor, al final se puede degradar el rendimiento de las recomendaciones posteriores.

Para quienes administran cuentas, una estrategia más efectiva es aumentar la «calidad de interacción»: en los primeros segundos hay que captar la atención, el cuerpo del contenido debe permitir que la gente se quede leyendo, y el cierre puede diseñarse para que los lectores respondan o compartan de forma natural, en lugar de forzar la interacción. Al mismo tiempo, debido a que el sistema ajusta diversidad de autores, publicar en ráfagas densas en poco tiempo no necesariamente amplifica la exposición de forma lineal; de hecho, puede diluirse con un descuento por mismo autor. Un enfoque más razonable es controlar el ritmo de publicación para que cada contenido tenga un tema claro, suficiente densidad de información y una postura que sea fácilmente compartible.

Finalmente, recomendar contenido fuera de la plataforma significa que la cuenta no tiene que depender únicamente de los seguidores existentes: si el contenido logra que audiencias desconocidas se queden, hagan clic y realicen acciones como seguir, existe la posibilidad de que se impulse dentro de un mayor pozo de tráfico For You. Pero la condición es evitar granjas de contenido de baja calidad, contenido repetido y operaciones de controversia excesiva, porque cuando estas acciones disparan silenciamiento, bloqueo o reporte, la penalización que aplique el algoritmo suele ser más pesada que cualquier bonificación de tráfico de corto plazo.

Este artículo X publica el código fuente original del algoritmo de recomendación «For You»: guía práctica sobre cómo gestionar cuentas de Twitter usando el algoritmo. Apareció por primera vez en Cadena Noticias ABMedia.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.

Noticias relacionadas

05-16 09:40

Elon Musk afirma que Grok V9 (1,5 billones de parámetros) muestra un gran salto de rendimiento sobre V8 el 16 de mayo

05-16 02:03

X lanza una importante actualización de algoritmo con lógica Ad-Mix, 187 archivos modificados desde enero

05-15 15:01

El Grok V9 de Elon Musk completa el entrenamiento con 1,5 billones de parámetros y muestra una gran mejora de rendimiento sobre V8