X publica o código-fonte original do algoritmo de recomendações “For You”: um guia prático de como operar contas no Twitter usando algoritmos

ChainNewsAbmedia

Elon Musk anunciou no dia 15 de maio, no X, que o algoritmo mais recente do X foi disponibilizado no GitHub. De acordo com o repositório xai-org/x-algorithm publicado no GitHub pela xAI, o foco do lançamento desta vez é o sistema de recomendação central que impulsiona o feed “For You” da plataforma X. O sistema combina conteúdo dentro do app dos perfis que o usuário já segue com conteúdo fora do app extraído por aprendizado de máquina de um banco global de conteúdo e, por fim, entrega tudo a um modelo transformer baseado em Grok para ordenação.

O projeto usa licença Apache 2.0, sendo escrito principalmente em Rust e Python; até o momento da consulta, o GitHub mostrava cerca de 21 mil stars e 3.800 forks.

For You: arquitetura de recomendação — Thunder busca conteúdo seguido; Phoenix busca conteúdo fora da rede

Conforme a documentação do repositório, o feed For You do X é composto principalmente por duas fontes de conteúdo candidatas.

A primeira é conteúdo dentro do app, que fica a cargo do módulo Thunder. O Thunder é um armazenamento de posts em memória e um pipeline de captação de dados em tempo real: ele consome eventos de criação e exclusão de posts a partir do Kafka, acompanha os posts recentes de todos os usuários e fornece ao solicitante candidatos de conteúdo vindos das contas que ele segue. A documentação destaca que o Thunder consegue consultar candidatos de conteúdo dentro do app em nível de microssegundos, sem precisar consultar bancos de dados externos.

A segunda é conteúdo fora da rede, sob responsabilidade do Phoenix Retrieval. O Phoenix procura no banco global de conteúdo posts que o usuário pode se interessar, mas que não vêm das contas seguidas. A etapa de recuperação usa um modelo de duas torres (Two-Tower Model): a User Tower codifica características do usuário e histórico de interações em vetores; a Candidate Tower codifica os posts candidatos em vetores; depois, a similaridade por produto interno encontra os conteúdos mais relevantes.

Essas candidatas entram no Home Mixer, que é a camada de coordenação do feed For You. O Home Mixer fica responsável por consultar contexto do usuário, obter conteúdo candidato, completar dados de post e autor, filtrar conteúdos inadequados, chamar o modelo de ordenação, aplicar ajustes de pontuação e, por fim, escolher quais posts serão exibidos na página For You do usuário. A documentação também informa que o Home Mixer expõe externamente um endpoint gRPC chamado ScoredPostsService, usado para retornar posts já ordenados para um usuário específico.

A arquitetura Grok como núcleo do sistema de recomendação

O ponto mais observado desta vez é o fato de o sistema de recomendação do X introduzir explicitamente Grok.

O README do GitHub afirma que o conteúdo do feed For You será ordenado pelo Phoenix; e o Phoenix é um modelo transformer baseado em Grok que prevê a probabilidade de cada post gerar interações e, em seguida, combina essas previsões com ponderações para formar a pontuação final. O documento também registra que a implementação transformer neste repositório foi adaptada a partir do Grok-1 de código aberto da xAI e ajustada para o cenário de recomendação, por exemplo adicionando embeddings de entrada personalizados e uma attention mask para isolar candidatos.

Mas isso não significa que o X tenha divulgado totalmente os modelos do ambiente de produção. O Phoenix README deixa claro que o que foi lançado é uma versão mini; a produção usa um modelo maior, com mais camadas e embeddings mais amplos. Além disso, o checkpoint público é um snapshot congelado em um momento específico do processo de treino contínuo, enquanto o Phoenix em produção seguirá sendo treinado continuamente com dados em tempo real.

Atualização de 15 de maio: inferência executável ponta a ponta, modelo mini Phoenix, sistema de mistura de anúncios

Conforme as notas de atualização do GitHub, a versão de 15 de maio adicionou vários componentes-chave.

Primeiro, o fluxo de inferência ponta a ponta. O novo phoenix/run_pipeline.py substitui os anteriores run_ranker.py e run_retrieval.py separados: agora dá para usar uma única entrada para encadear o processo “recuperação → ordenação”, executando por exported checkpoints e simulando como os dois estágios são combinados no ambiente de produção.

Segundo, os artefatos do modelo pré-treinado. O mini Phoenix model lançado foi disponibilizado via Git LFS. A documentação diz que ele inclui 256 dimensões de embeddings, 4 attention heads e 2 camadas de transformer, com cerca de 3GB, permitindo que desenvolvedores façam inference out-of-the-box sem precisar treinar o modelo por conta própria. O Phoenix README também aponta que o demo corpus público é um conjunto de dados de posts sobre temas esportivos em uma janela de cerca de 6 horas, com aproximadamente 537 mil registros, usado para demonstrar a fase de retrieval.

Além disso, o repositório também adicionou um pipeline Grox content-understanding para tarefas de compreensão de conteúdo como detecção de spam, classificação de categoria do post e enforcement de políticas PTOS. Ao mesmo tempo, foi adicionado ao Home Mixer um sistema de mistura de anúncios, responsável por inserir anúncios e definir posições no feed, incluindo também o acompanhamento de segurança de marca.

Modelo de ordenação prevê 15 tipos de interações por vez, não apenas uma única pontuação abstrata de “relevância”

O modelo de ordenação do Phoenix não apenas gera uma única pontuação abstrata de “relevância”; ele prevê, ao mesmo tempo, probabilidades de ocorrência de múltiplos comportamentos de interação.

Conforme o documento, o modelo prevê 15 tipos de ações, incluindo favorite, reply, repost, quote, click, profile click, video view, photo expand, share, dwell, follow author, e também not interested, block author, mute author, report.

Em seguida, o Weighted Scorer combina essas probabilidades de interação com ponderações para formar a pontuação final: ações positivas como curtir, repostar e compartilhar recebem peso positivo; ações negativas como bloquear, silenciar e denunciar recebem peso negativo, reduzindo a prioridade do conteúdo que o usuário provavelmente não vai gostar.

Após a pontuação do modelo, o sistema ainda aplica outros ajustes. Por exemplo, o Author Diversity Scorer reduz a pontuação de autores repetidos para manter a diversidade do feed; já o OON Scorer ajusta o conteúdo out-of-network — isto é, conteúdo que não vem de contas seguidas.

Isso significa que o “For You” do X não é apenas empilhar os posts mais prováveis de serem curtidos para cima. Em vez disso, ele separa a previsão de vários tipos de comportamento de interação e forma a ordenação final por meio do desenho de pesos. Isso também sugere que o julgamento de valor do algoritmo não existe só no modelo em si; ele está também distribuído nos pesos de interação e nas regras de pós-processamento.

Isolamento de candidatos: a pontuação do post não deve ser influenciada por outros posts no mesmo lote

Um detalhe especialmente importante na documentação é o “Candidate Isolation”.

O Phoenix README indica que, na etapa de ranking, os posts candidatos não podem se atentar entre si; eles só podem prestar atenção ao usuário e ao histórico dele. O objetivo dessa decisão é garantir que a pontuação de um post individual não mude dependendo de quais outros posts competem e entram no batch junto com ele. Em outras palavras, a pontuação de um post deve depender da relação entre ele e o usuário, e não do conjunto de posts concorrentes que por acaso aparece no mesmo lote.

Isso pode ter implicações para criadores. No passado, muitas operações de comunidades faziam suposições de que o horário de postagem poderia precisar evitar eventos populares ou posts com alta interação para não ser suplantado no pool de recomendação. Mas se o Candidate Isolation funcionar como descrito, então ao menos no nível de inferência do modelo, a pontuação de um post não deve mudar diretamente só porque outros posts fortes apareceram no mesmo batch.

No entanto, isso não quer dizer que o horário de postagem seja totalmente irrelevante. Porque, na prática, fatores da fase anterior como recuperação de candidatos, frescor do post, horários em que o usuário está online, filtros para conteúdo já visto, atenção competitiva de eventos em alta, ainda podem afetar a exposição final.

A narrativa “sem atributos humanos” ainda gera controvérsia: além da ordenação do modelo, continuam existindo regras manuais

Nos documentos, a xAI afirma que o sistema elimina todos os atributos de design humano e a maior parte das regras heurísticas, confiando principalmente no Grok-based transformer para aprender relevância a partir da sequência de interações do usuário. O documento também lista cinco itens de projeto centrais: ausência de atributos manuais, isolamentos de candidatos na fase de ordenação, embeddings por hash, múltiplas previsões de comportamento e arquitetura de pipeline combinável.

Mas essa afirmação precisa ser interpretada com mais precisão. Também é possível ver no mesmo documento que, antes de entrar na ordenação, o feed For You passa por muitos filtros de pre-scoring, como remover posts duplicados, posts muito antigos, posts do próprio usuário, contas bloqueadas ou silenciadas, palavras-chave silenciadas, conteúdo já visto ou que apareceu recentemente, e conteúdo de assinantes que não atende aos requisitos. Depois da ordenação, ainda há filtros de post-selection, incluindo remoções, spam, conteúdos de violência e conteúdo de teor gráfico, e remoção de ramificações duplicadas em conversas.

Portanto, uma formulação mais precisa seria: o X diz que a “ordenação de candidatos de relevância de conteúdo” é aprendida principalmente pelo Grok-based transformer e já não depende de atributos tradicionais manuais de conteúdo; porém, o feed For You como um todo ainda tem muitas regras de produto, filtros, mecanismos de ponderação e pós-processamento. Essas regras também moldam o conteúdo final que o usuário vê.

Aula prática: como usar o algoritmo do X para gerenciar uma conta

Na prática, se criadores querem “competir com o algoritmo” para gerenciar uma conta no X, o ponto não é mais apenas buscar curtidas ou repostagens; é entender que o sistema For You avalia simultaneamente múltiplos sinais de interação. Sinais positivos incluem tempo de permanência (dwell), cliques, respostas, repostagens, seguir autores, assistir a vídeos e expandir imagens. Sinais negativos incluem não ter interesse, silenciar, bloquear e denunciar.

Isso significa que o conteúdo não pode depender apenas de títulos chamativos para atrair cliques, porque se o usuário entrar e sair rapidamente deslizando, apertar “não tenho interesse” ou até bloquear o autor, isso pode derrubar o desempenho das recomendações subsequentes.

Para quem gerencia contas, uma estratégia mais efetiva é aumentar a “qualidade de interação”: a abertura precisa capturar a atenção nos primeiros segundos, o corpo do texto deve permitir que as pessoas fiquem lendo e o final pode ser desenhado para fazer o leitor responder ou compartilhar naturalmente, em vez de induzir interações à força. Ao mesmo tempo, como o sistema aplica ajustes de diversidade de autores, postar em alta frequência em pouco tempo talvez não amplifique exposição de modo linear; em vez disso, pode ser que você seja rebaixado pelo mesmo autor e tenha a diluição do alcance. O mais razoável é controlar o ritmo de postagem para que cada conteúdo tenha um tema claro, densidade de informação suficiente e uma posição que possa ser compartilhada.

Por fim, a recomendação de conteúdo fora da rede significa que a conta não precisa depender apenas de seguidores já existentes: desde que o conteúdo faça públicos desconhecidos permanecerem, clicarem e seguirem, existe chance de ser empurrado para um pool maior de tráfego do For You. Mas o pré-requisito é evitar textos de baixa qualidade em “fazenda”, conteúdo repetido e operações excessivamente controversas, porque quando essas ações provocam silenciamento, bloqueio ou denúncias, a punição que o algoritmo aplica costuma ser mais pesada do que o “bônus” de tráfego de curto prazo.

Este artigo traz o código-fonte original do algoritmo de recomendação “For You” publicado pelo X: um tutorial prático de como usar o algoritmo para gerenciar uma conta no Twitter. Aparece pela primeira vez em Cadeia Notícias ABMedia.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários