Na noite passada, o pesquisador de multimodalidade da DeepSeek, Chen Xiaokang, postou um tweet no X e divulgou um novo artigo da DeepSeek sobre tecnologia multimodal, intitulado "Thinking with Visual Primitives", dizendo que estava "Animado para lançar".Hoje de manhã, o tweet foi apagado, e o artigo no GitHub também foi removido.Mas a APPSO leu o artigo completo antes de ele desaparecer. Depois de ler, achou que o motivo da retirada do artigo talvez não fosse por problemas no conteúdo.Pelo contrário, pode ter revelado demais.Na véspera, acabamos de testar o modo de reconhecimento de imagens da DeepSeek, fazendo com que ela contasse os dedos, ela pensou um pouco, reclamou "Estou realmente confuso com a contagem", e depois errou. Na época, achamos que era um problema pequeno na fase de testes iniciais.Este artigo nos mostra que a confusão ao contar dedos, por trás

金色财经_

2026-05-01 05:08:28

Ontem à noite, o pesquisador de multimodalidade DeepSeek Chen Xiaokang postou um tweet no X e divulgou um novo artigo da DeepSeek sobre tecnologia multimodal, intitulado 《Thinking with Visual Primitives》, dizendo que estava “Empolgado para lançar”.

Hoje de manhã, o tweet foi apagado, e o artigo no GitHub também foi removido.

Mas a APPSO leu o artigo completo antes de ele desaparecer. Depois de ler, achou que o motivo da retirada talvez não fosse por problemas de conteúdo.

Pelo contrário, pode ter revelado demais.

Na véspera, testamos a modo de reconhecimento de imagem do DeepSeek, fazendo-o contar dedos, ele pensou um pouco, reclamou “Estou ficando tonto de tanto contar”, e errou a resposta. Na época, achamos que era um problema menor na fase de testes iniciais.

Este artigo nos mostra que o cansaço ao contar dedos, por trás, esconde um gargalo técnico que GPT, Claude, Gemini ainda não resolveram.

E a solução proposta pela DeepSeek é quase uma resposta simples e até um pouco cômica: colocar um dedo na IA.

Chen Xiaokang escreveu no tweet:

「Traditional CoT stays in the linguistic space, but visual reasoning needs more. By using points and boxes as cognitive anchors, our model bridges the Reference Gap—mimicking the “point-to-reason” synergy humans use.」

「A cadeia de raciocínio tradicional fica no espaço linguístico, mas o raciocínio visual precisa de mais. Usando pontos e caixas como âncoras cognitivas, nosso modelo preenche a Lacuna de Referência—imitando a sinergia “apontar e raciocinar” que os humanos usam.」

Ver claramente e apontar com precisão são duas coisas diferentes

Atualmente, todos os grandes modelos multimodais para raciocínio de imagem, na essência, transformam a cena visual em texto, e depois fazem raciocínio na espaço textual. GPT-5.4, Claude-Sonnet-4.6, Gemini-3-Flash, todos seguem esse caminho.

Nos últimos dois anos, as melhorias da OpenAI, Google, Anthropic focaram em uma questão: como fazer o modelo enxergar melhor. Cortes de alta resolução, blocos dinâmicos, ampliar a imagem e inserir de novo. A DeepSeek chama isso de Perception Gap, a Lacuna de Percepção.

Porém, este artigo aponta para outro gargalo: Reference Gap, a Lacuna de Referência. O modelo consegue ver claramente, mas durante o raciocínio não consegue apontar com precisão um elemento na imagem.

Você pode entender assim: numa imagem com 25 pessoas aglomeradas, descrever “a pessoa ao lado do terceiro da esquerda na camiseta azul” já é vago. Ao contar, o modelo perde o contexto, esquece quem acabou de contar.

Como os humanos resolvem isso? Bem primitivo: estender o dedo, apontar um por um.

Um modelo de 284 bilhões de parâmetros, com um dedo colocado.

A solução da DeepSeek: fazer o modelo, durante o raciocínio, gerar diretamente as coordenadas na imagem.

Imagine: o modelo vê uma cena com muitas pessoas, seu raciocínio não é mais “vejo uma pessoa de camiseta azul à esquerda”, mas “vejo essa pessoa” e anexa uma coordenada de caixa ao redor dela. Cada pessoa é cercada por uma caixa, e ao contar, basta contar as caixas.

Duas formas de coordenadas: uma é a caixa delimitadora (bounding box), que envolve o objeto com um retângulo, ideal para marcar posições; a outra é o ponto (point), que marca uma posição específica na imagem, útil para rastreamento de trajetórias ou labirintos. A DeepSeek chama essas duas coisas de “primitivas visuais”, as menores unidades de raciocínio.

Mudança fundamental aqui: antes, o modelo gerava coordenadas como resposta final (“o alvo está aqui”), agora as coordenadas estão embutidas no processo de raciocínio. São marcas no rascunho, não a resposta final.

Compactar uma imagem em 7056 vezes, ainda assim conseguir contar com precisão quantas pessoas há dentro

A base do modelo é o DeepSeek-V4-Flash, um modelo MoE com 284 bilhões de parâmetros. MoE significa: o cérebro do modelo é grande, mas a cada resposta, só uma pequena parte dos neurônios é ativada, com apenas 13 bilhões de parâmetros em uso durante o raciocínio. Como uma equipe de cem pessoas, onde só cinco trabalham por tarefa.

Na codificação visual, há uma compressão em três níveis. Por exemplo: você tem uma foto para enviar a um amigo, a internet está lenta. Primeiro, divide a foto em pequenos quadrados; segundo, combina 9 desses quadrados em um só (compressão 3×3); terceiro, durante a transmissão, remove redundâncias adicionais (KV Cache com compressão 4 vezes).

Dados reais: uma imagem de 756×756 pixels, com 570 mil pixels, ao passar por esse processo, vira 81 unidades de informação. Compressão de 7.056 vezes.

Minha primeira reação ao ver esse número foi: ainda dá para enxergar alguma coisa? Mas os resultados do artigo mostram que sim. Não só dá para ver claramente, como também contar exatamente 25 pessoas na imagem.

Comparando: uma imagem de 800×800, Gemini-3-Flash usa cerca de 1100 tokens para representar, Claude-Sonnet-4.6 cerca de 870, GPT-5.4 cerca de 740. Já o DeepSeek, na fase final de cálculo, usa apenas 90 unidades de informação. Enquanto outros usam mais de mil quadrados para memorizar uma imagem, o DeepSeek consegue com 90, e o restante do poder de cálculo é dedicado a “apontar”.

Como o modelo consegue montar esse número de dados de 400 milhões de exemplos

A DeepSeek coletou todos os conjuntos de dados com a etiqueta “detecção de objetos” disponíveis na Huggingface e plataformas similares, resultando em 97.984 fontes de dados.

Depois, passou por duas rodadas de filtragem.

Primeira rodada: verificar a qualidade das etiquetas. Usou IA para revisar automaticamente três problemas: etiquetas que são apenas números sem significado (como “0”, “1” como nomes de categorias), etiquetas de entidades pessoais (“MyRoommate”), abreviações ambíguas (“OK”, “NG” na inspeção industrial, onde uma maçã “OK” é diferente de uma placa de circuito “OK”). Essa etapa eliminou 56%, sobrando 43.141.

Segunda rodada: verificar a qualidade das caixas delimitadoras. Três critérios: muitas caixas incompletas (metade do objeto não marcada), caixas tortas que cortam metade do objeto, caixas que cobrem toda a imagem (indica que os dados originais eram de classificação de imagem, não detecção). Mais 27% eliminados, sobrando 31.701.

Por fim, amostrando por categoria, removendo duplicatas, gerou mais de 40 milhões de amostras de alta qualidade.

A DeepSeek optou por fazer a maior parte dos dados com caixas, e depois preencher com pontos. Por quê? Simples: marcar uma caixa é quase uma resposta única (cercar exatamente o objeto); marcar um ponto, qualquer ponto no objeto é válido, sem resposta única, o que torna o sinal de treinamento mais vago. Além disso, uma caixa contém dois pontos (canto superior esquerdo e inferior direito), aprender a desenhar caixas é uma operação de redução de dimensionalidade ao marcar pontos.

Como ensinar o modelo a usar o “apontar”

A estratégia pós-treinamento é “treinar separadamente, depois juntar”.

Primeiro, treina um modelo especialista em desenhar caixas, usando os dados de caixas. Depois, treina outro especialista em marcar pontos, usando os dados de pontos. Separar o treinamento porque o volume de dados ainda é limitado, e misturar as duas habilidades pode causar interferência.

Depois, realiza reforço de aprendizagem em cada especialista. Como avaliar se o modelo “desenhou a caixa certa” ou “seguiu o caminho correto”? A DeepSeek criou um sistema de avaliação multidimensional: formato (a coordenada está correta?), lógica (o raciocínio faz sentido?), precisão (o resultado final bate com a resposta padrão?).

A seleção de dados para reforço também é cuidadosa: faz o modelo tentar várias vezes a mesma questão, só as questões que ele acerta e erra um pouco são úteis para treinar. Questões que ele acerta todas ou erra todas são pouco produtivas.

Por fim, combina as habilidades dos dois especialistas em um único modelo. Como? Fazendo o modelo geral aprender a partir das saídas dos dois, como um estudante que estuda duas disciplinas diferentes com dois professores.

Depois de dar o dedo ao modelo, como ele conta

Contando 25 pessoas

Dá uma foto de uma equipe de futebol e pergunta: “Quantas pessoas há na imagem?”

Processo de raciocínio: primeiro, determinar “é uma foto de equipe, então deve contar todos, incluindo jogadores e treinadores”. Depois, o modelo gera 25 caixas coordenadas de uma vez, cercando cada pessoa. Então, faz a contagem: 4 na frente, 9 no meio, 8 atrás, 2 treinadores à esquerda, 2 treinadores à direita, totalizando 25.

“Quantas ursos estão no chão?”

Na imagem, há três ursos. O modelo desenha uma caixa ao redor de cada um e avalia a posição: o primeiro, escalando na árvore, é excluído; o segundo, caminhando na borda de uma rocha, conta; o terceiro, entre galhos e terra, também conta. Resposta: 2 ursos.

Não é contar inicialmente três e depois subtrair um, mas avaliar individualmente se cada um está no chão, com coordenadas específicas para cada avaliação. Ele realmente verifica um por um, não adivinha.

Raciocínio espacial em múltiplas etapas

Num cenário 3D, há várias formas geométricas coloridas. Pergunta: “Existe um objeto de borracha roxo do mesmo tamanho de um objeto de metal cinza?”

O modelo primeiro delimita o objeto de metal cinza, confirmando que é pequeno. Depois, delimita cada outro objeto pequeno na cena: cilindro metálico marrom, cubo metálico azul, cubo de borracha azul, cilindro de borracha amarelo… verificando atributos de cor, material e tamanho um a um. Conclusão: não há borracha roxa de tamanho semelhante.

Seis localizações, seis avaliações. Cada uma com coordenadas, sem perder o ponto de referência.

Mais exemplos do artigo:

Navegação em labirinto: outros jogam moeda, o DeepSeek realmente busca

O artigo testou quatro tarefas, o labirinto foi a mais desafiadora.

A tarefa é direta: dada uma imagem de um labirinto, perguntar se há caminho do início ao fim, e se sim, desenhar o caminho. Os labirintos podem ser de três formas: quadrados, anéis, colmeias.

O método do modelo é como você fazia na infância com lápis no papel: escolher um caminho, seguir até o fim, se não der, voltar e tentar outro. A diferença é que ele marca um ponto de coordenada a cada passo, deixando um registro.

Mostram um processo completo de um labirinto circular: o modelo marca o início e o fim, depois explora. Depois de 18 passos, entra em becos sem saída duas vezes, volta, e finalmente encontra uma rota, conectando os pontos de coordenada ao longo do caminho.

O DeepSeek também criou labirintos com armadilhas: parecem ter caminho, mas uma parte está escondida e bloqueada. Esses testes exigem paciência, o modelo não pode apenas olhar para perto do início e concluir, precisa testar todas as possibilidades para confirmar que não há saída.

Precisão comparativa:

DeepSeek: 66,9%
GPT-5.4: 50,6%
Claude-Sonnet-4.6: 48,9%
Gemini-3-Flash: 49,4%
Qwen3-VL: 49,6%

Para esses labirintos, há duas respostas possíveis: há caminho ou não há. Adivinhar aleatoriamente dá 50%. GPT, Claude, Gemini, Qwen ficam próximos disso, como jogar moeda. O DeepSeek, com 66,9%, realmente está caminhando passo a passo, não apenas chutando.

Rastreamento de caminho: a versão definitiva de “caça ao erro”

Essa tarefa é mais direta: várias linhas entrelaçadas, cada uma conectando um ponto a outro. Como a sua linha de fone de ouvido na sua mão, a imagem é assim. A questão: para onde vai a linha C?

O método do modelo é seguir a linha, gerando coordenadas como se estivesse passando o dedo na superfície. curvas acentuadas têm pontos densos, segmentos retos, menos. Assim como nossos olhos, que desaceleram nas curvas e passam rápido nas retas.

O artigo também adicionou uma versão mais difícil: todas as linhas têm a mesma cor e espessura. Não dá para distinguir por cor, só pelo padrão de curvas, para decidir qual seguir na interseção.

DeepSeek: 56,7%
GPT-5.4: 46,5%
Claude-Sonnet-4.6: 30,6%
Gemini-3-Flash: 41,4%

O 30,6% do Claude é surpreendente. Normalmente, há quatro ou cinco opções de destino, chute aleatório daria pouco mais de 20%. Então, 30,6% é só um pouco melhor que o acaso. Talvez, para tarefas puramente espaciais, a inércia do raciocínio em linguagem atrapalhe.

Como ensinar a IA a navegar no labirinto sem trapacear

O treinamento de labirintos tem um problema real: se só avaliar se acerta ou erra, o modelo aprende rápido a fazer a resposta certa, mas, ao invés de procurar, só chuta, pois tanto faz se erra ou acerta, a pontuação é a mesma.

A solução da DeepSeek é incluir o processo na pontuação. Cada passo válido ganha pontos, atravessar paredes perde pontos, quanto mais longe chegar, melhor. Mesmo que não chegue ao fim, se explorar bem a maior parte, consegue uma boa nota. Assim, o modelo não tem incentivo a trapacear.

Para labirintos impossíveis, a exigência é maior: não basta dizer “não há saída”, tem que provar que explorou todas as possibilidades acessíveis. Cobertura da busca também conta pontos.

Um detalhe extra, com três limitações

Os dados de pós-treinamento não incluem chinês, mas o modelo consegue usar o chinês como primitiva visual.

Mostram uma foto de uma máquina de café, perguntam em chinês “como fazer um latte”, e ele marca em chinês a posição do tubo de vapor, da jarra de leite, do grão de café, do botão do latte, e ainda fornece passos de operação. A capacidade multilíngue vem do modelo base, o treinamento de primitivas visuais não a destruiu.

Ele também consegue combinar visão com conhecimento geral: uma foto da ponte Golden Gate, perguntam “há times da NBA por perto?”, e ele primeiro delimita a ponte, deduz que é São Francisco, e responde que o Golden State Warriors joga lá.

Entende humor: uma mancha natural na fatia de fruta forma uma cara de gato triste, e o modelo consegue apontar onde está a semelhança e explicar por que é engraçado.

Pode orientar em salas de fuga: delimitar a chave no alto, a cadeira no chão, a porta trancada, e sugerir: “mova a cadeira sob a chave → suba nela para pegar a chave → use para abrir a porta”.

O artigo admite honestamente o que ainda não consegue fazer.

A resolução de entrada é limitada. O ViT gera entre 81 e 384 unidades de informação visual, e em cenas muito detalhadas (como contar dedos), a precisão das coordenadas ainda não é suficiente. Essa foi a causa direta do erro na leitura de dedos na última medição.

Atualmente, é preciso uma palavra-chave específica para ativar o modo de primitivas visuais. O modelo ainda não consegue decidir sozinho “devo apontar o dedo nesta questão”, precisa de alguém para lembrá-lo.

A generalização do raciocínio topológico é limitada. Funciona bem em tipos de labirintos treinados, mas em novas estruturas espaciais, pode falhar. Chen Xiaokang também comentou na tweet deletada:

「We’re still in the early stages; generalization in complex topological reasoning tasks isn’t perfect yet, but we’re committed to solving it.」

「Ainda estamos na fase inicial; a generalização em tarefas complexas de raciocínio topológico ainda não é perfeita, mas estamos dedicados a resolver isso.」

Na última medição, as habilidades de reconhecimento de imagem do DeepSeek (investigar a identidade do autor, inferir o significado do logotipo da baleia, autocorreção, fazer uma “mini defesa”) estão alinhadas com a abordagem de raciocínio descrita neste artigo. Ele constrói âncoras visuais na mente, raciocina ao redor delas, e volta atrás ao encontrar contradições.

E o cansaço ao contar dedos é uma demonstração viva da Reference Gap. Em uma cena com dedos cruzados, distinguir “o terceiro da esquerda” de “o segundo da direita” só por descrição verbal é tão confuso quanto contar uma multidão sem usar os dedos.

A direção apontada por este artigo é: o próximo passo na evolução do raciocínio multimodal é na mecânica de ancoragem. O DeepSeek, com 90 unidades de informação, consegue o mesmo que outros com milhares de tokens, economizando poder de cálculo para “pensar e apontar ao mesmo tempo”.

A corrida por resolução de alta definição pode desacelerar. Ensinar o modelo a estender o dedo é mais eficaz do que equipá-lo com óculos mais caros.

Depois que essa baleia abriu os olhos, ela também começou a ter dedos. A precisão de 66,9% na leitura de labirintos ainda está longe da perfeição, mas pelo menos ela está realmente caminhando, diferente de alguns ao lado que só jogam moeda.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
WCTCTradingKingPK
431.59K Popularidade
#
USSeeksStrategicBitcoinReserve
58.68M Popularidade
#
IsraelStrikesIranBTCPlunges
37.16K Popularidade
#
BitcoinETFOptionLimitQuadruples
974.87K Popularidade
#
#FedHoldsRateButDividesDeepen
29.67K Popularidade

Marcar

sitemap

Sobre o que realmente tratam os novos artigos que a DeepSeek deletou durante a noite

Tendências

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Marcar