DeepSeek lança o Modo de Visão com framework de Primitivas Visuais para raciocínio espacial

De acordo com o monitoramento da Beating, a DeepSeek lançou oficialmente o Vision Mode nas plataformas web e de aplicativos, com análise profunda de cenas, raciocínio espacial e a capacidade de converter diretamente capturas de tela da interface em código estruturado em HTML.

A nova capacidade de visão é construída sobre o framework de pesquisa da DeepSeek de “Thinking with Visual Primitives”, co-desenvolvido com pesquisadores da Peking University e da Tsinghua University. A abordagem subjacente trata das lacunas de raciocínio espacial em modelos atuais de linguagem visual ao tratar pontos de coordenadas e caixas delimitadoras como unidades centrais de pensamento, permitindo que o modelo realize raciocínio visual com referência espacial integrada durante a inferência. O artigo acadêmico base foi disponibilizado por um breve período em 30 de abril, mas foi retirado pela DeepSeek em 1º de maio. O Vision Mode atualmente oferece suporte apenas a entrada de imagens, sem suporte a vídeo ou áudio, e não tem recursos de geração de imagens.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários