DeepSeek Meluncurkan Mode Vision dengan Framework Visual Primitives untuk Penalaran Spasial

DEEPSEEK-5,30%

Menurut Beating monitoring, DeepSeek secara resmi telah meluncurkan Vision Mode di platform web dan aplikasi, dengan fitur analisis deep scene, penalaran spasial, serta kemampuan mengonversi tangkapan layar UI langsung menjadi kode terstruktur HTML.

Kemampuan visi baru ini dibangun di atas kerangka riset DeepSeek berjudul "Thinking with Visual Primitives", yang dikembangkan bersama peneliti dari Peking University dan Tsinghua University. Pendekatan yang mendasarinya mengatasi celah penalaran spasial pada model bahasa visual yang ada dengan memperlakukan titik koordinat dan bounding box sebagai unit pemikiran inti, sehingga model dapat melakukan penalaran visual dengan referensi spasial yang terintegrasi selama inferensi. Makalah akademis dasar sempat dirilis singkat pada 30 April tetapi kemudian ditarik oleh DeepSeek pada 1 Mei. Vision Mode saat ini hanya mendukung input gambar, tanpa dukungan video atau audio, serta tidak memiliki kemampuan pembuatan gambar.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar