DeepSeekは、空間認識のための視覚プリミティブ・フレームワークを伴うビジョン・モードをローンチしました

Beatingのモニタリングによると、DeepSeekはWebおよびアプリの両方のプラットフォームでVisionモードを公式にローンチし、ディープなシーン分析、空間推論、そしてUIのスクリーンショットを直接HTML構造化コードへ変換できる機能を備えています。

新しいビジョン機能は、北京大学および清華大学の研究者と共同で開発されたDeepSeekの研究フレームワーク「Thinking with Visual Primitives」に基づいて構築されています。基盤となるアプローチは、座標点やバウンディングボックスを中核の思考ユニットとして扱うことで、既存の視覚言語モデルにおける空間推論の不足に対処し、推論中に空間的な参照を統合した状態でモデルが視覚推論を行えるようにします。基礎となる学術論文は4月30日に短期間公開されましたが、5月1日にDeepSeekによって撤回されました。Visionモードは現在、画像入力のみをサポートしており、動画や音声は対応しておらず、画像生成機能も備えていません。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし