我看到了一個相當有趣的動向。Moondream似乎推出了一項專門用於提升視覺語言模型(VLM)精度的新服務「Lens」。這是在上週4月21日的事情。



到目前為止,VLM在實驗室內表現優秀,但在實際應用場景中,精度卻大幅下降,這一直是個問題。Lens正是為了解決這個問題而推出的微調服務,支持強化學習和有監督微調兩種方式。它是採用計量付費的API,用戶可以根據需求使用。

令人驚訝的是,它能用少量資料就實現大幅改善。舉例來說,將其應用於NBA直播影像分析,F1分數從28%飆升到79%。誤檢率也大幅降低。

在街景圖像辨識國家、醫療影像處理等任務中,也展現出超越現有模型的性能。這讓人感覺視覺語言模型的實用化又向前邁進了一步。

Moondream的早期合作夥伴PTZOptics計畫將這個Lens整合進來,以提升目標追蹤和異常偵測的精度。之前,Moondream也推出過Photon推論引擎,而Lens則是補足它的部分,旨在兼顧VLM運作的速度與精度。

用技術來解決實際應用中的挑戰。這樣的穩扎穩打的改進,或許正是VLM全面普及的關鍵所在。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆