百度は、50言語対応のPP-OCRv6をリリースし、パラメータ数1000万規模が10億級のVLMに匹敵する

百度のPaddlePaddleチームは最近、PP-OCRv6という新しいOCRシステムをリリースしました。3つのバージョンがあり、それぞれTiny(1.5Mパラメータ)、Small(7.7M)、Medium(34.5M)です。Mediumモデルは、PP-OCRv5と比べて検出精度を4.6%向上させ、認識精度を5.1%向上させると同時に、中国語、英語、日本語、そして46のラテン文字言語を単一の統一モデルに統合しています。

このシステムは、計算オーバーヘッドを削減しながら精度を高める構造的な再パラメータ化手法を採用しています。OpenVINOの最適化のもとでは、Mediumバージョンは最大で5.2倍の高速なCPU推論速度を実現します。公式ベンチマークによると、PP-OCRv6は、数億パラメータ規模の一部のビジョン言語モデルの性能に匹敵、またはそれを上回る一方で、使用しているのは数百万パラメータのみです。コードはオープンソースのPaddleOCRプロジェクトに統合されています。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし