Das PaddlePaddle-Team von Baidu hat kürzlich PP-OCRv6 veröffentlicht, ein neues OCR-System mit drei Versionen: Tiny (1,5 Millionen Parameter), Small (7,7 Millionen) und Medium (34,5 Millionen). Das Medium-Modell bietet 4,6% bessere Erkennungsgenauigkeit und 5,1% höhere Erkennungsgenauigkeit bei der Erkennung im Vergleich zu PP-OCRv5, während es Chinesisch, Englisch, Japanisch und 46 lateinbasierte Schriftsysteme in einem einzigen, einheitlichen Modell zusammenführt.
Das System nutzt strukturelle Re-Parameterisierungstechniken, um den Rechenaufwand zu senken und gleichzeitig die Genauigkeit zu steigern. Unter OpenVINO-Optimierung erreicht die Medium-Version eine bis zu 5,2-mal schnellere CPU-Inferenzgeschwindigkeit. Laut offiziellen Benchmarks entspricht PP-OCRv6 der Leistung oder übertrifft sie sogar bei einigen Vision-Language-Modellen im Wert von mehreren Milliarden Parametern, obwohl es nur im Bereich von Millionen Parametern nutzt. Der Code wurde in das Open-Source-Projekt PaddleOCR integriert.