Baidu ra mắt PP-OCRv6 hỗ trợ 50 ngôn ngữ, 10 triệu tham số tương đương các VLM quy mô tỷ đô

Nhóm PaddlePaddle của Baidu gần đây đã phát hành PP-OCRv6, một hệ thống OCR mới với ba phiên bản: Tiny (1,5M tham số), Small (7,7M) và Medium (34,5M). Mẫu Medium mang lại mức cải thiện 4,6% về độ chính xác phát hiện và 5,1% về độ chính xác nhận dạng so với PP-OCRv5, đồng thời tích hợp tiếng Trung, tiếng Anh, tiếng Nhật và 46 ngôn ngữ viết Latin vào một mô hình thống nhất.

Hệ thống sử dụng các kỹ thuật tái tham số hóa cấu trúc để giảm chi phí tính toán trong khi vẫn nâng cao độ chính xác. Dưới tối ưu hóa OpenVINO, phiên bản Medium đạt tốc độ suy luận CPU nhanh hơn tới 5,2 lần. Theo các benchmark chính thức, PP-OCRv6 sánh được hoặc vượt hiệu năng của một số mô hình tầm nhìn-ngôn ngữ với hàng tỷ tham số dù chỉ sử dụng vài triệu tham số. Mã nguồn đã được tích hợp vào dự án PaddleOCR mã nguồn mở.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận