DeepSeek Ra mắt Chế độ Vision với Framework Primitives Trực quan để Tư duy Không gian

Theo nền tảng giám sát Beating, DeepSeek đã chính thức ra mắt Vision Mode trên cả hai nền tảng web và ứng dụng, với các tính năng phân tích cảnh sâu, suy luận không gian và khả năng chuyển trực tiếp ảnh chụp màn hình giao diện người dùng thành mã HTML có cấu trúc.

Khả năng tầm nhìn mới được xây dựng dựa trên khung nghiên cứu của DeepSeek mang tên “Thinking with Visual Primitives”, được đồng phát triển với các nhà nghiên cứu từ Đại học Bắc Kinh và Đại học Thanh Hoa. Cách tiếp cận nền tảng này giải quyết các khoảng trống về suy luận không gian trong các mô hình ngôn ngữ thị giác hiện có bằng cách coi các điểm tọa độ và các hộp giới hạn là các đơn vị tư duy cốt lõi, giúp mô hình có thể thực hiện suy luận thị giác với tham chiếu không gian được tích hợp trong quá trình suy luận (inference). Bài báo học thuật nền tảng đã được phát hành tạm thời vào ngày 30 tháng 4 nhưng sau đó DeepSeek rút lại vào ngày 1 tháng 5. Vision Mode hiện chỉ hỗ trợ đầu vào là hình ảnh, không hỗ trợ video hoặc âm thanh, và không có khả năng tạo ảnh.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận