Tối qua, nhà nghiên cứu đa mô hình DeepSeek, Chen Xiaokang, đã đăng một bài tweet trên X và công bố bài báo mới của DeepSeek về công nghệ đa mô hình mang tên 《Thinking with Visual Primitives》, thể hiện sự phấn khích: “Rất hào hứng ra mắt”.

Sáng nay, bài tweet đã bị xóa, bài báo trên GitHub cũng rút xuống.

Nhưng APPSO đã đọc toàn bộ nội dung trước khi nó biến mất. Sau khi đọc xong, cảm thấy việc bài báo bị rút có thể không phải vì nội dung có vấn đề.

Ngược lại, nó có thể tiết lộ quá nhiều thứ.

Ngày hôm kia, chúng tôi vừa thử nghiệm thực tế chế độ nhận diện hình ảnh của DeepSeek, để nó đếm số ngón tay, nó suy nghĩ một hồi, tự chê bai “Tôi thật sự đã đếm chóng mặt rồi”, rồi trả lời sai. Lúc đó nghĩ là do lỗi nhỏ trong giai đoạn thử nghiệm.

Bài báo này cho chúng ta thấy rằng, chuyện đếm số ngón tay chóng mặt, đằng sau ẩn chứa một giới hạn công nghệ mà GPT, Claude, Gemini đều chưa giải quyết được.

Và cách giải của DeepSeek, nói ra nghe có vẻ hơi ngớ ngẩn nhưng rất đơn giản: trang bị cho AI một ngón tay.

Trong tweet đó, Chen Xiaokang viết:

「Traditional CoT stays in the linguistic space, but visual reasoning needs more. By using points and boxes as cognitive anchors, our model bridges the Reference Gap—mimicking the “point-to-reason” synergy humans use.」

「Truyền thống CoT chỉ dừng lại trong không gian ngôn ngữ, nhưng suy luận hình ảnh cần nhiều hơn thế. Bằng cách sử dụng điểm và hộp làm mốc nhận thức, mô hình của chúng tôi bắc cầu cho ‘Khoảng cách Tham chiếu’—mô phỏng sự phối hợp ‘chỉ vào rồi suy nghĩ’ mà con người sử dụng.」

Hiểu rõ và chỉ trỏ chính xác là hai chuyện khác nhau

Hiện tại, tất cả các mô hình đa mô hình lớn làm suy luận hình ảnh đều cơ bản là chuyển đổi hình ảnh thành văn bản, rồi trong không gian văn bản thực hiện suy nghĩ. GPT-5.4, Claude-Sonnet-4.6, Gemini-3-Flash, đều theo hướng này.

Trong hai năm qua, các hướng cải tiến của OpenAI, Google, Anthropic đều tập trung vào một vấn đề: làm sao để mô hình nhìn rõ hơn. Cắt ảnh độ phân giải cao, chia nhỏ động, phóng to rồi chèn vào. DeepSeek gọi chuyện này là Perception Gap, hay còn gọi là Khoảng cách Nhận thức.

Nhưng bài báo này chỉ ra một giới hạn khác: Reference Gap, hay Khoảng cách Tham chiếu. Mô hình đã nhìn rõ, nhưng trong quá trình suy luận lại không thể chính xác chỉ vào một vật thể trong hình.

Bạn có thể hiểu đơn giản: Trong một bức tranh có 25 người đứng chen chúc, bạn dùng ngôn ngữ mô tả “người bên cạnh người mặc áo xanh ở hàng thứ ba bên trái” thì mô tả đã mơ hồ rồi. Khi đếm, mô hình cứ đếm mãi rồi quên mất ngữ cảnh, quên mất người vừa đếm là ai.

Con người giải quyết vấn đề này thế nào? Rất thô sơ: giơ ngón tay, chỉ một số.

Mô hình 284B tham số, trang bị một ngón tay

Giải pháp của DeepSeek: để mô hình trong quá trình suy nghĩ trực tiếp xuất ra tọa độ của hình ảnh.

Hãy tưởng tượng, mô hình nhìn thấy một bức tranh nhiều người, suy nghĩ của nó không còn là “tôi thấy bên trái có người mặc áo xanh”, mà là “tôi thấy người này” rồi kèm theo tọa độ hộp, khoanh vùng người đó. Mỗi khi đếm một người, nó khoanh một hộp, đếm xong thì số hộp là đủ.

Hai dạng tọa độ: một là hộp (bounding box), vẽ hình chữ nhật bao quanh vật thể, phù hợp để định vị vị trí; hai là điểm (point), chấm một vị trí trên hình, phù hợp để theo dõi đường đi hoặc đi mê cung. DeepSeek gọi hai thứ này là “nguyên thủy thị giác”, là đơn vị suy nghĩ nhỏ nhất.

Điểm đặc biệt ở đây: trước đây, mô hình xuất tọa độ như là câu trả lời cuối cùng (“đây là mục tiêu”), còn bây giờ, tọa độ đã được nhúng vào quá trình suy nghĩ. Tọa độ như là ghi chú trên giấy nháp, chứ không phải là câu trả lời trong bài thi.

Nén một bức tranh 7056 lần, vẫn có thể đếm rõ có bao nhiêu người trong đó

Mô hình nền tảng là DeepSeek-V4-Flash, một mô hình MoE 284B tham số. MoE nghĩa là: mô hình có bộ não rất lớn, nhưng mỗi lần trả lời chỉ kích hoạt một phần nhỏ các neuron, trong quá trình suy luận chỉ kích hoạt 13B tham số. Giống như một đội ngũ 100 người, mỗi nhiệm vụ chỉ cử 5 người.

Trong phần mã hóa hình ảnh, đã thực hiện nén ba cấp. Ví dụ: bạn có một bức ảnh gửi cho bạn bè, tốc độ mạng chậm. Bước một, cắt ảnh thành các ô nhỏ để dùng; bước hai, hợp nhất 9 ô nhỏ thành 1 ô (nén 3×3); bước ba, trong quá trình truyền, loại bỏ bớt thông tin thừa (KV Cache nén gấp 4 lần).

Số thực tế: một bức ảnh 756×756, 57 vạn điểm ảnh, sau nén còn lại 81 đơn vị thông tin. Tỉ lệ nén là 7.056 lần.

Điều đầu tiên tôi nghĩ đến là: chuyện này còn nhìn rõ được không? Nhưng kết quả trong bài báo cho thấy, đúng là có thể. Không chỉ nhìn rõ, còn đếm chính xác có 25 người trong đó.

So sánh: cùng là ảnh 800×800, Gemini-3-Flash tiêu tốn khoảng 1100 token để biểu diễn bức ảnh này, Claude-Sonnet-4.6 khoảng 870, GPT-5.4 khoảng 740. Trong khi DeepSeek chỉ dùng 90 đơn vị thông tin cuối cùng. Người khác dùng hơn nghìn ô để ghi nhớ một bức tranh, DeepSeek chỉ cần 90 ô, rồi phần còn lại dành cho “chỉ vào”.

Làm thế nào để có thể tích trữ 40 triệu dữ liệu huấn luyện

DeepSeek lấy tất cả các bộ dữ liệu có nhãn “phát hiện mục tiêu” trên Huggingface và các nền tảng khác, sau sơ tuyển thu được 97.984 nguồn dữ liệu.

Sau đó, thực hiện hai vòng lọc.

Vòng một, kiểm tra chất lượng nhãn. Dùng AI tự động kiểm duyệt ba loại vấn đề: nhãn là số vô nghĩa (tên loại là “0”, “1”), nhãn là thực thể cá nhân (“MyRoommate”), nhãn là viết tắt mơ hồ (“OK”, “NG” trong kiểm tra công nghiệp, một quả táo “OK” khác với một bo mạch “OK”). Lượt này loại bỏ 56%, còn lại 43.141.

Vòng hai, kiểm tra chất lượng của hộp. Ba tiêu chuẩn: bỏ những dữ liệu bị bỏ sót quá nhiều (đánh dấu một nửa rồi bỏ), hộp bị lệch quá nhiều so với vật thể (cắt mất một nửa vật thể), hộp quá lớn bao trùm toàn bộ hình (chứng tỏ dữ liệu gốc là phân loại hình ảnh chuyển sang dạng phát hiện mục tiêu mà không định vị). Lượt này loại tiếp 27%, còn 31.701.

Cuối cùng, theo loại, lấy mẫu, loại trùng lặp, ra hơn 40 triệu mẫu dữ liệu chất lượng cao.

DeepSeek chọn làm lớn dữ liệu hộp, dữ liệu điểm sẽ bổ sung sau. Lý do đơn giản: AI đánh dấu hộp, câu trả lời gần như duy nhất (vừa khung vừa bao quanh vật thể); còn đánh dấu điểm thì vị trí nào cũng đúng, không có câu trả lời chính xác duy nhất, tín hiệu huấn luyện quá mơ hồ. Hơn nữa, hộp chứa hai điểm (góc trên trái và dưới phải), học vẽ hộp rồi đánh dấu điểm là thao tác giảm chiều.

Làm thế nào để dạy mô hình “chỉ vào” (chỉ trỏ)

Chiến lược sau huấn luyện là “đầu tiên huấn luyện riêng, rồi hợp nhất”.

DeepSeek đầu tiên huấn luyện một mô hình chuyên vẽ hộp, sau đó huấn luyện một mô hình chuyên đánh dấu điểm. Việc huấn luyện riêng vì dữ liệu còn chưa đủ lớn, hai khả năng này nếu trộn chung dễ gây nhiễu.

Sau đó, hai mô hình này được tăng cường học bằng học tăng cường. Làm sao để đánh giá mô hình “vẽ đúng hộp” hoặc “đi đúng đường”? DeepSeek thiết kế một hệ thống chấm điểm đa chiều: đúng định dạng (cấu trúc tọa độ đúng chưa), hợp lý logic (quá trình suy nghĩ có mâu thuẫn không), chính xác kết quả (kết quả cuối cùng sai bao nhiêu so với chuẩn).

Dữ liệu huấn luyện tăng cường cũng có quy tắc: để mô hình làm N lần cùng một câu hỏi, tất cả đúng thì quá dễ, không có ý nghĩa huấn luyện, tất cả sai thì quá khó, không học được gì. Chỉ giữ lại những câu có đúng có sai để huấn luyện.

Bước cuối cùng, hợp nhất khả năng của hai chuyên gia thành một mô hình duy nhất. Cách làm là: để mô hình chung theo dõi hai chuyên gia, học theo kết quả của chúng, giống như một học sinh học cùng lúc hai môn khác nhau.

Sau khi có ngón tay, nó sẽ đếm thế nào

Đếm 25 người

Cho mô hình một bức ảnh đội bóng, hỏi: “Trong ảnh có bao nhiêu người?”

Quy trình suy nghĩ: đầu tiên xác định “đây là ảnh nhóm, cần đếm tất cả mọi người, bao gồm cầu thủ và huấn luyện viên”. Sau đó, xuất ra 25 hộp tọa độ, mỗi người một hộp. Rồi đếm theo thứ tự: hàng trước có 4 người + hàng giữa có 9 người + hàng sau có 8 người + 2 huấn luyện viên bên trái + 2 huấn luyện viên bên phải = 25.

“Trong ảnh có mấy con gấu trên mặt đất?”

Trong ảnh có 3 con gấu. Mô hình lần lượt vẽ hộp cho từng con, xác định vị trí: con thứ nhất, leo trèo trên thân cây, bỏ qua; con thứ hai, đi dọc mép đá, tính; con thứ ba, giữa mảnh gỗ vụn và đất bùn, tính. Kết quả: 2 con.

Không phải đếm rồi trừ đi một con, mà là kiểm tra từng con xem có ở trên mặt đất không, mỗi lần đều có tọa độ xác định rõ ràng. Nó thực sự kiểm tra từng con, chứ không phải đoán mò.

Lập luận không gian nhiều bước

Trong một cảnh 3D có nhiều hình dạng hình học màu sắc khác nhau. Câu hỏi: “Liệu có một vật thể cao su màu tím giống như vật thể kim loại xám không?”

Mô hình đầu tiên khoanh vùng vật thể kim loại xám nhỏ trong cảnh, xác nhận đó là vật nhỏ. Sau đó, lần lượt khoanh vùng các vật nhỏ khác trong cảnh: trụ kim loại nâu, hộp kim loại xanh, hộp cao su xanh, trụ cao su vàng… Sáu vật thể, kiểm tra từng thuộc tính: màu sắc, chất liệu, kích thước. Kết luận: không có vật nào màu tím cao su.

Sáu lần định vị, sáu lần đánh giá. Mỗi bước đều có tọa độ, không xảy ra chuyện “chờ đã, vừa rồi kiểm tra đâu rồi”.

Các ví dụ trong bài báo:

Dẫn đường mê cung: người khác tung đồng xu, DeepSeek thực sự đang tìm kiếm

Bài báo thử nghiệm bốn nhiệm vụ, trong đó mê cung là cách xa nhất.

Nhiệm vụ rất đơn giản: cho một bức ảnh mê cung, hỏi có đường từ điểm xuất phát đến đích không, nếu có thì vẽ ra. Mê cung có ba dạng hình dạng: ô vuông, vòng tròn, tổ ong.

Mô hình đi mê cung giống như bạn nhỏ vẽ trên giấy: chọn một ngã rẽ đi đến cuối, không đi được thì lùi lại thử ngã khác. Khác ở chỗ, mỗi bước đi đều đánh dấu một điểm tọa độ trên hình, để lại dấu vết.

Trong bài báo, có một quá trình hoàn chỉnh của mê cung hình tròn: mô hình xác định vị trí xuất phát và đích, rồi bắt đầu khám phá. Sau 18 bước, đi vào hai ngõ cụt rồi lùi ra, cuối cùng tìm ra một lối đi, nối các điểm tọa độ của toàn bộ đường đi thành chuỗi.

DeepSeek còn thiết kế một loạt mê cung có bẫy: trông có vẻ có lối đi, nhưng thực ra đoạn giữa bị chặn kín. Loại mê cung này đòi hỏi kiên nhẫn, mô hình không thể chỉ nhìn gần điểm xuất phát mà kết luận, phải thử tất cả các đường có thể mới xác nhận không đi được.

Tỷ lệ chính xác:

DeepSeek: 66.9%
GPT-5.4: 50.6%
Claude-Sonnet-4.6: 48.9%
Gemini-3-Flash: 49.4%
Qwen3-VL: 49.6%

Chỉ có hai đáp án cho mê cung: có đường hoặc không có đường. Đoán ngẫu nhiên đúng 50%. GPT, Claude, Gemini, Qwen đều quanh mức 50%, giống như tung đồng xu. DeepSeek 66.9% không cao lắm, nhưng thực sự đang đi từng bước, không phải đoán mò.

Theo dõi đường đi: phiên bản cực đoan của trò chơi “bắt lỗi”

Nhiệm vụ này trực quan hơn: một đám dây nối với nhau, mỗi dây từ một điểm đánh dấu đến điểm khác. Hình dạng dây như dây tai nghe trong túi của bạn, hình ảnh chính là như vậy. Câu hỏi: “Dây C này dẫn đến điểm cuối nào?”

Mô hình sẽ theo dây đó xuất ra các điểm tọa độ, giống như chỉ tay trên giấy. Những đoạn cong thì điểm dày hơn, đoạn thẳng thì điểm thưa hơn. Khi con người theo dõi dây bằng mắt, cũng làm như vậy, ở đoạn cong thì chậm lại, đoạn thẳng thì lướt qua.

Bài báo còn thêm một thử nghiệm khó hơn: tất cả các dây đều có màu sắc và độ dày giống nhau. Không thể dựa vào màu để phân biệt dây nào, chỉ còn dựa vào tính liên tục của đường cong để xác định chỗ giao nhau, theo đó chọn dây nào để theo.

DeepSeek: 56.7%
GPT-5.4: 46.5%
Claude-Sonnet-4.6: 30.6%
Gemini-3-Flash: 41.4%

Kết quả của Claude là hơi bất ngờ. Thông thường, có khoảng 4-5 lựa chọn cho điểm cuối, đoán ngẫu nhiên cũng hơn 20%, mà nó chỉ đạt 30.6%, chỉ hơn chút so với đoán mò. Có thể trong các nhiệm vụ theo không gian thuần túy này, khả năng suy luận ngôn ngữ lại gây trở ngại.

Làm thế nào để dạy AI đi mê cung mà không gian lận

Huấn luyện mê cung có một vấn đề thực tế: nếu chỉ dựa vào việc đúng sai cuối cùng để cho điểm, mô hình sẽ nhanh chóng học được cách chơi, và thay vì cố gắng tìm đường, nó cứ đoán đại, vì đoán sai hay đúng đều điểm 0.

Giải pháp của DeepSeek là tính cả quá trình. Mỗi bước khám phá hợp lệ đều được thưởng điểm, đi xuyên tường bị trừ điểm, đi xa hơn thì điểm cao hơn. Dù cuối cùng không đến đích, chỉ cần đã tìm kiếm cẩn thận phần lớn khu vực, vẫn có thể đạt điểm khá. Như vậy, mô hình không còn động lực lười biếng nữa.

Các mê cung không thể giải được còn đòi hỏi cao hơn: không chỉ nói “không có đường”, còn phải chứng minh đã đi hết tất cả các chỗ có thể đi được. Phủ sóng tìm kiếm cũng tính điểm.

Một chút thú vị, ba hạn chế

Dữ liệu huấn luyện sau này không có tiếng Trung. Nhưng mô hình vẫn có thể dùng tiếng Trung để suy luận nguyên thủy thị giác.

Cho nó một bức ảnh máy pha cà phê, hỏi “làm thế nào để pha latte”, nó sẽ dùng tiếng Trung đánh dấu vị trí của vòi hơi, bình sữa, hạt cà phê, nút latte, rồi đưa ra các bước thao tác. Khả năng đa ngôn ngữ này là từ mô hình nền kế thừa, huấn luyện nguyên thủy thị giác không làm mất đi.

Nó còn có thể kết hợp kiến thức thế giới và hình ảnh: cho một bức ảnh cầu Cổng Vàng, hỏi “Trong khu vực này có đội bóng NBA không?”, nó sẽ khoanh vùng cầu Cổng Vàng, suy ra đây là San Francisco, rồi trả lời đội Golden State Warriors.

Có thể hiểu được sự hài hước: một mặt cắt của trái cây, các vết đố tự nhiên trông giống mặt mèo u sầu, mô hình có thể chỉ ra điểm tương đồng và giải thích vì sao vui.

Có thể hướng dẫn thoát khỏi phòng bí mật: khoanh vùng chìa khóa trên cao, ghế trên sàn, cửa có khóa, đề xuất “đưa ghế dưới chìa khóa → đứng lên lấy chìa → mở cửa”.

Bài báo rất trung thực về những việc hiện tại chưa làm được.

Giới hạn về độ phân giải đầu vào. ViT chỉ xuất ra từ 81 đến 384 đơn vị thông tin hình ảnh, gặp các cảnh rất chi tiết (như đếm ngón tay), độ chính xác tọa độ còn chưa đủ. Có thể chính là lý do thất bại trong thử nghiệm đếm ngón tay hôm kia.

Hiện tại, cần có từ khóa kích hoạt đặc biệt để kích hoạt chế độ nguyên thủy thị giác. Mô hình vẫn chưa tự quyết định “tôi nên giơ ngón tay làm bài này”, cần có người nhắc.

Khả năng tổng quát của suy luận topo còn hạn chế. Hiệu quả tốt trên các loại mê cung đã huấn luyện, sang loại mới với cấu trúc không gian khác thì có thể thất bại. Chen Xiaokang trong tweet đã nói:

「Chúng tôi vẫn đang trong giai đoạn sơ khai; khả năng tổng quát trong các nhiệm vụ suy luận topo phức tạp chưa hoàn thiện, nhưng chúng tôi cam kết sẽ tiếp tục nghiên cứu.」

「Chúng tôi vẫn còn trong giai đoạn đầu; khả năng tổng quát trong các nhiệm vụ suy luận topo phức tạp chưa hoàn thiện, nhưng chúng tôi cam kết sẽ giải quyết.」

Trong thử nghiệm thực tế hôm kia, các khả năng của chế độ nhận diện của DeepSeek (hỏi về danh tính người đăng bài, liên tưởng ý nghĩa logo cá voi, tự sửa lỗi, tổ chức “hội nghị nhỏ”) đều phù hợp với cách suy nghĩ được mô tả trong bài báo này. Nó xây dựng các mốc thị giác trong đầu, dựa vào đó để suy luận, khi gặp mâu thuẫn thì quay lại sửa.

Và chuyện đếm chóng mặt chính là minh chứng sống của Reference Gap. Trong cảnh đếm ngón tay chồng chéo, dựa hoàn toàn vào mô tả ngôn ngữ để phân biệt “ngón thứ ba từ trái” hay “ngón thứ hai từ phải”, giống như bạn không giơ tay đếm đám người chen chúc, tất nhiên sẽ rối rắm.

Hướng đi mà bài báo này chỉ ra là: bước tiếp theo của suy luận đa mô hình chính là cơ chế định vị. DeepSeek chỉ dùng 90 đơn vị thông tin đã đạt hiệu quả như người khác dùng hàng nghìn token, tiết kiệm phần tính toán rồi dành ra để “vừa nghĩ vừa chỉ”.

Cuộc đua về độ phân giải có thể tạm dừng lại, dạy mô hình giơ ngón tay còn hiệu quả hơn là trang bị cho nó một cặp kính đắt tiền hơn.

Sau khi con cá voi này mở mắt, còn mọc thêm cả ngón tay. Tỉ lệ chính xác trong mê cung 66.9% còn xa mới đạt tới mức hoàn hảo, nhưng ít nhất nó đang đi đúng hướng, không giống như mấy người bên cạnh đang tung đồng xu.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
WCTCTradingKingPK
427.62K Phổ biến
#
USSeeksStrategicBitcoinReserve
58.67M Phổ biến
#
IsraelStrikesIranBTCPlunges
37.16K Phổ biến
#
BitcoinETFOptionLimitQuadruples
972.31K Phổ biến
#
#FedHoldsRateButDividesDeepen
29.43K Phổ biến

Ghim

sơ đồ trang web

DeepSeek liên tục xóa bài báo mới trong đêm cuối cùng nói về điều gì

Chủ đề thịnh hành

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Ghim