Mirajōva Vechi dùng AI để tạo ra “dự án điểm tối đa”? Nhà phát triển thử nghiệm thực tế: có thực sự đáng giá hay chỉ là thổi phồng, PR gây sốt?

Hệ thống trí nhớ AI MemPalace do Milla Jovovich tham gia phát triển đã tuyên bố đạt điểm tuyệt đối trong quá trình thử nghiệm và vì thế bỗng trở nên nổi tiếng, nhưng cộng đồng nhanh chóng “đá” và nghi ngờ rằng việc thử nghiệm có dấu hiệu gian lận và dữ liệu bị gây hiểu nhầm. Qua kiểm chứng thực tế cho thấy hiệu quả được thổi phồng và có rất nhiều lỗi; nhóm phát triển đã thừa nhận các thiếu sót và đang trong quá trình khắc phục.

Milla Jovovich tạo “cung điện trí nhớ” AI, thu hút sự chú ý từ bên ngoài

Hôm qua (4/7), giới AI có một tin lớn: nữ diễn viên Hollywood nổi tiếng nhờ 《Resident Evil》 và 《The Fifth Element》 là Milla Jovovich (Milla Jovovich), cùng với nhà phát triển Ben Sigman dùng Claude Code hỗ trợ phát triển hệ thống trí nhớ AI mã nguồn mở “MemPalace”.

Trong lúc đó, những lời nói “ngôi sao Hollywood bậc nhất làm một dự án điểm tuyệt đối khi lấn sân sang lĩnh vực khác” đã lan truyền rộng rãi. Đến nay, MemPalace trên GitHub cũng đã nhận được hơn 20.000 lượt sao, nhưng rất nhanh đã khiến cộng đồng nhà phát triển đặt câu hỏi: Có thật là có năng lực hay chỉ là chiêu trò quảng bá?

Trước hết, hãy nói về động cơ ra đời của MemPalace. Tài liệu chính thức cho biết họ muốn giải quyết tình trạng nội dung hội thoại của người dùng với AI, quá trình ra quyết định và việc thảo luận kiến trúc thường biến mất sau khi kết thúc phiên làm việc, dẫn đến giới hạn khiến hàng tháng công sức phải “xóa sạch”.

Để giải quyết vấn đề này, MemPalace sử dụng kiến trúc không gian để lưu trí nhớ: phân loại thông tin một cách rõ ràng vào các cánh tương ứng với nhân sự hoặc dự án, cũng như các cấu trúc khác nhau như hành lang, phòng và ngăn kéo, đồng thời giữ nguyên nội dung hội thoại để phục vụ việc truy xuất ngữ nghĩa về sau.

Nhóm phát triển tuyên bố rằng, MemPalace đã đạt 100% điểm tuyệt đối trong bộ tiêu chí đánh giá trí nhớ dài hạn LongMemEval, và đạt tỷ lệ chính xác 96,6% mà không cần gọi bất kỳ API bên ngoài nào, đồng thời có thể chạy hoàn toàn trên máy cục bộ, không cần đăng ký dịch vụ đám mây, và được trang bị hệ thống phương ngữ AAAK được cho là có thể nén không tổn thất lên tới 30 lần.

Nguồn ảnh: GitHub Nữ minh tinh Hollywood Milla Jovovich tạo “cung điện trí nhớ” AI, thu hút sự chú ý từ bên ngoài

Đồng nghiệp và cộng đồng đồng loạt chất vấn, thử nghiệm và quảng bá có nhiều điểm sai

Tuy nhiên, thành tích “điểm tuyệt đối” trong LongMemEval mà MemPalace công bố đã nhanh chóng kéo theo sự nghi ngờ từ đồng nghiệp.

PenfieldLabs, công ty cũng đang phát triển hệ thống trí nhớ AI, chỉ ra rằng MemPalace tuyên bố đạt điểm tuyệt đối trong bộ dữ liệu LoCoMo là điều không thể xảy ra về mặt toán học, vì đáp án chuẩn của chính bộ dữ liệu đó vốn đã bao gồm 99 lỗi.

Sau khi phân tích, PenfieldLabs phát hiện rằng thành tích 100% của MemPalace đến từ việc đặt số lần truy xuất là 50 lần, nhưng số lượng bước cấp cao nhất của hội thoại trong tập thử nghiệm chỉ có tối đa 32 lần, điều này có nghĩa là hệ thống đã trực tiếp vượt qua giai đoạn truy xuất, đưa toàn bộ dữ liệu cho mô hình AI đọc.

Đối với thành tích 100% của LongMemEval, nhóm phát triển bị phát hiện đã nhắm vào 3 vấn đề cụ thể mà họ mắc lỗi trong quá trình phát triển tập trung, viết mã sửa chữa riêng cho chúng, và tồn tại nghi ngờ rằng việc đó nhắm tới gian lận trên tập thử nghiệm.

Nguồn ảnh: Reddit PenfieldLabs – đồng nghiệp chỉ ra rằng MemPalace tuyên bố đạt điểm tuyệt đối trong bộ dữ liệu LoCoMo là điều không thể xảy ra về mặt toán học

Người dùng GitHub kiểm chứng thực tế, bài benchmark có yếu tố gây hiểu nhầm

Người dùng GitHub hugooconnor thì sau khi kiểm chứng thực tế đã bình luận rằng: MemPalace tuyên bố có tỷ lệ chính xác truy xuất cao tới 96,6%, nhưng thực tế hoàn toàn không hề sử dụng kiến trúc “cung điện trí nhớ” mà MemPalace quảng bá. hugooconnor cho biết thử nghiệm của họ chỉ đơn giản là gọi chức năng mặc định của cơ sở dữ liệu tầng dưới ChromaDB, hoàn toàn không liên quan đến logic phân loại theo các “cánh”, “phòng” hay “ngăn kéo” như dự án nhấn mạnh.

Sau khi thử nghiệm, hugooconnor phát hiện rằng khi hệ thống thật sự bật logic phân loại độc quyền của các cung điện trí nhớ này thì thành tích truy xuất lại bị suy giảm. Ví dụ, ở chế độ phòng, độ chính xác giảm xuống 89,4%; và sau khi bật công nghệ nén AAAK thì độ chính xác còn giảm xuống 84,2%, cả hai đều thấp hơn so với hiệu suất của cơ sở dữ liệu mặc định.

hugooconnor cũng chỉ trích phương pháp thử nghiệm: môi trường thử nghiệm của MemPalace cố ý thu hẹp phạm vi truy xuất của mỗi câu hỏi chỉ còn khoảng 50 bước hội thoại, việc tìm đáp án trong một kho mẫu cực nhỏ như vậy sẽ quá dễ dàng.

Nếu mở rộng phạm vi lên hơn 19.000 bước hội thoại trong bối cảnh thực tế, thì độ chính xác của tìm kiếm bằng từ khóa truyền thống sẽ rơi xuống chỉ còn 30%, cho thấy cách thử nghiệm hiện tại của MemPalace đang che đậy bài toán tìm kiếm thực sự khó khăn như thế nào.

Nguồn ảnh: GitHub GitHub – người dùng kiểm chứng thực tế cho thấy bài benchmark của MemPalace có yếu tố gây hiểu nhầm

Đồng thời, dù nhóm phát triển đã công bố tuyên bố đính chính, thừa nhận rằng kỹ thuật AAAK đúng là đã được xác thực là nén có tổn thất, và cam kết sẽ chỉnh sửa tài liệu mô tả cũng như thiết kế hệ thống theo những phê bình gắt gao của cộng đồng. Tuy nhiên, tài liệu mô tả chính của dự án vẫn giữ nhiều tuyên bố thổi phồng chưa được sửa, bao gồm việc khẳng định “nén không tổn thất 30 lần” và “tăng 34% trong truy xuất”, đồng thời các biểu đồ so sánh với đối thủ khác cũng hoàn toàn không có nguồn xuất xứ.

Mã nguồn gốc của MemPalace đối mặt với nhiều lỗi (Bug)

Khi ngày càng nhiều nhà phát triển tải thử nghiệm về, trên GitHub bắt đầu xuất hiện hàng loạt báo cáo lỗi liên quan tới mã nguồn của MemPalace.

Người dùng cktang88 liệt kê nhiều khiếm khuyết nghiêm trọng, bao gồm lệnh nén không chạy được và gây sập hệ thống, lỗi trong logic tính toán số lượng từ của bản tóm tắt, thống kê khai quật phòng không chính xác, và việc máy chủ mỗi lần được gọi sẽ tải toàn bộ dữ liệu diễn giải vào bộ nhớ, gây ra vấn đề tiêu tốn tài nguyên nghiêm trọng.

Các vấn đề khác cũng được chỉ ra, chẳng hạn như hệ thống tự động ghi cứng tên thành viên gia đình của nhà phát triển vào cấu hình mặc định, và có giới hạn hiển thị bắt buộc là tối đa 10.000 mục dữ liệu khi xem trạng thái truy vấn.

Trước các vấn đề này, cộng đồng mã nguồn mở đã bắt đầu tích cực sửa chữa. Người dùng adv3nt3 đã gửi nhiềuyêu cầusửa lỗi, bao gồm việc sửa thống kê khai quật, xóa tên thành viên gia đình mặc định, và trì hoãn thời gian khởi tạo tri thức đồ thị (knowledge graph).** Nhóm phát triển sau đó cũng thừa nhận các lỗi này và đang cùng cộng tác với cộng đồng để dần giải quyết các vấn đề của mã nguồn.

Milla Jovovich Vibe Coding rất ngầu, cách marketing thì không ngầu

Đối với dự án MemPalace, một người dùng Hacker News là darkhanakh đã đưa ra kết luận: MemPalace tạo cảm giác giống hệt OpenClaw, tức là thao túng kết quả benchmark một cách nhân tạo để nó trông như hoàn hảo vô khuyết, rồi sau đó đóng gói nó thành một “bước đột phá trọng đại” để đi marketing.

Anh ấy cho rằng, công nghệ nền tảng của MemPalace có thể thực sự khá thú vị, nhưng trong bối cảnh phương pháp thử nghiệm có những điểm sai kiểu đó, lại còn rêu rao “điểm cao nhất từng công khai” để quảng cáo thì thực sự không ổn lắm, “Tuy nhiên, chuyện Milla Jovovich đang chơi Vibe Coding này, tôi nghĩ vẫn khá ngầu.”

Đọc thêm:
AI viết code gặp sự cố! Ứng dụng “Người săn đồ sắp hết hạn” của quầy tạp hóa bùng nổ vấn đề an toàn dữ liệu, GPS trong nhà phơi trần toàn bộ

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Karpathy tiết lộ: Phương pháp hoàn chỉnh để xây dựng một kho kiến thức cá nhân bằng LLM

Thành viên nhóm sáng lập OpenAI, cựu giám đốc AI của Tesla Andrej Karpathy đã đăng trên X về quy trình làm việc “LLM Knowledge Bases” và giải thích rằng gần đây ông đã chuyển khối lượng token lớn từ “điều khiển mã nguồn” sang “điều khiển tri thức” — dùng LLM để gom các bài báo, bài viết, thư mục, hình ảnh rải rác lại thành một wiki cá nhân được tự động duy trì. Toàn bộ quy trình đã được ông tích lũy trong các dự án nghiên cứu của chính mình với ~100 bài viết, ~400 nghìn từ, và xuyên suốt được LLM viết và cập nhật. Bài viết này tổng hợp toàn bộ phần setup của Karpathy, kèm một checklist có thể thực thi cho các nhà phát triển muốn tự sao chép. Ý tưởng cốt lõi: dữ liệu thô → LLM biên dịch → wiki → Q&A Triết lý thiết kế của Karpathy có thể cô đọng thành một

ChainNewsAbmedia5giờ trước

Công ty quản lý quỹ Bitcoin K Wave Media đảm bảo nhận tới $485M để xây dựng hạ tầng AI

Theo ChainCatcher, công ty kho bạc bitcoin niêm yết trên Nasdaq là K Wave Media đã công bố vào ngày 4/5 một bước chuyển chiến lược sang hạ tầng AI, huy động được hỗ trợ vốn lên tới 485 triệu USD cho các khoản đầu tư trung tâm dữ liệu, dịch vụ cho thuê GPU, cùng các thương vụ mua lại và hợp tác về hạ tầng AI. Công ty

GateNews6giờ trước

Antimatter khởi động kế hoạch trung tâm dữ liệu AI với khoản tài trợ 300 triệu EUR

Antimatter, một công ty hạ tầng đám mây có trụ sở tại Pháp cho các tác vụ AI, đã ra mắt vào ngày 4/5 bằng cách hợp nhất ba công ty hiện có: Datafactory, Policloud và Hivenet. Công ty đang huy động 300 triệu euro (351 triệu USD) để triển khai 100 đơn vị trung tâm dữ liệu vi mô vào năm 2026 cho AI suy luận

CryptoFrontier8giờ trước

Bộ Giáo dục “Thư viện nào cũng có AI”: Thư viện miễn phí dùng ChatGPT, Claude! Xem ngay thời gian và địa điểm áp dụng

Bộ Giáo dục thúc đẩy sáng kiến “Thư viện có AI (館館有 AI)”. Từ quý 4 năm nay, tại các thư viện quốc gia như Thư viện Quốc gia sẽ bố trí mỗi thư viện 5 máy tính AI; người dân chỉ cần sử dụng thẻ mượn sách có thể dùng miễn phí các công cụ như ChatGPT, Claude, Gemini… nhằm thu hẹp khoảng cách AI vốn phải trả phí, đồng thời mở rộng ra 47 thư viện đại học quốc gia. Kinh phí do chính các trường tự huy động hoặc xin hỗ trợ; đồng thời cần vượt qua các thách thức như thời gian sử dụng, quản lý tài khoản, quyền riêng tư và vấn đề cấp phép.

ChainNewsAbmedia9giờ trước

Kinh tế học người mẫu ảo do AI tạo ra: phân tích 4 hệ thống Markdown của Aitana, Emily

AI người mẫu ảo từ thử nghiệm chủ đề đã phát triển thành một thực thể kinh doanh tạo ra thu nhập mỗi tháng lên tới vài chục nghìn đô la Mỹ, toàn bộ kỹ thuật stack trong 18 tháng đã nhanh chóng trưởng thành. Bài viết này tổng hợp 3 trường hợp điển hình: Aitana López thuộc The Clueless (Barcelona, thu nhập tháng €10.000), Emily Pellegrini do một tác giả ẩn danh tạo dựng (thu nhập mỗi tuần khoảng 1 vạn đô la Mỹ), và “Maya” gần đây lan truyền trên nền tảng X—một nữ sinh/ sinh viên bang Texas được cho là đã xây dựng một nhân cách ảo AI bằng 4 tệp markdown, và tháng đầu tiên mang về 43.000 đô la Mỹ trên tài khoản OnlyFans. Aitana López: Người mẫu ảo do The Clueless sở hữu, thu nhập tháng cao nhất €10.000 Aitana López là người…

ChainNewsAbmedia11giờ trước

TipTip đạt lợi nhuận EBITDA khi AI thúc đẩy mảng bán vé giải trí

Nền tảng giải trí và trải nghiệm của Indonesia TipTip đã công bố vào ngày 4/5 rằng công ty đạt trạng thái có lãi EBITDA trên toàn hệ thống vào đầu năm 2026, nhờ kiểm soát chi phí, cải thiện kinh tế đơn vị và quan hệ hợp tác với nhà đầu tư dẫn dắt East Ventures. Tăng trưởng vé giải trí TipTip's entertainment t

CryptoFrontier13giờ trước
Bình luận
0/400
Không có bình luận