Ai đã xây dựng một 'Huyền Thoại Lý Thuyết' mã nguồn mở để Phân Tích Ngược AI Nguy Hiểm Nhất của Anthropic

Tóm tắt ngắn gọn

  • OpenMythos là một sự tái tạo từ đầu của kiến trúc Mythos của Claude, chỉ dựa trên các bài nghiên cứu công khai và những giả định có căn cứ.
  • Claude Mythos là mô hình mạnh nhất của Anthropic, bị giữ kín trong Dự án Glasswing vì nó tự phát hiện ra 271 lỗ hổng Firefox và các cuộc tấn công mạng 32 bước.
  • Repo là khung lý thuyết—mã không có trọng số đã huấn luyện. Nó phản ánh một nỗ lực riêng của Vidoc Security đã tái tạo các phát hiện về lỗ hổng của Mythos bằng các mô hình sẵn có.

Nếu Anthropic không muốn cho bạn thấy bên trong AI nguy hiểm nhất của họ, ai đó trên GitHub sẽ đoán. Một nhà phát triển tên là Kye Gomez đã xuất bản OpenMythos, một bản tái tạo mã nguồn mở về những gì anh ta nghĩ Mythos của Claude trông như thế nào bên trong. Repo đã nhận hơn 10.000 sao trên GitHub trong vài tuần sau khi ra mắt, và đi kèm một tệp “readme” đầy các phương trình, trích dẫn, và một lời từ chối lịch sự rằng nó không liên quan gì đến Anthropic. Đây là giả thuyết. Nhưng đó là giả thuyết có cấu trúc, trong mã. Dưới đây là một bài nhắc lại nhanh về Mythos: Mythos bị rò rỉ ra công chúng vào cuối tháng Ba, khi Anthropic vô tình công bố các tài liệu dự thảo mô tả nó như mô hình mạnh nhất của công ty cho đến nay—cao hơn Opus. Phần tiếp theo, Mythos Preview, hóa ra lại quá tốt để phát hành về an ninh mạng.

 Theo Anthropic, Mythos đã tìm ra 271 lỗ hổng trong Firefox trong quá trình thử nghiệm của Mozilla. Nó trở thành mô hình AI đầu tiên hoàn thành một mô phỏng tấn công mạng doanh nghiệp gồm 32 bước. Anthropic đã khóa nó trong Dự án Glasswing, một liên minh gồm khoảng 40 đối tác đã được xác thực, bao gồm Microsoft, Apple, Amazon, và NSA. Công chúng không bao giờ được tiếp xúc với nó. Vì vậy Gomez cố gắng tìm hiểu cách nó hoạt động. Giả thuyết trung tâm của OpenMythos là Mythos là một Transformer Độ Sâu Lặp lại—còn gọi là transformer vòng lặp. Các mô hình tiêu chuẩn xếp chồng hàng trăm lớp riêng biệt. Các mô hình vòng lặp lấy một stack nhỏ hơn và chạy qua chính nó nhiều lần trong mỗi lần truyền.

Nói cách khác, cùng một trọng số đi qua nhiều vòng lặp hơn. Suy nghĩ sâu hơn, trong không gian tiềm ẩn liên tục, trước khi bất kỳ token nào được phát ra. Repo lập luận rằng điều này sẽ giải thích hai đặc điểm kỳ lạ nhất của Mythos: Nó suy luận qua các vấn đề mới mà các mô hình khác không thể giải quyết, nhưng khả năng ghi nhớ thô của nó không đều. Đó là dấu vết kiến trúc của vòng lặp—sự kết hợp hơn là lưu trữ. OpenMythos trích dẫn Parcae, một bài báo tháng 4 năm 2026 từ Đại học California San Diego và Together AI đã giải quyết vấn đề bất ổn lâu dài trong các mô hình vòng lặp—một mô hình Parcae 770 triệu tham số phù hợp với một transformer cố định độ sâu 1,3 tỷ về chất lượng, với các quy luật mở rộng dự đoán được về số vòng lặp cần chạy. Repo cũng mượn Multi-Latent Attention của DeepSeek để nén bộ nhớ, và một cấu hình Mixture-of-Experts để xử lý phạm vi rộng trong các lĩnh vực. Điều mà nó không có là trọng số, về cơ bản là một kỹ thuật không có người thực thi. OpenMythos là lý thuyết. Mã định nghĩa các biến thể mô hình từ 1 tỷ đến 1 nghìn tỷ tham số, nhưng bạn phải huấn luyện chúng riêng—tệp readme chỉ ra một kịch bản huấn luyện 3 tỷ tham số trên FineWeb-Edu và mục tiêu 30 tỷ token đã điều chỉnh theo Chinchilla, đó là loại chi phí tính toán có thể lên đến hàng trăm nghìn đô la trên H100. Chưa ai làm điều đó. Vậy tại sao điều này lại quan trọng? Bởi vì đây là lần thứ hai trong một tháng có ai đó đã chọc thủng bức tường quanh Mythos. Lần đầu là một nghiên cứu của Vidoc Security, đã tái tạo một số phát hiện về lỗ hổng đáng báo động nhất của Mythos bằng GPT-5.4 và Claude Opus 4.6 trong một tác nhân mã nguồn mở. Không có quyền truy cập Glasswing, và với chi phí dưới 30 đô la mỗi lần quét. Góc nhìn khác, kết luận giống nhau: Rào chắn quanh Mythos có thể mỏng hơn những gì marketing đã đề xuất. OpenMythos và bản sao của Vidoc đang làm các công việc khác nhau. Vidoc đã tái tạo các đầu ra của Mythos—chính các phát hiện về lỗ hổng—bằng các mô hình hiện có. OpenMythos cố gắng tái tạo kiến trúc—chính chiếc máy tạo ra các đầu ra đó. Một bên nói bạn không cần Mythos để tìm ra các lỗi Mythos đã phát hiện. Bên kia nói, cuối cùng, bạn có thể tự xây dựng thứ gì đó giống Mythos. Anthropic gần như chắc chắn không chia sẻ các giả thuyết kiến trúc của Gomez công khai, và nhiều lựa chọn thiết kế trong OpenMythos là các biện pháp phòng ngừa rõ ràng—tệp readme đảm bảo đủ mơ hồ để người dùng hiểu đây chỉ là một phương pháp. Nó lặp lại các từ như “có khả năng,” “được nghi ngờ,” và “gần như chắc chắn.” Mythos thực sự có thể không phải là transformer vòng lặp. Hoặc có thể là một transformer vòng lặp với các chi tiết Gomez chưa thể đảo ngược. Điều OpenMythos chứng minh là phần lớn các phần của tài liệu nghiên cứu đã có sẵn. Transformer vòng lặp, Mixture of Experts, Multi-Latent Attention, Adaptive Computation Time, sửa lỗi ổn định của Parcae—không cái nào là sở hữu độc quyền. Repo là, hơn hết, một danh mục các kiến thức công khai về cách xây dựng một mô hình kiểu Mythos. Repo được cấp phép MIT, và đã có 2.700 nhánh fork. Kịch bản huấn luyện đang chờ đợi ai đó có một cụm GPU và một luận án để chứng minh.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim