a16z：Triển khai mô hình lớn đồng nghĩa với mất trí nhớ, liệu "học liên tục" có thể phá vỡ vòng lặp chết này không?

Question

Tác giả: Malika Aubakirova、Matt Bornstein

Biên dịch: Deep潮 TechFlow

Deep潮 Đọc thử: Các mô hình ngôn ngữ lớn sau khi huấn luyện xong đều bị “đóng băng”, sau khi triển khai chỉ có thể duy trì hoạt động dựa vào cửa sổ ngữ cảnh, RAG và các bản vá ngoài khác, về bản chất giống như bệnh nhân mất trí nhớ trong “Memento” — có thể truy xuất thông tin, nhưng không thể thực sự học hỏi cái mới. Hai đối tác của a16z đã hệ thống hóa hướng nghiên cứu tiên phong về “học liên tục”, từ ngữ cảnh, mô-đun đến cập nhật trọng số, phân tích các con đường công nghệ có thể định nghĩa lại giới hạn khả năng của AI này.

Trong bộ phim “Memento” của Christopher Nolan, nhân vật chính Leonard Shelby sống trong hiện tại vỡ vụn. Chấn thương sọ não khiến anh mắc chứng mất trí nhớ tiền đình, không thể hình thành ký ức mới. Mỗi vài phút, thế giới của anh lại được đặt lại, bị mắc kẹt trong “hiện tại” vĩnh cửu, không nhớ những gì vừa xảy ra, cũng không biết chuyện gì sẽ xảy ra tiếp theo. Để tồn tại, anh xăm chữ lên người, dùng máy ảnh Polaroid, dựa vào những công cụ bên ngoài này để thay thế chức năng ký ức mà não không thể thực hiện.

Các mô hình ngôn ngữ lớn cũng sống trong hiện tại vĩnh cửu tương tự. Sau khi huấn luyện, lượng kiến thức khổng lồ bị đóng băng trong các tham số, mô hình không thể hình thành ký ức mới, không thể cập nhật tham số dựa trên trải nghiệm mới. Để bù đắp cho thiếu sót này, chúng ta đã xây dựng một loạt các khung sườn: lịch sử trò chuyện như ghi chú ngắn hạn, hệ thống truy xuất như sổ ghi chú bên ngoài, prompt như hình xăm trên người. Nhưng bản thân mô hình, từ trước đến nay, chưa từng thực sự nội tại hóa những thông tin mới này.

Ngày càng nhiều nhà nghiên cứu cho rằng, điều này là chưa đủ. Học theo ngữ cảnh (ICL) có thể giải quyết vấn đề, miễn là câu trả lời (hoặc mảnh ghép của câu trả lời) đã tồn tại ở đâu đó trong thế giới. Nhưng đối với những vấn đề cần khám phá thực sự (như chứng minh toán học mới), các kịch bản đối kháng (như tấn công an ninh), hoặc những kiến thức quá ẩn sâu, không thể diễn đạt bằng ngôn ngữ, có lý do chính đáng để tin rằng: mô hình cần một phương thức, sau khi triển khai, viết trực tiếp kiến thức và kinh nghiệm mới vào các tham số của nó.

Học theo ngữ cảnh là tạm thời. Học thực sự cần nén lại. Trước khi cho phép mô hình liên tục nén, có thể chúng ta đều đang mắc kẹt trong hiện tại vĩnh cửu của “Memento”. Ngược lại, nếu chúng ta có thể huấn luyện mô hình học cách xây dựng kiến trúc ký ức của chính nó, thay vì dựa vào các công cụ bên ngoài tùy biến, có thể sẽ mở ra một chiều kích mở rộng quy mô hoàn toàn mới.

Lĩnh vực nghiên cứu này gọi là học liên tục (continual learning). Khái niệm này không mới (xem bài báo của McCloskey và Cohen năm 1989), nhưng chúng tôi cho rằng nó là một trong những hướng nghiên cứu quan trọng nhất hiện nay trong AI. Trong hai đến ba năm qua, sự bùng nổ về khả năng của mô hình đã làm rõ hơn khoảng cách giữa “đã biết” và “có thể biết”. Bài viết này nhằm chia sẻ những gì chúng tôi học được từ các nhà nghiên cứu hàng đầu trong lĩnh vực này, giúp làm rõ các con đường khác nhau của học liên tục, và thúc đẩy chủ đề này phát triển trong hệ sinh thái khởi nghiệp.

Lưu ý: Bài viết này hình thành nhờ các cuộc trao đổi sâu sắc với một nhóm các nhà nghiên cứu, tiến sĩ và doanh nhân xuất sắc, những người đã hào phóng chia sẻ công trình và quan điểm của họ trong lĩnh vực học liên tục. Từ nền tảng lý thuyết đến thực tế kỹ thuật sau khi triển khai, những hiểu biết của họ khiến bài viết này chắc chắn hơn nhiều so với việc chúng tôi tự viết. Xin cảm ơn các bạn đã dành thời gian và chia sẻ ý tưởng!

Trước hết nói về ngữ cảnh

Trước khi biện hộ cho việc học cấp tham số (tức là cập nhật trọng số mô hình), cần thừa nhận một sự thật: học theo ngữ cảnh thực sự có tác dụng. Và có một lý luận mạnh mẽ cho rằng nó sẽ tiếp tục thắng thế.

Bản chất của Transformer là dựa trên chuỗi để dự đoán token tiếp theo theo điều kiện. Cung cấp đúng chuỗi, bạn sẽ nhận được các hành vi phong phú đáng ngạc nhiên, mà không cần chạm vào trọng số. Đó là lý do tại sao các phương pháp như quản lý ngữ cảnh, kỹ thuật gợi ý, tinh chỉnh theo hướng dẫn và ví dụ ít mẫu lại mạnh mẽ đến vậy. Trí tuệ được đóng gói trong các tham số tĩnh, còn khả năng thể hiện thì thay đổi mạnh mẽ theo nội dung bạn đưa vào cửa sổ.

Bài viết của Cursor gần đây về quy mô trí tuệ tự lập dựa trên lập trình là một ví dụ điển hình: trọng số mô hình là cố định, điều thực sự làm hệ thống hoạt động là cách tổ chức ngữ cảnh một cách tinh tế — đưa gì vào, khi nào tóm tắt, cách duy trì trạng thái liên tục trong vài giờ tự vận hành.

OpenClaw là một ví dụ khác. Nó nổi bật không phải vì có quyền truy cập đặc biệt vào mô hình (mọi người đều có thể dùng mô hình nền), mà vì nó biến ngữ cảnh và công cụ thành trạng thái làm việc cực kỳ hiệu quả: theo dõi bạn đang làm gì, tạo ra các sản phẩm trung gian có cấu trúc, quyết định khi nào cần đưa prompt trở lại, duy trì ký ức lâu dài về các công việc trước đó. OpenClaw đã nâng cao “thiết kế vỏ” của trí tuệ nhân tạo thành một ngành học riêng biệt.

Khi kỹ thuật gợi ý mới xuất hiện, nhiều nhà nghiên cứu hoài nghi về khả năng “chỉ dựa vào prompt” để trở thành giao diện chính thức. Nó trông như một thủ thuật (hack). Nhưng thực ra, đó là nguyên bản của kiến trúc Transformer, không cần huấn luyện lại, và tự động nâng cấp theo tiến bộ của mô hình. Khi mô hình mạnh hơn, prompt cũng trở nên mạnh hơn. Giao diện “đơn giản nhưng nguyên bản” thường thắng thế, vì nó liên kết trực tiếp với hệ thống nền tảng, thay vì đối đầu với nó. Cho đến nay, xu hướng phát triển của LLM chính là như vậy.

Mô hình không gian trạng thái: phiên bản ngữ cảnh như steroid

Khi dòng chảy chính từ gọi LLM nguyên bản sang vòng lặp trí tuệ nhân tạo, áp lực đối với các mô hình học theo ngữ cảnh ngày càng lớn. Trước đây, hiếm khi gặp phải tình trạng cửa sổ ngữ cảnh đầy ắp. Thường xảy ra khi LLM được yêu cầu hoàn thành một chuỗi nhiệm vụ rời rạc, tầng ứng dụng có thể cắt và nén lịch sử trò chuyện theo cách khá trực tiếp. Nhưng đối với trí tuệ nhân tạo, một nhiệm vụ có thể chiếm phần lớn tổng thể ngữ cảnh khả dụng. Vòng lặp của trí tuệ nhân tạo mỗi bước đều phụ thuộc vào ngữ cảnh truyền qua các vòng lặp trước đó. Và chúng thường thất bại sau 20 đến 100 bước, vì “đứt dây”: ngữ cảnh bị đầy, tính liên tục giảm sút, không thể hội tụ.

Do đó, các phòng thí nghiệm AI lớn hiện đang đầu tư mạnh vào phát triển các mô hình có cửa sổ ngữ cảnh siêu dài. Đây là con đường tự nhiên, dựa trên các phương pháp đã hiệu quả (học theo ngữ cảnh), phù hợp với xu hướng chuyển đổi tính toán trong suy luận. Kiến trúc phổ biến nhất là chèn các lớp nhớ cố định giữa các đầu chú ý thông thường — gọi là mô hình không gian trạng thái (SSM) và các biến thể chú ý tuyến tính (gọi chung là SSM). SSM cung cấp đường cong mở rộng quy mô vượt trội trong các kịch bản ngữ cảnh dài.

Chú thích hình: So sánh khả năng mở rộng của SSM và chú ý truyền thống

Mục tiêu là giúp các trí tuệ nhân tạo nâng cao số bước liên tục hoạt động từ khoảng 20 lên khoảng 20.000, mà không mất đi các kỹ năng và kiến thức rộng lớn mà Transformer truyền thống mang lại. Nếu thành công, đây sẽ là bước đột phá lớn cho các hệ thống trí tuệ nhân tạo vận hành lâu dài. Bạn thậm chí có thể xem phương pháp này như một dạng học liên tục: mặc dù không cập nhật trọng số, nhưng đã đưa vào một lớp nhớ bên ngoài gần như không cần phải reset.

Vì vậy, các phương pháp phi tham số này là thực sự mạnh mẽ. Bất kỳ đánh giá nào về học liên tục đều phải bắt đầu từ đây. Vấn đề không phải là hệ thống ngữ cảnh ngày nay có hữu ích không, nó thực sự hữu ích. Câu hỏi là: chúng ta đã thấy giới hạn chưa, các phương pháp mới có thể đưa chúng ta đi xa hơn không.

Thiếu sót của ngữ cảnh: “Hiện vật trong tủ hồ sơ”

“AGI và tiền huấn luyện xảy ra chuyện là, theo một nghĩa nào đó, chúng đã quá mức… Con người không phải là AGI. Đúng vậy, con người có nền tảng kỹ năng, nhưng họ thiếu lượng lớn kiến thức. Chúng ta dựa vào học liên tục. Nếu tôi tạo ra một thiếu niên cực kỳ thông minh 15 tuổi, cậu ấy chẳng biết gì cả. Một học sinh tốt, rất ham học hỏi. Bạn có thể nói, đi làm lập trình viên, đi làm bác sĩ. Việc triển khai bản thân đã liên quan đến một quá trình học hỏi, thử sai. Đây là một quá trình, chứ không phải đưa ra thành phẩm rồi phát hành — Ilya Sutskever”

Hãy tưởng tượng một hệ thống có không gian lưu trữ vô hạn. Một tủ hồ sơ lớn nhất thế giới, mọi sự kiện đều được lập chỉ mục hoàn hảo, có thể truy xuất ngay lập tức. Nó có thể tra cứu bất cứ thứ gì. Nó đã học được chưa?

Chưa. Nó chưa từng bị ép phải nén.

Đây là luận điểm cốt lõi của chúng tôi, dựa trên quan điểm của Ilya Sutskever trước đó: LLM về bản chất là thuật toán nén. Trong quá trình huấn luyện, chúng nén internet thành các tham số. Nén có tổn thất, và chính sự tổn thất này làm cho nó mạnh mẽ hơn. Nén buộc mô hình phải tìm ra cấu trúc, tổng quát hóa, xây dựng các biểu diễn có thể chuyển đổi qua ngữ cảnh. Một mô hình ghi nhớ cứng tất cả các mẫu huấn luyện không bằng một mô hình trích xuất các quy luật nền tảng. Nén có tổn thất chính là học.

Trớ trêu thay, cơ chế làm cho LLM mạnh mẽ trong quá trình huấn luyện (nén dữ liệu gốc thành biểu diễn nhỏ gọn, có thể chuyển đổi) lại chính là thứ chúng ta từ chối để chúng tiếp tục làm sau khi triển khai. Chúng ta dừng nén tại thời điểm phát hành, thay thế bằng bộ nhớ ngoài. Tất nhiên, hầu hết các hệ thống vỏ ngoài của trí tuệ nhân tạo đều nén ngữ cảnh theo cách tùy biến nào đó. Nhưng bài học đắng lòng (bitter lesson) có lẽ chính là: mô hình nên tự học cách nén này, một cách trực tiếp, quy mô lớn.

Yu Sun đã chia sẻ một ví dụ minh họa cho cuộc tranh luận này: Toán học. Xem xét định lý Fermat. Hơn 350 năm, không nhà toán học nào chứng minh được, không phải vì thiếu tài liệu đúng đắn, mà vì phương pháp giải pháp mang tính đột phá cao. Khoảng cách giữa kiến thức toán học đã có và đáp số cuối cùng quá lớn. Khi Andrew Wiles cuối cùng chinh phục nó vào thập niên 1990, ông đã làm việc gần như cách ly trong bảy năm, phải phát minh ra các kỹ thuật hoàn toàn mới để đi đến đáp số. Chứng minh của ông dựa trên việc kết nối thành công hai lĩnh vực toán học khác nhau: đường cong elliptic và dạng mô hình. Trong khi Ken Ribet trước đó đã chứng minh rằng, nếu có thể xây dựng cầu nối này, thì định lý Fermat sẽ tự giải quyết, thì trước Wiles, chưa ai có công cụ lý thuyết để xây dựng cầu đó. Chứng minh của Grigori Perelman về giả thuyết Poincaré cũng có thể làm ví dụ tương tự.

Vấn đề cốt lõi là: Những ví dụ này có chứng minh LLM thiếu một thứ gì đó, một khả năng cập nhật tiền đề, suy nghĩ sáng tạo thực sự không? Hay câu chuyện này lại chứng minh điều ngược lại — tất cả kiến thức của con người chỉ là dữ liệu để huấn luyện và tổ hợp lại, Wiles và Perelman chỉ thể hiện rằng LLM cũng có thể làm được điều đó trên quy mô lớn hơn?

Vấn đề này mang tính thực nghiệm, câu trả lời vẫn còn chưa rõ ràng. Nhưng chúng ta rõ ràng biết rằng, có nhiều loại vấn đề mà học theo ngữ cảnh ngày nay thất bại, còn học cấp tham số thì có thể hữu ích. Ví dụ:

Chú thích: Các loại vấn đề mà học theo ngữ cảnh thất bại, còn học cấp tham số có thể thắng thế

Quan trọng hơn, học theo ngữ cảnh chỉ xử lý được những thứ có thể diễn đạt bằng ngôn ngữ, còn trọng số có thể mã hóa các khái niệm mà prompt không thể truyền đạt bằng lời. Một số dạng mẫu hình quá cao, quá ẩn, quá sâu, không thể đưa vào ngữ cảnh. Ví dụ, trong quét y học, phân biệt các vết giả lành tính và u ác dựa trên kết cấu hình ảnh, hoặc định nghĩa nhịp điệu đặc trưng của người nói qua các dao động âm thanh nhỏ — những mẫu này khó phân tích thành từ ngữ chính xác. Ngôn ngữ chỉ có thể xấp xỉ chúng. Ngay cả prompt dài nhất cũng không thể truyền đạt hết; những kiến thức này chỉ có thể tồn tại trong trọng số. Chúng sống trong không gian tiềm ẩn của biểu diễn học, không phải trong lời nói. Dù cửa sổ ngữ cảnh mở rộng đến đâu, vẫn có những kiến thức không thể mô tả bằng văn bản, chỉ có thể mang trong trọng số.

Điều này có thể giải thích tại sao các chức năng “nhớ bạn” rõ ràng như của ChatGPT thường khiến người dùng cảm thấy không thoải mái hơn là thích thú. Người dùng thực sự muốn không phải “hồi tưởng”, mà là “khả năng”. Một mô hình đã nội tại hóa các mô hình hành vi của bạn có thể tổng quát hóa đến các tình huống mới; còn một mô hình chỉ ghi nhớ lịch sử của bạn thì không thể. “Đây là nội dung bạn đã viết lần trước khi trả lời email này” (đọc từng chữ) và “Tôi đã đủ hiểu cách suy nghĩ của bạn, có thể dự đoán bạn cần gì” — đó là sự khác biệt giữa truy xuất và học hỏi.

Học liên tục sơ lược

Học liên tục có nhiều con đường khác nhau. Ranh giới không nằm ở việc “có chức năng nhớ” hay không, mà ở chỗ: nén xảy ra ở đâu? Các con đường này phân bố theo một quang phổ, từ không nén (chỉ truy xuất, trọng số đóng băng), đến nén hoàn toàn nội tại (học cấp trọng số, làm mô hình trở nên thông minh hơn), còn có một vùng trung gian quan trọng (mô-đun).

Chú thích hình: Ba con đường của học liên tục — ngữ cảnh, mô-đun, trọng số

Ngữ cảnh

Ở phía ngữ cảnh, nhóm xây dựng các hệ thống truy xuất thông minh hơn, vỏ ngoài của trí tuệ nhân tạo và kỹ thuật gợi ý. Đây là lĩnh vực đã trưởng thành nhất: hạ tầng đã được xác thực, lộ trình triển khai rõ ràng. Giới hạn chính là độ sâu: chiều dài ngữ cảnh.

Một hướng mới đáng chú ý là kiến trúc đa trí tuệ nhân tạo như một chiến lược mở rộng quy mô ngữ cảnh. Nếu một mô hình đơn lẻ bị giới hạn trong cửa sổ 128K token, thì một nhóm các trí tuệ nhân tạo phối hợp — mỗi cái giữ một ngữ cảnh riêng, tập trung vào một phần của vấn đề, giao tiếp kết quả với nhau — có thể gần như vô hạn hóa bộ nhớ làm việc chung. Mỗi trí tuệ trong nhóm học theo ngữ cảnh trong cửa sổ của nó; hệ thống tổng hợp. Các dự án của Karpathy gần đây về tự nghiên cứu và ví dụ xây dựng trình duyệt web của Cursor là các ví dụ ban đầu. Đây là phương pháp phi tham số thuần túy (không thay đổi trọng số), nhưng đã nâng cao đáng kể giới hạn của hệ thống ngữ cảnh có thể đạt được.

Mô-đun

Trong không gian mô-đun, nhóm xây dựng các mô-đun kiến thức có thể cắm vào (bộ nhớ KV nén, lớp thích nghi, bộ nhớ ngoài), giúp mô hình chung đạt được chuyên môn hóa mà không cần huấn luyện lại toàn bộ. Một mô hình 8 tỷ tham số cộng với các mô-đun phù hợp có thể đạt hiệu suất tương đương với mô hình 109 tỷ tham số trên các nhiệm vụ mục tiêu, bộ nhớ chiếm phần nhỏ. Ưu điểm là khả năng tích hợp dễ dàng: các mô-đun này có thể cắm vào các kiến trúc Transformer hiện có, dễ thay thế hoặc cập nhật, chi phí thử nghiệm thấp hơn nhiều so với huấn luyện lại toàn bộ.

Trọng số

Ở phía cập nhật trọng số, các nhà nghiên cứu theo đuổi học cấp tham số thực sự: chỉ cập nhật các phần liên quan của trọng số — các lớp nhớ rSparse, tối ưu hóa mô hình qua phản hồi (reinforcement learning loop), hoặc huấn luyện trong thời gian dự đoán (test-time training) để nén ngữ cảnh vào trọng số. Đây là các phương pháp sâu nhất, khó triển khai nhất, nhưng cho phép mô hình nội tại hóa hoàn toàn kiến thức hoặc kỹ năng mới.

Các cơ chế cập nhật trọng số đa dạng. Một số hướng nghiên cứu chính:

Chú thích hình: Tổng quan các hướng nghiên cứu về học cấp trọng số

Các hướng nghiên cứu về trọng số bao gồm nhiều con đường song song. Phương pháp điều chỉnh và không gian trọng số lâu đời nhất là EWC (Kirkpatrick et al., 2017), dựa trên độ quan trọng của các tham số đối với nhiệm vụ trước đó để phạt các thay đổi; hoặc phương pháp hòa trộn trọng số (Kozal et al., 2024), trong đó các trọng số mới và cũ được pha trộn trong không gian tham số, nhưng cả hai đều khá mong manh khi mở rộng quy mô. Huấn luyện trong thời gian dự đoán (test-time training) do Sun et al. (2020) mở đầu, sau này phát triển thành các nguyên tắc kiến trúc như TTT, TTT-E2E, TTT-Discover, với ý tưởng khác biệt: thực hiện gradient descent trên dữ liệu kiểm thử, để nén thông tin mới vào trọng số tại thời điểm cần thiết. Meta-learning đặt câu hỏi: chúng ta có thể huấn luyện mô hình biết “cách học” không? Từ MAML (Finn et al., 2017) với khởi tạo tham số ít mẫu thân thiện, đến Behrouz et al. (2025) với học phân tầng (Nested Learning), mô hình được cấu trúc thành các mô-đun thích nghi nhanh theo thời gian ngắn và cập nhật chậm theo thời gian dài, lấy cảm hứng từ quá trình củng cố ký ức sinh học.

Distillation (chưng cất) giúp giữ lại kiến thức của các nhiệm vụ trước bằng cách bắt mô hình học theo các điểm kiểm tra của giáo viên đã đóng băng. LoRD (Liu et al., 2025) kết hợp cắt tỉa mô hình và bộ đệm phát lại, giúp quá trình chưng cất hiệu quả đến mức có thể liên tục vận hành. Tự chưng cất (SDFT, Shenfeld et al., 2026) đảo ngược nguồn gốc, dùng đầu ra của chính mô hình trong điều kiện chuyên gia làm tín hiệu huấn luyện, bỏ qua thảm họa quên sequence. Recursive self-improvement (tự cải tiến đệ quy) hoạt động dựa trên ý tưởng tương tự: STaR (Zelikman et al., 2022) dẫn dắt khả năng suy luận từ chuỗi suy luận tự sinh; AlphaEvolve (DeepMind, 2025) phát hiện ra các thuật toán tối ưu đã không được cải tiến trong hàng chục năm; Silver và Sutton định nghĩa học của trí tuệ nhân tạo là một dòng chảy liên tục của kinh nghiệm không ngừng.

Các hướng nghiên cứu này đang hội tụ. TTT-Discover đã kết hợp huấn luyện trong thời gian kiểm thử và khám phá dựa trên RL. HOPE nhúng vòng học nhanh chậm vào cùng một kiến trúc. SDFT biến quá trình chưng cất thành thao tác tự cải tiến cơ bản. Ranh giới giữa các phương pháp đang mờ dần. Các hệ thống học liên tục thế hệ tiếp theo có khả năng kết hợp nhiều chiến lược: dùng chuẩn hóa để ổn định, meta-learning để tăng tốc, tự cải tiến để cộng hưởng lợi ích. Một số công ty khởi nghiệp ngày càng nhiều đang đặt cược vào các tầng khác nhau của hệ công nghệ này.

Bản đồ hệ sinh thái khởi nghiệp về học liên tục

Phần phi tham số của quang phổ là phần được biết đến nhiều nhất. Các công ty vỏ ngoài (Letta, mem0, Subconscious) xây dựng các lớp phối hợp và khung sườn quản lý nội dung đưa vào cửa sổ ngữ cảnh. Các hệ thống lưu trữ ngoài và hạ tầng RAG (như Pinecone, xmemory) cung cấp nền tảng truy xuất. Dữ liệu đã có, thách thức là đưa đúng phần đúng vào đúng thời điểm trước mô hình. Khi cửa sổ ngữ cảnh mở rộng, các công ty này cũng mở rộng không gian thiết kế, đặc biệt là phần vỏ ngoài, khi hàng loạt startup mới xuất hiện để quản lý các chiến lược ngữ cảnh ngày càng phức tạp.

Phần trọng số, sớm hơn và đa dạng hơn, là nơi các công ty thử nghiệm “nén sau khi triển khai”, giúp mô hình nội tại hóa kiến thức mới trong trọng số. Các con đường này chia thành các cược khác nhau về cách mô hình “học” sau khi phát hành.

Nén một phần: không cần huấn luyện lại vẫn có thể học. Một số nhóm xây dựng các mô-đun kiến thức cắm vào (bộ nhớ KV nén, lớp thích nghi, bộ nhớ ngoài), giúp mô hình chung đạt được chuyên môn hóa mà không cần huấn luyện lại toàn bộ. Lý luận chung là: bạn có thể đạt được nén có ý nghĩa (không chỉ truy xuất), đồng thời kiểm soát được cân bằng ổn định và khả năng thích nghi, vì việc học tách biệt khỏi toàn bộ không gian tham số. Một mô hình 8 tỷ tham số cộng với các mô-đun phù hợp có thể đạt hiệu suất tương đương các mô hình 109 tỷ tham số trên các nhiệm vụ mục tiêu, bộ nhớ chiếm phần nhỏ. Ưu điểm là khả năng kết hợp: các mô-đun này có thể cắm vào các kiến trúc Transformer hiện có, dễ thay thế hoặc cập nhật, chi phí thử nghiệm thấp hơn nhiều so với huấn luyện lại toàn bộ.

Học qua phản hồi và vòng lặp: học từ tín hiệu trong quá trình vận hành. Một số nhóm đặt cược rằng, các tín hiệu phong phú nhất để học sau khi triển khai đã tồn tại trong vòng lặp vận hành — phản hồi của người dùng, thành bại của nhiệm vụ, phần thưởng từ kết quả thực tế. Ý tưởng cốt lõi là mô hình nên xem mỗi lần tương tác như một tín hiệu huấn luyện tiềm năng, chứ không chỉ là yêu cầu suy luận. Điều này rất giống cách con người tiến bộ trong công việc: làm việc, nhận phản hồi, nội tại hóa các phương pháp hiệu quả. Thách thức kỹ thuật là chuyển đổi các phản hồi thưa thớt, nhiễu loạn, đôi khi mang tính đối kháng thành các cập nhật trọng số ổn định, tránh quên quá mức. Nhưng một mô hình thực sự có thể học từ vòng đời vận hành sẽ tạo ra giá trị cộng hưởng theo cách mà hệ thống ngữ cảnh không thể làm được.

Học dựa trên dữ liệu: học từ tín hiệu đúng đắn. Một cược liên quan nhưng khác biệt là, giới hạn không nằm ở thuật toán học, mà ở dữ liệu huấn luyện và hệ thống xung quanh. Các nhóm này tập trung vào chọn lọc, tạo ra hoặc tổng hợp dữ liệu phù hợp để thúc đẩy cập nhật liên tục: giả định rằng, một mô hình có tín hiệu học tốt, có chất lượng cao, cấu trúc rõ ràng, chỉ cần ít bước gradient là có thể cải thiện đáng kể. Điều này phù hợp với các công ty dựa trên vòng phản hồi, nhưng nhấn mạnh vấn đề ở phần trên: mô hình có thể học hay không là chuyện một, còn nó học cái gì, học đến mức nào lại là chuyện khác.

Kiến trúc mới: học khả năng từ thiết kế nền tảng. Các cược đột phá nhất cho rằng, chính kiến trúc Transformer là giới hạn, và để học liên tục cần một nguyên lý tính toán hoàn toàn khác: kiến trúc có khả năng động trong thời gian liên tục và có cơ chế nhớ tích hợp sẵn. Lập luận này dựa trên tính cấu trúc: nếu muốn có một hệ thống học liên tục, bạn cần tích hợp cơ chế học vào nền tảng kiến trúc.

Bản đồ các công ty khởi nghiệp về học liên tục

Tất cả các phòng thí nghiệm lớn cũng đang tích cực tham gia vào các lĩnh vực này. Có nhóm đang khám phá các phương pháp quản lý ngữ cảnh và suy luận theo chuỗi, có nhóm thử nghiệm các mô-đun nhớ ngoài hoặc pipeline tính toán trong thời gian ngủ, còn vài công ty bí mật đang theo đuổi kiến trúc mới. Lĩnh vực này còn rất sơ khai, chưa có phương pháp nào thắng thế, và xét đến tính đa dạng của các ứng dụng, cũng không nên chỉ có một người chiến thắng.

Tại sao cập nhật trọng số sơ khai lại thất bại

Trong môi trường sản xuất, cập nhật tham số mô hình sẽ gây ra một loạt các mô hình thất bại chưa được giải quyết triệt để trên quy mô lớn.

Chú thích hình: Các mô hình thất bại của cập nhật trọng số sơ khai

Các vấn đề kỹ thuật đã được ghi nhận đầy đủ. Quên cục bộ (catastrophic forgetting) nghĩa là mô hình quá nhạy cảm với dữ liệu mới để học, sẽ phá hủy các biểu diễn đã có — đó là nghịch lý ổn định và khả năng thích nghi. Thời gian phân tách nghĩa là các quy tắc bất biến và trạng thái biến đổi bị nén chung trong cùng một tập trọng số, cập nhật một cái sẽ làm hỏng cái kia. Sự thất bại trong tích hợp logic là do các cập nhật về thực tế không lan truyền đến các suy luận của nó: thay đổi chỉ giới hạn trong cấp độ chuỗi token, chứ không phải trong cấp độ khái niệm ngữ nghĩa. Việc quên (unlearning) vẫn chưa thể thực hiện: không có phép trừ có thể vi phân, nên không có phương pháp chính xác để loại bỏ kiến thức giả hoặc độc hại.

Ngoài ra, còn một vấn đề ít được chú ý hơn. Việc tách biệt giữa huấn luyện và triển khai hiện nay không chỉ là vấn đề kỹ thuật, mà còn là ranh giới an toàn, có thể kiểm soát và quản lý. Mở rộng ranh giới này sẽ gây ra nhiều vấn đề cùng lúc. Phù hợp an toàn có thể suy giảm không dự đoán được: thậm chí fine-tuning trên dữ liệu an toàn cũng có thể gây ra các hành vi lệch lạc rộng lớn. Cập nhật liên tục tạo ra một bề mặt tấn công nhiễm độc dữ liệu — một dạng tiêm kích hoạt lặng lẽ, kéo dài, nằm trong trọng số. Khả năng kiểm tra, xác thực cũng sụp đổ, vì mô hình liên tục cập nhật là một mục tiêu di động, không thể version control, kiểm thử hồi quy hoặc xác nhận một lần. Khi tương tác của người dùng bị nén trong trọng số, rủi ro về quyền riêng tư tăng cao, thông tin nhạy cảm có thể bị “baked in” vào biểu diễn, khó lọc hơn so với thông tin trong ngữ cảnh truy xuất.

Đây là các vấn đề mở, chứ không phải là không thể giải quyết. Giải quyết chúng cũng giống như giải quyết các thách thức kiến trúc cốt lõi, đều nằm trong chương trình nghị sự của nghiên cứu học liên tục.

Từ “Memento” đến trí nhớ thực sự

Bi kịch của Leonard trong “Memento” không phải là anh không thể vận hành — trong mọi tình huống, anh đều rất thông minh, thậm chí xuất sắc. Bi kịch của anh là anh không thể cộng hưởng lợi ích. Mỗi trải nghiệm đều nằm ngoài tầm nội tại — một bức ảnh Polaroid, một hình xăm, một mảnh giấy ghi chú của người khác. Anh có thể truy xuất, nhưng không thể nén kiến thức mới.

Khi Leonard đi qua mê cung tự xây dựng này, ranh giới giữa thực và niềm tin bắt đầu mờ nhạt. Bệnh của anh không chỉ lấy đi ký ức; nó buộc anh phải liên tục tái tạo ý nghĩa, khiến anh vừa là thám tử trong câu chuyện của chính mình, vừa là người kể chuyện không đáng tin cậy.

Ngày nay, AI cũng vận hành trong giới hạn tương tự. Chúng ta xây dựng các hệ thống truy xuất cực kỳ mạnh mẽ: cửa sổ ngữ cảnh dài hơn, vỏ ngoài thông minh hơn, nhóm đa trí tuệ phối hợp, và tất cả đều có tác dụng. Nhưng truy xuất không đồng nghĩa với học hỏi. Một hệ thống có thể tra cứu mọi sự thật chưa chắc đã bị buộc phải tìm ra cấu trúc. Nó không bị buộc phải tổng quát hóa. Việc huấn luyện một cơ chế nén dữ liệu mạnh mẽ — biến dữ liệu gốc thành biểu diễn có thể chuyển đổi — chính là thứ chúng ta dừng lại ngay tại thời điểm phát hành.

Con đường tiến lên có thể không phải là một đột phá duy nhất, mà là một hệ thống phân tầng. Học theo ngữ cảnh vẫn sẽ là tuyến phòng thủ đầu tiên: nó là nguyên bản, đã được xác thực, và liên tục cải tiến. Các cơ chế mô-đun có thể xử lý các trung gian giữa cá nhân hóa và chuyên môn hóa lĩnh vực. Nhưng đối với những vấn đề thực sự khó khăn — khám phá, thích nghi chống lại, kiến thức ẩn sâu không thể diễn đạt bằng lời — chúng ta có thể cần cho mô hình tiếp tục nén kinh nghiệm vào trọng số sau khi huấn luyện. Điều này đòi hỏi các kiến trúc thưa, mục tiêu meta-learning và vòng tự cải tiến tiến bộ. Nó có thể còn cần chúng ta định nghĩa lại ý nghĩa của “mô hình”: không chỉ là một tập hợp trọng số cố định, mà còn là một hệ thống tiến hóa, chứa đựng ký ức, thuật toán cập nhật của nó, và khả năng trừu tượng hóa từ chính kinh nghiệm của nó.

Các tủ hồ sơ ngày càng lớn. Nhưng dù lớn đến đâu, vẫn chỉ là tủ hồ sơ. Bước đột phá nằm ở chỗ làm thế nào để mô hình sau khi triển khai có thể thực hiện việc huấn luyện — nén, trừu tượng, học hỏi — chính điều làm cho nó mạnh mẽ. Chúng ta đang đứng trước ngã rẽ từ một mô hình mất trí nhớ sang một mô hình có thể tích lũy kinh nghiệm. Nếu không, chúng ta sẽ mãi mắc kẹt trong “Memento” của chính mình.

a16z：Triển khai mô hình lớn đồng nghĩa với mất trí nhớ, liệu "học liên tục" có thể phá vỡ vòng lặp chết này không?

Chủ đề thịnh hành

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Ghim