Viết bài: Ada, Deep Tide TechFlow
庞若鸣在 Meta 的工位还没坐热,就走了。
Tháng 7 năm 2025, Zuckerberg dùng một gói lương thưởng nhiều năm trị giá hơn 200 triệu USD để giành lấy kỹ sư Trung Quốc hàng đầu trong lĩnh vực hạ tầng AI từ tay Apple. Pang Ruoming được sắp xếp vào Phòng thí nghiệm Siêu trí tuệ của Meta, phụ trách xây dựng hạ tầng cho mô hình AI thế hệ tiếp theo.
Chỉ sau 7 tháng, OpenAI đã lôi kéo anh ấy đi.
Theo báo cáo của The Information, OpenAI đã tiến hành chiến dịch tuyển dụng kéo dài nhiều tháng để thu hút Pang Ruoming. Dù anh từng nói với đồng nghiệp rằng “mình rất vui vẻ khi làm việc tại Meta”, cuối cùng anh vẫn chọn rời đi. Theo Bloomberg, chế độ lương của anh tại Meta liên kết với các mốc thành tích, việc rời đi sớm đồng nghĩa với việc từ bỏ phần lớn cổ phần chưa kịp thực hiện.
Hai trăm triệu đô la, không thể mua được lòng trung thành trong 7 tháng.
Đây không chỉ là câu chuyện chuyển việc đơn thuần.
Pang Ruoming không phải người đầu tiên ra đi.
Tuần trước, trưởng nhóm phát triển nền tảng sản phẩm của Phòng thí nghiệm Siêu trí tuệ Meta, Mat Velloso, cũng tuyên bố nghỉ việc. Người này từng rời Google DeepMind vào tháng 7 năm ngoái để gia nhập Meta, chưa đầy 8 tháng. Trước đó nữa, vào tháng 11 năm 2025, Yann LeCun, nhà Nobel Turing đã gắn bó 12 năm tại Meta và là nhà khoa học AI hàng đầu, đã tuyên bố rời đi để khởi nghiệp, theo đuổi “mô hình thế giới” mà ông luôn cổ súy. Russ Salakhutdinov, phó tổng giám đốc nghiên cứu AI tạo sinh của Meta, cũng gần đây đã chính thức thông báo rời khỏi.
Để hiểu rõ về sự mất mát nhân tài của Meta AI, cần phải hiểu rõ Llama 4 thực sự đã tổn thương đến mức nào.
Tháng 4 năm 2025, Meta công khai ra mắt dòng mô hình Scout và Maverick của Llama 4. Các số liệu chính thức trên giấy tờ rất ấn tượng, tuyên bố vượt trội hoàn toàn so với GPT-4.5 và Claude Sonnet 3.7 trong các bài kiểm tra tiêu chuẩn như MATH-500 và GPQA Diamond.
Tuy nhiên, mẫu mô hình mang tham vọng của Meta này nhanh chóng bị “lộ diện” trong các thử nghiệm độc lập của cộng đồng mã nguồn mở thứ ba, khả năng tổng quát và suy luận thực tế của nó đã sụt giảm rõ rệt so với quảng cáo. Trước những phản đối dữ dội từ cộng đồng, nhà khoa học AI hàng đầu Yann LeCun cuối cùng thừa nhận rằng, trong giai đoạn thử nghiệm, nhóm đã “sử dụng các phiên bản mô hình khác nhau để chạy các bộ dữ liệu khác nhau nhằm tối ưu điểm số cuối cùng”.
Trong giới học thuật và kỹ thuật AI nghiêm túc, điều này chạm vào giới hạn đỏ không thể tha thứ. Nói cách khác, nhóm đã huấn luyện Llama 4 thành một “thợ làm đề thi cũ” chỉ biết làm bài tập năm ngoái, chứ không phải một “học sinh ưu tú” thực sự sở hữu trí tuệ tiên tiến. Cứ thi toán thì cho bạn xem đề toán, thi lập trình thì cho bạn xem đề lập trình, mỗi phần kiểm tra đều rất mạnh, nhưng thực ra đó không phải là cùng một mô hình.
Trong giới học thuật AI, chuyện này gọi là “hái cherry” (hái quả anh đào), còn trong giáo dục thi cử gọi là “thi hộ”.
Đối với Meta, luôn tự xưng là “ngọn hải đăng mã nguồn mở”, vụ bê bối này đã trực tiếp phá hủy niềm tin quý giá nhất trong hệ sinh thái nhà phát triển của họ. Hệ quả trực tiếp là, Zuckerberg hoàn toàn mất niềm tin vào giới kỹ sư của đội ngũ GenAI ban đầu, từ đó mở ra làn sóng bổ nhiệm các quản lý cấp cao mới, thậm chí thay thế các bộ phận hạ tầng cốt lõi.
Ông đã chi 14,3 đến 15 tỷ USD để mua 49% cổ phần của công ty chú trọng dán nhãn dữ liệu Scale AI, đưa CEO 28 tuổi của Scale AI, Alexandr Wang, về làm Giám đốc AI của Meta, thành lập Phòng thí nghiệm Siêu trí tuệ Meta (MSL). Nhà Nobel Turing LeCun phải báo cáo trực tiếp cho người trẻ tuổi này. Tháng 10, Meta đã cắt giảm khoảng 600 vị trí trong MSL, trong đó có các thành viên của bộ phận nghiên cứu FAIR do LeCun sáng lập.
Dự án mô hình flagship dự kiến ra mắt mùa hè 2025, Llama 4 Behemoth, cũng bị trì hoãn liên tục, từ mùa hè sang mùa thu, rồi cuối cùng bị hoãn vô thời hạn.
Meta chuyển sang phát triển mô hình văn bản thế hệ mới mang mã “Avocado” và mô hình hình ảnh/video mang mã “Mango”. Theo các nguồn tin, mục tiêu của Avocado là cạnh tranh với GPT-5 và Gemini 3 Ultra. Dự kiến bàn giao cuối năm 2025, nhưng do không đạt tiêu chuẩn về thử nghiệm hiệu năng và tối ưu huấn luyện, đã bị hoãn đến quý 1 năm 2026. Meta đang xem xét phát hành mã nguồn đóng, từ bỏ truyền thống mã nguồn mở của dòng Llama.
Meta mắc hai sai lầm chết người trong các mô hình AI. Thứ nhất là gian lận benchmark, khiến cộng đồng nhà phát triển mất niềm tin. Thứ hai là đưa các bộ phận nghiên cứu cơ bản như FAIR, cần mười năm rèn giũa thành một tổ chức sản phẩm theo KPI quý, gây ra sự mất cân đối lớn. Cả hai đều là nguyên nhân chính dẫn đến tình trạng mất nhân tài hiện nay.
Nhân tài chạy, chíp cũng gặp vấn đề.
Theo báo cáo của The Information, tuần trước Meta đã cắt bỏ dự án phát triển chíp đào tạo AI tiên tiến nhất của họ.
Chương trình chíp tự phát triển của Meta gọi là MTIA (Meta Training and Inference Accelerator). Lộ trình ban đầu của công ty rất tham vọng: các phiên bản v4 mã “Santa Barbara”, v5 mã “Olympus”, v6 mã “Universal Core” dự kiến sẽ lần lượt ra mắt từ 2026 đến 2028. Trong đó Olympus được thiết kế là chíp dựa trên kiến trúc chiplet 2nm đầu tiên của Meta, mục tiêu là bao phủ cả đào tạo mô hình cao cấp lẫn suy luận thời gian thực, cuối cùng thay thế vị trí của Nvidia trong các cụm đào tạo của Meta.
Hiện tại, chíp đào tạo tiên tiến nhất này đã bị cắt bỏ.
Meta không hoàn toàn không có tiến bộ, MTIA đã đạt được một số thành quả ở phần suy luận. Chíp suy luận MTIA v3 mang mã “Iris” đã được triển khai quy mô lớn trong trung tâm dữ liệu của Meta, chủ yếu phục vụ hệ thống đề xuất Facebook Reels và Instagram, được cho là giảm 40-44% tổng chi phí vận hành. Nhưng suy luận và đào tạo là hai chuyện khác nhau. Suy luận là chạy mô hình, đào tạo là rèn mô hình. Meta có thể tự làm chíp suy luận, nhưng không thể tự tạo ra chíp đào tạo đủ mạnh để cạnh tranh trực diện với Nvidia.
Lịch sử chưa từng lặp lại lần nào. Năm 2022, Meta từng thử tự phát triển chíp suy luận, thất bại trong triển khai quy mô nhỏ rồi bỏ cuộc, chuyển sang đặt hàng lớn Nvidia.
Thất bại trong tự phát triển chíp đã thúc đẩy nhanh quá trình mua sắm ngoài của Meta.
Tháng 1 năm 2026, Meta công bố ngân sách chi tiêu vốn trong năm là 1150 đến 1350 tỷ USD, gần gấp đôi con số 722 tỷ USD của năm ngoái. Phần lớn số tiền này sẽ dành cho chíp.
Trong vòng 10 ngày, liên tiếp có ba hợp đồng lớn:
Ngày 17 tháng 2, Meta ký thỏa thuận hợp tác chiến lược nhiều năm, đa thế hệ với Nvidia. Meta sẽ triển khai “hàng triệu” GPU Blackwell và thế hệ mới Vera Rubin của Nvidia, cùng với CPU độc lập Grace. Các nhà phân tích ước tính quy mô giao dịch lên tới hàng trăm tỷ USD, Meta trở thành khách hàng siêu tính toán đầu tiên trên thế giới triển khai quy mô lớn CPU độc lập Grace của Nvidia.
Ngày 24 tháng 2, Meta ký hợp đồng nhiều năm trị giá từ 600 đến 1000 tỷ USD với AMD. Meta sẽ mua các GPU dòng MI450 mới nhất của AMD và CPU EPYC thế hệ thứ sáu. Trong khuôn khổ giao dịch, AMD đã phát hành cho Meta quyền mua cổ phần tối đa 160 triệu cổ phiếu, tương đương khoảng 10% cổ phần của AMD, với giá 0,01 USD/cổ, phân theo các mốc giao hàng.
Ngày 26 tháng 2, theo báo cáo của The Information, Meta đã ký hợp đồng nhiều năm trị giá hàng tỷ USD với Google, thuê các chip TPU của Google Cloud để đào tạo và vận hành mô hình ngôn ngữ lớn thế hệ tiếp theo của họ. Đồng thời, hai bên còn đang thảo luận về việc Meta sẽ mua trực tiếp TPU để triển khai trong trung tâm dữ liệu của chính họ từ năm 2027.
Một công ty mạng xã hội, trong vòng 10 ngày, đã đặt hàng có thể vượt quá nghìn tỷ USD cùng lúc từ ba nhà cung cấp chíp.
Đây không phải là chiến lược đa dạng hóa. Đây là mua sắm hoảng loạn.
Tại sao Meta lại vội vàng như vậy?
Thứ nhất, không thể trông đợi vào chíp tự phát triển nữa. Dự án chíp đào tạo tiên tiến nhất bị cắt bỏ, nghĩa là trong tương lai gần, Meta chỉ còn cách mua ngoài để đáp ứng nhu cầu đào tạo AI. Chíp MTIA dùng để suy luận có thể xử lý các hệ thống đề xuất như Facebook Reels, Instagram, nhưng để đào tạo các mô hình tiên tiến như Avocado, cạnh tranh với GPT-5, thì phải dùng phần cứng của Nvidia hoặc tương đương.
Thứ hai, đối thủ cạnh tranh không chờ đợi. OpenAI đã huy động nguồn lực khổng lồ từ Microsoft, SoftBank, quỹ đầu tư của Các Tiểu vương quốc Ả Rập Thống nhất. Anthropic đã ký hợp đồng cung cấp 1 triệu TPU của Google và các chip Trainium của Amazon. Gemini 3 của Google đã hoàn thành đào tạo trên TPU. Nếu Meta không có đủ năng lực tính toán, họ sẽ không thể giữ chân trong cuộc đua này.
Thứ ba, có thể là nguyên nhân sâu xa nhất, là Zuckerberg cần dùng “khả năng mua sắm” để bù đắp cho “khả năng nghiên cứu phát triển”. Llama 4 thất bại, mất nhân tài chủ chốt, thất bại trong tự phát triển chíp, tất cả cộng lại khiến câu chuyện AI của Meta trở nên mong manh trước Wall Street. Thời điểm này, ký hợp đồng lớn với Nvidia, AMD, Google ít nhất gửi đi một tín hiệu: chúng tôi có tiền, chúng tôi đang mua, chúng tôi không bỏ cuộc.
Chiến lược của Meta hiện nay là, không thể làm phần mềm thì cứ đổ tiền vào phần cứng, không giữ chân được người thì mua chíp. Nhưng cuộc đua AI không phải là trò chơi chỉ cần viết séc là thắng. Năng lực tính toán là điều kiện cần, chứ không phải đủ. Không có đội ngũ mô hình hàng đầu và lộ trình công nghệ rõ ràng, thì dù có nhiều chíp đến đâu cũng chỉ là hàng tồn kho đắt đỏ trong kho.
Nhìn lại ba thương vụ của Meta trong tháng 2, có một chi tiết thú vị bị phần lớn mọi người bỏ qua.
Meta mua của Nvidia các GPU Blackwell hiện tại và dự kiến dùng trong tương lai là Vera Rubin; với AMD, mua MI450 và dự kiến là MI455X; thuê của Google TPU Ironwood hiện tại, dự kiến sẽ mua trực tiếp vào năm tới.
Ba nhà cung cấp, ba kiến trúc phần cứng và hệ sinh thái phần mềm hoàn toàn khác nhau.
Điều này có nghĩa là Meta phải liên tục chuyển đổi giữa CUDA của Nvidia, ROCm của AMD và XLA/JAX của Google. Chiến lược đa nhà cung cấp có thể giúp phân tán rủi ro chuỗi cung ứng, giảm giá mua phần cứng, nhưng sẽ làm tăng độ phức tạp kỹ thuật theo cấp số nhân.
Đây chính là điểm yếu chí tử của Meta hiện nay. Để một mô hình hàng nghìn tỷ tham số có thể huấn luyện hiệu quả trên ba nền tảng phần cứng khác nhau này, không chỉ cần kỹ sư biết CUDA, mà còn cần kiến trúc sư có thể xây dựng khung huấn luyện đa nền tảng từ đầu.
Người như vậy trên thế giới có thể không quá 100 người. Pang Ruoming chính là một trong số đó.
Chi 100 tỷ USD để mua bộ phần cứng phức tạp nhất thế giới, trong khi lại mất đi những bộ não có thể vận hành chúng, chính là hình ảnh kỳ quặc nhất trong cuộc chơi cược lớn của Zuckerberg.
Nhìn xa hơn, trong 18 tháng qua, con đường mà Zuckerberg theo đuổi trong AI, giống hệt như chiến lược “All In” vào Metaverse của ông trước đó:
Nhận thấy xu hướng, đổ tiền lớn, tuyển dụng mạnh, gặp thất bại, điều chỉnh chiến lược, rồi lại đổ tiền lớn.
Từ 2021 đến 2023 là thời kỳ của Metaverse, kết quả là mỗi năm lỗ hàng trăm tỷ USD, cổ phiếu từ 380 USD rớt xuống 88 USD. Từ 2024 đến 2026 là AI, cũng là đổ tiền không tiếc, tổ chức lại liên tục, cũng là câu chuyện “tin tôi, tôi có tầm nhìn”.
Điểm khác biệt là, lần này, làn sóng AI thực tế hơn nhiều so với Metaverse. Meta có tiền để đốt, doanh thu quảng cáo tạo ra dòng tiền dồi dào, quý 4 năm 2025, doanh thu của Meta đạt 59,9 tỷ USD, tăng 24% so với cùng kỳ.
Vấn đề là: tiền có thể mua chip, mua năng lực tính toán, thậm chí mua luôn người ngồi trên ghế, nhưng không thể mua được người ở lại.
Pang Ruoming chọn OpenAI, Russ Salakhutdinov chọn rời đi, LeCun chọn khởi nghiệp.
Còn cược của Zuckerberg là, chỉ cần mua đủ nhiều chip, xây dựng đủ lớn trung tâm dữ liệu, tiêu đủ nhiều tiền, thì chắc chắn sẽ tìm ra hoặc đào tạo ra người có thể dùng những nguồn lực đó.
Cược này có thể thành công. Meta là một trong những công ty công nghệ giàu nhất thế giới, dòng tiền hoạt động hơn 100 tỷ USD là bức tường thành vững chắc nhất của họ. Từ OpenAI, Anthropic, Google đến các đối thủ khác, Meta liên tục săn nhân tài. Theo báo cáo của Quantum, trong đội ngũ siêu trí tuệ của Meta có gần 40% đến từ OpenAI.
Nhưng tính khốc liệt của cuộc đua AI là, năng lực tính toán, danh sách nhân tài, thành tích mô hình đều công khai rõ ràng. Sự kiện gian lận benchmark của Llama 4 đã chứng minh, trong ngành này, bạn không thể duy trì vị thế dẫn đầu chỉ bằng PowerPoint và PR.
Thị trường cuối cùng chỉ nhìn vào một thứ: mô hình của bạn có đủ tốt không.
Cuộc đua vũ trang AI bước vào năm 2026, thứ tự trong chuỗi thức ăn đã rõ ràng sơ bộ:
Ở đỉnh là OpenAI và Google. OpenAI sở hữu mô hình mạnh nhất, lượng người dùng lớn nhất và nguồn vốn đầu tư mạnh mẽ nhất. Google có hệ sinh thái tích hợp hoàn chỉnh: tự phát triển chip, mô hình, hạ tầng đám mây. Anthropic theo sát, dựa vào sức mạnh sản phẩm của Claude và nguồn lực tính toán song song từ Google, Amazon, đứng trong nhóm hàng đầu.
Còn Meta? Nó đã chi nhiều nhất, ký nhiều hợp đồng chíp nhất, tổ chức nhiều lần tái cấu trúc nhất, nhưng đến nay vẫn chưa trình làng được mô hình tiên tiến đủ thuyết phục thị trường.
Câu chuyện AI của Meta giống như Yahoo năm 2005. Thời đó, Yahoo cũng là một trong những công ty giàu nhất internet, cũng liên tục mua sắm, đổ tiền, nhưng mãi không thể tạo ra công cụ tìm kiếm như Google. Tiền không phải là tất cả. Zuckerberg cần phải rõ ràng hơn về mục tiêu của Meta trong AI, chứ không phải cứ thấy hot là mua.
Dĩ nhiên, còn quá sớm để viết tiểu sử của Meta. 3,58 tỷ người dùng hoạt động hàng tháng, doanh thu quý 4 đạt 59,9 tỷ USD, bộ dữ liệu xã hội lớn nhất thế giới, đó là những tài sản mà bất kỳ đối thủ nào cũng khó sao chép.
Nếu mô hình thế hệ mới mang mã “Avocado” có thể đúng hạn ra mắt năm 2026 và trở lại nhóm dẫn đầu, tất cả các khoản đầu tư và tổ chức lại của Zuckerberg sẽ được xem như là “chiến lược quyết đoán cứu vãn tình thế”. Nhưng nếu lại thất bại như mong đợi, thì số tiền 135 tỷ USD bỏ ra chỉ còn là những kho chứa silicon nóng bỏng, sáng đèn.
Dù sao, cuộc đua vũ trang AI tại Silicon Valley chưa từng thiếu những “đại gia” vung tiền. Điều thiếu là những người biết cách dùng năng lực tính toán đó để tạo ra tương lai.