AI khởi nghiệp DeepInfra công bố hoàn tất vòng tài trợ Series B 1,07 trăm triệu USD, do 500 Global và kỹ sư phần mềm kỳ đầu tại Google Georges Harik dẫn dắt, với sự tham gia của các nhà đầu tư chiến lược như NVIDIA (NVIDIA), Samsung Next và Supermicro. Theo thông tin chính thức, khoản đầu tư lần này sẽ được dùng để mở rộng năng lực trung tâm dữ liệu toàn cầu, nhằm giải quyết chi phí vận hành và các nút thắt hiệu suất mà các ứng dụng AI hiện đang gặp phải khi chuyển từ “huấn luyện mô hình” sang “suy luận quy mô lớn”.
Nhu cầu suy luận AI bùng nổ trở thành nút thắt then chốt khi doanh nghiệp triển khai
Khi AI tiến tới thương mại hóa, trọng tâm khối lượng công việc của doanh nghiệp đã có sự dịch chuyển đáng kể. DeepInfra ghi nhận kể từ khi hoàn tất vòng A, lượng Token mà nền tảng của họ xử lý đã tăng đạt 25 lần, cho thấy Inference (suy luận) đã trở thành động lực chính cho tải công việc AI của doanh nghiệp. Hiệu năng của các mô hình mã nguồn mở hiện đã có thể sánh ngang với hệ thống độc quyền, giúp giảm đáng kể rào cản đổi mới. Tuy nhiên, các ứng dụng hệ thống trí tuệ tự chủ (Agentic Systems) đi kèm khiến một nhiệm vụ đơn lẻ có thể phải kích hoạt hàng trăm lần mô hình. Do các nền tảng đám mây phổ quát truyền thống không được thiết kế theo nhu cầu suy luận, doanh nghiệp phải đối mặt với các thách thức như chi phí vận hành quá cao và độ trễ không thể kiểm soát, khiến suy luận trở thành ràng buộc hệ thống của khối lượng công việc.
Tích hợp dọc chồng lớp tối ưu hiệu quả kinh tế token
DeepInfra theo đuổi chiến lược tích hợp dọc, cho rằng suy luận hiệu suất cao phải đạt được thông qua thiết kế đồng bộ giữa phần cứng, mạng lưới và phần mềm. Nhóm này trước đây đã có kinh nghiệm phát triển hệ thống phân tán ứng dụng truyền thông imo với quy mô vận hành 200 triệu người dùng, và hiện đã thành lập 8 cơ sở hạ tầng GPU tại Mỹ. So với các nhà cung cấp dịch vụ thuê dung lượng từ bên thứ ba, DeepInfra sở hữu quyền kiểm soát toàn bộ chồng lớp, từ cấp độ chip đến giao diện API. Thiết kế này cho phép họ tối ưu cho các tác vụ tạo token “luôn trực tuyến”, đảm bảo khi triển khai các khối lượng công việc AI cho doanh nghiệp, họ có thể mang lại độ trễ dự đoán được tốt hơn so với môi trường đám mây phổ quát.
Deepinfra là đối tác hạ tầng nền tảng AI mở dài hạn của NVIDIA
Deepinfra là đối tác hạ tầng cơ sở cho hợp tác hệ sinh thái AI mở của NVIDIA từ giai đoạn đầu, hỗ trợ các mô hình Nemotron, kiến trúc tác nhân NemoClaw và phần mềm suy luận NVIDIA Dynamo. Việc triển khai sớm GPU Blackwell và tích hợp sắp tới giữa Vera Rubin và Dynamo sẽ giúp hiệu quả chi phí cho suy luận tăng lên tới 20 lần.
Deepinfra cung cấp các mô hình mã nguồn mở có tính cạnh tranh
Về kiểm soát chi phí, DeepInfra tối ưu vận hành phần cứng để phục vụ hơn 190 mô hình mã nguồn mở, nhằm đưa ra mức giá cạnh tranh cao cho thị trường. Lấy mô hình suy luận mã nguồn mở GLM-5 làm ví dụ, giá lai là 1,24 USD cho mỗi 1 triệu token, thấp hơn khoảng 20% so với mức trung bình ngành. Đối với các “mô hình suy nghĩ” cần tính toán token nội bộ với khối lượng lớn, nền tảng đã phát triển cơ chế cache, áp dụng mức giá chiết khấu cho các chuỗi văn bản tĩnh đầu vào lặp lại, từ đó giảm hiệu quả chi phí cho các pipeline hội thoại đa vòng và tạo tăng cường bằng truy hồi (RAG). Để đáp ứng yêu cầu của doanh nghiệp về bảo mật, DeepInfra cung cấp API tương thích với OpenAI và cam kết không lưu trữ dữ liệu. Đồng thời, nền tảng đạt chứng nhận SOC 2 và ISO 27001, đảm bảo nhà phát triển có thể đưa mô hình vào ứng dụng môi trường sản xuất thực tế ngay lập tức.
Cơ sở hạ tầng suy luận chuyên dụng quan trọng với giai đoạn tiếp theo của AI
Sự ủng hộ của thị trường đầu tư dành cho DeepInfra phản ánh rằng tầm quan trọng của cơ sở hạ tầng AI đang dần vượt lên trên chính bản thân các mô hình. Tony Wang, Đối tác quản lý của 500 Global, cho biết trong môi trường phát triển do tác nhân dẫn dắt, các nhà phát triển cần một nền tảng chuyên dụng linh hoạt hơn, nhanh hơn và đáng tin cậy hơn. Sau khi hoàn tất vòng tài trợ này, tổng vốn của DeepInfra đạt 1,33 trăm triệu USD. Nguồn vốn sẽ được dùng để mở rộng năng lực tính toán toàn cầu, đào sâu bộ công cụ cho nhà phát triển và hỗ trợ các mô hình trí tuệ tự chủ thế hệ tiếp theo. Khi khối lượng token xử lý hằng tuần tiến gần 5 nghìn tỷ token, DeepInfra đặt mục tiêu xây dựng một “nhà máy token” hiệu suất cao, cung cấp nền tảng điện toán bền vững cho giai đoạn ứng dụng AI quy mô hóa của doanh nghiệp.
Bài viết này “Đối tác AI mở dài hạn của NVIDIA Deepinfra nhận 1,07 trăm triệu USD Series B, xây dựng ‘nhà máy token’” lần đầu xuất hiện trên 链新闻 ABMedia.
Related News
Anthropic ra mắt AI Agent chuyên cho tài chính, người trong ngành tiết lộ Claude không thể thay thế nhà phân tích ở điểm quan trọng
Báo cáo của Epoch AI: Anthropic tạo ra 9 triệu USD doanh thu bình quân trên mỗi người, cao hơn OpenAI hơn 60%
Bạch Tuệ Labs: Đàm phán tài trợ giữa DeepSeek và Alibaba chưa đạt thỏa thuận
Nhu cầu chip AI đang bùng nổ, Cerebras IPO vượt mức đăng ký hơn 20 lần
Anthropic cân nhắc huy động 50 tỷ USD trong mùa hè, định giá trước đầu tư khoảng 9000 tỷ