Sapient Open-Sources mô hình HRM-Text 1B tham số; đạt chi phí huấn luyện 1.472 USD trong 46 giờ

Theo Beating, Sapient Intelligence đã mã nguồn mở HRM-Text, một mô hình tạo văn bản dựa trên kiến trúc mô hình suy luận phân cấp (HRM) với 1 tỷ tham số. Chỉ cần 40 tỷ token có cấu trúc, mô hình chỉ yêu cầu 46 giờ huấn luyện trên hai máy chủ 8-GPU H100, với chi phí tính toán xấp xỉ 1.472 USD cho phiên bản 1B và 800 USD cho biến thể 0,6B; điều này tương đương mức giảm 130–600 lần về chi phí tính toán tiền huấn luyện so với các mô hình chuẩn.

Những cải tiến về hiệu quả đến từ thiết kế hồi tiếp song thời gian (dual-timescale) với hai mô-đun Transformer nhanh và chậm riêng biệt, xen kẽ trên cùng một đầu vào và trao đổi thông tin thông qua phép cộng trạng thái. Toàn bộ khung kỹ thuật, bao gồm trích xuất dữ liệu và huấn luyện phân tán PyTorch, cũng đã được mã nguồn mở. Lưu ý rằng các trọng số được phát hành là chỉ dùng cho tiền huấn luyện chưa căn chỉnh; mô hình hỗ trợ các tác vụ hoàn thành theo tiền tố nhưng không thể hoạt động như một trợ lý hội thoại.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận