Theo Beating, Sapient Intelligence đã mã nguồn mở HRM-Text, một mô hình tạo văn bản dựa trên kiến trúc mô hình suy luận phân cấp (HRM) với 1 tỷ tham số. Chỉ cần 40 tỷ token có cấu trúc, mô hình chỉ yêu cầu 46 giờ huấn luyện trên hai máy chủ 8-GPU H100, với chi phí tính toán xấp xỉ 1.472 USD cho phiên bản 1B và 800 USD cho biến thể 0,6B; điều này tương đương mức giảm 130–600 lần về chi phí tính toán tiền huấn luyện so với các mô hình chuẩn.
Những cải tiến về hiệu quả đến từ thiết kế hồi tiếp song thời gian (dual-timescale) với hai mô-đun Transformer nhanh và chậm riêng biệt, xen kẽ trên cùng một đầu vào và trao đổi thông tin thông qua phép cộng trạng thái. Toàn bộ khung kỹ thuật, bao gồm trích xuất dữ liệu và huấn luyện phân tán PyTorch, cũng đã được mã nguồn mở. Lưu ý rằng các trọng số được phát hành là chỉ dùng cho tiền huấn luyện chưa căn chỉnh; mô hình hỗ trợ các tác vụ hoàn thành theo tiền tố nhưng không thể hoạt động như một trợ lý hội thoại.
Tin tức liên quan