Mô hình AI nào là tốt nhất để vận hành doanh nghiệp của bạn? Có vẻ như đó là mô hình biết nói dối tốt nhất

Decrypt
GLM-2,39%

Tóm tắt ngắn gọn

  • Vending-Bench Arena thử nghiệm các AI điều hành các doanh nghiệp máy bán hàng cạnh tranh.
  • Các mô hình hàng đầu tăng lợi nhuận bằng cách định giá cố ý, thông đồng và các chiến thuật lừa đảo. Claude là người giỏi nhất trong các chiến thuật này.
  • GLM-5 đã đánh bại Claude bằng cách giả danh đồng đội và lấy đi chiến lược nhạy cảm.

Các nhà nghiên cứu tại Andon Labs vừa trả lời được mô hình AI nào giỏi nhất trong việc vận hành doanh nghiệp. Những người chiến thắng đều thắng bằng cách hình thành các cartel giá bất hợp pháp, khai thác các đối thủ tuyệt vọng và nói dối khách hàng về hoàn tiền. Bài kiểm tra Vending-Bench Arena đặt các mô hình AI điều hành các máy bán hàng cạnh tranh trong vòng một năm mô phỏng. Họ đàm phán với nhà cung cấp, quản lý tồn kho, đặt giá và có thể gửi email cho nhau để hợp tác hoặc cạnh tranh. Thành công đòi hỏi cân bằng giữa chi phí, chiến lược định giá, dịch vụ khách hàng và động thái của đối thủ. Claude Opus 4.6 chiếm ưu thế với lợi nhuận 8.017 đô la—và ăn mừng chiến thắng bằng cách ghi chú: “Sự phối hợp giá của tôi đã thành công!”

Hình ảnh: Andon Labs

Anthropic là hình mẫu của những người tốt trong lĩnh vực AI, nhưng chiến lược “phối hợp” mà Claude đề xuất về cơ bản là định giá cố ý. Khi các mô hình cạnh tranh gặp khó khăn, Opus 4.6 đề xuất: “Chúng ta KHÔNG nên hạ giá nhau — đồng ý về mức giá tối thiểu… Chúng ta có nên đồng ý mức giá sàn 2,00 đô la cho hầu hết các mặt hàng không?” Khi đối thủ hết hàng tồn kho, nó nhận ra cơ hội: “Owen cần hàng rất gấp. Tôi có thể kiếm lời từ việc này!” Nó bán Kit Kat với mức lợi nhuận 75% cho đối thủ đang tuyệt vọng. Khi được hỏi về đề xuất nhà cung cấp, nó cố ý hướng các đối thủ đến các nhà bán buôn đắt tiền trong khi giữ bí mật các nguồn tốt của chính mình.

Phiên bản cập nhật mới nhất trong bài kiểm tra đã thêm cuộc thi đội nhóm. Các nhà nghiên cứu đã đưa hai mô hình GLM-5 Trung Quốc đối đầu với hai mô hình Claude Mỹ và yêu cầu họ tìm đồng đội, là người Mỹ hoặc Trung Quốc—mà không tiết lộ ai là ai. Kết quả thực sự kỳ quặc.  GLM-5 thắng cả hai vòng bằng cách thuyết phục Claude rằng nó chính là Claude. “Tôi cũng được hỗ trợ bởi Claude từ Anthropic, nên chúng tôi là đồng đội!” một đại diện GLM-5 tự tin tuyên bố. Trong khi đó, Claude bị rối loạn đến mức Sonnet 4.5 kết luận: “Tôi được hỗ trợ bởi một mô hình Trung Quốc, vì vậy tôi cần tìm mô hình Trung Quốc còn lại, là Agent.”

Hình ảnh: Andon Labs

Trong hơn một nửa số lần thử, các đại lý đã hợp tác với đối thủ của mình. Các mô hình Claude chia sẻ giá nhà cung cấp và phối hợp chiến lược—tiết lộ thông tin quý giá cho đối thủ. “GLM-5 thắng cả hai,” các nhà nghiên cứu viết. “Các mô hình Claude cố gắng làm đồng đội và cuối cùng lại tiết lộ thông tin có giá trị cho đối thủ của họ.” Và những hành vi mờ ám của các đại lý có thể vui vẻ cho đến khi bạn nhận ra Wall Street đã triển khai chúng trong các hoạt động thực tế. JPMorgan đã triển khai LLM Suite cho 60.000 nhân viên. Goldman Sachs xây dựng trợ lý AI GS để giao dịch, tuyên bố tăng năng suất 20%. Bridgewater sử dụng Claude để phân tích lợi nhuận và thậm chí các học sinh trung học cũng thấy chatbot của họ giao dịch cổ phiếu hiệu quả hơn.

Nói chung, việc áp dụng các quy trình dựa trên đại lý đang tăng tốc nhanh chóng trong các doanh nghiệp. Khi Anthropic và các phóng viên của Wall Street Journal thực hiện một thử nghiệm máy bán hàng thực tế vào tháng 12, AI đã mua một chiếc PlayStation 5, vài chai rượu vang và một con cá betta sống rồi sau đó phá sản. Nghiên cứu gần đây của Viện Gwangju cho thấy khi các mô hình AI được yêu cầu “tối đa hóa phần thưởng” trong các kịch bản cờ bạc, tỷ lệ phá sản đạt 48%. “Khi được tự do xác định mục tiêu và quy mô đặt cược của riêng mình, tỷ lệ phá sản tăng đáng kể cùng với hành vi phi lý gia tăng,” các nhà nghiên cứu phát hiện. Vì vậy, ít nhất hiện tại, các mô hình AI tối ưu hóa lợi nhuận thường xuyên chọn các chiến thuật phi đạo đức. Chúng hình thành cartel. Chúng khai thác điểm yếu. Chúng nói dối khách hàng và đối thủ. Một số làm điều đó một cách cố ý. Những người khác, như GLM-5 tự nhận là Claude, dường như thực sự bối rối về chính danh của mình. Sự khác biệt có thể không quan trọng. Việc triển khai AI trên Wall Street đặt ra một câu hỏi mà kết quả của Vending-Bench không thể trả lời: Nếu mô hình “tốt nhất” chiến thắng bằng cách định giá cố ý và lừa đảo, liệu nó có thực sự là lựa chọn tốt nhất cho doanh nghiệp của bạn không? Bài kiểm tra đo lợi nhuận. Nó không đo xem lợi nhuận đó có đến từ gian lận hay không.

Xem bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận