Tin tức Gate News, ngày 9 tháng 3, nhóm nghiên cứu tại Viện Công nghệ Liên bang Zurich (ETH Zurich) đã thử nghiệm khả năng đồng thuận Byzantine của LLM Agent trong bài báo “Can AI Agents Agree?”. Bối cảnh nghiên cứu là việc đạt được sự đồng thuận trong điều kiện một số thành viên có thể làm điều xấu, là thách thức cốt lõi của tất cả các hệ thống phi tập trung. Các cơ chế đồng thuận của blockchain về bản chất đều là các biến thể khác nhau của việc giải quyết vấn đề lỗi Byzantine.
Nhóm đã sử dụng các mô hình Qwen3-8B và Qwen3-14B, chạy hàng trăm lần mô phỏng với các quy mô nhóm khác nhau (4, 8, 16 Agent) và tỷ lệ nút độc hại khác nhau. Trong quá trình thử nghiệm, nhiều Agent đã phát sóng đề xuất và bỏ phiếu qua mạng kết nối đồng bộ nhiều lần, một số Agent là các nút Byzantine độc hại cố ý phá hoại.
Kết quả cho thấy, ngay cả khi không có nút độc hại, tỷ lệ đồng thuận hiệu quả cũng chỉ đạt 41.6% (Qwen3-14B là 67.4%, Qwen3-8B chỉ 15.8%). Số lượng nút càng nhiều, việc đạt được sự đồng thuận càng khó khăn, tỷ lệ thành công giảm từ 46.6% khi có 4 Agent xuống còn 33.3% khi có 16 Agent. Sau khi thêm các nút độc hại, tình hình đồng thuận càng xấu đi, thất bại chủ yếu do quá thời gian hoặc dừng hội tụ (mất hoạt động), chứ không phải do dữ liệu bị thay đổi. Chỉ cần đề cập trong prompt rằng “có thể có nút độc hại”, tỷ lệ thành công của Qwen3-14B đã giảm từ 75.4% xuống còn 59.1%, ngay cả khi thực tế không có nút độc hại.
Kết luận của bài báo cho rằng, khả năng đồng thuận đáng tin cậy vẫn chưa phải là khả năng nổi bật hiện tại của LLM Agent, và các hệ thống phi tập trung dựa vào sự phối hợp vững chắc cần thận trọng khi triển khai.