Tóm tắt ngắn gọn
Giữa bài viết bạn đang đọc và quảng cáo bên cạnh, đang diễn ra một cuộc chiến âm thầm để giành lấy ánh mắt của bạn. Hầu hết các quảng cáo hiển thị đều mất đi sự chú ý vì mọi người ghét quảng cáo—đến mức các công ty công nghệ lớn như Perplexity hoặc Anthropic đang cố gắng tránh xa những gánh nặng xâm phạm đó, tìm kiếm các mô hình kiếm tiền tốt hơn. Nhưng một công cụ AI mới từ các nhà nghiên cứu tại Đại học Maryland và Đại học Tilburg muốn thay đổi điều đó—bằng cách dự đoán, với độ chính xác đáng lo ngại, liệu bạn có thực sự nhìn vào một quảng cáo trước khi ai đó đặt nó ở đó hay không. Công cụ này gọi là AdGazer, hoạt động bằng cách phân tích cả quảng cáo và nội dung trang web xung quanh nó—sau đó dự đoán thời gian trung bình người xem sẽ nhìn vào quảng cáo và logo thương hiệu dựa trên dữ liệu lịch sử rộng lớn về nghiên cứu quảng cáo.
Nhóm nghiên cứu đã huấn luyện hệ thống dựa trên dữ liệu theo dõi mắt từ 3.531 quảng cáo hiển thị kỹ thuật số. Người thật đeo thiết bị theo dõi mắt, duyệt các trang, và các mẫu nhìn của họ đã được ghi lại. AdGazer học từ tất cả dữ liệu đó. Khi thử nghiệm trên các quảng cáo chưa từng thấy trước đây, nó dự đoán sự chú ý với hệ số tương quan 0,83—nghĩa là các dự đoán của nó phù hợp với mẫu nhìn của con người thực tế khoảng 83% thời gian. Khác với các công cụ khác chỉ tập trung vào chính quảng cáo, AdGazer đọc toàn bộ trang xung quanh. Một bài báo tin tức tài chính bên cạnh quảng cáo đồng hồ xa xỉ hoạt động khác với cùng quảng cáo đồng hồ đó bên cạnh bảng điểm thể thao. Ngữ cảnh xung quanh, theo nghiên cứu đăng trên Journal of Marketing, chiếm ít nhất 33% mức độ chú ý mà một quảng cáo nhận được—và khoảng 20% thời gian người xem nhìn vào thương hiệu cụ thể. Điều này là một điều quan trọng đối với các nhà tiếp thị đã lâu tin rằng chính sáng tạo mới là yếu tố quyết định.
Hệ thống sử dụng một mô hình ngôn ngữ lớn đa chế độ để trích xuất các chủ đề cấp cao từ cả quảng cáo và nội dung trang web xung quanh, sau đó xác định mức độ phù hợp về mặt ngữ nghĩa—cơ bản là so sánh quảng cáo với ngữ cảnh nó được đặt vào. Các nhúng chủ đề này được đưa vào mô hình XGBoost, kết hợp với các đặc trưng hình ảnh cấp thấp hơn để tạo ra điểm số chú ý cuối cùng. Các nhà nghiên cứu cũng đã xây dựng giao diện Gazer 1.0, cho phép bạn tải lên quảng cáo của riêng mình, vẽ khung bao quanh thương hiệu và các yếu tố hình ảnh, và nhận về thời gian nhìn dự đoán tính bằng giây—cùng với bản đồ nhiệt thể hiện phần nào của hình ảnh mà mô hình nghĩ sẽ thu hút nhiều sự chú ý nhất. Nó hoạt động mà không cần phần cứng đặc biệt, mặc dù việc phù hợp chủ đề dựa trên mô hình ngôn ngữ lớn vẫn yêu cầu môi trường GPU chưa được tích hợp vào bản demo công khai. Hiện tại, đó là một công cụ học thuật. Nhưng kiến trúc đã sẵn sàng. Khoảng cách giữa một bản trình diễn nghiên cứu và một sản phẩm công nghệ quảng cáo thương mại là tính bằng tháng—chứ không phải năm.