Quelque part entre l’article que vous lisez et la publicité à côté, une guerre silencieuse se livre pour attirer votre regard. La plupart des publicités en affichage perdent leur efficacité parce que les gens détestent simplement les publicités—au point que de grandes entreprises technologiques comme Perplexity ou Anthropic tentent de s’en éloigner, cherchant de meilleurs modèles de monétisation. Mais un nouvel outil d’IA développé par des chercheurs de l’Université du Maryland et de l’Université de Tilburg veut changer cela—en prédisant, avec une précision troublante, si vous regarderez réellement une publicité avant même qu’on ne prenne la peine de la placer. L’outil s’appelle AdGazer, et il fonctionne en analysant à la fois la publicité elle-même et le contenu de la page web qui l’entoure—puis en prédisant combien de temps un spectateur typique fixera la publicité et son logo de marque, basé sur de vastes données historiques de recherche publicitaire.
L’équipe a entraîné le système sur des données de suivi oculaire provenant de 3 531 publicités numériques en affichage. Des personnes réelles portaient des dispositifs de suivi oculaire, naviguaient sur des pages, et leurs schémas de regard étaient enregistrés. AdGazer a appris de tout cela. Lorsqu’il a été testé sur des publicités qu’il n’avait jamais vues auparavant, il a prédit l’attention avec une corrélation de 0,83—ce qui signifie que ses prévisions correspondaient aux véritables schémas de regard humain environ 83 % du temps. Contrairement à d’autres outils qui se concentrent uniquement sur la publicité elle-même, AdGazer lit l’ensemble de la page autour. Un article de presse financière à côté d’une publicité pour une montre de luxe se comporte différemment de cette même publicité pour une montre à côté d’un ticker de score sportif. Le contexte environnant, selon l’étude publiée dans le Journal of Marketing, représente au moins 33 % de l’attention qu’une publicité reçoit—et environ 20 % du temps que les spectateurs regardent spécifiquement le logo de la marque. C’est une donnée importante pour les marketeurs qui ont longtemps supposé que la créativité elle-même faisait tout le travail.
Le système utilise un modèle de langage multimodal de grande taille pour extraire des sujets de haut niveau à la fois de la publicité et du contenu de la page environnante, puis détermine à quel point ils correspondent sémantiquement—en gros, la publicité en elle-même versus le contexte dans lequel elle est placée. Ces embeddings de sujets alimentent un modèle XGBoost, qui les combine avec des caractéristiques visuelles de niveau inférieur pour produire un score final d’attention. Les chercheurs ont également créé une interface, Gazer 1.0, où vous pouvez télécharger votre propre publicité, tracer des boîtes englobantes autour de la marque et des éléments visuels, et obtenir un temps de regard prédit en secondes—avec une carte de chaleur montrant quelles parties de l’image le modèle pense attireront le plus l’attention. Elle fonctionne sans matériel spécialisé, bien que la correspondance de sujets alimentée par le LLM complet nécessite encore un environnement GPU non encore intégré à la démo publique. Pour l’instant, c’est un outil académique. Mais l’architecture est déjà là. La différence entre une démo de recherche et un produit de technologie publicitaire en production se mesure en mois—pas en années.