Quelque part entre l’article que vous lisez et la publicité à côté, une guerre silencieuse se déroule pour capter votre regard. La plupart des publicités en affichage en ligne perdent leur efficacité parce que les gens détestent simplement les publicités—au point que de grandes entreprises technologiques comme Perplexity ou Anthropic cherchent à s’éloigner de ces charges invasives, en recherchant de meilleurs modèles de monétisation. Mais un nouvel outil d’IA développé par des chercheurs de l’Université du Maryland et de l’Université de Tilburg veut changer cela—en prédisant, avec une précision troublante, si vous regarderez réellement une publicité avant même que quelqu’un ne la place. L’outil s’appelle AdGazer, et il fonctionne en analysant à la fois la publicité elle-même et le contenu de la page web qui l’entoure—puis en prédisant combien de temps un spectateur typique fixera la publicité et son logo de marque, basé sur de vastes données historiques de recherche publicitaire.
L’équipe a entraîné le système sur des données de suivi oculaire provenant de 3 531 publicités numériques en affichage. Des personnes réelles portaient des dispositifs de eye-tracking, naviguaient sur des pages, et leurs schémas de regard étaient enregistrés. AdGazer a appris de tout cela. Lorsqu’il a été testé sur des publicités qu’il n’avait jamais vues auparavant, il a prédit l’attention avec une corrélation de 0,83—ce qui signifie que ses prévisions correspondaient aux véritables schémas de regard humain environ 83 % du temps. Contrairement à d’autres outils qui se concentrent uniquement sur la publicité elle-même, AdGazer lit l’ensemble de la page autour. Un article de presse financière à côté d’une publicité pour une montre de luxe se comporte différemment de cette même publicité pour une montre à côté d’un ticker de scores sportifs. Le contexte environnant, selon l’étude publiée dans le Journal of Marketing, représente au moins 33 % de l’attention qu’une publicité reçoit—et environ 20 % du temps que les spectateurs regardent spécifiquement le logo de la marque. C’est une donnée importante pour les marketeurs qui ont longtemps supposé que la créativité seule faisait tout le travail.
Le système utilise un modèle de langage multimodal de grande taille pour extraire des sujets de haut niveau à la fois de la publicité et du contenu environnant de la page, puis détermine à quel point ils correspondent sémantiquement—en gros, la publicité en elle-même versus le contexte dans lequel elle est placée. Ces embeddings de sujets alimentent un modèle XGBoost, qui les combine avec des caractéristiques visuelles de niveau inférieur pour produire un score final d’attention. Les chercheurs ont également créé une interface, Gazer 1.0, où vous pouvez télécharger votre propre publicité, tracer des boîtes englobantes autour de la marque et des éléments visuels, et obtenir un temps de regard prédit en secondes—ainsi qu’une carte de chaleur montrant quelles parties de l’image le modèle pense attireront le plus l’attention. Elle fonctionne sans matériel spécialisé, bien que la correspondance de sujets alimentée par le LLM complet nécessite encore un environnement GPU, non encore intégré à la démo publique. Pour l’instant, c’est un outil académique. Mais l’architecture est déjà là. L’écart entre une démonstration de recherche et un produit de technologie publicitaire prêt pour la production se mesure en mois—pas en années.