Accueil Tendances SEO Google développe une nouvelle méthode d’extraction de l’intention utilisateur

Google développe une nouvelle méthode d’extraction de l’intention utilisateur

Image recherche Google

Google a publié un papier de recherche sur une méthode d’extraction d’intention à partir des interactions utilisateur, pensée pour des agents autonomes. L’approche s’appuie sur de petits modèles exécutés localement, afin que le traitement se fasse sur l’appareil et que les données ne soient pas renvoyées à Google.

Cette recherche intéresse les SEO car elle illustre une tendance. Des systèmes cherchent à déduire l’objectif d’un utilisateur à partir d’un parcours (écrans et actions), et plus seulement à partir d’une requête. Pour l’UX et la visibilité, cela remet la clarté des parcours au premier plan. Plus le site rend l’intention évidente, plus il devient exploitable par des assistants.

Les auteurs indiquent qu’une décomposition du problème améliore les résultats, au point de dépasser la performance de référence d’un modèle multimodal “massif” hébergé en data centers. (Dans le papier, “MLLM” renvoie à un modèle de langage multimodal, capable de traiter du texte et des signaux visuels, par opposition à un LLM centré sur le texte.)

Des modèles plus petits sur navigateurs et appareils

La recherche vise l’inférence de l’intention à partir d’une suite d’actions sur mobile ou navigateur, avec une contrainte centrale, conserver le traitement au niveau de l’appareil, sans remontée de données brutes.

Dans le schéma décrit, un premier modèle produit des résumés au fil des interactions. Un second modèle s’appuie sur l’ensemble de ces résumés pour formuler une intention globale. Les auteurs mettent en avant deux résultats :

  • de meilleures performances que des approches “monobloc”,
  • et une meilleure tenue quand les données comportent du bruit (interfaces qui évoluent, étapes manquantes, signaux incomplets).

Inférer l’intention à partir d’une séquence d’interactions

L’inférence de l’intention à partir de captures d’écran et d’une description textuelle des actions a été proposée en 2025 via des modèles multimodaux. Les auteurs reprennent ce cadre et indiquent qu’ils l’adaptent avec un prompt retravaillé.

Ils rappellent que l’exercice reste délicat. Une même suite d’actions peut prêter à plusieurs lectures, et des erreurs peuvent apparaître à différentes étapes du traitement.

Pour décrire le parcours utilisateur, ils emploient le terme trajectoire. Une trajectoire correspond à une suite d’interactions dans une application mobile ou sur le web. Chaque interaction associe deux éléments :

  • Observation : l’état visuel de l’écran à cet instant (capture).
  • Action : ce que l’utilisateur fait sur cet écran (cliquer, saisir du texte, suivre un lien, etc.).

Ils définissent enfin trois critères pour juger la qualité d’une intention extraite :

  • Fidèle : ne décrit que ce qui se produit dans la trajectoire.
  • Complète : contient les informations nécessaires pour comprendre l’objectif et pouvoir rejouer le parcours.
  • Pertinente : évite les détails superflus au-delà de ce qui sert la complétude.

Pourquoi l’évaluation reste difficile

Le papier souligne une limite de fond. Une intention ne se lit pas toujours directement dans une suite d’actions. Les actions sont observables, les motivations le sont moins. Un choix peut relever du prix, de caractéristiques, d’une préférence de marque ou d’une contrainte de temps, sans que la trajectoire tranche à elle seule.

Le texte rappelle aussi des résultats antérieurs : l’accord entre humains sur l’intention atteint environ 80 % sur des trajectoires web et 76 % sur des trajectoires mobiles. Le papier s’en sert pour justifier une prudence dans l’évaluation et la nécessité de cadrer ce que le modèle “a le droit” d’affirmer.

Étape 1 : résumer chaque interaction

La première étape consiste à produire un résumé pour chaque interaction. Le papier décrit un format en trois blocs :

  1. une description de ce qui est visible à l’écran,
  2. une description de l’action,
  3. une zone d’“intention spéculative”.

Cette troisième partie n’entre pas dans le résultat final. Les auteurs indiquent que le fait d’autoriser cette hypothèse, puis de la retirer, améliore la qualité du résumé conservé. Le résumé final reste centré sur l’observable (écran + action), sans basculer dans une interprétation.

Étape 2 : formuler une intention globale sans “halluciner”

La seconde étape vise une description d’intention globale à partir de la suite de résumés. C’est à ce stade que le fine-tuning intervient.

Les auteurs décrivent un problème classique. Les résumés d’entrée peuvent rester incomplets, alors que les intentions “cibles” prévues pour l’entraînement contiennent des détails plus riches. Au départ, le modèle tend à combler les manques pour ressembler aux cibles, ce qui ouvre la porte aux hallucinations.

Ils révisent les intentions cibles en retirant les détails qui ne sont pas étayés par les résumés. Le modèle apprend ainsi à produire une intention qui reste strictement adossée aux informations disponibles en entrée.

Limites et garde-fous

Le papier aborde des risques liés à l’usage par des agents autonomes, avec un rappel sur la nécessité de garde-fous si un agent prend des initiatives contraires à l’intérêt de l’utilisateur.

Les auteurs citent aussi des limites de portée, comme les tests sur Android et environnements web, sur des utilisateurs situés aux États-Unis et en anglais. Le papier et le billet associé ne décrivent pas de déploiement produit à ce stade.

À quoi les auteurs rattachent cette approche

Le texte place cette méthode dans le contexte d’agents “sur l’appareil”, capables d’observer un parcours dans une interface puis d’en déduire l’objectif. Deux usages sont mentionnés :

  • Assistance proactive (aide au bon moment, personnalisation, efficacité),
  • Mémoire personnalisée (trace d’activités passées décrite sous forme d’intentions).

Si la puissance de calcul progresse et si les modèles gagnent en performance, cette compréhension “on-device” pourrait servir de base à davantage de fonctionnalités d’assistance sur mobile.

À découvrir également