Sommaire
À partir de documents issus du procès antitrust américain, de brevets et d’un leak d’API, Cyrus Shepard propose une lecture du rôle des signaux de clics dans le classement Google et les réponses IA.
Les signaux liés aux clics occupent une place importante dans les discussions autour du fonctionnement de Google. À partir de documents issus du procès antitrust américain, de brevets et d’un leak d’API, Cyrus Shepard propose une lecture structurée de ces signaux et de leur rôle dans le classement et les réponses générées par l’IA.
L’analyse présentée ici repose sur ces différentes sources. On essaye de distinguer les éléments documentés de ceux qui relèvent d’interprétations.
Des données utilisateurs au cœur des systèmes de Google
Certains éléments issus du procès antitrust indiquent que les interactions utilisateurs constituent un avantage majeur pour Google. Les données évoquées incluent notamment :
- les requêtes effectuées,
- les résultats affichés,
- les clics réalisés,
- le temps passé sur une page.
Ces informations participent à l’amélioration des systèmes de classement. Elles sont également mentionnées comme un facteur difficile à reproduire à grande échelle pour des concurrents.
L’idée selon laquelle Google enregistre une grande partie des interactions utilisateurs est cohérente avec ces éléments, même si le niveau de détail exact n’est pas public.
Des signaux de clic identifiés dans plusieurs sources
Le leak d’API met en évidence plusieurs attributs liés aux clics, qui recoupent des notions présentes dans des brevets et évoquées lors du procès. Parmi les principaux signaux cités :
- Impressions : nombre de fois où une URL apparaît dans les résultats.
- Clicks : nombre de clics sur un résultat.
- BadClicks : clics courts, associés à un retour rapide vers les résultats.
- GoodClicks : clics plus longs, associés à un temps passé plus important.
- LastLongestClicks : clics longs après lesquels l’utilisateur ne revient pas aux résultats.
Ces notions sont décrites dans différentes sources. Leur présence dans les systèmes de Google est donc plausible. En revanche, leur utilisation exacte dans les algorithmes de classement n’est pas entièrement connue.
Un rôle évoqué dans les systèmes de recherche et d’IA
Google a déjà mentionné que les clics font partie de ses signaux fondamentaux, aux côtés des liens et du contenu. Certains éléments indiquent que ces données sont utilisées dans des systèmes comme :
- NavBoost ou Glue, liés au classement,
- des systèmes plus récents intégrant des données issues des logs de recherche.
Cyrus Shepard avance également que ces signaux alimentent les réponses générées par l’IA, notamment via :
- l’utilisation de logs de recherche sur plusieurs semaines,
- la sélection de résultats de référence pour les réponses,
- le lien entre résultats classiques et réponses synthétiques.
Ce point repose sur des éléments indirects. Il est cohérent avec le fonctionnement décrit, mais ne fait pas l’objet d’une confirmation détaillée.
Trois dimensions mises en avant : pertinence, utilité et satisfaction
L’analyse propose une lecture des signaux de clics autour de trois objectifs.
1. Pertinence : générer le clic
Google affiche des résultats qu’il juge pertinents, puis observe lesquels sont effectivement sélectionnés. L’auteur souligne que le volume de clics ne suffit pas à lui seul. Le contexte est pris en compte :
- position dans les résultats,
- type de requête,
- présentation du résultat.
L’objectif n’est donc pas uniquement d’augmenter le taux de clic, mais d’aligner le contenu avec l’intention de recherche.
2. Utilité : mesurer l’engagement
Les notions de goodClicks et badClicks sont utilisées pour illustrer la différence entre un contenu jugé utile ou non.
Un clic suivi d’un retour rapide vers les résultats peut signaler une réponse insuffisante. À l’inverse, un temps de consultation plus long peut indiquer une meilleure adéquation.
L’auteur précise que ces mesures ne correspondent pas directement à des indicateurs classiques comme le “temps passé sur la page”, mais à des données contextualisées selon :
- la requête,
- le type d’utilisateur,
- la langue ou la localisation.
Ces éléments reposent sur des descriptions issues de brevets et d’analyses, sans que leur pondération exacte soit connue.
3. Satisfaction : être le dernier résultat consulté
Le signal de lastLongestClicks est présenté comme un indicateur de satisfaction complète. Le scénario décrit :
- un utilisateur clique sur un résultat,
- il trouve sa réponse,
- il ne revient pas aux résultats de recherche.
Cette interprétation est cohérente avec les descriptions disponibles, mais relève d’une modélisation du comportement utilisateur plutôt que d’un fonctionnement documenté dans le détail.
Une manipulation volontairement difficile
Les systèmes décrits sont présentés comme difficiles à manipuler. Plusieurs mécanismes sont évoqués :
- prise en compte de données sur une longue période (jusqu’à 13 mois pour certains systèmes),
- filtrage des signaux bruités ou artificiels,
- pondération des interactions selon de nombreux critères (requête, position, appareil et localisation).
L’existence de ces mécanismes est mentionnée dans différentes sources, même si leur implémentation précise n’est pas publique.
Des pratiques de manipulation (clics artificiels) sont évoquées dans certains retours terrain, mais leur effet est présenté comme limité et instable.
Des indicateurs indirects pour suivre ces signaux
Google ne fournit enfin pas directement ces données de clic détaillées. L’auteur propose donc de s’appuyer sur des indicateurs indirects. Parmi les principaux :
- CTR (Search Console) : à analyser avec précaution selon la position.
- engagement : via des outils d’analytics.
- temps d’engagement : comme indicateur indirect.
- retours utilisateurs : utilisateurs récurrents, conversions.
- recherches de marque : indicateur de reconnaissance et de satisfaction.
Ces métriques ne correspondent pas directement aux signaux internes de Google, mais peuvent servir de repères.