Google comprend-il vraiment les contenus ?

Sommaire

À partir des documents révélés lors du procès antitrust contre Google et de la fuite du Content API Warehouse, Shaun Anderson revient sur l’évolution des systèmes de classement du moteur. Google ne comprenait initialement pas directement les contenus, mais s’appuyait d’abord sur les réactions des utilisateurs pour en évaluer la pertinence. La donne est différente aujourd’hui.

Des documents internes qui éclairent le fonctionnement de Google

Shaun Anderson s’appuie sur plusieurs présentations internes rendues publiques dans le cadre du procès antitrust américain, ainsi que sur les documents techniques diffusés en 2024 via la fuite du Content API Warehouse.

Selon lui, ces éléments donnent une vision plus concrète du fonctionnement du moteur, loin du seul discours public sur l’intelligence artificielle et la compréhension du langage.

Le classement reposait d’abord sur les réactions des utilisateurs

Historiquement, Google ne “comprenait” pas réellement les contenus, mais en évaluait la pertinence à partir des réactions des utilisateurs face aux résultats affichés. Dans cette logique, le moteur s’appuyait sur des signaux comportementaux comme :

les clics,
le temps passé,
les retours rapides vers la page de résultats,
d’autres interactions avec l’interface de recherche.

Si un résultat suscitait une réaction positive, Google le considérait comme pertinent ; dans le cas contraire, il l’était moins.

Un système présenté comme une boucle d’apprentissage

Le moteur fonctionnait comme une boucle d’induction. Chaque utilisateur bénéficiait des réactions accumulées avant lui, tout en alimentant à son tour le système par son propre comportement.

Cette logique faisait des interactions utilisateurs un élément structurant du classement, et non un simple signal secondaire. L’interface ne servait pas uniquement à aider l’utilisateur, mais également à recueillir des informations exploitables pour améliorer les résultats futurs.

Trois piliers structuraient le classement

Une autre présentation interne, Life of a Click, montrait que le classement reposait déjà sur trois éléments :

le contenu de la page
ce que le web dit de cette page, notamment via les liens
les interactions utilisateurs

Dans cette modélisation, les clics et autres comportements ne remplaçaient pas les autres signaux, mais s’ajoutent à eux comme troisième pilier.

Le problème du “cold start”

Ce modèle avait aussi une limite importante : lorsqu’une page était nouvelle, peu consultée ou récemment mise à jour, Google disposait de peu de données comportementales pour l’évaluer.

C’est ce qu’Anderson présente comme le problème du cold start. Sans historique d’interactions, le moteur avait plus de difficulté à juger la qualité d’un contenu.

Une évolution vers une lecture plus sémantique

Pour corriger cette limite, Google a progressivement renforcé ses capacités de traitement du langage.

Selon cette analyse, le moteur est passé d’un système largement nourri par les clics à une capacité plus forte d’évaluer un contenu dès son indexation, sans attendre uniquement les réactions des utilisateurs.

Cette évolution s’appuie notamment sur BERT, MUM ou Gemini, mais aussi sur une utilisation plus poussée des entités, des représentations vectorielles et d’autres signaux sémantiques.

Aujourd’hui, le classement repose sur plusieurs étapes

À partir des documents fuités, Shaun Anderson décrit un pipeline de classement structuré en plusieurs couches.

Le contenu comme premier filtre

Selon cette lecture, une première étape évalue la qualité intrinsèque du contenu. L’auteur cite notamment des signaux comme :

l’effort de production du contenu,
l’originalité,
la présence d’images propres,
la profondeur de mise à jour,
la spécialisation du site sur un sujet.

Ces éléments serviraient à déterminer si une page peut réellement entrer dans la compétition.

L’autorité du site comme second niveau

Une fois ce premier filtre passé, le système examinerait la réputation plus large du domaine. Shaun Anderson évoque ici des signaux liés :

à l’autorité globale du site,
à son historique de qualité,
à sa cohérence thématique,
au poids accumulé dans le temps.

Cette logique introduit ce qu’il décrit comme une forme de plafond algorithmique pour les sites récents ou peu établis.

Les interactions utilisateurs comme validation finale

Les signaux comportementaux continueraient enfin d’intervenir en aval, comme couche de réajustement. Dans cette dernière étape, un contenu pourrait être pénalisé si :

le titre attire un clic mais déçoit ensuite,
la mise en page génère un retour rapide,
l’expérience produit des signaux négatifs répétés.

Dans cette lecture, les interactions utilisateurs restent donc importantes, mais elles n’interviennent plus seules ni en premier.

L’avis de Position Zéro

Les documents internes ne changent pas totalement la lecture du SEO, mais ils confirment une réalité souvent simplifiée à tort. Google ne repose ni uniquement sur le contenu, ni uniquement sur les liens, ni uniquement sur les clics.

La visibilité dépend, selon Anderson, d’un équilibre entre :

qualité et originalité du contenu,
autorité du site et de l’auteur,
clarté thématique,
satisfaction réelle des utilisateurs après le clic.

Il est aujourd’hui nécessaire de raisonner à l’échelle du site et des entités, et non plus seulement page par page.

E-E-A-T Études

Google comprend-il vraiment les contenus ? Ce que révèlent les signaux de classement