Accueil Tendances SEO Antitrust : Google explique pourquoi ses données d’usage valent de l’or dans Search

Antitrust : Google explique pourquoi ses données d’usage valent de l’or dans Search

Fiches données search

Marie Haynes vient d’analyser un document explosif du procès DOJ vs Google. Déposé par Liz Reid, vice-présidente de Google Search, ce dossier révèle pourquoi Google refuse de partager ses informations propriétaires avec ses concurrents : les données utilisateurs sont la clé de voûte de son algorithme.

Ce que Google refuse de partager

Google a fait appel de la décision antitrust qui l’oblige à transmettre des informations à ses concurrents. Le refus porte sur trois piliers :

  • Les signaux de qualité et de fraîcheur des pages,
  • Les annotations qui marquent chaque page indexée (notamment les scores de spam),
  • Et surtout les données utilisateurs collectées via les systèmes Glue et RankEmbed BERT.

Chaque page dans l’index Google est marquée avec des annotations pour identifier le spam et les contenus dupliqués. Haynes avait déjà écrit sur le fait que chaque page possède un score de spam. Google argue que divulguer ces scores permettrait aux spammeurs de faire de la rétro-ingénierie et rendrait la lutte contre le spam quasi impossible.

Les signaux de fraîcheur sont également au cœur des secrets propriétaires. Les pages sont organisées selon la fréquence à laquelle Google estime que le contenu devra être accédé et selon le niveau de fraîcheur requis. Construire cet index coûte un temps et un argent considérables. Donner aux concurrents la liste des URLs indexées leur permettrait d’éviter de crawler le web entier et de se concentrer uniquement sur cette fraction de pages.

Google Glue et RankEmbed BERT : le cœur du réacteur

Haynes considère cette partie comme la plus intéressante. Google Glue est une énorme table d’activité utilisateur qui collecte le texte des requêtes, la langue, la localisation, le type d’appareil, ce qui apparaît dans la SERP, ce sur quoi l’utilisateur clique ou survole, combien de temps il reste sur une page.

RankEmbed BERT va plus loin. Ce système d’apprentissage profond reclasse les résultats renvoyés par les systèmes de ranking traditionnels. Il est entraîné sur les données de clics et de requêtes d’utilisateurs réels. Les systèmes IA apprennent continuellement en observant ce sur quoi les utilisateurs cliquent et s’ils retournent aux SERPs.

Google exécute des expériences en direct pour voir ce que les chercheurs choisissent de cliquer et sur quoi ils restent. Ces actions entraînent RankEmbed BERT, qui est ensuite affiné par les quality raters.

Haynes martèle le point essentiel, la satisfaction utilisateur est de loin la chose la plus importante pour laquelle optimiser. Elle annonce une vidéo prochaine sur ce sujet qu’elle juge fondamental.

La question Chrome

Haynes se demande quel rôle jouent les données Chrome. Google regarde-t-il si les gens interagissent avec les pages, remplissent des formulaires, suivent des recettes ? Elle pense que oui. Le résumé du jugement suggère que les données Chrome sont utilisées dans les systèmes de ranking, mais peu de détails sont partagés.

Google affirme dans le document que si quelqu’un obtenait les données Glue et RankEmbed, cette personne pourrait entraîner un LLM avec. Ces données utilisateurs sont la clé du succès de Google. Le dossier complet de Liz Reid mérite d’être lu, conclut Haynes.

À découvrir également