Sommaire
Une investigation menée par Olivier de Segonzac (RESONEO) et Damien Andell (1492.vision) révèle l’architecture secrète qui anime Google Search. Entre expérimentations massives, agents IA spécialisés et systèmes d’embeddings comportementaux, voici ce qui se cache derrière vos recherches quotidiennes.
1200 expériences, l’innovation permanente de Google
L’enquête a permis d’obtenir une liste de près de 1 200 expériences Google, dont plus de 800 étaient actives en juin 2025. Cette base de données confirme que de nombreux composants révélés dans les fuites de 2024 restent centraux : Mustang, Twiddlers, QRewrite, Tangram ou QUS.
Parallèlement, de nouveaux noms de code émergent : Harmony, Thor, Whisper, Moonstone et Solar. Parmi les plus notables figurent DeepNow (successeur de Google Now avec son homologue NowBoost) et SuperGlue, qui pourrait remplacer Glue, l’équivalent de NavBoost pour la recherche universelle.
Architecture par domaines expérimentaux
Contrairement aux sites web traditionnels qui subissent des refonte majeures tous les 3-5 ans, Google évolue en continu. Cette approche incrémentale explique la nature stratifiée de la liste d’expériences : des tests vieux de plusieurs mois côtoient de nouveaux essais, certains en étant déjà à leur 15e itération (MagiCotRev15Launch).
Un pattern clair émerge, chaque vertical se voit attribuer son propre « domaine » :
- ShoppingOverlappingDomain (plus de 50 expériences dédiées),
- TravelOverlappingDomain,
- SportsOverlappingDomain,
- FinanceOverlappingDomain.
Cette architecture permet à chaque équipe produit d’opérer dans son propre espace expérimental sans conflits.
Knowledge Graph : le système nerveux central de Google
La recherche de Damien Andell et Sylvain Deauré révèle que le Knowledge Graph dépasse largement le panneau latéral visible par les utilisateurs. Il fonctionne comme le système nerveux central de l’écosystème Google, alimentant Search, Discover, YouTube, Maps, Assistant, Gemini et les AI Overviews.
Hiérarchie de validation des données
Google traite la fiabilité des données comme une priorité absolue. Au cœur du Knowledge Graph, Livegraph assigne un poids de confiance à chaque triplet avant de déterminer s’il doit l’admettre. Cette validation suit une hiérarchie structurée :
- kc: Données issues de corpus hautement validés (âges officiels, registres gouvernementaux),
- ss: « Webfacts » extraits du web, plus quelques « shortfacts » (ok:) moins fiables mais plus riches,
- hw: Informations curées manuellement par des humains.
Cette classification influence directement la confiance attribuée à chaque fait et détermine son utilisation dans les services Google.
Entités fantômes et adaptation temps réel
L’une des découvertes les plus fascinantes concerne les « entités fantômes » – des éléments non ancrés qui flottent dans une zone tampon du Knowledge Graph. Contrairement aux entités entièrement validées avec des MID stables, ces structures temporaires permettent à Google de réagir quasi instantanément aux événements émergents.
Pendant que les LLM conventionnels restent figés sur leurs instantanés d’entraînement, Google peut :
- Générer dynamiquement de nouvelles entités,
- Les valider progressivement,
- Les surfacer dans les résultats selon les besoins.
SAFT et WebRef opèrent en continu pour extraire, classer et lier les entités, aidant Google à construire une représentation sémantique complète du web.
IA Mode : 90 projets et constellation d’agents
Une découverte récente a donné accès à ce qui semble être un menu de debug interne Google, visible uniquement sur réseau d’entreprise ou via VPN. Cette version de mai 2025 révèle près de 90 projets en développement, soit plus de 40 de plus que la liste précédente.
Stratégie multi-agents ultra-spécialisés
Plutôt que de construire un assistant polyvalent unique, Google développe une constellation d’agents ultra-spécialisés :
- MedExplainer pour la santé,
- Travel Agent et Flight Deals pour les voyages,
- Neural Chef, Food Analyzer et Smart Recipe pour la cuisine,
- News Digest et Daily Brief pour l’actualité,
- Shopping AI Studio pour le commerce.
Projet Magi : l’épine dorsale d’AI Mode
De nombreuses expériences relèvent du Project Magi, nom interne d’AI Mode, avec plus de 50 tests actifs. Le déploiement semble hautement structuré :
- MagiModelLayerDomain : infrastructure centrale.
- MagitV2p5Launch : alignement avec Gemini 2.5.
- SuperglueMagiAlignment : miroir du système Glue qui suit les interactions utilisateur.
MagitCotRev15Launch implémente une technique de Chain-of-Thought en cinq étapes : Reflect → Research → Read → Synthesize → Polish.
Interfaces AIM (AI Mode)
Le projet AIM se concentre sur les interfaces utilisateur avec plusieurs points d’entrée :
- AimLhsOverlay : sidebar IA.
- SbnAimEntrypoints : réutilisation du bouton « J’ai de la chance » comme passerelle IA.
- Le logo Google lui-même devient interactif.
Stateful Journey et Context Bridge confirment la révolution LLM : Google passe de requêtes isolées à des sessions conversationnelles complètes.
Le moteur de profilage : vous êtes vectorisés !
Cette investigation révèle une couche cachée de l’infrastructure Google qui transforme chaque interaction numérique en embedding mathématique – un vecteur qui encode l’essence de votre identité en ligne.
Nephesh : l’embedding universel des utilisateurs
Au centre de ce système de profilage se trouve Nephesh, la fondation d’embedding utilisateur universelle de Google. Nephesh génère des représentations vectorielles de vos préférences et comportements à travers tous les produits Google.
Ces embeddings :
- Alimentent des signaux évaluant si vous correspondez à un profil « typique » ou « atypique »,
- Estiment votre probabilité d’engagement avec du contenu spécifique,
- Influencent directement la personnalisation des résultats.
Picasso et VanGogh : embeddings duaux pour Google Discover
Pour Discover, Google déploie un système d’embedding bipartite nommé Picasso et VanGogh :
- Picasso : votre mémoire à long terme, analysant patiemment des mois d’interactions. Utilise deux fenêtres temporelles : STAT (intérêts récents) et LTAT (passions long terme).
- VanGogh : fonctionne sur l’appareil, capturant des signaux temps réel – état de l’appareil, dernières requêtes, distance de scroll.
Constellation d’embeddings spécialisés
Au-delà de Picasso-VanGogh, Google maintient une constellation d’embeddings spécialisés :
- Embeddings verticaux (podcasts, vidéo, shopping ou voyage).
- Embeddings temporels (temps réel, court terme ou permanent).
- Embeddings contextuels qui s’adaptent aux indices situationnels.
Le système HULK pousse l’analyse comportementale à l’extrême, détectant si vous êtes IN_VEHICLE, ON_BICYCLE, ON_STAIRS, IN_ELEVATOR, ou même SLEEPING. Il identifie également les lieux fréquemment visités (SEMANTIC_HOME, SEMANTIC_WORK) pour prédire les destinations futures.
Cette approche préfigure l’évolution du SEO vers une optimisation comportementale où la compréhension des patterns utilisateur devient essentielle.
Compréhension des requêtes : expansion et scoring temps réel
Une autre percée notable concerne le moteur d’expansion de requêtes et une mystérieuse couche de scoring temps réel.
Transformation des requêtes
Les captures montrent comment vos requêtes sont transformées :
Pour « cycling tour france », « cycling tour » devient instantanément le bigramme consolidé « cyclingtour » et se déploie vers « bicycle », « bike » et « trips ».
Des marqueurs spéciaux apparaissent :
- iv;p pour les correspondances exactes in-verbatim.
- iv;d pour les dérivations linguistiques.
Intelligence géographique
Pour une requête comme « nail salon fort lauderdale 17th street », le système :
- Mappe les géo-catégories (geo:ypcat:manicuring) et codes de zone (geo;88d850000000000),
- Étend les variations d’adresse,
- Traduit certains termes à la volée selon la localisation.
Scoring terme par terme temps réel
Le système expose une grille de scoring où chaque terme obtient 0-10 points par URL :
- Les mots vides sont ignorés,
- Les termes de titre reçoivent des bonus,
- Les entités nommées atteignent systématiquement les scores maximums.
Le scoring est par paires : le même terme peut recevoir différents scores pour la même URL selon le contexte de requête.
Implications pour le SEO moderne
Ces révélations redéfinissent les fondamentaux du référencement :
- Devenir une entité validée : votre marque doit exister comme entité validée dans le Knowledge Graph. Les fuites 2024 révélaient que Google vectorise des sites entiers, calculant des signaux de cohérence thématique qui pénalisent le contenu dispersé.
- Hyper-spécialisation : le contenu doit correspondre aux agents experts. La multi-modalité devient obligatoire, intégrant texte, images, vidéo et données structurées.
- Profilage comportemental : les données Chrome alimentent continuellement le Knowledge Graph, identifiant les entités visitées et actualisant les signaux de confiance.
Dans cette nouvelle réalité, la visibilité dépend moins du volume de contenu que de la représentation de votre site comme entité triangulée par sources multiples et profondément intégrée dans un graphe thématique cohérent.
Ces découvertes illustrent les facteurs qui influent vraiment sur Google en 2025 : d’un moteur de recherche textuel vers un système d’intelligence artificielle capable de comprendre, contextualiser et personnaliser chaque interaction en temps réel.
La transition s’accélère avec l’intégration d’AI Mode dans Search Console, qui signale que Google prépare les SEO à mesurer leur performance dans cette nouvelle ère conversationnelle.