Accueil SEO technique Canonical : quand Google retient une autre URL

Canonical : quand Google retient une autre URL

17 vues
Robot qui réfléchit

Glenn Gabe présente plusieurs cas où Google ignore le rel=canonical sur des sites à grande échelle, avec des effets sur l’indexation, les SERP, la charge de crawl et la lecture des données dans Google Search Console.

Il évoque aussi des impacts indirects (Navboost, “link inversion” et hreflang) et un possible effet de cascade vers des plateformes de recherche IA quand elles reprennent les URL retenues par Google.

Sur son blog, Glenn Gabe rapporte plusieurs cas récents où Google a ignoré l’attribut rel=canonical sur des sites volumineux. Il décrit des effets sur l’indexation, les SERP, la charge de crawl, les données dans Google Search Console (GSC) et, en aval, certaines plateformes de recherche IA.

Le rel=canonical est une balise HTML qui indique à Google et aux autres moteurs de recherche quelle URL doit être considérée comme la version principale d’un contenu lorsque plusieurs pages présentent un contenu identique ou très proche. Elle se place dans la section <head> d’une page et permet de signaler l’URL à privilégier pour l’indexation et le classement.

Son objectif est d’éviter les problèmes de duplication et de consolider les signaux (liens, pertinence et performances) vers une seule URL de référence. Il s’agit toutefois d’un signal interprétable par les moteurs, et non d’une directive obligatoire.

Crawl budget : un enjeu surtout pour les très gros sites

L’auteur rappelle que la plupart des sites n’ont pas à se soucier du crawl budget. En revanche, pour des sites avec des centaines de milliers d’URL (ou davantage), un problème technique peut rapidement se généraliser et :

  • augmenter fortement la charge de crawl,
  • provoquer des impacts visibles à grande échelle.

Il souligne aussi qu’un incident technique peut se transformer en problème de “qualité” si le contenu ou l’expérience utilisateur se dégrade.

Rel=canonical : un signal, pas une directive

Glenn Gabe insiste sur le fait que rel=canonical est une indication. Google ne l’applique pas systématiquement et peut sélectionner une autre URL canonique.

Quand Google retient une URL différente :

  • l’URL choisie devient celle indexée et positionnée,
  • l’URL “canonisée” a en général moins de chances d’apparaître et de se positionner,
  • les rapports de GSC attribuent les signaux à l’URL canonique retenue par Google.

L’auteur rappelle qu’il existe aussi un cas particulier évoqué dans ses publications précédentes, où certaines URL canonisées peuvent malgré tout apparaître, selon les situations.

Cas 1 : un sous-domaine “rogue” choisi comme canonique

Premier exemple : un sous-domaine supposé être protégé par un login ne l’était pas. Google l’a découvert, exploré, puis indexé. Le moteur a ensuite sélectionné des URL du sous-domaine comme canoniques, à la place des URL du site principal.

Conséquences mentionnées :

  • les URL du sous-domaine apparaissaient et se positionnaient dans les résultats,
  • la favicon affichée était une icône “globe” générique, jugée négative pour la marque et la confiance,
  • présence de liens entrants associés au sous-domaine dans GSC.

“Link inversion” : déplacement des liens dans GSC

En investiguant, Glenn Gabe explique avoir observé un mécanisme déjà documenté. Les liens vers des URL canonisées peuvent “basculer” dans GSC vers l’URL canonique (cible différente).

Dan Petrovic a nommé ce phénomène “link inversion”. Dans ce cas, des liens semblaient pointer vers le sous-domaine, alors que la cible affichée correspondait à des URL du site principal désormais canonisées vers le sous-domaine.

Removals tool : suppression rapide des SERP, pas de l’index

Pour retirer rapidement le sous-domaine des résultats, l’auteur décrit l’usage de l’outil Removals dans GSC. Il indique un délai d’environ 8 à 10 heures pour constater la suppression du sous-domaine des SERP.

Il précise aussi les limites et bonnes pratiques :

  • Removals retire des résultats, pas de l’index,
  • il faut ensuite supprimer l’accès (404/410), appliquer noindex, ou remettre une authentification,
  • robots.txt n’est pas une solution de désindexation et Google déconseille de s’en servir dans ce cadre.

Cas 2 : deux versions de contenu, Google retient la “mauvaise” page

Deuxième cas : un site proposait une page “principale” à indexer et une page secondaire destinée aux utilisateurs. Malgré le rel=canonical, Google a sélectionné la page secondaire comme canonique sur un volume important.

Effets cités :

  • la page secondaire apparaissait et se positionnait pour des requêtes liées,
  • cette page était jugée moins forte en contenu et UX,
  • l’anomalie concernait des dizaines de milliers d’URL.

Face à cela, l’auteur indique que le site a engagé un nettoyage et évoque l’intérêt possible d’un noindex sur les URL secondaires, rel=canonical seul ne suffisant pas.

Bonus : canonicalisation massive et “hreflang magic trick”

Troisième situation : un site de très grande taille (50M+ URL) cible deux pays via hreflang, dans la même langue. L’auteur explique que Google a, un jour, canonicalisé des millions d’URL d’une version vers l’autre.

Pourquoi GSC “donne l’impression” d’une chute

Glenn Gabe rappelle un point de fonctionnement. GSC reporte les clics et impressions sur l’URL canonique. Ainsi, même si des URL localisées continuent d’apparaître dans les SERP selon le pays, les performances peuvent se retrouver attribuées à l’URL canonique choisie par Google, ce qui rend la lecture des courbes plus complexe.

Le “tour de magie” hreflang

Il résume ce qu’il appelle le “hreflang magic trick”. Google peut indexer une seule version et, grâce à hreflang, afficher la bonne URL par pays dans les SERP, même si ces URL ne sont pas celles indexées. Il indique que ce fonctionnement a été confirmé par Google selon ses références antérieures.

Canonical et signaux utilisateurs : mention de Navboost

L’auteur ajoute que si les “mauvaises” URL deviennent canoniques et se positionnent, cela peut influencer les contenus exposés aux internautes et les comportements observés après clic. Il cite Navboost comme système lié à des signaux d’interaction sur une période de 13 mois, pouvant avoir un impact sur le classement.

Effet de cascade vers la recherche IA

En fin de billet, Glenn Gabe rapporte un point d’observation. Lorsque Google choisit une URL canonique différente de celle déclarée, cette sélection peut se retrouver en aval si des plateformes de recherche IA s’appuient sur les résultats Google.

Il mentionne des tests où l’URL affichée dans ChatGPT correspondait à celle retenue par Google, y compris quand rel=canonical était ignoré. Il cite aussi Perplexity dans ce contexte.

Cet article met en lumière que la canonicalisation ne relève pas uniquement d’un paramétrage technique, mais d’un processus que Google peut réinterpréter. Pour les sites à grande échelle, comprendre que le rel=canonical reste un signal, et surveiller en continu les URL réellement retenues, permet d’anticiper des effets sur l’indexation, les performances et la visibilité, y compris au-delà des SERP traditionnelles.

À découvrir également

Laisser un commentaire