Accueil Veille Google & SERP Google détaille le fonctionnement du crawl en 2026

Google détaille le fonctionnement du crawl en 2026

Taille fichier Google

Google a donné des précisions sur le fonctionnement de ses systèmes de crawl, de la récupération des pages jusqu’au traitement des données. De nouvelles limites techniques et des indications sur le rendu viennent compléter la documentation existante.

Dans le 105e épisode du podcast Search Off the Record, Gary Illyes a donné des détails sur Googlebot, l’écosystème de crawling de Google. De quoi démystifier certains de ses fonctionnements.

Plusieurs Googlebot, et non un seul

Illyes a par exemple rappelé que « Googlebot » ne désignait plus un unique robot. Le moteur s’appuie sur plusieurs crawlers, chacun dédié à des usages spécifiques (web, images, vidéos, etc.).

Cette distinction est importante pour comprendre les comportements de crawl, qui peuvent varier selon le type de contenu et le service associé.


Des limites de taille clairement définies

Illyes a aussi précisé les seuils appliqués lors de la récupération des contenus :

  • 2 Mo maximum pour une URL classique (en incluant les en-têtes HTTP),
  • 64 Mo pour les fichiers PDF,
  • 15 Mo par défaut pour les autres types de contenus sans limite spécifique,
  • Images et vidéos : seuils variables selon les produits concernés.

Ces limites déterminent la quantité de données effectivement analysées par les systèmes du moteur.


Un crawl partiel au-delà de 2 Mo

Lorsque la taille d’une page HTML dépasse 2 Mo, Googlebot ne rejette pas la page. Le fonctionnement est le suivant :

  • le téléchargement s’arrête précisément au seuil des 2 Mo,
  • seule cette portion est transmise aux systèmes d’indexation et de rendu,
  • les données situées après cette limite ne sont ni récupérées, ni analysées.

Une partie du contenu peut ne jamais être vue par Google si elle se situe après ce seuil.


Un traitement indépendant des ressources

Les ressources appelées dans le HTML (CSS, JavaScript, etc.) sont récupérées séparément. Chaque ressource dispose de son propre compteur de taille. Elles ne sont donc pas incluses dans la limite des 2 Mo du document principal.

Certains types de fichiers, comme les images ou les vidéos, ne sont pas sollicités lors du rendu.


Le rôle du Web Rendering Service (WRS)

Une fois les données récupérées, elles sont transmises au Web Rendering Service. Ce système :

  • exécute le JavaScript côté client,
  • interprète le CSS,
  • traite les requêtes nécessaires à la compréhension du contenu.

L’objectif est de reconstituer l’état final de la page, tel qu’il apparaîtrait dans un navigateur moderne. Chaque ressource appelée dans ce processus reste soumise à la limite de 2 Mo.


Les bonnes pratiques

Google accompagne ces précisions de recommandations opérationnelles :

  • alléger le HTML en externalisant CSS et JavaScript,
  • placer les éléments essentiels en début de document (title, meta, canonical et données structurées),
  • surveiller les logs serveur pour détecter d’éventuels ralentissements.

Attention, un serveur lent peut entraîner une réduction de la fréquence de crawl.

À découvrir également

Laisser un commentaire