Sommaire
Google pourrait élargir la liste des règles robots.txt non prises en charge dans sa documentation.
Le moteur envisage aussi de mieux gérer certaines fautes fréquentes sur la directive disallow.
Le sujet a été évoqué par Gary Illyes et Martin Splitt dans Search Off the Record, après qu’un membre de la communauté a proposé à Google d’ajouter deux nouvelles directives à la liste des règles robots.txt non prises en charge.
Google veut mieux documenter les règles ignorées
Google prend actuellement en charge quatre champs dans robots.txt :
- user-agent,
- allow,
- disallow,
- sitemap.
Les autres directives sont ignorées. Plutôt que d’ajouter seulement deux règles suggérées par la communauté, Google souhaite s’appuyer sur des données réelles issues de HTTP Archive.
L’objectif serait d’identifier les 10 à 15 directives non prises en charge les plus utilisées sur le web, puis de les ajouter à cette documentation.
Google pourrait mieux reconnaître certaines erreurs sur disallow
L’analyse a aussi permis d’identifier des fautes fréquentes dans l’écriture de la directive disallow.
Gary Illyes a indiqué que Google pourrait élargir les variantes qu’il reconnaît déjà, afin de mieux gérer certaines erreurs présentes dans les fichiers robots.txt. Il n’a donné ni calendrier, ni exemple précis.
Ce que cela change pour les SEO
Cette mise à jour ne change pas le fonctionnement de Google, mais elle rendra plus claire la documentation autour des règles réellement ignorées dans robots.txt.
Seules les directives user-agent, allow, disallow et sitemap sont officiellement prises en charge par Google. Certaines balises encore présentes sur de nombreux sites peuvent donc n’avoir aucun effet réel sur l’exploration ou l’indexation.
Le sujet concerne aussi les erreurs de syntaxe. Une faute sur disallow peut suffire à rendre une consigne inefficace si Google ne l’interprète pas correctement.
Un audit du fichier robots.txt reste donc utile pour vérifier que les directives utilisées sont bien reconnues et qu’aucune règle inutile ne perturbe le crawl.