Sommaire
Les agents IA consultent déjà les sites web, mais faut-il pour autant adapter son SEO technique dès maintenant ? Entre llms.txt, robots.txt, HTML sémantique, headers, Markdown ou protocoles MCP, plusieurs pistes émergent, sans garantie directe de citations dans les réponses IA.
Dans un article publié le 25 mai 2026, Suganthan Mohanadasan revient sur une hausse notable des passages de crawlers IA sur son site personnel. Il indique avoir relevé 8 060 requêtes en sept jours, contre 1 421 sur les 44 jours précédents. Parmi les systèmes observés, il cite notamment Claude, Perplexity, Gemini et plusieurs agents plus difficiles à identifier.
Les agents IA ne sont plus une hypothèse lointaine
Pendant longtemps, la question des sites “agent-ready” pouvait paraître prématurée. Les usages semblaient encore trop émergents pour justifier un chantier technique dédié. Les données de logs changent progressivement cette perception.
Le retour d’expérience de Suganthan Mohanadasan ne vaut pas preuve générale pour tous les sites, mais il montre que certains agents IA explorent déjà des contenus, des fichiers techniques et des points d’accès exposés sur le web. Cette réalité confirme surtout que les systèmes IA viennent lire le web avec leurs propres contraintes de crawl, de parsing et de compréhension.
Deux niveaux à distinguer
L’analyse distingue deux surfaces de lecture pour les agents IA.
La première correspond à la page elle-même. Elle regroupe le HTML sémantique, la structure du document, l’accessibilité, la stabilité de l’affichage, les liens, les boutons, les formulaires et les contenus visibles. Sur ce point, le travail rejoint largement le SEO technique classique. Une page bien structurée, lisible, stable et accessible sera plus simple à analyser, que le lecteur soit un moteur de recherche, un utilisateur ou un agent IA.
La seconde surface se situe autour de la page. Elle concerne les fichiers et signaux accessibles sans passer par le rendu complet du document. On retrouve ici robots.txt, sitemap.xml, les headers HTTP, llms.txt, les fichiers présents dans le répertoire /.well-known/, les protocoles MCP ou A2A, ou encore certaines formes de découverte d’API.
C’est surtout ce second niveau qui nourrit aujourd’hui les débats. Il ouvre un chantier technique nouveau, mais dont l’intérêt varie fortement selon les sites.
Ce que ces protocoles ne garantissent pas
Google indique lui-même qu’il n’est pas nécessaire de créer de nouveaux fichiers lisibles par machine, fichiers IA, balisages ou versions Markdown pour apparaître dans ses expériences de recherche générative. Suganthan Mohanadasan rappelle aussi qu’aucune étude solide n’a montré, à ce jour, qu’un fichier llms.txt, MCP ou A2A améliore directement les citations IA.
Cette réserve est essentielle, alors qu’une partie du marché présente déjà le “GEO” ou l’optimisation pour les moteurs IA comme une suite de leviers techniques à activer. Les éléments disponibles invitent plutôt à replacer ces protocoles à leur juste niveau. Ils peuvent faciliter l’accès à l’information, mais ils ne remplacent ni la qualité du contenu, ni l’autorité, ni la cohérence de la marque.
Ce qui paraît déjà utile
Tout n’est pas expérimental pour autant. Plusieurs ajustements présentent un intérêt immédiat, car ils recoupent déjà des fondamentaux SEO, accessibilité et UX.
- Le fichier robots.txt reste le premier niveau de contrôle. Il permet de déclarer quels crawlers peuvent accéder au site. Les robots les plus respectueux le consultent. Le signal n’est pas une protection absolue contre les scrapers, mais il garde une fonction importante pour les acteurs qui respectent les règles du web.
- Le sitemap.xml conserve aussi son intérêt. Il aide les moteurs et les agents à identifier les URL importantes. Les headers HTTP peuvent compléter ce travail en indiquant l’emplacement du sitemap, d’une documentation, d’un fichier llms.txt ou d’une API.
- Le HTML sémantique est un autre point solide. Des boutons codés comme des boutons, des liens explicites, une navigation structurée, des champs de formulaire bien associés à leurs labels et une hiérarchie claire facilitent la lecture du site. Cela vaut pour les moteurs de recherche, les lecteurs d’écran, les utilisateurs et certains agents IA qui s’appuient sur l’arbre d’accessibilité.
Le cas particulier de llms.txt
Le fichier llms.txt attire beaucoup l’attention. Son principe est simple. Il s’agit d’un fichier texte placé à la racine du domaine, qui présente le site, ses contenus principaux et les pages importantes dans un format lisible par les humains comme par les machines.
Son intérêt réel doit être bien cadré. D’après l’article, le cas d’usage le plus observable aujourd’hui concerne surtout les agents de codage et la documentation technique. Pour un SaaS, une API, une bibliothèque ou un outil destiné aux développeurs, ce fichier peut servir d’index utile. Pour un site vitrine, un média ou un e-commerce classique, l’effet immédiat est beaucoup moins évident.
Le fichier reste peu coûteux à produire. Il peut donc avoir du sens dans une logique de préparation, sans en faire un levier direct de trafic.
Markdown, MCP, A2A et autres protocoles
Suganthan Mohanadasan passe aussi en revue plusieurs protocoles plus avancés. La négociation Markdown permet par exemple de servir une version Markdown d’une page lorsqu’un agent la demande. L’intérêt porte sur la réduction du coût de lecture et de parsing. Selon les données citées par l’auteur, le poids d’une page peut fortement baisser entre la version HTML et la version Markdown.
MCP, A2A, WebMCP, Agent Skills ou les fichiers de découverte d’API s’adressent à des cas plus spécifiques. Ils concernent surtout les sites qui exposent des outils, des services, des agents, des API ou des fonctions appelables par d’autres systèmes.
Un site média, un blog, un SaaS ou une plateforme technique n’ont pas les mêmes besoins face à ces protocoles. La question dépend du type de site, de son audience et de son exposition aux usages IA.
Tous les sites ne doivent pas agir au même rythme
La question dépend du type de site, de son audience et de son exposition aux usages IA.
Un site de documentation, un outil SaaS, une API, une solution pour développeurs ou une marque qui suit déjà sa visibilité dans les réponses IA a intérêt à avancer dès maintenant. Pour ces acteurs, rendre le site plus lisible par les agents peut réduire les frictions et préparer les usages à venir.
Un média, un éditeur de contenus ou un site e-commerce peut commencer par les bases. Robots.txt, sitemap, HTML propre, accessibilité, données structurées utiles, headers et éventuellement llms.txt. Ce socle reste raisonnable et s’inscrit dans une logique SEO durable.
Pour un petit site vitrine, un blog personnel ou un site peu exposé aux usages IA, l’urgence est plus faible. Mieux vaut renforcer la qualité éditoriale, la structure, l’autorité et la performance avant de se lancer dans des protocoles encore instables.
L’avis de Position Zéro
Ces protocoles ne doivent ni être ignorés ni être surestimés. Leur intérêt existe, mais il se situe surtout dans une logique de préparation technique, pas dans une promesse de visibilité immédiate. À ce stade, il paraît difficile d’en faire une priorité générale, surtout lorsque les bases SEO, éditoriales et techniques ne sont pas encore parfaitement tenues.
Faire du SEO ou du GEO, c’est d’abord répondre à un haut niveau d’exigence. La technique doit être propre, rapide et fiable, d’autant que les outils permettent aujourd’hui d’atteindre un niveau de maîtrise élevé. L’éditorial doit apporter une vraie plus-value, répondre vite au besoin du lecteur, l’accompagner dans son parcours et nourrir progressivement sa confiance.
C’est là que le SEO rejoint de plus en plus une logique d’inbound marketing. Il ne s’agit pas seulement de se positionner sur une requête, mais d’aider un lecteur, un prospect ou un client à trouver une réponse fiable, à comprendre un sujet, puis à préférer une marque plutôt qu’une autre. Les agents IA ne changent pas cette exigence. Ils la rendent simplement plus visible.