Sommaire
De nombreux SEO avancent que l’ajout de données structurées (schema.org) pourrait renforcer la visibilité dans les moteurs de recherche alimentés par l’IA. Mais les premiers tests publiés montrent que, pour l’instant, ce n’est pas le cas.
Des expériences qui contredisent l’hypothèse
Le premier test documenté vient de Mark Williams-Cook. Sur LinkedIn, il a publié une démonstration expliquant pourquoi les modèles de langage ne tirent pas parti du balisage structuré dans leurs données d’entraînement.
Selon lui, tout tient au processus de tokenisation. Lorsqu’un LLM lit une page, il fragmente le texte en séquences de caractères transformées en « tokens ». Dans ce découpage, le schema est littéralement « détruit » : par exemple, la balise "@type": "Organization"
est convertie en tokens distincts pour “type” et “Organization”. Ces éléments ne sont ainsi plus reconnus comme du balisage mais comme des mots ordinaires.
En pratique, même si le schema figure dans les données d’entraînement, il n’a qu’une influence marginale, à peine capable de signaler qu’un caractère “@” peut précéder certains mots.
Un deuxième test confirme
Julio C. Guevara a mené une autre expérience, toujours partagée sur LinkedIn. Il a créé deux pages produits fictives :
- L’une avec le contenu visible en HTML enrichi de balisage structuré,
- L’autre uniquement composée de données structurées, sans texte affiché.
Il a ensuite multiplié les prompts sur Gemini et ChatGPT pour voir si les modèles pouvaient restituer des informations comme le prix, la couleur ou le SKU. Résultat sans appel : seules les données présentes sous forme de texte visible ont été comprises et restituées. Les informations contenues exclusivement dans le schema sont restées invisibles aux LLM.
Un signal… mais pas encore un levier
Ces deux tests montrent qu’à ce stade, les données structurées ne renforcent pas la visibilité dans l’IA Search. Les grands modèles de langage semblent ignorer ce format, se concentrant sur le texte réellement lisible.
Cela ne signifie pas que le schema est inutile. Dans l’écosystème Google classique, il reste essentiel pour enrichir les résultats (rich snippets, Knowledge Graph, etc.). Mais pour les moteurs IA, aucune preuve tangible d’impact n’a encore été démontrée.
Une évolution possible à surveiller
Ces résultats ne valent que pour l’état actuel des modèles. Rien n’exclut qu’à l’avenir, les LLM intègrent mieux les données structurées dans leurs processus de compréhension et de restitution. Pour l’instant, la prudence s’impose, le contenu visible reste la clé pour exister dans les réponses génératives.