Sommaire
Pedro Dias explique que les moteurs de réponse IA peuvent reprendre comme sources des contenus faux ou générés sans vérification. Selon lui, le problème vient aussi de la récupération des informations sur le web, déjà largement polluée.
Dans un article publié sur Search Engine Journal, Pedro Dias revient sur un problème qui prend de l’ampleur avec les moteurs de réponse IA : la contamination des sources.
Selon lui, le vrai risque ne se limite pas aux modèles entraînés sur du contenu généré par IA. Il se situe déjà dans la couche de récupération des informations, au moment même où des outils comme ChatGPT, Perplexity, Google Gemini ou les AI Overviews de Google vont chercher leurs sources.
Le problème ne vient pas seulement de l’entraînement des modèles
Depuis plusieurs mois, le débat autour de l’IA générative évoque souvent le “model collapse”. L’idée est que les futurs modèles risquent d’être entraînés sur un web déjà saturé de contenus générés par IA, ce qui pourrait progressivement dégrader leur qualité.
Pedro Dias estime que cette lecture est incomplète.
Selon lui, le problème le plus immédiat se trouve dans la retrieval layer, c’est-à-dire la phase où les moteurs IA récupèrent des documents sur le web pour construire leurs réponses.
Ces systèmes ne répondent pas uniquement à partir de leur mémoire interne. Ils utilisent des mécanismes de type RAG (Retrieval-Augmented Generation), qui vont chercher des pages récentes, les injectent dans le contexte, puis reformulent une réponse.
Si la page récupérée contient une erreur, une hallucination ou un contenu généré sans vérification, la réponse finale hérite directement de cette erreur.
Des exemples déjà observés dans l’actualité SEO
L’auteur cite notamment un cas relevé par Lily Ray. En septembre, elle interroge Perplexity sur les dernières actualités SEO. L’outil lui répond qu’une supposée “September 2025 Perspective Core Algorithm Update” de Google a eu lieu.
Le problème est que cette mise à jour n’a jamais existé.
Google ne nomme plus ses Core Updates de cette manière depuis longtemps, et “Perspectives” correspond déjà à une fonctionnalité de SERP. En vérifiant les citations, Lily Ray constate que les sources provenaient de blogs d’agences SEO ayant publié des contenus générés par IA évoquant cette fausse mise à jour.
Le faux contenu avait été indexé, récupéré, puis reformulé comme une information fiable.
Autre exemple cité, celui du journaliste Thomas Germain qui publie volontairement un faux article sur son site personnel avec un titre absurde autour des meilleurs journalistes tech mangeurs de hot-dogs.
En moins de 24 heures, les AI Overviews de Google et ChatGPT reprennent cette invention comme si elle était réelle.
La couche de récupération devient le point faible
Pedro Dias insiste sur une distinction importante :
- le model collapse concerne l’entraînement futur des modèles,
- la retrieval contamination agit immédiatement, au moment de la requête.
Il n’est donc pas nécessaire d’attendre une nouvelle génération de modèles pour voir apparaître des réponses erronées. Il suffit qu’un contenu douteux soit indexé et considéré comme suffisamment crédible pour être repris.
L’auteur s’appuie aussi sur plusieurs travaux académiques, comme PoisonedRAG et BadRAG, qui montrent qu’un petit nombre de contenus injectés dans un corpus peut suffire à influencer la réponse d’un système RAG.
Initialement, ces recherches traitaient surtout de scénarios d’attaque volontaire. Pedro Dias estime que dans la pratique, ce fonctionnement est déjà devenu banal. Il ne faut pas un attaquant sophistiqué, seulement un article publié sur le web.
Le SEO alimente parfois ce circuit
Selon Pedro Dias, de nombreuses agences SEO publient aujourd’hui des contenus générés à grande échelle pour conserver de la visibilité face à la baisse du trafic liée aux réponses IA.
Cela produit des articles rapides sur les“winners and losers” des Core Updates, des comparatifs “best X”, ou des contenus spéculatifs peu sourcés. Ces pages sont ensuite reprises par les moteurs IA comme références.
L’auteur cite notamment une étude d’Ahrefs portant sur plus de 26 000 URL citées par ChatGPT. Les listicles de type “best X” représentaient près de 44 % des pages citées.
Certaines marques peuvent ainsi publier leurs propres comparatifs, se positionner en première place, puis voir ces contenus repris dans les réponses IA.
L’industrie alimente elle-même la pollution informationnelle qu’elle dénonce ensuite.
Une citation ne garantit plus la fiabilité
Autre point soulevé par Pedro Dias, même lorsqu’une réponse IA est correcte, la source citée n’est pas toujours solide.
L’étude Oumi, relayée par le New York Times, montre que sur Google AI Overviews, une part importante des réponses exactes repose sur des citations qui ne soutiennent pas réellement l’affirmation affichée.
Le contenu final peut donc sembler juste, mais sans véritable ancrage documentaire fiable. Pour Pedro Dias, la couche de citation se découple progressivement de l’auteur réel et de la vérification humaine.
Le simple fait d’avoir une source affichée ne suffit plus à garantir la qualité de l’information.