LLM : quand les sources affichées ne sont pas celles utilisées

écrit par Jordan Belly 16 avril 2026

Sommaire

Les citations affichées par les LLM ne correspondent pas toujours aux sources ayant réellement servi à construire la réponse. Ce phénomène, appelé “ungrounded citations”, interroge directement la manière dont la visibilité est construite dans les réponses générées par l’IA.

Dans un article publié sur son site, Ann Smarty revient sur ce point dans une analyse consacrée aux mécanismes de citation dans les réponses IA.

Des citations qui ne soutiennent pas toujours la réponse

Une “ungrounded citation” désigne un lien qui ne correspond pas réellement au contenu de la réponse fournie. Pour faire simple :

l’IA produit une réponse,
elle associe ensuite des liens,
ces liens ne soutiennent pas toujours l’information avancée.

Ce fonctionnement complique l’évaluation de la fiabilité des réponses.

Un processus inversé dans la construction des réponses

L’analyse met en avant l’ordre de production. Dans certains cas, le processus suit cette logique :

génération de la réponse à partir des connaissances du modèle,
recherche de liens correspondant au sujet,
ajout de citations a posteriori.

Ce mécanisme explique pourquoi certaines sources ne sont pas réellement utilisées comme base d’information. Les URLs ne jouent donc pas toujours un rôle dans la construction de l’information. Elles peuvent servir uniquement à illustrer ou contextualiser une réponse déjà produite.

Ce fonctionnement n’est pas nouveau. Les premières versions de ChatGPT pouvaient déjà produire des réponses sans sources, ou avec des liens peu pertinents.

Une part importante de réponses concernées

Selon les éléments évoqués par Ann Smarty, une proportion significative des réponses pourrait être concernée. Pour Google Gemini, environ 50 % des réponses seraient “ungrounded”, c’est-à-dire produites sans s’appuyer directement sur des sources externes au moment de la génération.

Deux facteurs sont avancés pour expliquer ce fonctionnement :

l’utilisation des données d’entraînement, jugées plus fiables ou moins manipulables,
un coût plus faible que la recherche et l’intégration de sources externes.

Dans ce cas, les citations interviennent après coup, sans influencer la réponse initiale.

Un impact direct sur les stratégies SEO

Ce mécanisme modifie les logiques de visibilité. Se concentrer uniquement sur la présence dans les contenus récupérés par les LLM (logique de “retrieval”) ne suffit pas.

Ann Smarty met en avant d’autres leviers :

présence dans les données d’entraînement,
cohérence du positionnement de marque,
visibilité sur plusieurs canaux,
alignement des contenus on-site et off-site.

Cela implique un travail plus large, intégrant notamment :

relations presse,
présence sur des plateformes comme Reddit,
diffusion régulière de contenus cohérents.

L’avis de Position Zéro

Ces mécanismes montrent que le fonctionnement des LLM reste encore partiellement opaque. La relation entre génération de réponse et sélection des sources n’est pas stabilisée et continue d’évoluer au fil des itérations des modèles.

Dans ce contexte, les logiques de visibilité restent en construction. Les signaux réellement déterminants ne sont pas encore entièrement lisibles, ce qui rend toute stratégie trop focalisée sur un levier unique incertaine.

Jordan Belly

Rédacteur web SEO à Toulouse, j’interviens depuis plus de vingt ans sur le contenu éditorial, dont plus de douze ans dédiés au référencement naturel. À travers Le Phare SEO, j’accompagne les entreprises dans la construction de leur visibilité en ligne, en m’appuyant sur une veille continue des évolutions de Google et des moteurs basés sur l’IA. Je continue par ailleurs à écrire pour la presse spécialisée (Système D, Le Particulier, UFC Que Choisir…) et suis l’auteur du Guide du rédacteur web (Edi.Pro).