Accueil IA dans la recherche 44 % des citations de ChatGPT proviennent du premier tiers des contenus

44 % des citations de ChatGPT proviennent du premier tiers des contenus

4 vues
Tag de robot qui lit

ChatGPT cite surtout le début des pages. 44,2 % des citations viennent du premier tiers du contenu, selon une analyse fondée sur 3 millions de réponses et 18 012 citations vérifiées. L’analyse a aussi relié les passages les plus cités à des définitions explicites, une forte densité d’entités et une écriture plus lisible.

Une concentration des citations en haut de page

Voici les résultats d’une étude menée par Kevin Indig, Growth Advisor, fondée sur l’analyse de 3 millions de réponses de ChatGPT et 30 millions de citations.

Après isolation de 18 012 citations vérifiées, l’équipe a observé un schéma récurrent qualifié de « ski ramp » dans la distribution des citations au sein des contenus.

Répartition des citations dans les articles

  • 44,2 % des citations proviennent du premier tiers du texte.
  • 31,1 % viennent de la partie médiane (entre 30 % et 70 % du texte).
  • 24,7 % proviennent du dernier tiers, avec une baisse nette à l’approche du pied de page.

Les résultats ont été validés sur plusieurs lots aléatoires. Selon Kevin Indig, les écarts observés sont statistiquement significatifs.

Un comportement différent à l’échelle du paragraphe

À l’intérieur des paragraphes, la logique diffère.

  • 53 % des citations proviennent du milieu des paragraphes.
  • 24,5 % viennent de la première phrase.
  • 22,5 % de la dernière phrase.

L’étude souligne que, si l’introduction d’un article concentre une part importante des citations, le modèle exploite davantage le cœur informatif des paragraphes que leurs phrases d’ouverture.

Pourquoi le modèle privilégie le début des contenus

L’analyse avance que les grands modèles de langage ont été entraînés sur des corpus journalistiques et académiques structurés selon une logique de « conclusion dès le début ».

Dans cette approche, l’information principale apparaît dès les premières lignes. Le modèle accorde donc un poids plus important au cadrage initial avant d’interpréter la suite du texte.

Même si les modèles récents traitent de larges fenêtres de tokens, ils établissent rapidement un contexte afin d’optimiser le traitement.

Les caractéristiques des contenus les plus cités

L’étude identifie cinq traits récurrents dans les passages fréquemment cités.

1. Des formulations qui définissent clairement

Les extraits cités emploient plus souvent des définitions explicites (« X est », « X désigne »…). Les phrases simples et directes (sujet-verbe-complément) sont davantage reprises que les formulations vagues.

2. Un format questions-réponses

Les contenus cités comportent deux fois plus souvent un point d’interrogation. D’après l’analyse, 78,4 % des citations associées à des questions proviennent d’intertitres (H2). Le modèle traite souvent ces titres comme des questions, puis reprend le paragraphe qui suit comme réponse.

3. Davantage de noms propres

Un texte anglais “standard” contient en général 5 % à 8 % de noms propres. Dans les passages les plus cités, la moyenne monte à 20,6 %. Marques, outils et personnes citées rendent le propos plus précis et limitent l’ambiguïté.

4. Un ton mesuré

Les extraits cités affichent un score moyen de subjectivité de 0,47, situé entre neutralité et opinion marquée. Le ton se rapproche d’une analyse avec des faits, puis une mise en perspective.

(Le score de subjectivité est un indicateur utilisé en analyse automatique de texte. Il mesure dans quelle proportion un passage relève du fait ou du jugement. Plus le score se rapproche de 0, plus le texte est factuel. Plus il se rapproche de 1, plus il exprime une opinion ou une appréciation.)

5. Une lecture plus accessible

Les contenus les plus cités obtiennent un score moyen de 16 au test de lisibilité Flesch-Kincaid, contre 19,1 pour les contenus moins cités.

(Cet indicateur, utilisé surtout en anglais, estime le niveau d’études requis pour comprendre un texte. Il se calcule à partir de deux paramètres : la longueur des phrases et la complexité des mots, mesurée via le nombre moyen de syllabes. Plus le score est élevé, plus la lecture est jugée difficile.)

En pratique, des phrases plus courtes et une construction plus directe sont associées à davantage de citations.

Méthodologie

L’équipe de Kevin Indig a utilisé des embeddings de type sentence-transformer afin d’associer les réponses de ChatGPT à des phrases sources précises.

Chaque citation vérifiée a ensuite été analysée selon sa position dans la page et ses caractéristiques linguistiques, via la présence de définitions, la densité d’entités, la tonalité ou encore le niveau de lisibilité.

Un format « briefing » davantage repris

L’étude conclut que les formats narratifs de type « guide ultime » obtiennent moins de citations que les contenus structurés, hiérarchisés et explicites.

Les passages qui exposent rapidement définitions, entités et conclusions apparaissent plus fréquemment dans les réponses générées par ChatGPT.

Notre avis

Cette analyse suggère que la clarté, la structure et la hiérarchisation rapide de l’information peuvent favoriser la citation par une IA. Elle ne signifie pas que tous les contenus doivent être uniformisés ni que les formats longs ou narratifs sont à écarter.

Pistes à envisager, sans dogmatisme

  • Présenter l’information principale dès le début, puis approfondir.
  • Intégrer des définitions explicites lorsque le sujet s’y prête.
  • Structurer les intertitres de façon claire, parfois sous forme de questions suivies d’une réponse directe.
  • Citer précisément marques, outils, personnes ou notions quand cela apporte de la précision.
  • Maintenir un niveau de lisibilité accessible avec des phrases plus courtes et une syntaxe simple.
  • Adopter un ton factuel et mesuré, distinct de l’opinion pure.

Ces ajustements peuvent améliorer la compréhension par les modèles, tout en restant compatibles avec les exigences classiques du SEO, une qualité éditoriale, de l’expertise, de la pertinence et une intention de recherche.

À découvrir également

Laisser un commentaire