IA Search : comment calculer son vrai CTR avec les logs

Sommaire

Dans une analyse publiée par Oncrawl et OMcollective, Pieter Serraris explique pourquoi les clics visibles dans les outils analytics ne suffisent pas à mesurer la visibilité réelle dans les moteurs IA comme ChatGPT. L’article détaille une méthode basée sur les logs serveur afin d’estimer le véritable CTR des contenus dans les réponses générées par les LLM.

Les outils analytics ne montrent qu’une partie du problème

Selon Pieter Serraris, une question revient régulièrement chez les clients d’OMcollective : « Est-ce que notre site est cité par ChatGPT ? »

Le problème est d’après lui que les outils analytics classiques ne donnent qu’une vision partielle. Ils montrent quelques visites issues de chatgpt.com, mais ne permettent pas de mesurer la visibilité réelle des contenus dans les réponses générées.

Les outils de suivi de prompts posent aussi une limite importante. Les données restent simulées et ne reflètent pas forcément les réponses réellement affichées aux utilisateurs. Pour obtenir un signal plus fiable, l’auteur recommande d’analyser les logs serveur.

Les bots IA laissent des traces dans les logs

L’analyse explique que plusieurs LLM utilisent des bots identifiables lors de la phase de récupération des contenus.

Pieter Serraris cite notamment les travaux de Jérôme Salomon autour des mécanismes de RAG (« Retrieval Augmented Generation »). Dans ce fonctionnement, un bot comme ChatGPT-User récupère des contenus en temps réel avant que le modèle synthétise une réponse.

Mais un crawl ne signifie pas automatiquement qu’un contenu sera cité. Le passage du bot ne représente que la première étape d’un pipeline beaucoup plus complexe.

Les logs bruts contiennent beaucoup de bruit

Compter simplement les lignes contenant le user-agent ChatGPT-User produit des données très bruitées. Selon OMcollective, les volumes bruts peuvent surestimer la récupération réelle des contenus de 40 à 60 %. L’article détaille deux principales sources de bruit.

Les codes de réponse inutiles

Un bot peut visiter :

une page 404,
une erreur 500,
une redirection 301.

Dans ces cas, aucun contenu exploitable n’est réellement récupéré. L’auteur recommande donc de ne conserver que les réponses :

200 OK,
304 Not Modified.

Les regroupements de sessions

Les bots IA ne naviguent pas comme des utilisateurs classiques. Ils peuvent générer plusieurs requêtes quasi simultanées sur une même URL depuis la même IP. Cinq lignes dans les logs ne correspondent donc pas forcément à cinq récupérations différentes.

OMcollective recommande de regrouper les visites provenant de la même IP dans une fenêtre de cinq secondes afin de constituer une seule session. L’article cite le cas d’un client dont les visites ChatGPT sont passées de 12 000 à 7 400 après nettoyage des données.

Une récupération ne signifie pas une citation

Même après nettoyage des logs, les données ne mesurent encore que la phase de récupération des contenus. Pieter Serraris cite ici une étude d’AirOps portant sur plus de 500 000 pages récupérées par ChatGPT à partir de 15 000 prompts.

Selon cette étude :

seulement 15 % des pages récupérées sont réellement citées dans la réponse finale,
85 % sont écartées pendant la phase de synthèse.

Ces contenus restent parfois visibles dans le panneau « More » de ChatGPT, mais sans véritable visibilité utilisateur.

Le phénomène de « fan-out »

L’article évoque également le fonctionnement interne des moteurs IA lors d’une requête. Pour répondre à une question, ChatGPT peut lancer plusieurs recherches internes, récupérer une vingtaine de pages, puis n’en conserver que quelques-unes dans la réponse finale.

Optimiser uniquement le volume de crawl reviendrait donc, selon l’auteur, à mesurer des impressions publicitaires sans savoir si la publicité a réellement été affichée.

Le CTR devient l’indicateur principal

Pour relier récupération, citation et trafic réel, OMcollective recommande de calculer un CTR IA par page ou par thématique. Le principe consiste à comparer :

les récupérations observées dans les logs,
les visites issues de chatgpt.com dans GA4.

L’approche présentée dans l’article se concentre sur ChatGPT, mais peut être adaptée à d’autres moteurs comme Claude ou Perplexity.

La méthode de calcul détaillée

L’article décrit plusieurs étapes pour réaliser ce calcul manuellement.

1. Exporter les logs

Les logs doivent être filtrés :

sur le user-agent ChatGPT-User,
en excluant les statuts différents de 200 et 304.

2. Regrouper les sessions

Les lignes correspondant :

à la même IP,
à la même URL,
dans une fenêtre de cinq secondes,

doivent être fusionnées.

3. Exporter les données GA4

L’auteur recommande ensuite d’exporter les sessions dont la source correspond à chatgpt.com.

4. Faire correspondre les URL

Les URL des logs et celles de GA4 sont ensuite rapprochées via un VLOOKUP dans Excel.

5. Calculer le CTR

Le CTR est ensuite obtenu en divisant les clics observés par les récupérations nettoyées.

La position du lien change fortement le CTR

L’analyse insiste ensuite sur le fait que toutes les citations n’obtiennent pas les mêmes performances.

Selon des données relayées par Search Engine Land et Vincent Terrasi, le CTR varie fortement selon l’emplacement du lien dans l’interface de ChatGPT. Les placements dans la barre latérale affichent parfois des CTR élevés… mais uniquement lorsque cette zone apparaît effectivement à l’écran.

L’auteur rappelle que la sidebar n’est visible que dans une très faible proportion des conversations.

Dans l’exemple cité :

185 450 conversations ont été analysées,
la sidebar n’est apparue que 720 fois,
soit un taux d’exposition de 0,39 %.

Une fois ce facteur intégré, le CTR réel devient extrêmement faible.

Les citations inline génèrent l’essentiel des clics

L’article distingue alors deux grands cas.

Les citations dans la réponse principale

Les liens intégrés directement dans la réponse affichent les meilleurs CTR.

Selon OMcollective :

certains contenus dépassent 1 %,
un seuil minimal de 0,1 % constitue déjà un bon repère.

Les liens secondaires

Les liens placés dans :

la sidebar ;
les panneaux de sources ;
les zones annexes,

obtiennent souvent des CTR proches de zéro.

Un framework en quatre quadrants

L’analyse propose ensuite une matrice permettant de classer les contenus selon deux critères :

le volume de récupération,
le CTR.

Forte récupération + fort CTR

Le contenu est récupéré et cité directement dans la réponse. L’article associe souvent ce cas à :

des réponses très directes,
des affirmations précises,
des contenus qui donnent rapidement l’essentiel tout en laissant une valeur complémentaire au clic.

Forte récupération + faible CTR

Le contenu est souvent récupéré, mais reste relégué dans les zones secondaires. OMcollective recommande ici de vérifier si l’information principale apparaît suffisamment tôt dans la page.

L’article rappelle qu’environ 44 % des citations ChatGPT proviendraient des 30 premiers pourcents d’un contenu.

Faible récupération + fort CTR

Ce cas correspond souvent à des contenus très spécialisés. Lorsqu’ils apparaissent, les utilisateurs cliquent davantage car la réponse IA ne remplace pas complètement le contenu source.

Faible récupération + faible CTR

Le contenu reste largement invisible dans les pipelines IA. Selon l’auteur, cela indique généralement un besoin de travail sur :

le contenu,
la structure,
ou la crawlabilité.

Plusieurs approches possibles

L’article présente enfin différentes méthodes pour exploiter ces données.

Une approche manuelle

Les petits sites peuvent utiliser Excel ou Google Sheets afin de travailler directement sur les exports de logs et de GA4.

Une approche assistée par IA

Les équipes non techniques peuvent utiliser un assistant IA afin de générer des scripts Python capables d’automatiser les regroupements et les rapprochements de données.

Les outils spécialisés

Pour les traitements à grande échelle, Oncrawl propose son outil « AI Search Lens », capable d’automatiser :

le nettoyage des logs,
le regroupement des sessions,
le rapprochement avec les données analytics,
et le calcul du CTR IA.

Vers une mesure plus précise de la visibilité IA

Pour Pieter Serraris, la recherche IA n’est donc plus totalement une boîte noire. Ce calcul du CTR IA permettrait désormais d’identifier :

les contenus réellement visibles,
ceux qui génèrent des clics,
et ceux qui alimentent les moteurs IA sans produire de trafic.

L’auteur recommande de commencer par analyser les pages les plus récupérées sur les 30 derniers jours afin de distinguer les contenus réellement performants dans les réponses IA.

L’avis de Position Zéro

Cette analyse nous paraît sérieuse sur le plan technique. Le travail autour des logs, du nettoyage des données et de la distinction entre récupération, citation et clic apporte une approche plus concrète que beaucoup de discours actuels sur la visibilité IA.

L’article conserve toutefois une dimension commerciale autour d’AI Search Lens, et les métriques proposées restent indirectes. Ce “CTR IA” n’est pas une donnée native fournie par ChatGPT, mais une estimation reconstruite à partir des logs et du trafic observé.

Le sujet reste intéressant, car les logs donnent un début de mesure là où beaucoup d’analyses IA reposent encore sur des suppositions. Ils ne prouvent pas la visibilité réelle, mais offrent au moins un indicateur concret pour suivre l’évolution de la récupération des contenus par les moteurs IA au fil du temps.

Études

Comment calculer son vrai CTR dans les moteurs IA