Sommaire
Cloudflare dénonce les pratiques de Perplexity, accusée de contourner les restrictions d’accès aux contenus web via des techniques de « stealth crawling ». En réponse, Perplexity défend une logique d’agent IA en temps réel. Une confrontation qui relance le débat sur le respect des règles du web à l’ère des assistants IA.
Une affaire qui relance le débat sur les assistants IA et l’accès aux contenus web
Le 5 août 2025, Cloudflare a publiquement accusé Perplexity d’ignorer les directives de non-indexation en utilisant des techniques de contournement qualifiées de stealth crawling. Selon l’hébergeur, l’IA de réponse contournerait le fichier robots.txt en se faisant passer pour un navigateur classique, via un changement d’IP et une désactivation de l’identification bot.
Des tests menés sur des « honeytrap sites »
Pour appuyer ses accusations, Cloudflare a mis en place des sites pièges (honeytraps) volontairement configurés pour bloquer certains agents. Résultat, malgré les restrictions, Perplexity aurait réussi à accéder au contenu et à l’utiliser dans ses réponses, démontrant, selon Cloudflare, une stratégie délibérée de dissimulation.
Les techniques reprochées incluent :
- L’usage d’agents déclarés en priorité, mais contournés si bloqués,
- La rotation d’adresses IP pour masquer l’origine des requêtes,
- L’ignorance du fichier robots.txt, pourtant censé protéger les contenus non indexables.
La réponse de Perplexity : un malentendu technique ?
Du côté de Perplexity, on parle de malentendu. La start-up assure que ses requêtes sont toujours initiées à la demande d’un utilisateur, et non dans le cadre d’un crawl massif ou d’une collecte préventive. Elle revendique une logique d’agent IA agissant pour le compte de l’utilisateur, comparable à une requête émise par un navigateur ou un client mail.
Pour Perplexity, Cloudflare confond la logique d’un agent en temps réel avec celle d’un crawler traditionnel. Elle suggère également que les accusations pourraient relever d’un coup de communication ou d’une mauvaise compréhension des mécanismes IA.
Une question essentielle pour l’écosystème web
Au-delà de la querelle, cette affaire pose une question de fond : si les IA peuvent contourner les systèmes d’exclusion comme le robots.txt, les éditeurs de contenus perdent le contrôle sur la diffusion et la monétisation de leurs données.
L’équilibre traditionnel entre les moteurs et les éditeurs – accès contre trafic – serait alors rompu.
Cloudflare appelle donc à une standardisation des comportements des bots via l’IETF (Internet Engineering Task Force), avec des règles mieux adaptées à l’ère IA. Perplexity, de son côté, maintient que ces normes ne s’appliquent pas aux assistants conversationnels et entend continuer à fonctionner selon sa propre logique.