Blocage des bots IA : 79% des grands médias disent non au scraping gratuit

Sommaire

Près de 80 % des plus grands sites d’actualités britanniques et américains bloquent désormais les bots d’entraînement IA, une proportion en hausse depuis deux ans. Anthony Katsur, CEO d’IAB Tech Lab, appelle les éditeurs à une action collective pour forcer les entreprises d’IA à négocier une rémunération équitable du contenu.

Il n’est jamais trop tard pour bloquer

Cette semaine à Londres, lors de l’événement Techtonic de l’Interactive Advertising Bureau, les éditeurs se sont vu dire qu’il n’est jamais trop tard pour commencer à bloquer ces bots. La raison tient à la fréquence avec laquelle un nouveau crawling doit avoir lieu via la génération augmentée par récupération (RAG) pour que les réponses des chatbots IA restent à jour.

Qui bloque quoi ?

L’analyse de Buzzstream examine une liste combinée et dédupliquée des 50 plus grands sites d’actualités de chaque pays (Royaume-Uni et États-Unis). 79 % des quelque 100 principaux sites d’actualités britanniques et américains bloquent au moins un crawler utilisé pour l’entraînement IA parmi GPTBot d’OpenAI, ClaudeBot, Anthropic-ai, CCBot, Applebot-Extended et Google-Extended.

Par ailleurs, 71 % bloquent les bots IA qui crawlent leurs sites pour la récupération ou les recherches en direct, notamment ChatGPT-User, Claude-Web, Perplexity-User et OAI-SearchBot.

Parmi les 50 plus importants, les éditeurs qui avaient bloqué tous les bots IA inclus dans l’analyse étaient :

la BBC (ses domaines .co.uk et .com),
The New York Times,
le Daily Mail,
The Telegraph,
Sky News,
AP News,
New York Post,
Newsweek,
NBC News,
Wall Street Journal,
Metro,
Business Insider,
ABC News,
Buzzfeed,
Huffpost
The Hill.

Cela représente 34 % des 50 premiers. Et seulement 14 % des 50 premiers éditeurs autorisaient l’accès aux 11 crawlers IA analysés : Fox News, The Independent, GB News, Substack, le Standard, le Drudge Report et Politico.

Harry Clarkson-Bennett, directeur SEO du Telegraph, s’est exprimé auprès de Buzzstream : « Les éditeurs bloquent les bots IA en utilisant le robots.txt parce qu’il n’y a presque aucun échange de valeur. Les LLMs ne sont pas conçus pour envoyer du trafic de référence et les éditeurs ont toujours besoin de trafic pour survivre. Donc la plupart d’entre nous bloquons les bots IA parce que ces entreprises ne sont pas prêtes à payer pour le contenu sur lequel leur modèle a été entraîné et leur output est presque entièrement interne. »

Parmi les 50 plus grands sites analysés, Perplexity-User était le plus autorisé (par 32 sites) suivi de ChatGPT-User (24). Les deux sont des crawlers de récupération/recherche en direct. Le moins autorisé était le bot d’entraînement d’Anthropic (huit sites) suivi du bot d’archive web Common Crawl CCBot (neuf sites).

En février 2024, une analyse de Press Gazette montrait que 61 des 106 plus grands sites d’actualités au Royaume-Uni et aux États-Unis bloquaient au moins un crawler IA, ce qui montre une augmentation au cours des deux dernières années.

Le cas particulier de Google Extended

Roxanne Carter, responsable senior des affaires gouvernementales et de la politique publique de Google, a déclaré au Parlement britannique la semaine dernière que Google Extended vous permet de dire oui à la recherche, non à l’entraînement IA.

Google Extended permet aux éditeurs de se retirer du scraping par le chatbot IA Gemini et la plateforme de développement IA Vertex, mais n’empêche pas les sites d’être accessibles et utilisés dans les AI Overviews de Google. Pour éviter cela, les éditeurs devraient se retirer du scraping par Googlebot, qui indexe pour la recherche. Googlebot n’a pas été inclus dans la nouvelle analyse de Buzzstream, mais se retirer a été décrit comme un choix peu enviable.

Buzzstream a constaté que les éditeurs américains sont beaucoup plus agressifs dans le blocage de Google Extended (58 %) que les éditeurs britanniques (29 %). Parmi les 100 principaux sites d’actualités, les sites américains sont plus stricts sur les bots d’entraînement (81 % bloquent) que leurs collègues britanniques (77 %).

Les limites du robots.txt

Le robots.txt n’est pas une méthode infaillible pour bloquer les bots IA car leurs directives peuvent être ignorées par les entreprises IA ou contournées de diverses manières, comme l’utilisation de sociétés tierces pour scraper le contenu à la place.

Anthony Katsur, CEO d’IAB Tech Lab, a aussi déclaré lors de l’événement Techtonic de l’IAB à Londres mercredi qu’ils avaient passé au crible un grand pourcentage des commandes des éditeurs aux bots IA et trouvé qu’il y a beaucoup de fautes de frappe ou beaucoup de mauvaises configurations de robots.txt, ce qui signifie que cela peut ne pas être respecté.

Le RAG change la donne

Katsur a recommandé aux éditeurs de bloquer les bots IA, même s’ils ne l’ont pas encore fait, en raison de la génération augmentée par récupération qui signifie que les modèles IA génératifs récupèrent et référencent de nouvelles informations du web en temps réel plutôt que de s’appuyer sur un crawl de découverte initial unique.

Katsur a déclaré : « Éditeurs, si vous n’avez pas bloqué et que vous pensez qu’il est trop tard pour bloquer, vous avez tort. Il n’est jamais trop tard pour bloquer. Les LLMs reviendront et ils recrawleront le contenu afin que cette information reste fraîche, pertinente et précise. »

Il a ajouté : « Dans l’histoire de l’humanité, aucun marché n’a jamais été créé quand les choses sont données gratuitement ou simplement volées. Donc sans rareté, les marchés n’existeront pas. Donc éditeurs, si vous ne bloquez pas, alors il est peu probable qu’une sorte de marché de contenu prenne forme. »

L’appel à l’action collective

Katsur a suggéré que les éditeurs devraient collectivement se lier les bras et bloquer les bots, même si seulement pendant 72 heures, juste pour montrer qu’il y a de la force parmi les éditeurs, grands et petits. Il a déclaré que si les éditeurs étaient menacés d’un procès antitrust ou de collusion en conséquence, ce serait un bon problème à avoir parce que cela signifierait que vous êtes toujours en affaires.

Katsur estime que le modèle actuel du crawling n’est pas durable, ni pour les éditeurs ni pour les LLMs eux-mêmes. Avec l’éclatement de la bulle IA, l’accès facile au financement et à l’achat continu de GPU pour alimenter les LLMs deviendra plus contraint. Les entreprises d’IA auront alors besoin de méthodes plus efficaces pour accéder et structurer le contenu.

L’initiative Content Monetisation Protocols (CoMP)

L’IAB Tech Lab travaille sur une initiative alternative Content Monetisation Protocols (CoMP) qui, selon Katsur, impliquerait un nouvel ensemble d’API open source qui permettrait aux LLMs d’accéder au contenu des éditeurs ou des marques uniquement sous des contrôles et structures stricts, protégeant ainsi la propriété intellectuelle, le copyright et fournissant également aux LLMs un format bien structuré pour une consommation, une utilisation et une précision plus efficaces.

Un groupe de travail CoMP organisé en octobre comptait Google, Microsoft et Meta à la table aux côtés des éditeurs. Mais Katsur note qu’OpenAI, Anthropic, Perplexity et certaines des autres plus petites entreprises n’ont donné aucune réponse et ne se sont pas manifestées.

Huit sites d’actualités sur dix bloquent désormais les bots d’entraînement IA