Sommaire
Un nouveau rapport de The Information confirme que ChatGPT utilise des données de Google Search pour alimenter ses réponses, contrairement aux déclarations publiques d’OpenAI.
Recours à un service de scraping
Selon The Information, OpenAI a utilisé SerpApi, une société de scraping vieille de 8 ans, pour extraire les résultats de Google Search. Ce service alimente ChatGPT sur des sujets en temps réel comme l’actualité, le sport et la finance.
SerpApi listait OpenAI comme client sur son site jusqu’en mai 2024. Cette mention a depuis été supprimée pour des raisons inconnues, mais des preuves subsistent via Wayback Machine.
Autres clients de SerpApi
Le service compte également parmi ses clients Meta, Apple et Perplexity, ce qui montre l’usage répandu du scraping de Google par les grandes entreprises tech.
Google tente depuis longtemps de bloquer le crawler de SerpApi, bien que l’efficacité de ces efforts reste incertaine.
Contradiction avec les déclarations publiques
Cette révélation contredit la position publique d’OpenAI selon laquelle ChatGPT Search s’appuie sur son propre crawler, Microsoft Bing et des données d’éditeurs sous licence.
Lors du procès antitrust de Google, Nick Turley, dirigeant ChatGPT, avait indiqué que Bing de Microsoft présentait des « problèmes de qualité significatifs » et que l’index de Google accélérerait les ambitions de recherche d’OpenAI.
Le PDG d’OpenAI, Sam Altman, a quant à lui récemment déclaré : « Je n’utilise plus Google. Je ne peux sincèrement pas vous dire la dernière fois que j’ai fait une recherche Google. » Il semble pourtant qu’il utilise Google Search en permanence via son propre produit.
Implications pour l’écosystème search
Sous réserve que l’information se vérifie, les multiples études qui suggéraient l’utilisation de Google Search par ChatGPT se verraient donc confirmées.
Le fait qu’OpenAI ait pu utiliser ces données via un service de scraping soulève de sérieuses questions sur les méthodes d’accès aux données par les entreprises d’IA.