OpenAI a mis à jour la documentation de son crawler OAI-SearchBot. Les changements portent surtout sur la description des rôles de ses différents agents et sur la manière dont ils interagissent avec les règles robots.txt.
OpenAI a discrètement retiré toute mention de l’utilisation de son crawler OAI-SearchBot pour l’entraînement de ses modèles d’IA. La société a également clarifié les rôles de ses différents bots, avec des changements majeurs concernant le respect du fichier robots.txt.
Principales modifications
- OAI-SearchBot et les liens de navigation : d’après l’analyse de Pieter Serraris, OAI-SearchBot n’est plus décrit comme la source des liens de navigation dans les réponses ChatGPT. Bloquer ce bot n’empêche donc plus, en théorie, l’apparition de votre site dans les liens.
- ChatGPT User et robots.txt : ChatGPT User (le bot d’action utilisateur) ne respecterait plus les règles robots.txt au même titre que les deux autres agents. OpenAI a modifié sa formulation et ne mentionne plus que « les balises robots.txt d’OAI-SearchBot et GPTBot ». Ce bot est aussi présenté comme utilisé pour les requêtes Custom GPT et les GPT Actions.
- Partage de données entre OAI-SearchBot et GPTBot : OAI-SearchBot et GPTBot partagent désormais leurs informations. Si un site autorise les deux bots, OpenAI peut n’effectuer qu’un seul crawl pour les deux usages, ce qui évite les doublons.
La mention selon laquelle le crawler sert à entraîner les modèles génératifs d’OpenAI a été retirée de la documentation.