OpenAI lance le webcrawler GPTBot, et des instructions pour le bloquer

L’OpenAI a lancé un robot d’exploration du web pour améliorer les modèles d’intelligence artificielle tels que le GPT-4.

Baptisé GPTBot, le système parcourt l’internet pour former et améliorer les capacités de l’IA. L’utilisation de GPTBot a le potentiel d’améliorer les modèles d’intelligence artificielle existants en ce qui concerne des aspects tels que la précision et la sécurité, selon un billet de blog de l’OpenAI.

« Les pages web explorées avec l’agent utilisateur GPTBot peuvent potentiellement être utilisées pour améliorer les modèles futurs et sont filtrées pour supprimer les sources qui nécessitent un accès payant, qui sont connues pour recueillir des informations personnelles identifiables (PII) ou qui contiennent des textes qui enfreignent nos politiques », peut-on lire dans le billet.

Comment empêcher GPTBot d’utiliser le contenu de votre site web ?

Selon OpenAI, vous pouvez interdire GPTBot en l’ajoutant au fichier Robots.txt de votre site, qui est essentiellement un fichier texte indiquant aux robots d’indexation ce qu’ils peuvent ou ne peuvent pas accéder à partir d’un site web.

The code for disallowing GPTBot from your site.
Credit: Screenshot / OpenAI.

Vous pouvez également personnaliser les parties qu’un robot d’exploration peut utiliser, en autorisant certaines pages et en en interdisant d’autres.

The code for disallowing or allowing GPTBot from your site's pagess.
Credit: Screenshot / OpenAI.

Via https://mashable.com/article/open-ai-gptbot-crawler-block By Meera Navlakha