Un administrateur s'est rendu compte que près de la moitié des requêtes servies par son serveurs étaient pour des crawlers IA !
24% du trafic pour GPTBot (OpenAI), 15% pour AmazonBot, 4% pour ClaudeBot, etc
Les bot IA crawlent comme des porcs et même des pages complètement inutiles comme la liste des mises à jour d'une page wiki.
Par comparaison, le Google bot représente 0.14% de son trafic.
En plus, ils ne respectent pas les robots.txt, changent constamment d'IP et parfois masquent même leur user agents.
Ce sont vraiment des pratiques intolérables.
Un autre exemple d'un gérant de site de e-commerce qui a subit l'équivalent d'une attaque DDoS avec le bot d'OpenAI ayant scrappé les milliers de produits et dizaine de milliers d'images de son site avec plus de 600 IP différentes (/!) alors que son robots.txt interdit au bot d'OpenAI d'opérer.
Non seulement ce genre de pratique peut avoir des répercussion au niveau du copyright mais aussi très concrètement au niveau du porte monnaie car les serveurs sont beaucoup plus sollicités !