L’Impact des Robots d’Exploration sur les Sites Web
Une Visite Inattendue
Ce mois-ci, ClaudeBot d’Anthropic, un robot d’exploration de contenu web, a visité le site de conseils technologiques iFixit.com près d’un million de fois en l’espace de 24 heures. Cette activité a suscité des plaintes de la part de Kyle Wiens, le directeur d’iFixit, qui a exprimé son mécontentement sur les réseaux sociaux. « Je comprends que vous ayez besoin de données. Claude est vraiment intelligent, » a déclaré le PDG, faisant référence à la famille de modèles de langage d’Anthropic alimentés par les informations collectées par ClaudeBot.
Problèmes de Conformité
Wiens a ajouté : « Vous ne vous contentez pas de prendre notre contenu sans compensation, vous monopolisez également nos ressources de développement. » Cette situation ne respecte pas les conditions d’utilisation d’iFixit. Pour contrer le trafic généré par les robots d’Anthropic, le site a ajouté une directive de refus dans son fichier robots.txt, un mécanisme standard dans l’industrie technologique pour repousser les robots d’exploration.
Une Pratique Répétée
Ce n’est pas la première fois qu’une grande entreprise technologique envoie un volume excessif de trafic à un autre site. « L’exploration a cessé après que nous les ayons ajoutés à notre robots.txt, » a expliqué Wiens à un média. « Maintenant, ils vérifient ce fichier toutes les trente minutes. » Il a également mentionné qu’Anthropic ne lui avait jamais répondu, bien qu’il soit toujours intéressé à discuter avec eux. Cette situation survient alors que Freelancer.com a accusé le robot Claude d’avoir visité son site près de quatre millions de fois en quelques heures.
La Mission d’iFixit
Wiens a précisé que la mission d’iFixit est d’aider les gens à réparer leurs appareils, ce qui nécessite des informations, des pièces et des outils. « J’aimerais offrir cette expérience à travers une autre plateforme, » a-t-il déclaré. « Je suis un utilisateur de Claude, et si je demande à Claude comment réparer mon téléphone et qu’il me dit d’acheter cette pièce avec ces instructions – eh bien, ce serait génial. » Cependant, cela ne se produit pas actuellement. « Pour l’instant, [Claude] déforme nos instructions et les restitue de manière incorrecte. Les gens risquent d’endommager leur téléphone s’ils suivent les directives du LLM, et il ne vous indique pas la pièce ou l’outil dont vous avez besoin. Pas très utile. »
Des Instructions Erronées
Wiens a donné un exemple où Claude expliquait comment installer un écran sur un Google Pixel 6a en ouvrant le téléphone par l’arrière. « Il s’ouvre par l’avant, donc cela ne fonctionnerait pas et causerait des dommages, » a-t-il expliqué.
Réponse d’Anthropic
Un porte-parole d’Anthropic, une entreprise fondée par d’anciens employés d’OpenAI, a dirigé un média vers une FAQ pour développeurs qui aborde la question de l’exploration de données sur le web. Ce document précise qu’Anthropic utilise diverses sources de données pour le développement de ses modèles, y compris des données accessibles au public sur Internet, collectées via un robot d’exploration. Il est également mentionné qu’Anthropic s’efforce de rendre son exploration transparente et respectueuse des directives robots.txt.
L’Évolution des Robots d’Exploration
Le fichier robots.txt, qui existe depuis 1994, était autrefois une technologie que l’on pouvait configurer et oublier. L’idée était de lister des instructions pour les robots : ce qu’ils peuvent et ne peuvent pas indexer, et ceux qui sont les bienvenus ou non, dans l’espoir que les opérateurs de robots respectent les souhaits des propriétaires de sites. Cependant, l’ère de l’IA a radicalement changé le paysage. De nombreuses entreprises d’IA ont vu le jour, et beaucoup d’entre elles explorent les sites pour collecter des données.
Une Explosion de Robots
Chaque entreprise peut faire fonctionner plusieurs robots. Juste au moment où vous pensez avoir arrêté un robot d’exploration, un autre apparaît de la même entreprise. Par exemple, Anthropic a précédemment utilisé Claude-Web et Anthropic-AI pour collecter des données d’entraînement. Si vous avez interdit l’accès à l’un ou l’autre, vous pourriez être surpris de voir ClaudeBot faire son apparition. Le fichier robots.txt de l’Associated Press montre ses tentatives continues de repousser les robots d’Anthropic, y compris le dernier ClaudeBot.
La Nécessité d’une Mise à Jour Continue
Le nombre croissant de robots rend difficile pour les propriétaires de sites de maintenir leurs fichiers robots.txt à jour face à ces nouveaux agents. OpenAI et Google ont publié des directives l’année dernière sur la manière de bloquer leurs robots d’exploration respectifs. « Le rythme auquel les propriétaires de sites doivent mettre à jour leur robots.txt reflète directement le rythme auquel les LLM et les entreprises qui les forment évoluent et se font concurrence, » a déclaré un expert.
Solutions Automatisées
Dark Visitors propose une méthode programmatique pour mettre à jour automatiquement les entrées robots.txt à mesure que de nouveaux robots apparaissent, et pour comprendre quels robots ont visité les sites et les empêcher d’accéder aux pages en cas de comportement inapproprié. Cloudflare a récemment annoncé des améliorations à son service de blocage de robots pour repousser davantage de robots d’IA.
Conclusion
Il est toujours possible que des explorations se produisent sous couvert de trafic normal. Bien que certains robots ignorent les paramètres robots.txt, la plupart des entreprises respectent les règles. « Il y a beaucoup de sentiments et de couvertures injustes concernant les robots qui ne suivent pas les règles, » a déclaré un expert. Le principal défi pour les propriétaires de sites n’est pas tant de mettre en œuvre des blocages, mais de savoir quoi ajouter à leur fichier robots.txt, étant donné la population de robots en constante évolution.