Reddit » src= »https://s.yimg.com/ny/api/res/1.2/fW3Gr33L.rrgQi_M4hZQ8g–/YXBwaWQ9aGlnaGxhbmRlcjt3PTgwO2g9ODA-/https://s.yimg.com/os/creatr-uploaded-images/2024-06/fc915870-2506-11ef-b5fe-c121b95eba3f »>
Reddit Renforce ses Restrictions sur l’Accès aux Données
Le mois dernier, Reddit a annoncé son intention de bloquer le scraping de données non autorisé sur sa plateforme, suscitant immédiatement des inquiétudes concernant l’impact sur les entreprises d’intelligence artificielle. Cependant, avec la mise en œuvre de cette nouvelle politique, il semble que d’autres moteurs de recherche, en dehors de Google, soient également affectés. En effet, Reddit a conclu un partenariat de 60 millions de dollars par an avec Google, ce qui lui permettrait d’exclure d’autres moteurs de recherche.
Selon un rapport de 404 Media, et confirmé par Engadget, les recherches sur Bing pour des résultats Reddit de la semaine passée (en utilisant « site:reddit.com ») ne retournent aucun résultat. De plus, DuckDuckGo a affiché quelques liens sans descriptions, indiquant simplement : « Nous aimerions vous montrer une description ici, mais le site ne nous le permet pas. » Actuellement, même ces liens semblent avoir disparu, laissant place à une page vide avec le message « aucun résultat trouvé. »
Un Changement de Politique pour Protéger les Données
Lorsque Reddit a modifié son fichier Robots Exclusion Protocol (robots.txt) pour interdire le scraping automatisé, il est devenu clair que cette décision ne visait pas uniquement les entreprises d’IA comme Perplexity. À l’heure actuelle, Google semble être le seul moteur de recherche autorisé à explorer Reddit et à fournir des résultats de ce qui est souvent décrit comme « la première page d’Internet. »
Ironiquement, une partie du fichier robots.txt de Reddit stipule que « Reddit croit en un Internet ouvert, mais pas à l’utilisation abusive de contenu public. » Ce fichier indique désormais essentiellement « Ne pas scraper. » Il semble que Reddit considère les moteurs de recherche qui ne s’engagent pas dans des accords exclusifs comme des abus de son contenu.
Les Implications de ces Restrictions
Le fichier robots.txt est une norme web qui indique quelles parties d’un site peuvent être explorées. Bien que de nombreux crawlers ignorent souvent ces instructions, Google respecte généralement cette norme. Ainsi, les entreprises qui ont conclu des accords lucratifs semblent avoir mis en place un contournement manuel de ces règles.
Cette situation est en grande partie le résultat de l’utilisation croissante des chatbots d’IA qui scrutent le web en temps réel pour obtenir des résultats. Alors que les tribunaux peinent à déterminer ce qui constitue un usage équitable du web ouvert pour former des chatbots, des entreprises comme Reddit, dont les revenus dépendent de la protection de leurs données, érigent des barrières au détriment de l’accès ouvert à l’information. Il est également ironique de constater que, malgré le rôle clé de Microsoft dans l’ère de l’IA, en s’associant tôt avec OpenAI, Bing se retrouve désavantagé dans cette dynamique.
Réactions des Moteurs de Recherche Alternatifs
Colin Hayhurst, PDG du moteur de recherche moins connu Mojeek, a déclaré à 404 Media que Reddit « tue tout pour la recherche sauf Google. » Il a également mentionné que ses tentatives de contact avec Reddit étaient restées sans réponse. « Cela ne nous était jamais arrivé auparavant, » a-t-il ajouté. « D’habitude, lorsque nous sommes bloqués, c’est à cause d’ignorance ou d’incompréhension, mais nous avons toujours pu résoudre le problème en contactant le site. Jamais nous n’avons eu un silence total. »
Engadget a tenté de joindre Google et Reddit pour obtenir des commentaires, mais n’a pas reçu de réponse avant la publication. 404 Media a également rencontré un mur de silence similaire de la part des deux entreprises.
Les Conséquences de la Politique de Reddit
Reddit a clairement exprimé son intention de restreindre l’accès aux entreprises d’IA qui souhaitent exploiter ses vastes ressources de données. L’année dernière, le PDG Steve Huffman a pris le risque d’aliéner une partie importante de sa base d’utilisateurs en bloquant les requêtes API tierces, ce qui a conduit à la disparition d’applications populaires comme Apollo de Christian Selig. Malgré les protestations généralisées des modérateurs et des utilisateurs, la plateforme n’a perdu qu’un nombre négligeable d’utilisateurs.
Ce pari semble avoir porté ses fruits, et Reddit a réussi à se redresser. La société est entrée en bourse en mars dernier.