Technologie
OpenAI et la Transparence de l’IA
OpenAI semble déterminé à garder secrètes les pensées de son dernier modèle d’intelligence artificielle, connu sous le nom de »Strawberry« . Depuis le lancement de cette nouvelle famille de modèles, comprenant o1-preview et o1-mini, la société a commencé à envoyer des avertissements et des menaces de suspension aux utilisateurs qui tentent d’explorer le fonctionnement interne de ces modèles.
Un Modèle d’IA Révolutionnaire
Contrairement aux précédents modèles d’OpenAI, comme GPT-4o, le modèle o1 a été spécifiquement conçu pour résoudre des problèmes de manière méthodique avant de fournir une réponse. Lorsqu’un utilisateur interroge un modèle « o1 » via ChatGPT, il a la possibilité de visualiser ce processus de raisonnement. Cependant, OpenAI a choisi de dissimuler la chaîne de pensée brute, ne montrant qu’une interprétation filtrée générée par un autre modèle d’IA.
La Quête des Hackers
L’attrait pour l’information cachée a incité de nombreux hackers et chercheurs à tenter de découvrir la chaîne de pensée brute de o1, en utilisant des techniques de contournement comme le « jailbreaking » ou l’injection de prompts. Bien que quelques succès aient été rapportés, rien n’a encore été confirmé de manière concluante.
Surveillance et Réactions d’OpenAI
OpenAI surveille ces tentatives via l’interface de ChatGPT et semble adopter une approche stricte envers toute exploration du raisonnement de o1, même pour les utilisateurs simplement curieux. Un utilisateur sur X a rapporté avoir reçu un avertissement par e-mail après avoir utilisé le terme »trace de raisonnement » dans une conversation avec o1. D’autres affirment que toute question sur le « raisonnement » du modèle déclenche également un avertissement.
Avertissements et Conséquences
L’e-mail d’avertissement d’OpenAI indique que certaines demandes des utilisateurs ont été signalées pour violation des politiques de sécurité. « Veuillez cesser cette activité et assurez-vous d’utiliser ChatGPT conformément à nos Conditions d’utilisation », précise le message. « Des violations supplémentaires de cette politique pourraient entraîner une perte d’accès à GPT-4o avec Raisonnement », faisant référence à un nom interne pour le modèle o1.
Les Défis de la Recherche en IA
Marco Figueroa, responsable des programmes de récompense pour les bugs de GenAI chez Mozilla, a été l’un des premiers à partager l’avertissement d’OpenAI sur X, exprimant que cela entrave ses recherches de sécurité positives sur le modèle. « Je me suis trop concentré sur #AIRedTeaming pour réaliser que j’avais reçu cet e-mail d’OpenAI après tous mes jailbreaks », a-t-il écrit. « Je suis maintenant sur la liste des bannis ! »
Les Chaînes de Pensée Cachées
Dans un article intitulé « Apprendre à Raisonnner avec les LLMs » sur le blog d’OpenAI, la société explique que les chaînes de pensée cachées dans les modèles d’IA offrent une opportunité unique de surveillance, permettant de « lire l’esprit » du modèle et de comprendre son processus de pensée. Ces processus sont les plus utiles pour l’entreprise lorsqu’ils sont laissés bruts et non censurés, mais cela pourrait ne pas correspondre aux intérêts commerciaux d’OpenAI pour plusieurs raisons.
La Stratégie Commerciale d’OpenAI
OpenAI a décidé de ne pas montrer ces chaînes de pensée brutes aux utilisateurs, invoquant des raisons telles que la nécessité de conserver un flux brut pour son propre usage, l’expérience utilisateur et l’avantage concurrentiel. La société reconnaît que cette décision a des inconvénients. « Nous nous efforçons de compenser partiellement cela en apprenant au modèle à reproduire toute idée utile de la chaîne de pensée dans la réponse », expliquent-ils.
Frustrations des Chercheurs Indépendants
Concernant l’avantage concurrentiel, le chercheur indépendant en IA Simon Willison a exprimé sa frustration dans un article sur son blog personnel. « Je l’interprète comme une volonté d’éviter que d’autres modèles puissent s’entraîner sur le travail de raisonnement dans lequel ils ont investi », a-t-il écrit.
Il est de notoriété publique dans l’industrie de l’IA que les chercheurs utilisent régulièrement les sorties de GPT-4 (et de GPT-3 auparavant) comme données d’entraînement pour des modèles d’IA qui deviennent souvent des concurrents, bien que cette pratique viole les conditions de service d’OpenAI. Exposer la chaîne de pensée brute de o1 constituerait une mine d’or de données d’entraînement pour des modèles de raisonnement similaires.
Un Manque de Transparence
Willison estime qu’il s’agit d’une perte pour la transparence de la communauté que OpenAI garde un contrôle si strict sur le fonctionnement interne de o1. « Je ne suis pas du tout satisfait de cette décision politique », a-t-il écrit. « En tant que développeur travaillant avec des LLMs, l’interprétabilité et la transparence sont primordiales pour moi—l’idée que je peux exécuter un prompt complexe et que des détails clés sur la façon dont ce prompt a été évalué me soient cachés semble être un grand pas en arrière. »