OpenAI et le Mystère de l’Intelligence Artificielle
OpenAI semble déterminé à garder secrètes les pensées de son dernier modèle d’intelligence artificielle. Depuis le lancement de la famille de modèles « Strawberry » la semaine dernière, qui met en avant des capacités de raisonnement avec o1-preview et o1-mini, l’entreprise a commencé à envoyer des avertissements et des menaces de suspension aux utilisateurs qui tentent d’explorer le fonctionnement interne du modèle.
Contrairement aux modèles précédents comme GPT-4o, le modèle o1 a été spécifiquement conçu pour suivre un processus de résolution de problèmes étape par étape avant de fournir une réponse. Lorsqu’un utilisateur interroge un modèle « o1 » dans ChatGPT, il a la possibilité de visualiser ce processus de réflexion dans l’interface. Cependant, OpenAI a choisi de masquer la chaîne de pensée brute, ne montrant qu’une interprétation filtrée produite par un second modèle d’IA.
La curiosité des passionnés est souvent piquée par des informations cachées, ce qui a entraîné une course parmi les hackers et les chercheurs en sécurité pour tenter de découvrir la chaîne de pensée brute de o1 à l’aide de techniques de contournement. Bien que quelques succès aient été rapportés, rien n’a encore été confirmé de manière solide.
OpenAI surveille ces tentatives via l’interface de ChatGPT et semble adopter une approche stricte contre toute exploration des raisonnements de o1, même de la part des utilisateurs simplement curieux.
Un utilisateur sur X a rapporté avoir reçu un email d’avertissement après avoir utilisé le terme « trace de raisonnement » dans une conversation avec o1. D’autres affirment que la simple question sur le « raisonnement » du modèle déclenche également cet avertissement.
Dans son email, OpenAI indique que certaines demandes des utilisateurs ont été signalées pour violation des politiques visant à contourner les mesures de sécurité. « Veuillez cesser cette activité et assurez-vous d’utiliser ChatGPT conformément à nos Conditions d’utilisation et à nos Politiques d’utilisation, » précise le message. « Des violations supplémentaires de cette politique pourraient entraîner une perte d’accès à GPT-4o avec Raisonnement, » faisant référence à un nom interne pour le modèle o1.
Marco Figueroa, responsable des programmes de bug bounty GenAI chez Mozilla, a été l’un des premiers à partager l’email d’avertissement d’OpenAI sur X, exprimant que cela entrave ses recherches de sécurité positives sur le modèle. « Je me suis trop concentré sur #AIRedTeaming pour réaliser que j’avais reçu cet email de @OpenAI après tous mes contournements, » a-t-il écrit. « Je suis maintenant sur la liste des bannis !!!«
Les Chaînes de Pensée Cachées de la Technologie
Dans un article intitulé « Apprendre à Raisonnner avec les LLMs » sur le blog d’OpenAI, l’entreprise explique que les chaînes de pensée cachées dans les modèles d’IA offrent une opportunité unique de surveillance, leur permettant de « lire l’esprit » du modèle et de comprendre son processus de réflexion. Ces processus sont les plus utiles pour l’entreprise lorsqu’ils restent bruts et non censurés, mais cela peut ne pas correspondre à ses intérêts commerciaux pour plusieurs raisons.
« Par exemple, à l’avenir, nous pourrions vouloir surveiller la chaîne de pensée pour détecter des signes de manipulation de l’utilisateur, » écrit l’entreprise. « Cependant, pour que cela fonctionne, le modèle doit avoir la liberté d’exprimer ses pensées sous une forme non altérée, donc nous ne pouvons pas entraîner de conformité aux politiques ou de préférences utilisateur sur la chaîne de pensée. Nous ne voulons pas non plus rendre une chaîne de pensée non alignée directement visible aux utilisateurs. »
OpenAI a donc décidé de ne pas montrer ces chaînes de pensée brutes aux utilisateurs, invoquant des raisons telles que la nécessité de conserver un flux brut pour son propre usage, l’expérience utilisateur et l’avantage concurrentiel. L’entreprise reconnaît que cette décision a des inconvénients. « Nous nous efforçons de compenser partiellement cela en apprenant au modèle à reproduire toute idée utile de la chaîne de pensée dans la réponse, » ajoutent-ils.
Concernant l' »avantage concurrentiel », le chercheur indépendant en IA Simon Willison a exprimé sa frustration dans un article sur son blog personnel. « J’interprète cela comme une volonté d’éviter que d’autres modèles puissent s’entraîner sur le travail de raisonnement dans lequel ils ont investi, » écrit-il.
Il est de notoriété publique dans l’industrie de l’IA que les chercheurs utilisent régulièrement les sorties de GPT-4 (et de GPT-3 auparavant) comme données d’entraînement pour des modèles d’IA qui deviennent souvent des concurrents, bien que cette pratique viole les conditions de service d’OpenAI. Exposer la chaîne de pensée brute de o1 constituerait une mine d’or de données d’entraînement pour les concurrents souhaitant développer des modèles de raisonnement similaires à o1.
Willison estime qu’il s’agit d’une perte pour la transparence de la communauté que OpenAI garde un contrôle si strict sur le fonctionnement interne de o1. « Je ne suis pas du tout satisfait de cette décision politique, » a écrit Willison. « En tant que développeur travaillant avec des LLMs, l’interprétabilité et la transparence sont primordiales pour moi—l’idée que je peux exécuter un prompt complexe et que des détails clés sur la façon dont ce prompt a été évalué me soient cachés me semble être un grand pas en arrière. »