Technologie
Date de publication : 8 août 2024, 14h59
Si vous n’avez pas encore entendu parler de « Qwen2« , il est temps de vous y intéresser, car une nouvelle version surprenante vient de faire son apparition, s’imposant comme un acteur majeur dans un domaine crucial du développement logiciel, de l’ingénierie et des sciences STEM : les mathématiques.
Qu’est-ce que Qwen2 ?
Avec l’émergence de nombreux modèles d’IA provenant de startups et de grandes entreprises technologiques, il peut être difficile de suivre l’évolution rapide de ce secteur, même pour les plus attentifs.
Qwen2 est un modèle de langage de grande taille (LLM) open-source qui rivalise avec les modèles d’OpenAI, de Meta et d’Anthropic, mais il est développé par Alibaba Cloud, la division de stockage en nuage du géant chinois du commerce électronique Alibaba.
Alibaba Cloud a commencé à lancer ses propres LLM sous la marque « Tongyi Qianwen » ou Qwen, en août 2023, avec des modèles open-source tels que Qwen-7B, Qwen-72B et Qwen-1.8B, qui comptent respectivement 72 milliards et 1,8 milliard de paramètres. Par la suite, des variantes multimodales ont été introduites, y compris Qwen-Audio et Qwen-VL (pour les entrées visuelles), et enfin Qwen2, lancé début juin 2024, avec cinq variantes : 0,5B, 1,5B, 7B, 14B et 72B. Au total, Alibaba a mis à disposition plus de 100 modèles d’IA de différentes tailles et fonctions dans la famille Qwen.
Les entreprises, en particulier en Chine, ont rapidement adopté ces modèles, avec plus de 90 000 entreprises signalées comme utilisant les modèles Qwen au cours de la première année de disponibilité.
Bien que de nombreux modèles aient affiché des performances de pointe lors de leur lancement, la course aux modèles LLM et IA évolue si rapidement qu’ils ont été rapidement surpassés par d’autres concurrents, qu’ils soient open-source ou non. Jusqu’à présent.
Qu’est-ce que Qwen2-Math ?
Aujourd’hui, l’équipe Qwen d’Alibaba Cloud a dévoilé Qwen2-Math, une nouvelle « série de modèles de langage de grande taille spécifiquement conçus pour les mathématiques » en anglais. Le modèle le plus puissant de cette série surpasse tous les autres dans le monde, y compris le célèbre GPT-4o d’OpenAI, Claude 3.5 d’Anthropic et même le Math-Gemini Specialized 1.5 Pro de Google.
En particulier, la variante Qwen2-Math-72B-Instruct, qui compte 72 milliards de paramètres, obtient un score de 84 % au benchmark MATH pour les LLM, qui propose 12 500 « problèmes mathématiques de compétition difficiles », y compris des problèmes de mots qui peuvent être notoirement difficiles à résoudre pour les LLM.
Voici un exemple d’un problème inclus dans le jeu de données MATH :
Candidement, je ne pourrais pas répondre à ce problème par moi-même, et certainement pas en quelques secondes, mais Qwen2-Math semble y parvenir la plupart du temps.
Peut-être pas surprenant, Qwen2-Math-72B Instruct excelle également au benchmark GSM8K (8 500 questions) pour les mathématiques de l’école primaire avec un score de 96,7 % et au niveau universitaire avec un score de 47,8 %.
Il est à noter qu’Alibaba n’a pas comparé le nouveau modèle Orca-Math de Microsoft, lancé en février 2024, dans ses graphiques de benchmark. Ce modèle de 7 milliards de paramètres (une variante de Mistral-7B, lui-même une variante de Llama) se rapproche du modèle Qwen2-Math-7B-Instruct avec un score de 86,81 % pour Orca-Math contre 89,9 % pour Qwen2-Math-7B-Instruct.
Cependant, même la plus petite version de Qwen2-Math, le modèle de 1,5 milliard de paramètres, affiche des performances impressionnantes, se rapprochant du modèle plus de quatre fois plus grand avec un score de 84,2 % sur GSM8K et 44,2 % en mathématiques universitaires.
À quoi servent les modèles d’IA en mathématiques ?
Alors que l’utilisation initiale des LLM s’est concentrée sur leur utilité dans les chatbots et, pour les entreprises, sur la réponse aux questions des employés ou des clients, ou sur la rédaction de documents et l’analyse d’informations plus rapidement, les LLM axés sur les mathématiques visent à fournir des outils plus fiables pour ceux qui cherchent à résoudre régulièrement des équations et à travailler avec des chiffres.
Ironiquement, étant donné que tout code est basé sur des principes mathématiques fondamentaux, les LLM n’ont pas été aussi fiables que les anciennes générations d’IA ou d’apprentissage automatique, ou même que les logiciels plus anciens, pour résoudre des problèmes mathématiques.
Les chercheurs d’Alibaba derrière Qwen2-Math espèrent que ce modèle pourra contribuer à la communauté en résolvant des problèmes mathématiques complexes.
Les conditions de licence personnalisées pour les entreprises et les particuliers souhaitant utiliser Qwen2-Math ne sont pas entièrement open-source, exigeant que toute utilisation commerciale avec plus de 100 millions d’utilisateurs actifs mensuels obtienne une autorisation et une licence supplémentaires de la part des créateurs. Cependant, cela reste une limite très permissive, permettant à de nombreuses startups, PME et même certaines grandes entreprises d’utiliser Qwen2-Math à des fins commerciales (pour générer des revenus) gratuitement, en quelque sorte.