Benchmarks détaillés

La dernière génération de modèles continue de redéfinir les normes en matière d’efficacité économique, de rapidité et de performance. Mistral Large 2 est désormais disponible sur la Plateforme, enrichi de nouvelles fonctionnalités pour faciliter le développement d’applications d’IA innovantes.

Mistral Large 2

Mistral Large 2 dispose d’une fenêtre de contexte de 128k et prend en charge de nombreuses langues, notamment le français, l’allemand, l’espagnol, l’italien, le portugais, l’arabe, l’hindi, le russe, le chinois, le japonais et le coréen, ainsi que plus de 80 langages de programmation, y compris Python, Java, C, C++, JavaScript et Bash.

Conçu pour l’inférence sur un seul nœud avec des applications à long contexte, Mistral Large 2, avec ses 123 milliards de paramètres, permet un traitement à fort débit sur un seul nœud. Nous publions Mistral Large 2 sous la licence de recherche Mistral, qui autorise l’utilisation et la modification à des fins de recherche et non commerciales. Pour une utilisation commerciale nécessitant un déploiement autonome, il est nécessaire d’acquérir une licence commerciale Mistral en nous contactant.

Performance générale

Mistral Large 2 établit une nouvelle référence en matière de performance par rapport au coût de service selon les critères d’évaluation. En particulier, sur le MMLU, la version pré-entraînée atteint une précision de 84,0 %, établissant un nouveau point sur le front de performance/coût des modèles ouverts.

Code et Raisonnement

Fort de notre expérience avec Codestral 22B et Codestral Mamba, nous avons formé Mistral Large 2 sur une proportion très élevée de code. Mistral Large 2 surpasse largement le précédent modèle Mistral Large et se positionne au même niveau que des modèles de pointe tels que GPT-4o, Claude 3 Opus et Llama 3 405B.

Benchmarks détaillés

Un effort considérable a également été consacré à l’amélioration des capacités de raisonnement du modèle. L’un des principaux axes de formation était de réduire la tendance du modèle à « halluciner » ou à générer des informations plausibles mais factuellement incorrectes ou non pertinentes. Cela a été réalisé en ajustant le modèle pour qu’il soit plus prudent et discernant dans ses réponses, garantissant ainsi des résultats fiables et précis.

De plus, le nouveau Mistral Large 2 est formé pour reconnaître quand il ne peut pas trouver de solutions ou n’a pas suffisamment d’informations pour fournir une réponse confiante. Cet engagement envers l’exactitude se reflète dans l’amélioration des performances du modèle sur des benchmarks mathématiques populaires, démontrant ses compétences accrues en raisonnement et en résolution de problèmes :

Benchmarks détaillés

Précision de performance sur les benchmarks de génération de code (tous les modèles ont été évalués à travers le même pipeline d’évaluation)

Benchmarks détaillés

Précision de performance sur MultiPL-E (tous les modèles ont été évalués à travers le même pipeline d’évaluation, sauf pour la ligne « papier »)

Benchmarks détaillés

Précision de performance sur GSM8K (8-shot) et MATH (0-shot, sans CoT) pour les benchmarks de génération (tous les modèles ont été évalués à travers le même pipeline d’évaluation)

Suivi des instructions et Alignement

Nous avons considérablement amélioré les capacités de suivi des instructions et de conversation de Mistral Large 2. Ce modèle est particulièrement meilleur pour suivre des instructions précises et gérer de longues conversations à plusieurs tours. Voici les performances sur les benchmarks MT-Bench, Wild Bench et Arena Hard :

Benchmarks détaillés

Performance sur les benchmarks d’alignement général (tous les modèles ont été évalués à travers le même pipeline d’évaluation)

Sur certains benchmarks, la génération de réponses longues tend à améliorer les scores. Cependant, dans de nombreuses applications commerciales, la concision est primordiale – des générations de modèle courtes facilitent des interactions plus rapides et sont plus rentables pour l’inférence. C’est pourquoi nous avons consacré beaucoup d’efforts à garantir que les générations restent succinctes et pertinentes chaque fois que cela est possible. Le graphique ci-dessous montre la longueur moyenne des générations de différents modèles sur des questions du benchmark MT Bench :

Benchmarks MT Bench

Diversité linguistique

Une grande partie des cas d’utilisation commerciaux d’aujourd’hui implique le travail avec des documents multilingues. Alors que la majorité des modèles sont centrés sur l’anglais, le nouveau Mistral Large 2 a été formé sur une proportion importante de données multilingues. En particulier, il excelle en anglais, français, allemand, espagnol, italien, portugais, néerlandais, russe, chinois, japonais, coréen, arabe et hindi. Voici les résultats de performance de Mistral Large 2 sur le benchmark multilingue MMLU, comparés au précédent Mistral Large, aux modèles Llama 3.1 et à Command R+ de Cohere.

Benchmarks détaillés

Benchmarks détaillés

Performance sur le MMLU multilingue (mesurée sur le modèle pré-entraîné de base)

Utilisation des outils et Appels de fonction

Mistral Large 2 est doté de compétences améliorées en matière d’appels de fonction et de récupération, ayant été formé pour exécuter efficacement des appels de fonction parallèles et séquentiels, ce qui lui permet de servir de moteur puissant pour des applications commerciales complexes.

Benchmarks détaillés

Essayez Mistral Large 2 sur la Plateforme

Vous pouvez utiliser Mistral Large 2 dès aujourd’hui via la Plateforme sous le nom mistral-large-2407, et le tester sur le Chat. Il est disponible sous la version 24.07 (un système de versionnement YY.MM que nous appliquons à tous nos modèles), et le nom de l’API est mistral-large-2407. Les poids pour le modèle d’instruction sont également disponibles et hébergés sur HuggingFace.

Nous consolidons l’offre sur la Plateforme autour de deux modèles à usage général, Mistral Nemo et Mistral Large, ainsi que deux modèles spécialisés, Codestral et Embed. Alors que nous déprécions progressivement les anciens modèles sur la Plateforme, tous les modèles Apache (Mistral 7B, Mixtral 8x7B et 8x22B, Codestral Mamba, Mathstral) restent disponibles pour le déploiement et le fine-tuning à l’aide de notre SDK mistral-inference et mistral-finetune.

À partir d’aujourd’hui, nous étendons les capacités de fine-tuning sur la Plateforme : celles-ci sont désormais disponibles pour Mistral Large, Mistral Nemo et Codestral.

Accès aux modèles Mistral via des fournisseurs de services cloud

Nous sommes fiers de nous associer à des fournisseurs de services cloud de premier plan pour offrir le nouveau Mistral Large 2 à un public mondial. En particulier, nous élargissons aujourd’hui notre partenariat avec Google Cloud Platform pour intégrer les modèles d’IA Mistral sur Vertex AI via une API gérée. Les meilleurs modèles d’IA Mistral sont désormais disponibles sur Vertex AI, en plus d’Azure AI Studio, Amazon Bedrock et IBM watsonx.ai.

Calendrier de disponibilité des modèles Mistral AI

Benchmarks détaillés

Show Comments (0)
Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *