Compréhension Vidéo à la Pointe de la Technologie

Avantages de la Compréhension Vidéo en Temps Réel

L’information visuelle dans notre environnement est en constante évolution. Lorsqu’il s’agit de traiter cette information dynamique, la compréhension vidéo à la périphérie (edge) présente un avantage indéniable. Les appareils situés à la périphérie, tels que les smartphones, ordinateurs, dispositifs de réalité augmentée, robots et véhicules intelligents, sont équipés de caméras intégrées qui leur confèrent des capacités d’entrée multimodales.

Efficacité et Sécurité des Données

En comparaison avec le cloud, la périphérie est plus proche de l’utilisateur, ce qui réduit la latence et améliore l’efficacité. De plus, elle offre des avantages significatifs en matière de sécurité des informations.

Lancement de MiniCPM-V 2.6

Le 6 août, la société chinoise ModelBest a lancé officiellement MiniCPM-V 2.6, un modèle qui rivalise pleinement avec les performances de GPT-4V en matière de traitement à la périphérie.

Performances Multimodales Supérieures

D’après les informations fournies, MiniCPM-V 2.6 a surpassé pour la première fois GPT-4V dans des capacités multimodales essentielles telles que la compréhension d’images uniques, d’images multiples et de vidéos, atteignant des résultats de pointe avec moins de 20 milliards de paramètres. Sa performance en compréhension d’images uniques est comparable à celle de Gemini 1.5 Pro et GPT-4o mini.

Efficacité et Densité de Connaissances

En termes de densité de connaissances, MiniCPM-V 2.6 a réduit de 30 % le nombre de tokens visuels par rapport à la génération précédente, et de 75 % par rapport à des modèles similaires, atteignant ainsi une densité de pixels par token deux fois supérieure à celle de GPT-4o.

Nouvelles Capacités de Compréhension Vidéo

Il est important de noter que ModelBest a introduit des fonctionnalités telles que la compréhension vidéo en temps réel, la compréhension conjointe d’images multiples et l’apprentissage contextuel à partir de plusieurs images (ICL) pour la première fois à la périphérie.

Performances Améliorées et Rapidité

Après quantification, la mémoire backend n’occupe que 6 Go, et la vitesse d’inférence à la périphérie atteint 18 tokens par seconde, soit 33 % plus rapide que le modèle précédent. De plus, il prend en charge l’inférence dès sa sortie pour des plateformes comme llama.cpp, ollama et vllm, tout en étant compatible avec plusieurs langues.

Résumé Automatique de Vidéos

Pour les vidéos « trop longues ; pas regardées », il est désormais possible de glisser le fichier et de laisser le modèle résumer les informations clés sans avoir à visionner l’intégralité de la vidéo.

Exemples de Performances en Temps Réel

Dans une vidéo de prévisions météorologiques d’environ une minute, MiniCPM-V 2.6 utilise ses puissantes capacités de reconnaissance optique de caractères (OCR) pour identifier le texte dense dans les images vidéo, fournissant des descriptions détaillées des conditions météorologiques pour différentes villes.

Compréhension Conjointe d’Images

En plus de la multimodalité vidéo, MiniCPM-V 2.6 intègre également pour la première fois des capacités de compréhension conjointe d’images multiples et d’ICL dans un modèle à la périphérie, une fonctionnalité qui était auparavant l’apanage de GPT-4V.

Applications Pratiques

Prenons l’exemple de la gestion des dépenses, où les chiffres denses sur les reçus peuvent être difficiles à déchiffrer. Avec MiniCPM-V 2.6, il est possible de photographier plusieurs reçus et de les envoyer au modèle. Grâce à ses capacités OCR et à son raisonnement en chaîne (CoT), il peut identifier les montants sur chaque reçu et calculer le total.

Défis de Raisonnement Complexe

En matière d’inférence multimodale à la périphérie, MiniCPM-V 2.6 a également réussi à rattraper GPT-4V. Par exemple, la tâche classique d’ajuster la selle d’un vélo, qui semble simple pour un humain, représente un défi pour le modèle, car elle teste ses capacités de raisonnement complexe et sa maîtrise des connaissances physiques.

Conclusion : Une Révolution à la Périphérie

Avec ses 8 milliards de paramètres, MiniCPM-V 2.6 ne se contente pas de rivaliser avec GPT-4V en termes de performances globales, mais marque également une première dans le domaine des modèles à la périphérie, surpassant GPT-4V dans trois capacités multimodales clés : la compréhension d’images uniques, d’images multiples et de vidéos. Tous ces résultats ont été obtenus avec des modèles de moins de 20 milliards de paramètres.

Efficacité Exceptionnelle

En termes de taux de compression des connaissances, MiniCPM-V 2.6 démontre une efficacité exceptionnelle, atteignant une densité de pixels pour les grands modèles multimodaux qui est deux fois supérieure à celle de GPT-4o.

Performances Évaluées

Sur des plateformes d’évaluation reconnues, MiniCPM-V 2.6 a surpassé ses concurrents dans divers domaines, y compris la compréhension d’images uniques et multiples, ainsi que la compréhension vidéo. De plus, ses performances en OCR sont parmi les meilleures, surpassant de nombreux modèles commerciaux.

Avantages de l’Architecture Visuelle

Selon ModelBest, le succès de MiniCPM-V 2.6 repose non seulement sur l’amélioration des performances du modèle de base Qwen2-7B, mais également sur l’adoption d’une architecture visuelle haute définition unifiée, permettant une interopérabilité fluide et l’héritage des avantages multimodaux traditionnels.

Show Comments (0)
Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *