Compréhension Vidéo à la Pointe de la Technologie
Avantages de la Compréhension Vidéo en Temps Réel
L’information visuelle dans notre environnement est en constante évolution. Lorsqu’il s’agit de traiter cette information dynamique, la compréhension vidéo à la périphérie (edge) présente un avantage indéniable. Les appareils situés à la périphérie, tels que les smartphones, ordinateurs, dispositifs de réalité augmentée, robots et véhicules intelligents, sont équipés de caméras intégrées qui leur confèrent des capacités d’entrée multimodales.
Efficacité et Sécurité des Données
En comparaison avec le cloud, la périphérie est plus proche de l’utilisateur, ce qui réduit la latence et améliore l’efficacité. De plus, elle offre des avantages significatifs en matière de sécurité des informations.
Lancement de MiniCPM-V 2.6
Le 6 août, la société chinoise ModelBest a lancé officiellement MiniCPM-V 2.6, un modèle qui rivalise pleinement avec les performances de GPT-4V en matière de traitement à la périphérie.
Performances Multimodales Supérieures
D’après les informations fournies, MiniCPM-V 2.6 a surpassé pour la première fois GPT-4V dans des capacités multimodales essentielles telles que la compréhension d’images uniques, d’images multiples et de vidéos, atteignant des résultats de pointe avec moins de 20 milliards de paramètres. Sa performance en compréhension d’images uniques est comparable à celle de Gemini 1.5 Pro et GPT-4o mini.
Efficacité et Densité de Connaissances
En termes de densité de connaissances, MiniCPM-V 2.6 a réduit de 30 % le nombre de tokens visuels par rapport à la génération précédente, et de 75 % par rapport à des modèles similaires, atteignant ainsi une densité de pixels par token deux fois supérieure à celle de GPT-4o.
Nouvelles Capacités de Compréhension Vidéo
Il est important de noter que ModelBest a introduit des fonctionnalités telles que la compréhension vidéo en temps réel, la compréhension conjointe d’images multiples et l’apprentissage contextuel à partir de plusieurs images (ICL) pour la première fois à la périphérie.
Performances Améliorées et Rapidité
Après quantification, la mémoire backend n’occupe que 6 Go, et la vitesse d’inférence à la périphérie atteint 18 tokens par seconde, soit 33 % plus rapide que le modèle précédent. De plus, il prend en charge l’inférence dès sa sortie pour des plateformes comme llama.cpp, ollama et vllm, tout en étant compatible avec plusieurs langues.
Résumé Automatique de Vidéos
Pour les vidéos « trop longues ; pas regardées », il est désormais possible de glisser le fichier et de laisser le modèle résumer les informations clés sans avoir à visionner l’intégralité de la vidéo.
Exemples de Performances en Temps Réel
Dans une vidéo de prévisions météorologiques d’environ une minute, MiniCPM-V 2.6 utilise ses puissantes capacités de reconnaissance optique de caractères (OCR) pour identifier le texte dense dans les images vidéo, fournissant des descriptions détaillées des conditions météorologiques pour différentes villes.
Compréhension Conjointe d’Images
En plus de la multimodalité vidéo, MiniCPM-V 2.6 intègre également pour la première fois des capacités de compréhension conjointe d’images multiples et d’ICL dans un modèle à la périphérie, une fonctionnalité qui était auparavant l’apanage de GPT-4V.
Applications Pratiques
Prenons l’exemple de la gestion des dépenses, où les chiffres denses sur les reçus peuvent être difficiles à déchiffrer. Avec MiniCPM-V 2.6, il est possible de photographier plusieurs reçus et de les envoyer au modèle. Grâce à ses capacités OCR et à son raisonnement en chaîne (CoT), il peut identifier les montants sur chaque reçu et calculer le total.
Défis de Raisonnement Complexe
En matière d’inférence multimodale à la périphérie, MiniCPM-V 2.6 a également réussi à rattraper GPT-4V. Par exemple, la tâche classique d’ajuster la selle d’un vélo, qui semble simple pour un humain, représente un défi pour le modèle, car elle teste ses capacités de raisonnement complexe et sa maîtrise des connaissances physiques.
Conclusion : Une Révolution à la Périphérie
Avec ses 8 milliards de paramètres, MiniCPM-V 2.6 ne se contente pas de rivaliser avec GPT-4V en termes de performances globales, mais marque également une première dans le domaine des modèles à la périphérie, surpassant GPT-4V dans trois capacités multimodales clés : la compréhension d’images uniques, d’images multiples et de vidéos. Tous ces résultats ont été obtenus avec des modèles de moins de 20 milliards de paramètres.
Efficacité Exceptionnelle
En termes de taux de compression des connaissances, MiniCPM-V 2.6 démontre une efficacité exceptionnelle, atteignant une densité de pixels pour les grands modèles multimodaux qui est deux fois supérieure à celle de GPT-4o.
Performances Évaluées
Sur des plateformes d’évaluation reconnues, MiniCPM-V 2.6 a surpassé ses concurrents dans divers domaines, y compris la compréhension d’images uniques et multiples, ainsi que la compréhension vidéo. De plus, ses performances en OCR sont parmi les meilleures, surpassant de nombreux modèles commerciaux.
Avantages de l’Architecture Visuelle
Selon ModelBest, le succès de MiniCPM-V 2.6 repose non seulement sur l’amélioration des performances du modèle de base Qwen2-7B, mais également sur l’adoption d’une architecture visuelle haute définition unifiée, permettant une interopérabilité fluide et l’héritage des avantages multimodaux traditionnels.