Technologie
Apple vise à comprendre l’intention des utilisateurs sur leurs appareils grâce aux modèles UI-JEPA !
Découvrez UI-JEPA, une architecture révolutionnaire développée par des chercheurs d’Apple, qui promet de transformer la compréhension des intentions des utilisateurs à partir des interactions avec l’interface utilisateur (UI). Grâce à une approche innovante, UI-JEPA réduit considérablement les besoins computationnels tout en maintenant des performances élevées. Cette avancée pave la voie à des applications d’assistants AI plus réactives et respectueuses de la vie privée. En intégrant des modèles légers, UI-JEPA pourrait bien redéfinir l’avenir de l’intelligence artificielle sur les appareils Apple, offrant une expérience utilisateur inégalée.
Technologie
Date de publication : 13 septembre 2024 à 11h58
Comprendre les intentions des utilisateurs à travers les interactions avec l’interface utilisateur (UI) représente un défi majeur dans le développement d’applications d’IA intuitives et utiles.
Dans un article récent, des chercheurs d’Apple présentent UI-JEPA, une architecture qui réduit considérablement les exigences computationnelles liées à la compréhension des interfaces utilisateur tout en maintenant un haut niveau de performance. L’objectif de UI-JEPA est de permettre une compréhension légère et locale des interfaces, ouvrant la voie à des applications d’assistants IA plus réactives et respectueuses de la vie privée. Cela s’inscrit dans la stratégie plus large d’Apple visant à améliorer son IA sur appareil.
Les défis de la compréhension des interfaces utilisateur
La compréhension des intentions des utilisateurs à partir des interactions avec l’UI nécessite le traitement de caractéristiques multimodales, incluant des images et du langage naturel, afin de saisir les relations temporelles dans les séquences d’interaction.
« Bien que les avancées dans les Modèles de Langage Multimodal (MLLM), tels que Claude 3.5 de Anthropic et GPT-4 Turbo d’OpenAI, offrent des voies pour une planification personnalisée en intégrant des contextes personnels dans les prompts pour mieux s’aligner avec les utilisateurs, ces modèles exigent des ressources computationnelles considérables, des tailles de modèles énormes et introduisent une latence élevée », expliquent Yicheng Fu, chercheur en apprentissage automatique chez Apple, et Raviteja Anantha, scientifique principal en ML chez Apple. « Cela les rend impraticables dans des scénarios où des solutions légères, sur appareil, avec une faible latence et une meilleure confidentialité sont nécessaires. »
D’autre part, les modèles légers actuels capables d’analyser l’intention des utilisateurs restent trop gourmands en ressources pour fonctionner efficacement sur les appareils des utilisateurs.
L’architecture JEPA
UI-JEPA s’inspire de l’Architecture Prédictive d’Emballage Commun (JEPA), une approche d’apprentissage auto-supervisé introduite par Yann LeCun, scientifique en chef de Meta AI, en 2022. JEPA vise à apprendre des représentations sémantiques en prédisant des régions masquées dans des images ou des vidéos. Plutôt que de tenter de recréer chaque détail des données d’entrée, JEPA se concentre sur l’apprentissage de caractéristiques de haut niveau qui capturent les éléments les plus importants d’une scène.
JEPA réduit considérablement la dimensionnalité du problème, permettant à des modèles plus petits d’apprendre des représentations riches. De plus, étant un algorithme d’apprentissage auto-supervisé, il peut être formé sur de grandes quantités de données non étiquetées, éliminant ainsi le besoin d’annotations manuelles coûteuses. Meta a déjà publié I-JEPA et V-JEPA, deux implémentations de l’algorithme conçues pour les images et les vidéos.
« Contrairement aux approches génératives qui tentent de remplir chaque détail manquant, JEPA peut écarter les informations imprévisibles », ajoutent Fu et Anantha. « Cela améliore l’efficacité de l’entraînement et des échantillons, avec un facteur de 1,5 à 6 observé dans V-JEPA, ce qui est crucial compte tenu de la disponibilité limitée de vidéos UI de haute qualité et étiquetées. »
UI-JEPA
UI-JEPA s’appuie sur les forces de JEPA et l’adapte à la compréhension des interfaces utilisateur. Le cadre se compose de deux composants principaux : un encodeur vidéo basé sur JEPA et un modèle de langage uniquement décodeur.
L’encodeur vidéo transforme les vidéos d’interactions UI en représentations abstraites. Le modèle de langage génère une description textuelle de l’intention de l’utilisateur à partir des embeddings vidéo. Les chercheurs ont utilisé Microsoft Phi-3, un modèle léger avec environ 3 milliards de paramètres, ce qui le rend adapté pour des expérimentations et déploiements sur appareil.
Cette combinaison d’un encodeur basé sur JEPA et d’un modèle de langage léger permet à UI-JEPA d’atteindre des performances élevées avec beaucoup moins de paramètres et de ressources computationnelles par rapport aux MLLM de pointe.
Pour faire avancer la recherche dans la compréhension des interfaces, les chercheurs ont introduit deux nouveaux ensembles de données multimodales et des benchmarks : « Intent in the Wild » (IIW) et « Intent in the Tame » (IIT).
IIW capture des séquences ouvertes d’actions UI avec des intentions d’utilisateur ambiguës, comme la réservation d’un logement de vacances. L’ensemble de données comprend des divisions few-shot et zero-shot pour évaluer la capacité des modèles à généraliser à des tâches non vues. IIT se concentre sur des tâches plus courantes avec une intention plus claire, comme créer un rappel ou appeler un contact.
« Nous croyons que ces ensembles de données contribueront au développement de MLLM plus puissants et légers, ainsi qu’à des paradigmes d’entraînement avec des capacités de généralisation améliorées », écrivent les chercheurs.
UI-JEPA en action
Les chercheurs ont évalué les performances de UI-JEPA sur les nouveaux benchmarks, en le comparant à d’autres encodeurs vidéo et à des MLLM privés comme GPT-4 Turbo et Claude 3.5.
Sur les ensembles IIT et IIW, UI-JEPA a surpassé d’autres modèles d’encodeurs vidéo dans des contextes few-shot. Il a également atteint des performances comparables à celles de modèles fermés beaucoup plus grands. Avec 4,4 milliards de paramètres, il est de plusieurs ordres de grandeur plus léger que les modèles basés sur le cloud. Les chercheurs ont constaté que l’incorporation de texte extrait de l’UI à l’aide de la reconnaissance optique de caractères (OCR) améliorait encore les performances de UI-JEPA. Dans des contextes zero-shot, UI-JEPA a montré des performances inférieures par rapport aux modèles de pointe.
« Cela indique que, bien que UI-JEPA excelle dans les tâches impliquant des applications familières, il rencontre des défis avec des tâches moins connues », notent les chercheurs.
Les chercheurs envisagent plusieurs applications potentielles pour les modèles UI-JEPA. Une application clé est la création de boucles de rétroaction automatisées pour les agents IA, leur permettant d’apprendre en continu à partir des interactions sans intervention humaine. Cette approche peut réduire considérablement les coûts d’annotation et garantir la confidentialité des utilisateurs.
« À mesure que ces agents collectent plus de données via UI-JEPA, ils deviennent de plus en plus précis et efficaces dans leurs réponses », expliquent les auteurs. « De plus, la capacité de UI-JEPA à traiter un flux continu de contextes à l’écran peut enrichir considérablement les prompts pour les planificateurs basés sur LLM. Ce contexte amélioré aide à générer des plans plus informés et nuancés, en particulier lors de la gestion de requêtes complexes ou implicites qui s’appuient sur des interactions multimodales passées (par exemple, le suivi du regard pour l’interaction vocale). »
Une autre application prometteuse est l’intégration de UI-JEPA dans des cadres agentiques conçus pour suivre l’intention des utilisateurs à travers différentes applications et modalités. UI-JEPA pourrait fonctionner comme un agent de perception, capturant et stockant l’intention des utilisateurs à divers moments. Lorsqu’un utilisateur interagit avec un assistant numérique, le système peut alors récupérer l’intention la plus pertinente et générer l’appel API approprié pour satisfaire la demande de l’utilisateur.
« UI-JEPA peut améliorer tout cadre d’agent IA en exploitant les données d’activité à l’écran pour s’aligner plus étroitement avec les préférences des utilisateurs et prédire leurs actions », concluent Fu et Anantha. « Associé à des informations temporelles (par exemple, heure de la journée, jour de la semaine) et géographiques (par exemple, au bureau, à la maison), il peut inférer l’intention de l’utilisateur et permettre une large gamme d’applications directes. »
UI-JEPA semble bien s’intégrer dans l’Intelligence d’Apple, qui est une suite d’outils d’IA générative légers visant à rendre les appareils Apple plus intelligents et productifs. Étant donné l’accent mis par Apple sur la confidentialité, le faible coût et l’efficacité accrue des modèles UI-JEPA peuvent donner à ses assistants IA un avantage sur d’autres qui dépendent de modèles basés sur le cloud.
Général
Le pare-brise de la BMW Panoramic iDrive : une expérience immersive à couper le souffle !
BMW a révélé son nouveau système Panoramic iDrive, révolutionnant l’expérience de conduite avec un affichage tête haute 3D qui s’étend sur tout le pare-brise. Imaginez un intérieur où toutes les informations essentielles, comme la vitesse et les directions, sont projetées directement dans votre champ de vision ! C’est une véritable couche de réalité augmentée qui connecte le conducteur à la route.
Avec des boutons haptiques sur le volant et un écran tactile central innovant, chaque détail est conçu pour une personnalisation optimale. Préparez-vous à découvrir cette technologie futuriste dans le prochain SUV électrique X-Class de BMW fin 2025 !
Une Révolution Technologique : Le Nouveau Système BMW : un aperçu captivant du futur de l'infodivertissement »>iDrive Panoramique de BMW
une Vision d’Avenir
BMW a récemment présenté son innovant système iDrive Panoramique,qui se distingue par un affichage tête haute en 3D impressionnant,occupant l’intégralité du pare-brise. si vous pensiez que l’intérieur épuré des Tesla était à la pointe, attendez de découvrir cette nouvelle approche.
Un Affichage Révolutionnaire
Fini le tableau de bord traditionnel devant le volant. Désormais, toutes les informations sont projetées directement dans le champ de vision du conducteur via le pare-brise. Cela inclut la vitesse, les données d’assistance à la conduite, les feux de circulation, les panneaux routiers et même des indications de navigation et niveaux de batterie. Chaque élément est personnalisable pour que chaque conducteur puisse choisir ce qu’il souhaite afficher. Par exemple, lorsque l’assistance au conducteur est activée, le chemin navigué s’illumine en vert.
Frank Weber, directeur technique chez BMW, décrit cette configuration comme une couche de réalité augmentée qui maintient le conducteur connecté à la route.
Intégration des Retours Clients
La société a déclaré que l’intégration des instructions de navigation avec les données d’assistance au conducteur représente une évolution naturelle alors que nous nous dirigeons vers des niveaux plus élevés d’automatisation dans la conduite.De plus, ils ont souligné que les retours clients ont été essentiels pour façonner plusieurs fonctionnalités intelligentes affichées sur ce nouveau système.
Un Volant Repensé
Les innovations ne s’arrêtent pas au pare-brise ; BMW a également repensé son volant en y intégrant des boutons haptiques qui s’illuminent selon différents réglages.
Un nouvel écran tactile central en forme de losange accompagne cet interface sur le pare-brise et permet aux utilisateurs d’interagir directement avec lui.Ce dernier offre une interface hautement personnalisable où chacun peut prioriser ses applications favorites (appelées « pixels » par BMW) pour un accès rapide et facile. La marque envisage également un magasin d’applications pour encore plus de fonctionnalités et personnalisations.
Un Système opérationnel Innovant
Le logiciel qui alimente ce système est appelé BMW Operating System X ; il est développé entièrement en interne par l’entreprise et repose sur Android Open Source Project.
L’Intelligence Artificielle au Service du Conducteur
Aucun lancement technologique en 2025 ne serait complet sans une touche d’intelligence artificielle (IA).Le système iDrive utilise cette technologie pour apprendre les habitudes et comportements des conducteurs afin d’afficher automatiquement les applications pertinentes ainsi que leurs réglages préférés. Par exemple, si un utilisateur emprunte souvent un itinéraire spécifique vers son domicile tout en activant le mode sport, ces paramètres seront proposés proactivement lors du prochain trajet.De plus, selon BMW ,les modèles linguistiques avancés rendent les commandes vocales beaucoup plus naturelles et conversationnelles ; plutôt que d’utiliser des mots-clés spécifiques comme « station », il suffit simplement aux conducteurs dire quelque chose comme « trouve une station de recharge près du supermarché ».
Début D’une Nouvelle Ère
Ce design intérieur audacieux fera ses débuts dans le futur SUV électrique X-Class prévu fin 2025; plusieurs autres véhicules basés sur la nouvelle plateforme « Neue Klasse » suivront bientôt après cela.
Considérations Sécuritaires Émergentes
Un changement aussi radical pourrait diviser l’opinion parmi ceux attachés aux intérieurs classiques dotés depuis longtemps d’aiguilles traditionnelles et compteurs analogiques caractéristiques chez BMW . Il sera également intéressant d’observer comment la marque abordera les préoccupations relatives à la sécurité; celles-ci étant devenues cruciales pour toutes entreprises automobiles électriques adoptant entièrement interfaces tactiles . En effet , Euro NCAP introduira dès 2026 nouvelles directives exigeant certaines fonctions essentielles soient accessibles via boutons physiques afin qu’un véhicule puisse obtenir cinq étoiles lors évaluations sécurité .
Général
Nvidia révolutionne le monde physique avec GenAI et Cosmos !
Lors de la keynote très attendue du CES 2025, le PDG de Nvidia, Jensen Huang, a captivé l’audience avec des annonces révolutionnaires. Parmi les innovations présentées, le modèle Cosmos se distingue par sa capacité à transformer l’IA générative en actions physiques. Cela signifie que des robots et véhicules autonomes pourront réagir plus efficacement aux stimuli du monde réel. Nvidia ouvre ainsi la voie à une nouvelle ère d’applications robotiques et automobiles, tout en rendant ses modèles disponibles gratuitement pour encourager l’expérimentation.
Innovations Technologiques : les Annonces Marquantes de Nvidia au CES 2025
Un Événement Incontournable
Lors du CES 2025, l’une des conférences les plus attendues a été celle de Jensen Huang, le PDG de Nvidia. Ce dernier a présenté une série d’annonces captivantes touchant à divers sujets technologiques d’actualité tels que l’intelligence artificielle (IA), la robotique et les véhicules autonomes.
Nouveaux Produits et Progrès Technologiques
Vêtu d’une version scintillante de son emblématique blouson en cuir noir,Huang a détaillé les dernières cartes graphiques GeForce RTX 50 ainsi que des modèles fondamentaux d’IA appelés Nemotron. Il a également partagé des plans pour des agents alimentés par IA.
Parmi les innovations notables figurent des extensions à la plateforme Omniverse, qui permet la création de jumeaux numériques et simule l’interaction entre l’IA et le monde physique. De plus, un superordinateur AI compact nommé Project Digits a été introduit, propulsé par le GPU Grace Blackwell.
Cosmos : Une Révolution dans l’Intelligence Artificielle
Une annonce particulièrement intrigante fut celle du projet Cosmos. Ce dernier est défini comme un ensemble complet de modèles fondamentaux mondiaux intégrant des tokenizers avancés et une pipeline vidéo sophistiquée.L’objectif principal est d’étendre les capacités génératives de l’IA au-delà du numérique vers le monde physique.
En termes simples, alors que la plupart des systèmes génératifs se concentrent sur la création numérique basée sur une vaste base documentaire ou visuelle, Cosmos vise à produire des actions physiques en s’appuyant sur ses données issues d’environnements simulés numériquement.
Implications pratiques pour Divers secteurs
Les implications pratiques sont significatives pour divers domaines tels que la robotique ou les véhicules autonomes. Par exemple, grâce à Cosmos, il devient possible pour un robot humanoïde d’apprendre à exécuter efficacement une tâche spécifique comme retourner une omelette ou manipuler des pièces dans une chaîne de production.De même,un véhicule autonome peut s’adapter dynamiquement aux différentes situations rencontrées sur la route.
Actuellement,ces formations reposent souvent sur un travail manuel intensif où il faut filmer plusieurs fois chaque action humaine ou faire parcourir aux voitures autonomes plusieurs millions de kilomètres. Avec Cosmos cependant,ces méthodes peuvent être automatisées ce qui réduit considérablement coûts et délais tout en élargissant le volume de données disponibles pour entraîner ces systèmes.
La Plateforme cosmo : Un Outil Puissant
Nvidia présente donc Cosmos comme une plateforme dédiée au développement mondial fondée sur l’IA générative qui intègre divers outils facilitant cette évolution technologique rapide. En tant qu’extension directe du simulateur Omniverse déjà existant chez Nvidia, elle permet non seulement d’extrapoler les modèles numériques mais aussi leur request concrète dans notre réalité quotidienne.
Au cœur même du projet se trouvent ces modèles fondamentaux construits grâce à millions heures vidéos accumulées permettant ainsi aux machines formées avec cette technologie réagir avec précision face aux stimuli physiques variés qu’elles rencontrent dans leur environnement réel.
Vers un Avenir Prometteur
Jensen Huang n’a pas manqué souligner lors sa présentation comment nous assistons actuellement à une transition majeure vers ce qu’il appelle « l’IA physique ». en rendant ses modèles disponibles gratuitement afin encourager recherche avancée en robotique et véhicules autonomes , Nvidia montre sa volonté soutenir innovation tout en anticipant tendances futures .
À court terme cependant , cet impact pourrait rester limité car principalement destiné développeurs spécialisés . Néanmoins , son potentiel transformationnel pourrait accélérer considérablement progrès produits concernés tout en améliorant sécurité efficacité systèmes associés .Ces développements témoignent également transformation continue chez Nvidia vers entreprise axée logiciel capable bâtir plateformes adaptées nouvelles applications émergentes. Pour ceux intéressés comprendre direction future société , ces annonces offrent perspectives fascinantes quant maintien croissance impressionnante entreprise .
Général
L’écran tactile secondaire Corsair Xeneon Edge : un 32:9 qui s’installe partout !
Qu’est-ce qui vient de se passer ? Le CES est toujours une vitrine incroyable de produits technologiques, et cette année, Corsair nous surprend avec son écran tactile Xeneon Edge. Avec ses 14,5 pouces et un rapport d’aspect 32:9, cet écran secondaire pourrait bien devenir l’outil indispensable pour les passionnés de technologie. Grâce à sa résolution impressionnante de 2560 par 720 pixels et à sa connectivité polyvalente via USB Type-C ou HDMI, il s’adapte à tous vos besoins. Imaginez pouvoir gérer vos réseaux sociaux tout en surveillant votre système ! Restez à l’affût pour plus d’infos !
Nouveaux Horizons Technologiques : Le Xeneon Edge de Corsair
Qu’est-ce qui se passe ?
Chaque année, le CES présente une multitude de nouveaux produits technologiques, certains étant plus pratiques que d’autres. L’intérêt que vous portez à l’écran tactile Xeneon Edge de Corsair dépendra probablement de votre besoin d’un écran secondaire de 14,5 pouces au format 32:9.
Une Évolution des Écrans Secondaires
Bien que les écrans secondaires ne soient pas une nouveauté, leur complexité a considérablement augmenté ces dernières années. Le Xeneon Edge se distingue par son design innovant et ses caractéristiques techniques impressionnantes. Avec une résolution LCD de 2560 x 720 pixels, il offre une densité d’affichage remarquable de 183 PPI, un niveau de luminosité atteignant 350 nits et un taux de rafraîchissement à 60 Hz sur son panneau IPS.
Flexibilité et Installation
Le Xeneon Edge est conçu pour s’adapter à divers environnements. Il peut être placé sur un bureau grâce au support inclus ou fixé à un PC ou toute surface ferromagnétique grâce aux quatorze aimants intégrés. De plus, il peut être installé dans un boîtier via un point de montage pour radiateur de 360 mm, ce qui est plutôt séduisant. Corsair affirme également qu’il est plus mince qu’un ventilateur classique, minimisant ainsi les préoccupations liées à l’espace.
Connectivité et Utilisation Pratique
Pour la connexion, le dispositif utilise soit le port USB Type-C DP-Alt Mode soit un port HDMI standard. Une caractéristique intéressante est sa capacité à fonctionner en orientation verticale ou horizontale.Cela en fait un outil idéal pour ceux qui souhaitent faire défiler leurs fils d’actualités sur les réseaux sociaux ou surveiller Discord simultanément. Windows reconnaîtra le Xeneon Edge comme écran additionnel.
Corsair indique également que cet écran tactile capacitif multi-touch à cinq points fonctionne comme n’importe quel autre affichage tactile sous Windows.!Fonctionnalités du Xeneon Edge
Intégration avec iCue
L’écran s’intègre parfaitement avec le logiciel iCue de Corsair permettant aux utilisateurs d’accéder facilement aux informations concernant la vitesse des ventilateurs du système, les températures ainsi que l’utilisation du CPU et GPU. Les utilisateurs peuvent aussi ajuster différents paramètres tels que les profils lumineux et la gestion des ventilateurs directement depuis l’écran tactile.
Disponibilité et Prix
Aucune details précise n’a encore été communiquée concernant le prix du xeneon Edge; cependant, il pourrait s’avérer assez onéreux compte tenu des fonctionnalités avancées proposées par cet appareil innovant. La disponibilité est prévue pour le deuxième trimestre 2025 chez les revendeurs Corsair ainsi que sur leur site officiel.
Dans cette même veine technologique, nous avons déjà vu plusieurs écrans LCD intégrés dans des systèmes AIO (All-in-One) refroidis par liquide auparavant; notamment celui proposé par Lamptron l’année dernière qui servait également d’écran secondaire ou encore Tryx qui a dévoilé en mars dernier ce qui était considéré comme le premier refroidisseur AIO doté d’un écran AMOLED incurvé.
-
Général5 mois ago
X (anciennement Twitter) permet enfin de trier les réponses sur iPhone !
-
Technologie4 mois ago
Le PDG de Broadcom anticipe la montée en puissance des hyperscalers avec des clusters d’un million d’accélérateurs !
-
Général4 mois ago
L’Inter brille de mille feux face à Man City – Inzaghi enflamme le match !
-
Science et nature4 mois ago
Une OLED révolutionnaire pour une vision nocturne compacte et légère !
-
Divertissement4 mois ago
Résumé de l’épisode 2 de « Agatha All Along » : Plongée dans le monde des sorcières !
-
Général4 mois ago
Jáder Obrian marque à la 47e minute et propulse Austin FC en tête 1-0 face à LAFC !
-
Général4 mois ago
L’interdiction de l’avortement en Géorgie a coûté la vie à une jeune mère : la droite chrétienne désigne désormais la victime comme coupable
-
Général4 mois ago
Les scientifiques redéfinissent l’avenir scientifique de l’Afrique lors de la 15e conférence de l’AAS à Abuja