Technologie
Date de publication : 13 septembre 2024 à 11h58
Comprendre les intentions des utilisateurs à travers les interactions avec l’interface utilisateur (UI) représente un défi majeur dans le développement d’applications d’IA intuitives et utiles.
Dans un article récent, des chercheurs d’Apple présentent UI-JEPA, une architecture qui réduit considérablement les exigences computationnelles liées à la compréhension des interfaces utilisateur tout en maintenant un haut niveau de performance. L’objectif de UI-JEPA est de permettre une compréhension légère et locale des interfaces, ouvrant la voie à des applications d’assistants IA plus réactives et respectueuses de la vie privée. Cela s’inscrit dans la stratégie plus large d’Apple visant à améliorer son IA sur appareil.
Les défis de la compréhension des interfaces utilisateur
La compréhension des intentions des utilisateurs à partir des interactions avec l’UI nécessite le traitement de caractéristiques multimodales, incluant des images et du langage naturel, afin de saisir les relations temporelles dans les séquences d’interaction.
« Bien que les avancées dans les Modèles de Langage Multimodal (MLLM), tels que Claude 3.5 de Anthropic et GPT-4 Turbo d’OpenAI, offrent des voies pour une planification personnalisée en intégrant des contextes personnels dans les prompts pour mieux s’aligner avec les utilisateurs, ces modèles exigent des ressources computationnelles considérables, des tailles de modèles énormes et introduisent une latence élevée », expliquent Yicheng Fu, chercheur en apprentissage automatique chez Apple, et Raviteja Anantha, scientifique principal en ML chez Apple. « Cela les rend impraticables dans des scénarios où des solutions légères, sur appareil, avec une faible latence et une meilleure confidentialité sont nécessaires. »
D’autre part, les modèles légers actuels capables d’analyser l’intention des utilisateurs restent trop gourmands en ressources pour fonctionner efficacement sur les appareils des utilisateurs.
L’architecture JEPA
UI-JEPA s’inspire de l’Architecture Prédictive d’Emballage Commun (JEPA), une approche d’apprentissage auto-supervisé introduite par Yann LeCun, scientifique en chef de Meta AI, en 2022. JEPA vise à apprendre des représentations sémantiques en prédisant des régions masquées dans des images ou des vidéos. Plutôt que de tenter de recréer chaque détail des données d’entrée, JEPA se concentre sur l’apprentissage de caractéristiques de haut niveau qui capturent les éléments les plus importants d’une scène.
JEPA réduit considérablement la dimensionnalité du problème, permettant à des modèles plus petits d’apprendre des représentations riches. De plus, étant un algorithme d’apprentissage auto-supervisé, il peut être formé sur de grandes quantités de données non étiquetées, éliminant ainsi le besoin d’annotations manuelles coûteuses. Meta a déjà publié I-JEPA et V-JEPA, deux implémentations de l’algorithme conçues pour les images et les vidéos.
« Contrairement aux approches génératives qui tentent de remplir chaque détail manquant, JEPA peut écarter les informations imprévisibles », ajoutent Fu et Anantha. « Cela améliore l’efficacité de l’entraînement et des échantillons, avec un facteur de 1,5 à 6 observé dans V-JEPA, ce qui est crucial compte tenu de la disponibilité limitée de vidéos UI de haute qualité et étiquetées. »
UI-JEPA
UI-JEPA s’appuie sur les forces de JEPA et l’adapte à la compréhension des interfaces utilisateur. Le cadre se compose de deux composants principaux : un encodeur vidéo basé sur JEPA et un modèle de langage uniquement décodeur.
L’encodeur vidéo transforme les vidéos d’interactions UI en représentations abstraites. Le modèle de langage génère une description textuelle de l’intention de l’utilisateur à partir des embeddings vidéo. Les chercheurs ont utilisé Microsoft Phi-3, un modèle léger avec environ 3 milliards de paramètres, ce qui le rend adapté pour des expérimentations et déploiements sur appareil.
Cette combinaison d’un encodeur basé sur JEPA et d’un modèle de langage léger permet à UI-JEPA d’atteindre des performances élevées avec beaucoup moins de paramètres et de ressources computationnelles par rapport aux MLLM de pointe.
Pour faire avancer la recherche dans la compréhension des interfaces, les chercheurs ont introduit deux nouveaux ensembles de données multimodales et des benchmarks : « Intent in the Wild » (IIW) et « Intent in the Tame » (IIT).
IIW capture des séquences ouvertes d’actions UI avec des intentions d’utilisateur ambiguës, comme la réservation d’un logement de vacances. L’ensemble de données comprend des divisions few-shot et zero-shot pour évaluer la capacité des modèles à généraliser à des tâches non vues. IIT se concentre sur des tâches plus courantes avec une intention plus claire, comme créer un rappel ou appeler un contact.
« Nous croyons que ces ensembles de données contribueront au développement de MLLM plus puissants et légers, ainsi qu’à des paradigmes d’entraînement avec des capacités de généralisation améliorées », écrivent les chercheurs.
UI-JEPA en action
Les chercheurs ont évalué les performances de UI-JEPA sur les nouveaux benchmarks, en le comparant à d’autres encodeurs vidéo et à des MLLM privés comme GPT-4 Turbo et Claude 3.5.
Sur les ensembles IIT et IIW, UI-JEPA a surpassé d’autres modèles d’encodeurs vidéo dans des contextes few-shot. Il a également atteint des performances comparables à celles de modèles fermés beaucoup plus grands. Avec 4,4 milliards de paramètres, il est de plusieurs ordres de grandeur plus léger que les modèles basés sur le cloud. Les chercheurs ont constaté que l’incorporation de texte extrait de l’UI à l’aide de la reconnaissance optique de caractères (OCR) améliorait encore les performances de UI-JEPA. Dans des contextes zero-shot, UI-JEPA a montré des performances inférieures par rapport aux modèles de pointe.
« Cela indique que, bien que UI-JEPA excelle dans les tâches impliquant des applications familières, il rencontre des défis avec des tâches moins connues », notent les chercheurs.
Les chercheurs envisagent plusieurs applications potentielles pour les modèles UI-JEPA. Une application clé est la création de boucles de rétroaction automatisées pour les agents IA, leur permettant d’apprendre en continu à partir des interactions sans intervention humaine. Cette approche peut réduire considérablement les coûts d’annotation et garantir la confidentialité des utilisateurs.
« À mesure que ces agents collectent plus de données via UI-JEPA, ils deviennent de plus en plus précis et efficaces dans leurs réponses », expliquent les auteurs. « De plus, la capacité de UI-JEPA à traiter un flux continu de contextes à l’écran peut enrichir considérablement les prompts pour les planificateurs basés sur LLM. Ce contexte amélioré aide à générer des plans plus informés et nuancés, en particulier lors de la gestion de requêtes complexes ou implicites qui s’appuient sur des interactions multimodales passées (par exemple, le suivi du regard pour l’interaction vocale). »
Une autre application prometteuse est l’intégration de UI-JEPA dans des cadres agentiques conçus pour suivre l’intention des utilisateurs à travers différentes applications et modalités. UI-JEPA pourrait fonctionner comme un agent de perception, capturant et stockant l’intention des utilisateurs à divers moments. Lorsqu’un utilisateur interagit avec un assistant numérique, le système peut alors récupérer l’intention la plus pertinente et générer l’appel API approprié pour satisfaire la demande de l’utilisateur.
« UI-JEPA peut améliorer tout cadre d’agent IA en exploitant les données d’activité à l’écran pour s’aligner plus étroitement avec les préférences des utilisateurs et prédire leurs actions », concluent Fu et Anantha. « Associé à des informations temporelles (par exemple, heure de la journée, jour de la semaine) et géographiques (par exemple, au bureau, à la maison), il peut inférer l’intention de l’utilisateur et permettre une large gamme d’applications directes. »
UI-JEPA semble bien s’intégrer dans l’Intelligence d’Apple, qui est une suite d’outils d’IA générative légers visant à rendre les appareils Apple plus intelligents et productifs. Étant donné l’accent mis par Apple sur la confidentialité, le faible coût et l’efficacité accrue des modèles UI-JEPA peuvent donner à ses assistants IA un avantage sur d’autres qui dépendent de modèles basés sur le cloud.