Après plusieurs mois de R&D, H sort les résultats de son système de manipulation d'interfaces.
Ils annoncent de meilleurs résultats que le SOTA actuel (AgentE) et que Claude Computer Use.
Je n'ai pas compris quel benchmark ils ont utilisé, j'imagine que c'est WebArena qui contient des tâches à réaliser sur de nombreux sites web.
Ils ont entrainé leur propre modèle multimodal, VLM 3B, et ils obtiennent de meilleurs résultats sur Screenspot que tous les autres modèles, incluant les gros LLM comme GPT-4o (14%) et Claude 3.5 Sonnet (19%) !
Côté LLM, enfin plutôt SLM, ils ont aussi entrainé un modèle 2B spécialisé dans le function calling/tool use. Leurs résultats sont meilleurs que pour les autres SLM (LlaMa3.2 2B, Ministral, etc)
Ils ont donc utilisé ces deux modèles pour développer un produit complet dans lequel on peut programmation des automatisations de tâches https://www.hcompany.ai/blog/introducing-h
Un Assistant capable de manipuler cette fois-ci des interfaces de téléphone mobile.
C'est une équipe d'Alibaba qui a réalisé ce projet.
Apple travaille aussi sur des sujets similaires avec son modèle Ferret-UI
Une simple application Electron pour essayer Claude 3.5 Sonnet avec ses capacités de manipulation d'interfaces graphiques
L'application prend des screenshots de l'écran afin de les envoyer à Claude et Claude répond avec des commandes pour bouger la souris (en x, y), cliquer ou remplir des champs textes.
C'est très lent (1 minute pour chercher et lancer une vidéo Youtube chez moi) mais ça reste quand même impressionnant de voir son ordinateur manipulé automatiquement à la suite d'une simple instruction.
Microsoft publie un outil + modèle capable de découper un screenshot en zones d'intêret compréhensibles pour un LLM afin de pouvoir intéragir avec des applications.
Ils fournissent également un énorme jeu de données contenant des screenshots annotés avec des bounding boxes autour des éléments donc c'est une porte ouverte pour l'évaluation et l'entrainement d'autres modèles.
C'est dommage de ne pas l'avoir mesuré sur le benchmark de référence pour l'interaction avec un ordinateur (OS World) pour comparer les résultats avec ce que propose Claude par exemple
Anthropic propose un environnement permettant à Claude 3.5 Sonnet de manipuler directement la souris et le clavier d'un environnement de bureau.
Ils ont appris à Claude à analyser les images et à compter les pixels entre la position actuelle du curseur et l'endroit ou il devrait se trouver pour accomplir la tâche.
Le modèle obtient 15% sur le benchmark OS World qui mesure les capacités des modèles à réaliser des tâches dans un environnement de bureau.
Le podium est toujours à Agent S avec 20% mais on reste loin de la moyenne d'un utilisateur humain qui est de 77%.
Agent.exe est une application Macos poqui permet de tester ces capacités
Un modèle multi-modal créé par Apple qui se spécialise dans la compréhension des UI mobile et autres interfaces graphiques.
Dans la même veine, il y a aussi CogVML
Un projet d'assistant IA capable de réaliser des tâches en manipulant les interfaces des sites web.
Un Agent capable de manipuler les interfaces graphiques d'un smartphone Android.
Ils utilisent GPT4 pour la réflexion et GPT4V pour la reconnaissance d'image. En connectant l'Agent à un smartphone avec ADB, ils sont capable d'exécuter des actions de clique ou de swipe.
L'Agent inclue un mode "exploration" ou il va interagir en autonomie avec l'application afin de découvrir les fonctionnalités.
Cela ouvre beaucoup de nouvelles possibilités, notamment autour du testing des applications Android.
CogVLM est un modèle de reconnaissance d'image spécialisé dans la reconnaissance et la navigation dans des interfaces graphiques.
Il a été entrainé sur des interfaces web mais aussi mobile.
Je dois dire que je suis assez impressionné par la qualité du modèle et surtout par sa rapidité!
Une démo est disponible ici http://36.103.203.44:7861/
Un autre exemple de navigation avec un GPT4V.
Le problème jusqu'ici était que le HTML est une représentation unidimensionnel textuelle d'une interface graphique bidimensionnelle.
Cela couplé au fort niveau de bruit contenu dans le HTML rendait impossible la navigation dans des applications complexes de type SaaS.
L'utilisation de GPT4V avec des tags visuels permet au modèle de comprendre quelles sont ses possibilités d'interaction.
Whoa dans cet article les chercheurs ont réussi à manipuler l'interface d'Android avec un LLM.
C'est dans l'émulateur mais c'est quand même impressionnant, ils sont capable de faire des tâches assez complexes comme vider l'historique de navigation de Chrome ou faire des recherches Google
Une expérimentation de manipulation automatique du browser avec GPT-4V en renfort pour la compréhension des interfaces.