Un modèle multi-modal créé par Apple qui se spécialise dans la compréhension des UI mobile et autres interfaces graphiques.
Dans la même veine, il y a aussi CogVML
Un Agent capable de manipuler les interfaces graphiques d'un smartphone Android.
Ils utilisent GPT4 pour la réflexion et GPT4V pour la reconnaissance d'image. En connectant l'Agent à un smartphone avec ADB, ils sont capable d'exécuter des actions de clique ou de swipe.
L'Agent inclue un mode "exploration" ou il va interagir en autonomie avec l'application afin de découvrir les fonctionnalités.
Cela ouvre beaucoup de nouvelles possibilités, notamment autour du testing des applications Android.
CogVLM est un modèle de reconnaissance d'image spécialisé dans la reconnaissance et la navigation dans des interfaces graphiques.
Il a été entrainé sur des interfaces web mais aussi mobile.
Je dois dire que je suis assez impressionné par la qualité du modèle et surtout par sa rapidité!
Une démo est disponible ici http://36.103.203.44:7861/
Un autre exemple de navigation avec un GPT4V.
Le problème jusqu'ici était que le HTML est une représentation unidimensionnel textuelle d'une interface graphique bidimensionnelle.
Cela couplé au fort niveau de bruit contenu dans le HTML rendait impossible la navigation dans des applications complexes de type SaaS.
L'utilisation de GPT4V avec des tags visuels permet au modèle de comprendre quelles sont ses possibilités d'interaction.
Une expérimentation de manipulation automatique du browser avec GPT-4V en renfort pour la compréhension des interfaces.