Search: [interface-manipulation] - Aschen

browser-use/browser-use: Make websites accessible for AI agents

Un framework clé en main qui permet de faire de la manipulation de site web par un Agent LLM.

On peut bien sur donner la tâche, choisir le modèle mais aussi fournir des outils custom que l'Agent va pouvoir utiliser.

Très pratique pour le brancher avec nos propres outils internes via du code Python ou plus simplement une API

c-ai · interface-manipulation · assistant-ai

January 4, 2025 at 17:16:45 UTC * · permalink

·

https://github.com/browser-use/browser-use/tree/main

The Tech Behind Runner’s State-of-the-Art Results

Après plusieurs mois de R&D, H sort les résultats de son système de manipulation d'interfaces.

Ils annoncent de meilleurs résultats que le SOTA actuel (AgentE) et que Claude Computer Use.

Je n'ai pas compris quel benchmark ils ont utilisé, j'imagine que c'est WebArena qui contient des tâches à réaliser sur de nombreux sites web.

Ils ont entrainé leur propre modèle multimodal, VLM 3B, et ils obtiennent de meilleurs résultats sur Screenspot que tous les autres modèles, incluant les gros LLM comme GPT-4o (14%) et Claude 3.5 Sonnet (19%) !

Côté LLM, enfin plutôt SLM, ils ont aussi entrainé un modèle 2B spécialisé dans le function calling/tool use. Leurs résultats sont meilleurs que pour les autres SLM (LlaMa3.2 2B, Ministral, etc)

Ils ont donc utilisé ces deux modèles pour développer un produit complet dans lequel on peut programmation des automatisations de tâches https://www.hcompany.ai/blog/introducing-h

c-ai · text-ai · interface-manipulation

November 20, 2024 at 16:56:46 UTC * · permalink

·

https://www.hcompany.ai/blog/a-research-update

Mobile-Agent: The Powerful Mobile Device Operation Assistant Family

Un Assistant capable de manipuler cette fois-ci des interfaces de téléphone mobile.

C'est une équipe d'Alibaba qui a réalisé ce projet.

Apple travaille aussi sur des sujets similaires avec son modèle Ferret-UI

c-ai · interface-manipulation · assistant-ai

October 31, 2024 at 16:05:19 UTC * · permalink

·

https://github.com/X-PLUG/MobileAgent

corbt/agent.exe with Claude Computer use

Une simple application Electron pour essayer Claude 3.5 Sonnet avec ses capacités de manipulation d'interfaces graphiques

L'application prend des screenshots de l'écran afin de les envoyer à Claude et Claude répond avec des commandes pour bouger la souris (en x, y), cliquer ou remplir des champs textes.

C'est très lent (1 minute pour chercher et lancer une vidéo Youtube chez moi) mais ça reste quand même impressionnant de voir son ordinateur manipulé automatiquement à la suite d'une simple instruction.

c-ai · assistant-ai · interface-manipulation

October 27, 2024 at 12:56:43 UTC * · permalink

·

https://github.com/corbt/agent.exe

OmniParser

Microsoft publie un outil + modèle capable de découper un screenshot en zones d'intêret compréhensibles pour un LLM afin de pouvoir intéragir avec des applications.

Ils fournissent également un énorme jeu de données contenant des screenshots annotés avec des bounding boxes autour des éléments donc c'est une porte ouverte pour l'évaluation et l'entrainement d'autres modèles.

C'est dommage de ne pas l'avoir mesuré sur le benchmark de référence pour l'interaction avec un ordinateur (OS World) pour comparer les résultats avec ce que propose Claude par exemple

c-ai · assistant-ai · interface-manipulation

October 27, 2024 at 12:27:55 UTC * · permalink

·

https://microsoft.github.io/OmniParser/

Developing a computer use model at Anthropic

Anthropic propose un environnement permettant à Claude 3.5 Sonnet de manipuler directement la souris et le clavier d'un environnement de bureau.

Ils ont appris à Claude à analyser les images et à compter les pixels entre la position actuelle du curseur et l'endroit ou il devrait se trouver pour accomplir la tâche.

Le modèle obtient 15% sur le benchmark OS World qui mesure les capacités des modèles à réaliser des tâches dans un environnement de bureau.

Le podium est toujours à Agent S avec 20% mais on reste loin de la moyenne d'un utilisateur humain qui est de 77%.

Agent.exe est une application Macos poqui permet de tester ces capacités

c-ai · assistant-ai · interface-manipulation

October 22, 2024 at 18:58:34 UTC * · permalink

·

https://www.anthropic.com/news/developing-computer-use

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

Un modèle multi-modal créé par Apple qui se spécialise dans la compréhension des UI mobile et autres interfaces graphiques.

Dans la même veine, il y a aussi CogVML

c-ai · image-ai · interface-manipulation

April 10, 2024 at 09:08:37 UTC * · permalink

·

https://arxiv.org/abs/2404.05719

Twin - Never do the same thing twice

Un projet d'assistant IA capable de réaliser des tâches en manipulant les interfaces des sites web.

c-ai · assistant-ai · navigateur · interface-manipulation

February 22, 2024 at 13:25:39 UTC * · permalink

·

https://twin.so/

AppAgent: Multimodal Agents as Smartphone Users, an LLM-based multimodal agent framework designed to operate smartphone apps.

Un Agent capable de manipuler les interfaces graphiques d'un smartphone Android.

Ils utilisent GPT4 pour la réflexion et GPT4V pour la reconnaissance d'image. En connectant l'Agent à un smartphone avec ADB, ils sont capable d'exécuter des actions de clique ou de swipe.

L'Agent inclue un mode "exploration" ou il va interagir en autonomie avec l'application afin de découvrir les fonctionnalités.

Cela ouvre beaucoup de nouvelles possibilités, notamment autour du testing des applications Android.

c-ai · assistant-ai · smartphone · interface-manipulation

January 4, 2024 at 07:57:35 UTC * · permalink

·

https://github.com/mnotgod96/AppAgent

CogVLM: a state-of-the-art-level open visual language model

CogVLM est un modèle de reconnaissance d'image spécialisé dans la reconnaissance et la navigation dans des interfaces graphiques.

Il a été entrainé sur des interfaces web mais aussi mobile.

Je dois dire que je suis assez impressionné par la qualité du modèle et surtout par sa rapidité!

Une démo est disponible ici http://36.103.203.44:7861/

c-ai · image-ai · interface-manipulation

January 2, 2024 at 20:01:03 UTC * · permalink

·

https://github.com/THUDM/CogVLM

reworkd/tarsier: Vision utilities for web interaction agents 👀

Un autre exemple de navigation avec un GPT4V.

Le problème jusqu'ici était que le HTML est une représentation unidimensionnel textuelle d'une interface graphique bidimensionnelle.

Cela couplé au fort niveau de bruit contenu dans le HTML rendait impossible la navigation dans des applications complexes de type SaaS.

L'utilisation de GPT4V avec des tags visuels permet au modèle de comprendre quelles sont ses possibilités d'interaction.

c-ai · text-ai · navigateur · interface-manipulation

December 22, 2023 at 13:43:43 UTC * · permalink

·

https://github.com/reworkd/tarsier

Android in the Wild: A Large-Scale Dataset for Android Device Control

Whoa dans cet article les chercheurs ont réussi à manipuler l'interface d'Android avec un LLM.

C'est dans l'émulateur mais c'est quand même impressionnant, ils sont capable de faire des tâches assez complexes comme vider l'historique de navigation de Chrome ou faire des recherches Google

c-ai · text-ai · android · interface-manipulation

November 21, 2023 at 23:43:06 UTC * · permalink

·

https://arxiv.org/pdf/2307.10088.pdf

ishan0102/vimGPT: Browse the web with GPT-4V and Vimium

Une expérimentation de manipulation automatique du browser avec GPT-4V en renfort pour la compréhension des interfaces.

c-ai · text-ai · image-ai · navigateur · interface-manipulation

November 17, 2023 at 11:32:04 UTC * · permalink

·

https://github.com/ishan0102/vimGPT