Daily Shaarli
October 22, 2024
Anthropic propose un environnement permettant à Claude 3.5 Sonnet de manipuler directement la souris et le clavier d'un environnement de bureau.
Ils ont appris à Claude à analyser les images et à compter les pixels entre la position actuelle du curseur et l'endroit ou il devrait se trouver pour accomplir la tâche.
Le modèle obtient 15% sur le benchmark OS World qui mesure les capacités des modèles à réaliser des tâches dans un environnement de bureau.
Le podium est toujours à Agent S avec 20% mais on reste loin de la moyenne d'un utilisateur humain qui est de 77%.
Agent.exe est une application Macos poqui permet de tester ces capacités