Daily Shaarli

All links of one day in a single page.

October 22, 2024

Developing a computer use model at Anthropic
thumbnail

Anthropic propose un environnement permettant à Claude 3.5 Sonnet de manipuler directement la souris et le clavier d'un environnement de bureau.

Ils ont appris à Claude à analyser les images et à compter les pixels entre la position actuelle du curseur et l'endroit ou il devrait se trouver pour accomplir la tâche.

Le modèle obtient 15% sur le benchmark OS World qui mesure les capacités des modèles à réaliser des tâches dans un environnement de bureau.

Le podium est toujours à Agent S avec 20% mais on reste loin de la moyenne d'un utilisateur humain qui est de 77%.

Agent.exe est une application Macos poqui permet de tester ces capacités