1306 shaares
Microsoft publie un outil + modèle capable de découper un screenshot en zones d'intêret compréhensibles pour un LLM afin de pouvoir intéragir avec des applications.
Ils fournissent également un énorme jeu de données contenant des screenshots annotés avec des bounding boxes autour des éléments donc c'est une porte ouverte pour l'évaluation et l'entrainement d'autres modèles.
C'est dommage de ne pas l'avoir mesuré sur le benchmark de référence pour l'interaction avec un ordinateur (OS World) pour comparer les résultats avec ce que propose Claude par exemple