1355 shaares
Set of Mark c'est la technique qui consiste à annoter une image avec des numéro avant de la passer à un LLM vision.
Ça permet au LLM d'identifier précisément les entités et de les citer dans le prompt.
C'est ce qui est utilisé dans beaucoup de systèmes de manipulation d'interface pour que le LLM puisse identifier les différentes parties de l'interface.