1306 shaares
CogVLM est un modèle de reconnaissance d'image spécialisé dans la reconnaissance et la navigation dans des interfaces graphiques.
Il a été entrainé sur des interfaces web mais aussi mobile.
Je dois dire que je suis assez impressionné par la qualité du modèle et surtout par sa rapidité!
Une démo est disponible ici http://36.103.203.44:7861/