1341 shaares
Un modèle multi-modal (image, video, text, audio) 8B qui fonctionne sur iPad (entre autre)
Ils annoncent de meilleures performances que GPT-4V sur la reconnaissance d'image.
A vrai dire, ils annoncent que leur modèle surpasse GPT-4o et Claude 3.5 Sonnet dans beaucoup d'autres domaines (audio, realtime interaction) et sur beaucoup de benchmark classiques.
Je ne vois pas ces résultats sur https://livebench.ai/ en tout cas donc prudence dans ces allégations.
Ça reste néanmoins un modèle multi-modal suffisamment petit pour tourner sur du matériel client donc c'est intéressant.