Daily Shaarli

All links of one day in a single page.

Yesterday - January 17, 2025

MiniCPM-o 2.6: A GPT-4o Level MLLM for Vision, Speech and Multimodal Live Streaming on Your Phone

Un modèle multi-modal (image, video, text, audio) 8B qui fonctionne sur iPad (entre autre)

Ils annoncent de meilleures performances que GPT-4V sur la reconnaissance d'image.

A vrai dire, ils annoncent que leur modèle surpasse GPT-4o et Claude 3.5 Sonnet dans beaucoup d'autres domaines (audio, realtime interaction) et sur beaucoup de benchmark classiques.

Je ne vois pas ces résultats sur https://livebench.ai/ en tout cas donc prudence dans ces allégations.

Ça reste néanmoins un modèle multi-modal suffisamment petit pour tourner sur du matériel client donc c'est intéressant.