MiniCPM-o 2.6: A GPT-4o Level MLLM for Vision, Speech and Multimodal Live Streaming on Your Phone

1391 shaares

Filters

Links per page

20 50 100

MiniCPM-o 2.6: A GPT-4o Level MLLM for Vision, Speech and Multimodal Live Streaming on Your Phone

Un modèle multi-modal (image, video, text, audio) 8B qui fonctionne sur iPad (entre autre)

Ils annoncent de meilleures performances que GPT-4V sur la reconnaissance d'image.

A vrai dire, ils annoncent que leur modèle surpasse GPT-4o et Claude 3.5 Sonnet dans beaucoup d'autres domaines (audio, realtime interaction) et sur beaucoup de benchmark classiques.

Je ne vois pas ces résultats sur https://livebench.ai/ en tout cas donc prudence dans ces allégations.

Ça reste néanmoins un modèle multi-modal suffisamment petit pour tourner sur du matériel client donc c'est intéressant.

c-ai · text-ai

January 17, 2025 at 12:07:58 UTC * · permalink

https://github.com/OpenBMB/MiniCPM-o?tab=readme-ov-file

Filters

Links per page

20 50 100