A priori le modèle Phi-2 de Microsoft est assez lent, même sur des GPUs.
Sur CPU c'est plusieurs minutes pour générer ~200 tokens.
Aussi le modèle hallucine pas mal donc succès vraiment mitigé pour Microsoft.
Phi-2 est un modèle de seulement 2.7 milliards de paramètre à destination des terminaux mobile.
Malgré sa petite taille, il affiche des performances similaires à Llama 70 ou Mistral 7B.
Il est même plus performant que Gemini Nano 2 alors qu'il est plus petit que celui-ci (3.2B vs 2.7B)
Un LLM basé sur Llama 2 mais avec seulement 1.1 milliards de paramètres.
Tout comme les modèles Gemini Nano, une taille aussi petite permet de faire tourner le modèle sur un smartphone par exemple.
Ils estiment qu'il ne faut que 500 Mo de RAM pour faire fonctionner TinyLlama.
Les performances sur le benchmark CommonSense sont de 51 contre 63 (Llama 7B) et 71 (Llama 70B). GPT-3.5 et GPT-4 obtiennent respectivement 85 et 96.