Le modèle chinois DeepSeek est impressionnant en terme d'optimisation de calcul.
Ce modèle de 671 milliards de paramètres aurait été entrainé avec seulement 2.78 millions de GPU hours sur des cartes graphiques Nvidia H800 bridées pour le marché chinois.
À titre de comparaison, Llama 3 a eu besoin de 11 fois plus de puissance de calcul et possède 405 milliards de paramètres.
Plusieurs optimisations ont été implémentées par l'équipe de DeepSeek avec notamment de la prédiction de token qui fait pensé à ce qu'il se fait dans les CPU mais aussi avec une activation de seulement 37 milliards des paramètres les plus pertinents pour générer chaque token.
C'est vraiment impressionnant car DeepSeek v3 est en 7e position de https://livebench.ai avec devant lui seulement les dernières versions des modèles Gemini de Google et les modèles à raisonnement o1 de OpenAI et DeepSeek r1.
Maintenant à voir si des équipes indépendantes arrivent à reproduire des résultats similaire.
Il faut quand même prendre des pincettes avec ce modèle qui pourrait être considéré par le gouvernement chinois comme une nouvelle source de propagande.