1306 shaares
Scaleway propose une offre d'inférence managé avec les modèles de Mistral (aussi LlaMa 3 et quelques autres).
Le prix dépend du GPU, c'est 0.93€/h sur des L4 (670€/mois) et 3.40€/h sur des H100 (2482€/mois)
Les plus gros modèles (LlaMa 3 et Mistral 8x7b) nécessitent des H100.
A noter qu'ils développent aussi une Generative API pour proposer de l'inférence à la demande comme sur l'API d'OpenAI (c'est encore en beta)