Fireworks est un acteur majeur dans l'infrastructure d'inférence pour modèles Open Source.
Ils proposent la plupart des modèles existant comme Mistral, LlaMa, Qwen mais aussi DeepSeek v3 et R1.
Les prix sont très compétitifs avec seulement 0.9$/MTok (million de tokens) pour DeepSeek v3 qui offre de meilleures performances que GPT-4o (3$/MTok).
De nombreuses entreprises utilisent Fireworks, je l'ai découvert pendant que j’étudiai le fonctionnement de Cursor.
Ils utilisent notamment une version custom de LlaMa pour la partie "apply" des suggestions générées par des modèles plus performants.
E2B propose un service d'exécution de code dans des sandboxs.
C'est ciblé précisément pour les Agents LLM capable d'exécuter directement du code pour accomplir leur tâche.
Les fonctionnalités sont très complètes avec:
- lecture/écriture de fichiers
- accès au réseau de la sandbox (e.g. accéder un serveur web)
- streaming de la sortie standard
- paquets custom (npm, pip, etc)
- Javascript, Python, R, Java, Bash
Un wrapper pour utiliser les LLMs open source (LlaMa, Mistral, etc)
La CLI reprend l'interface de Docker avec des ollama pull llama2
ou ollama run llama2
.
ça tourne dans le CPU et demande pas mal de RAM (32Go pour les modèles en version 13B)