Daily Shaarli
January 5, 2025
Un outil no-code pour évaluer des prompts.
On retrouve tous les évaluateurs habituels: code, LLM as a judge, etc
L'outil est Open Source et tourne en local si besoin
Le meilleur résumé de l'année 2024 en GenAI
- les modèles du niveau de GPT-4 sont légions
- le coût des tokens a été divisé par 10
- les modèles multi-modaux sont monnaie courante
- la génération de code fonctionne très très bien
- les agents autonomes peinent à sortir
- le début des modèles de "raisonnement" comme o1
- les données synthétique pour l'entrainement se développent
Hâte de voir ce que 2025 nous réserve !