1343 shaares
Un outil d'observabilité pour LLM qui s'intègre quasiment automatiquement aux SDK OpenAI et Langchain.
Volet évaluation des performances
- Evaluation manuelle d'une chaine de prompt dans Langfuse
- Feedback utilisateur (explicite et implicite)
- On peut même évaluer auto avec GPT-4 et intégrer ce résultat
Volet R&D
- Création de datasets d'évaluation (évaluation manuelle dans Langfuse ou avec un Agent GPT-4)
- Versioning des traces collectées pour évaluation et A/B testing
Volet observabilité
- Analytics générales (coût, latence)
- Possibilité de suivre toutes les intéractions liées à une action métier
Bref, ça fait le café et en plus ils sont dispo en SaaS et en Open Source.