Model-based evaluations - Langfuse - Aschen

1373 shaares

Filters

Links per page

20 50 100

Model-based evaluations - Langfuse

Langfuse est un outil Open Source très utile pour l'observabilité des applications GenAI avec un système de trace très réussi qui permet d'analyser le comportement des applications en production. ((On en parlait déjà il y a quelque temps](https://links.aschen.tech/shaare/k-yB-Q))

Ils ont sorti Langfuse v2 avec notamment une fonctionnalité très attendu: l'évaluation automatique

Il est maintenant possible de définir des "evaluator" qui utilisent un LLM pour évaluer la qualité d'une réponse ayant été générée.

Par exemple, on peut utilise un evaluator pour noter automatiquement de manière négative les interactions ou un RAG n'a pas réussi à répondre à la question de l'utilisateur.

Nous utilisons Langfuse pour tous nos usages de GenAI et je dois dire que c'est un franc succès car cela permet aux équipes de Prompt Engineer de superviser ce qu'ils déploient en production et l'évaluation automatique va nous permettre de passer à la vitesse supérieur.

c-ai · text-ai · evaluation-ai

April 28, 2024 at 14:04:25 UTC * · permalink

https://langfuse.com/changelog/2024-04-26-model-based-evaluation

Filters

Links per page

20 50 100