Search: [evaluation-ai] - Aschen

Literal AI - Multi-modal LLM observability and evaluation platform

Un outil de LLMOps dans la même veine que Langfuse.

Ça permet l'observabilité des applications LLM avec études des étapes de générations et même possibilité de rejouer directement les prompts.

Ils proposent aussi une partie évaluation et une partie création collaborative de prompts.

c-ai · text-ai · observabilite · evaluation-ai

June 12, 2024 at 15:47:30 UTC * · permalink

·

https://literalai.com/

Your AI Product Needs Evals

Un très bon article sur la manière d'évaluer des système de GenAI (RAG mais pas que)

Avoir des interfaces bien foutues pour l'évaluation des données (question + réponse)
Pas forcément besoin d'outils sophistiqués (même Excel peut faire l'affaire)
Chaque système nécessite une évaluation personnalisée
Écrire beaucoup de tests
Utiliser les LLM pour générer des données de test
Réutiliser son infrastructure d'évaluation pour le debug et le fine-tuning

c-ai · text-ai · evaluation-ai

June 12, 2024 at 12:39:17 UTC * · permalink

·

https://hamel.dev/blog/posts/evals/#automated-evaluation-w-llms

Model-based evaluations - Langfuse

Langfuse est un outil Open Source très utile pour l'observabilité des applications GenAI avec un système de trace très réussi qui permet d'analyser le comportement des applications en production. ((On en parlait déjà il y a quelque temps](https://links.aschen.tech/shaare/k-yB-Q))

Ils ont sorti Langfuse v2 avec notamment une fonctionnalité très attendu: l'évaluation automatique

Il est maintenant possible de définir des "evaluator" qui utilisent un LLM pour évaluer la qualité d'une réponse ayant été générée.

Par exemple, on peut utilise un evaluator pour noter automatiquement de manière négative les interactions ou un RAG n'a pas réussi à répondre à la question de l'utilisateur.

Nous utilisons Langfuse pour tous nos usages de GenAI et je dois dire que c'est un franc succès car cela permet aux équipes de Prompt Engineer de superviser ce qu'ils déploient en production et l'évaluation automatique va nous permettre de passer à la vitesse supérieur.

c-ai · text-ai · evaluation-ai

April 28, 2024 at 14:04:25 UTC * · permalink

·

https://langfuse.com/changelog/2024-04-26-model-based-evaluation

leetcode-hard-gym: A hard gym for programming

Un dataset de problème de code avec un outil d'évaluation automatique.

Les problèmes sont en plusieurs langages et l'évaluateur permet de tester automatiquement des réponses qui auraient été générés par un LLM par exemple.

c-ai · code-ai · evaluation-ai

December 28, 2023 at 09:49:49 UTC * · permalink

·

https://github.com/GammaTauAI/leetcode-hard-gym