Un outil de LLMOps dans la même veine que Langfuse.
Ça permet l'observabilité des applications LLM avec études des étapes de générations et même possibilité de rejouer directement les prompts.
Ils proposent aussi une partie évaluation et une partie création collaborative de prompts.
Une application d'observabilité des performances et du fonctionnement des applications utilisant des LLMs.
La solution de Langfuse est beaucoup plus complète pour l'instant.
Un SaaS d'observabilité des applications GenAI orienté métriques produit.
Un outil d'observabilité pour LLM qui s'intègre quasiment automatiquement aux SDK OpenAI et Langchain.
Volet évaluation des performances
- Evaluation manuelle d'une chaine de prompt dans Langfuse
- Feedback utilisateur (explicite et implicite)
- On peut même évaluer auto avec GPT-4 et intégrer ce résultat
Volet R&D
- Création de datasets d'évaluation (évaluation manuelle dans Langfuse ou avec un Agent GPT-4)
- Versioning des traces collectées pour évaluation et A/B testing
Volet observabilité
- Analytics générales (coût, latence)
- Possibilité de suivre toutes les intéractions liées à une action métier
Bref, ça fait le café et en plus ils sont dispo en SaaS et en Open Source.
Un outil open source avec tout ce qu'il faut pour analyse l'utilisation de son produit, l'améliorer et le déployer:
- analytics
- session replay
- feature flags
- A/B testing
Une alternative open source à Datadog et NewRelic pour l'observabilité et l'agrégation des logs.
Un très bon article de l'équipe tech de Malt sur l'observabilité code/équipe en utilisant Git.
Cela permet d'identifier:
- les dépendances entre services
- les "hot spots" fréquemment édités
- les personnes ayant la meilleur connaissance de portions du code
Un REX sur la gestion des pics d'affluence à L'Équipe pendant les coupes du monde.
Plusieurs conseils:
- code freeze: aucun déploiement avant la coupe de monde
- auto-scaling: entre 10 et 120 pods sur leur cluster Kubernetes
- observabilité: Application Performance Management (APM) et une suite Elasticsearch, Logstash, Kibana (ELK)
A certains moments, ils ont encaissé plus de 1 million de pages vues à la minutes!
Pino est vraiment un super logger, en plus de ses excellentes performances, il permet de
- cacher automatiquement des valeurs dans les objets (comme les jeton d'authentification par exemple)
- créer des sous logger par module
- écrire les logs dans des destinations différentes en fonction des niveaux
Les log sont très souvent une partie critique de l'application car écrire des une sortie est assez consommateur (chez Kuzzle, on s'est rendu compte que nos access log ralentissaient le backend outre mesure.
Il faut aussi faire attention à ce que l'on veut loguer et trouver un équilibre sur la quantité car on peut facilement remplir des tera octets de logs.
Dans l'idéal, il faut construire un système permettant de changer dynamiquement le niveau de log pour activer le mode debug lorsqu'on en a besoin, et l'arrêter ensuite.
Une solution de stockage des metrics aggrégées avec Prometheus:
- scalable horizontablement
- multi-tenants (super pour des metrics qui proviennent d'un SaaS)
Évolution du tracking distribué chez Netflix depuis 2017.
A l'époque l'écosystème de l'observabilité n'était pas aussi mature et des solutions comme OpenTelemetry n'existaient pas encore
Un proxy distribué conçu pour rassemblé tous le traffic d'un ensemble de micro-services et profiter d'une gestion centralisée.
C'est un logiciel plus avancé que Nginx, Traefik ou HAProxy pour servir de load balancer: automatic retries, rate limiting, circuit breaker.
Une solution complète d'observabilité est aussi intégré directement à Envoy.
Un bon article pour démarrer dans l'observabilité des applications et en comprendre les enjeux.
L'auteur parle notamment de OpenTelemetry qui sort de plus en plus son épingle du jeu dans le domaine en proposant un standard et plusieurs librairies prêtes à l'emploi pour observer les frameworks / applications les plus connues
Un GUI Open Source pour Redis assez pratique je trouve car il est assez difficile de visualiser clairement le contenu d'un cluster Redis
Un analyseur de traces agnostique de la techno utilisée avec un léger overhead (~2-10% annoncé) donc utilisable dans des environnements de production