Daily Shaarli

All links of one day in a single page.

June 12, 2024

Luma Dream Machine
thumbnail

Luma AI sort un modèle de génération vidéo d'une qualité comparable à Sora de OpenAI.

Il reste encore des limitations, notamment sur la représentation du mouvement, des objets qui changent entre les frames ou la difficulté à représenter du texte mais le résultat est déjà de très bonne qualité !

La course aux modèles de génération vidéo semble être lancée mais j'ai l'intuition qu'il y aura beaucoup moins de participants que pour le texte ou l'image car les coûts d'entraînement GPU de ces modèles vidéo sont exorbitants

Literal AI - Multi-modal LLM observability and evaluation platform
thumbnail

Un outil de LLMOps dans la même veine que Langfuse.

Ça permet l'observabilité des applications LLM avec études des étapes de générations et même possibilité de rejouer directement les prompts.

Ils proposent aussi une partie évaluation et une partie création collaborative de prompts.

What We Learned from a Year of Building with LLMs (Part I)
thumbnail

Un REX sur l'utilisation de LLMs en production.

Prompt Engineering:

  • mettre l'accent sur les techniques de prompting (chain of thought etc)
  • travailler sur la structure des données en entrée et en sortie

RAG:

  • utiliser de la recherche hybride (vecteur + keyword)
  • préférer le RAG au fine tuning pour la recherche de connaissance
  • les long contextes des modèles ne rendront pas les RAG obsolètes

LLM Engineering:

  • utiliser des workflow LLM qui mélangent prompt engineering et software engineering pour de meilleurs résultats
  • faire générer des plans aux Agents afin d'améliorer la reproductibilité des résultats
  • ne pas oublier de faire varier les méta-paramètres (temperature, top_p, etc)
  • mettre en place des stratégie de cache

Test et évaluation:

  • utiliser des tests unitaires avec des exemples réels
  • évaluer les résultats avec d'autres LLM
  • les évaluations apparaissent entre 5 et 10% du temps même sur des tâches simples
Gumloop - IA automation platform

Un produit NoCode spécialisé dans la création de workflows avec de l'IA.

L'outil est simple à prendre en main même pour des non-tech et en plus ils ont pleins de templates prêt à l'emploi.

Your AI Product Needs Evals
thumbnail

Un très bon article sur la manière d'évaluer des système de GenAI (RAG mais pas que)

  • Avoir des interfaces bien foutues pour l'évaluation des données (question + réponse)
  • Pas forcément besoin d'outils sophistiqués (même Excel peut faire l'affaire)
  • Chaque système nécessite une évaluation personnalisée
  • Écrire beaucoup de tests
  • Utiliser les LLM pour générer des données de test
  • Réutiliser son infrastructure d'évaluation pour le debug et le fine-tuning