Un autre outil en NoCode pour faire des applications à base de LLM.
C'est testable en live chez HuggingFace: https://huggingface.co/spaces/Logspace/Langflow
Un outil d'observabilité pour LLM qui s'intègre quasiment automatiquement aux SDK OpenAI et Langchain.
Volet évaluation des performances
- Evaluation manuelle d'une chaine de prompt dans Langfuse
- Feedback utilisateur (explicite et implicite)
- On peut même évaluer auto avec GPT-4 et intégrer ce résultat
Volet R&D
- Création de datasets d'évaluation (évaluation manuelle dans Langfuse ou avec un Agent GPT-4)
- Versioning des traces collectées pour évaluation et A/B testing
Volet observabilité
- Analytics générales (coût, latence)
- Possibilité de suivre toutes les intéractions liées à une action métier
Bref, ça fait le café et en plus ils sont dispo en SaaS et en Open Source.
Des leaks de prompt, il y a ceux d'OpenAI mais aussi ceux des assistants GPT.
La plupart des prompts peuvent être leak via la technique de la grand mère https://news.ycombinator.com/item?id=35630801
Des algorithmes de machine learning utilisés pour fliquer les allocataires de la CAF et déclencher des contrôles chez les personnes "à risque"
Une belle dérive de la société de surveillance algorithmique.
On se retrouve notamment avec un algorithme qui cible les personnes en situation de handicape entre autre
Un site qui recense les bons jeux pour Android
Un article qui parle des comportements difficiles à prévoir lorsqu'on fait un JOIN sur autre chose qu'une égalité d'ID en SQL
Une lib frontend pour avoir le Largest Content Paint et le First Content Paint des pages d'un site web.
Un modèle de langue spécialisé dans le code dans le même genre que Codex (celui de OpenAI utilisé par Github Copilot)
Il offre de meilleures performances que CodeLlaMa.
Par contre aucune comparaison avec Codex et GPT4, les performances sont très certainement inférieures
Une analyse de plusieurs centaines de conversations pour lister 6 catégories d'interactions avec un LLM via un chat:
- Search queries: comme sur Google
- Funneling conversations: recherche en plusieurs étapes pour préciser la réponse
- Exploring conversations: explorer un sujet pour le comprendre
- Chiseling conversations: explorer plusieurs aspect d'un même sujet
- Expanding conversations: étendre le sujet de base sur des aspect non connus
- Pinpointing conversations: prompts pour avoir une réponse selon un format désiré
Un outil en ligne de commande qui remplace apt
.
En plus d'avoir un output terminal sexy, nala propose surtout le téléchargement en parallèle des paquets APT.
Le nouveau modèle Text-to-Speech de OpenAI, Whisper Large v3, est capable de transcrire 2.5h d'audio en moins de 2 minutes
Un routeur HTTP basé sur un arbre et non des regex.
Les regex pour router des requêtes HTTP c'est vraiment bof, lent et très dur à maintenir. Ça reste cependant le choix par défaut pour des "framework" populaires comme Next.js.
Mistral 7B est disponible dans les workers de Cloudflare.
C'est une bonne nouvelle car ces worker sont distribués géographiquement et donc on peut espérer une latence d'inférence optimale n'importe ou dans le monde.
Un visualiseur et éditeur de fichier binaires
Un article qui parle de l'entrainement des LLMs.
Les LLMs sont d'abord entrainé un contenu de "basse qualité" équivalent à ~15 millions de livre.
Ensuite ils sont fine tuné une première fois avec des prompts/réponses de qualité, par exemple pour le dialogue.
La dernière étape est le RLHF, avec des réponses notés par des utilisateurs afin d'améliorer la dernière couche du modèle.
Valve sort une nouvelle version de Half-Life pour le 25e anniversaire :-)
Des nouvelles maps multi-joueurs et une mini campagne.
Tout est bon pour éviter HL3 ;p
Whoa dans cet article les chercheurs ont réussi à manipuler l'interface d'Android avec un LLM.
C'est dans l'émulateur mais c'est quand même impressionnant, ils sont capable de faire des tâches assez complexes comme vider l'historique de navigation de Chrome ou faire des recherches Google
Un modèle entrainé depuis LlaMa 2 qui est spécialisé dans l'utilisation d'outils, notamment d'API tierces.
C'est une alternative Open Source à OpenAI et ses assistants
Un article sur une méthode permettant d'améliorer la qualité des réponses dans un RAG.
Ils proposent notamment une méthode de prompting pour savoir quand il n'y a pas suffisament d'informations pour répondre:
Determine if there is Observation that SUPPORTS
or REFUTES a Claim, or if there is NOT ENOUGH
INFO.
Claim: The Gadsden flag was named by Christo-
pher Gadsden.
A: First, The Gadsden flag is named after politician
Christopher Gadsden. Second, there is no informa-
tion on who named the Gadsden flag. The answer
is NOT ENOUGH INFO.
Dans cet article, les auteurs proposent une autre manière de découper une tâche en sous tâche en permettant au LLM de "créer" une sous tâche en écrivant un token spécial.
La sous tâche est ensuite executé par un LLM "enfant" puis le résultat est ré-incorporé dans la tâche principale.
L'article contient de nombreux exemples.