Weekly - Week 48 (27 novembre 2023) - Aschen

Delete Set public Set private

Weekly Shaarli

Previous week

All links of one week in a single page.

Next week

Week 48 (27 novembre 2023)

Better RAG with Active Retrieval Augmented Generation FLARE

Une autre méthode pour améliorer un RAG.

Ici après une première récupération et injection de documents, on va utiliser chaque phrase du LLM pour récupérer de nouveaux documents potentiels à ingérer lors de la génération.

Cela permet d'aller récupérer et injecter d'autres concepts qui ressortent lors des phases de restitution du LLM.

c-ai retrieval-augmented-generation

RETVec is an efficient, multilingual, and adversarially-robust text vectorizer.

Un modèle d'embeddings de chez Google qui est plus petit que celui de OpenAI donc beaucoup moins cher et utilisable même côté client uniquement (web, mobile)

ça permet de faire de la recherche par similarité mais aussi un classifier.

https://google-research.github.io/retvec/emotion_demo

c-ai text-ai classification embeddings

Voyager | An Open-Ended Embodied Agent with Large Language Models

Les Agents qui jouent à Minecraft sont parmi les projets les plus avancés en terme de LLMs.

Typiquement ici l'Agent est capable d'écrire du code pour réaliser différentes actions mais aussi de faire évoluer le code écrit en fonction du feedback du monde ("il manque 2 bois pour faire une hache") ou des erreurs de programmation.

c-ai text-ai assistant-ai minecraft

Open Source Observability & Analytics for LLM Apps

Un outil d'observabilité pour LLM qui s'intègre quasiment automatiquement aux SDK OpenAI et Langchain.

Volet évaluation des performances

Evaluation manuelle d'une chaine de prompt dans Langfuse
Feedback utilisateur (explicite et implicite)
On peut même évaluer auto avec GPT-4 et intégrer ce résultat

Volet R&D

Création de datasets d'évaluation (évaluation manuelle dans Langfuse ou avec un Agent GPT-4)
Versioning des traces collectées pour évaluation et A/B testing

Volet observabilité

Analytics générales (coût, latence)
Possibilité de suivre toutes les intéractions liées à une action métier

Bref, ça fait le café et en plus ils sont dispo en SaaS et en Open Source.

c-ai text-ai assistant-ai observabilite

web-vitals: Essential metrics for a healthy site.

Une lib frontend pour avoir le Largest Content Paint et le First Content Paint des pages d'un site web.

c-programmation frontend performance

Advanced RAG: Precise Zero-Shot Dense Retrieval with HyDE

HyDE est une méthode pour améliorer la recherche d'un RAG.

Concrètement on prend la demande d'origine et on va générer plusieurs documents à partir de cette demande.

Ces documents vont avoir des champs sémantiques différents pour espérer retrouver un nombre plus importants de documents.

Par exemple, avec la demande suivante "Est-il possible d'ajouter un module de formation obligatoire à un utilisateur?"

Si on a 3 sources de données avec des profils rédacteurs différents alors on va demander à GPT de générer des réponses imaginaires:

Github: "écrit une réponse hypothétique à cette demande du point de vue d'un développeur"
Notion: "écrit une réponse hypothétique à cette demande du point de vue d'un Product Owner"

c-ai retrieval-augmented-generation text-ai

Long Term Refactors

Un excellent article sur la manière de conduire un refactor sur le long terme.

c-programmation tech-lead clean-code

Self-Refine: Iterative Refinement with Self-Feedback

Une méthode de prompt engineering pour améliorer la qualité des réponses.

C'est une utilisation un peu plus avancée d'une chaine de prompt avec une critique et une réponse à la critique générés par le LLM

c-ai text-ai prompt-engineering

Pika - GenAI Vidéo

La vidéo se développe de plus en plus avec tout ce qu'on retrouve dans la génération d'image mais en vidéo:

upscaling (19:9 => 4:3)
inpainting
generation

c-ai video-ai

Langflow - Create your LLM App!

Un autre outil en NoCode pour faire des applications à base de LLM.

C'est testable en live chez HuggingFace: https://huggingface.co/spaces/Logspace/Langflow

c-ai text-ai prompt-engineering nocode

Notation des allocataires : l’indécence des pratiques de la CAF désormais indéniable

Des algorithmes de machine learning utilisés pour fliquer les allocataires de la CAF et déclencher des contrôles chez les personnes "à risque"

Une belle dérive de la société de surveillance algorithmique.

On se retrouve notamment avec un algorithme qui cible les personnes en situation de handicape entre autre

c-privacy

GAIA: A Benchmark for General AI Assistants

Une méthode pour évaluer les performances des Agents LLM.

Pour chaque tâche, l'Agent doit utiliser un ou plusieurs outils comme un navigateur web, de l'exécution de code, une API custom, etc.

Les tâches sont réparties en 3 niveaux:

Niveau 1: entre 0 et 1 outil nécessaire, maximum 5 étapes
Niveau 2: entre 5 et 10 outils, plus de 5 étapes
Niveau 3: grand nombre d'outils et beaucoup d'étapes

Ils ont évalué GPT-4, AutoGPT et GPT-4 avec plugins et aucun n'arrive à réaliser des tâches de niveau 3

c-ai text-ai assistant-ai

4 Reasons to Leave a Code Comment

Quand faut-il laisser un commentaire à l'intérieur du code?

un besoin business incongru (expliquez l'histoire originel)
cela a demandé des recherches (partagez des liens)
plusieurs options étaient considérées (justifiez)
question dans une revue de code

c-programmation clean-code

Get Started - Zapier AI Actions

Zappier propose quasiment toutes ses intégrations sous la forme d'outils LLM en langage naturel.

Ça permet à un Agent d'interagir avec des milliers de services directement via Zappier.

c-ai text-ai assistant-ai

En finir avec la taxe copie privée

Très bon récapitulatif de Gee sur ce qu'est la grosse blague de la taxe sur la copie privée.

Depuis 2021 elle s'est carrément étendue au smartphones reconditionnés.

c-societe dinosaure

chatgpt_system_prompt: store all agent's system prompt

Des leaks de prompt, il y a ceux d'OpenAI mais aussi ceux des assistants GPT.

La plupart des prompts peuvent être leak via la technique de la grand mère https://news.ycombinator.com/item?id=35630801

c-ai prompt-engineering piratage

Home - No-Bullshit Games

Un site qui recense les bons jeux pour Android

c-autres jeu-video

Many explanations of JOIN are wrong, and people get confused

Un article qui parle des comportements difficiles à prévoir lorsqu'on fait un JOIN sur autre chose qu'une égalité d'ID en SQL

c-programmation sql