Daily Shaarli

All links of one day in a single page.

May 19, 2024

Chunking Techniques with Langchain and LlamaIndex
thumbnail

Toutes les méthodes de chunking de documents disponibles dans Langchain et LlaMa Index.

Les plus intéressants sont ceux qui se basent sur la structure du document comme le markdown ou le HTML.

Cela n'est néanmoins pas suffisant car on peut perdre le contexte d'un chunk à l'autre. Par exemple, si le deuxième chunk fait référence au sujet du premier mais sans le reformuler.

Dans les techniques plus avancées, on peut noter le Semantic Splitting qui tente de découper les chunk entre les phrases en fonction du moment ou on change de sujet.

GPT-4o’s Memory Breakthrough!

A priori GPT-4o est de loin le meilleur modèle pour le problème de "needle in a haystack" qui consiste à évaluer la performance d'un modèle pour retrouver le texte pertinent dans un prompt très long.

Alors que GPT-4 Turbo, Claude ou Mistral performent à ~50% en moyenne, GPT-4o atteint presque la perfection avec plus de 80% de succès !

Cela veut dire que même avec des très longs prompt, le modèle reste performant. Pratique pour traiter un grand nombre d'informations à la fois.

Semantic Cache: Accelerating AI with Lightning-Fast Data Retrieval
thumbnail

Une utilisation très intéressante de la recherche sémantique: un cache sémantique

Si l'on souhaite utiliser un cache dans une application qui traite du langage naturel (à travers des prompt par exemple), il est très difficile de faire cela avec les techniques traditionnelles comme le hashing.

Plutôt qu'un hash, on peut stocker un vecteur sémantique avec le résultat mis en cache. Ainsi, si une demande ultérieur approche le sens de la première demande, on peut renvoyer directement le résultat.

Par exemple, ces deux questions ne sont écrites pareil mais ont le même sens:

  • "En quelle année est sortie Half-Life 2?"
  • "Quelle est l'année de sortie de Half-Life2"

Il suffit de stocker le vecteur correspondant à la première question avec la réponse (2004 bien sur!) puis lorsque l'on reçoit la deuxième question on calcule le vecteur et comme il est très proche du premier alors on renvoi la même réponse.

How DeviantArt died: A.I. and greed turned a once-thriving community into a ghost town.
thumbnail

De plus en plus de créateurs quittent DeviantArt car de très nombreux contenus sont générés par IA et mis en avant par la plateforme ce qui donne beaucoup moins de visibilité aux créateurs humains.

Les œuvres humaines sont littéralement noyées sous la masses des œuvres IA.

Unleashing the Power of Knowledge Graphs in Retrieval Augmented Generation (RAG): Step by Step Instruction

Une introduction à l'utilisation d'un graphe en addition à la recherche sémantique classique pour améliorer la récupération d'informations d'un RAG.

Ce genre de technique est de plus en plus populaire pour palier à la limite de la perte de contexte en plusieurs chunks.

Le plus difficile reste bien sûr de créer le graphe et de le faire évoluer. (Je pense qu'il y a moyen d'utiliser un LLM pour ça)