Aschen | Sharing the webz

Mirascope | LLM toolkit for lightning-fast, high-quality development

Un framework Python pour intégrer des LLMs dans son code.

Je trouve la DX bien pensée par rapport à Langchain (pas difficile de faire mieux niveau DX)

On y retrouve simplement les fonctionnalités essentielles pour faire du LLM Engineering:

choix du modèle, des paramètres
intégration facile de l'historique de messages
utilisation de fonctions par le modèle (Function Calling )
chaines de prompt et sous prompt (vraiment bien foutu je trouve!)
extraction de données structurées

Il ne manque que la validation et la possibilité de spécifier un format de sortie structuré pour chaque prompt. C'est du super boulot.

(Dommage que ce soit en Python)

c-ai · text-ai · framework

June 9, 2024 at 09:59:53 UTC * · permalink

·

https://www.mirascope.io/

My Tailor is Mistral

Mistral ouvre le fine-tuning de ses modèles.

Techniquement, c'est un fine tuning LoRa ou très peu de paramètres sont affectés. Ça réduit drastiquement les coûts tout en offrant de bonnes performances de génération (selon eux)

Bon alors techniquement c'était déjà possible vu que les modèles sont open source mais concrètement ils simplifient la tâches aux développeurs en proposant 3 services:

mistral-finetune: open source et gratuit, c'est un repo qui contient le code nécessaire pour fine tuner un modèle Mistral
Serverless fine-tuning: une API sur leur cloud pour fine-tuner les modèles sans se prendre la tête ($)
Custom training service: une offre de service ou le fine tuning est pris en charge de A à Z par les équipes de Mistral ($$$)

c-ai · text-ai · fine-tuning

June 9, 2024 at 09:51:11 UTC * · permalink

·

https://mistral.ai/news/customization/

10 concepts to know when working with LLMs

Toujours intéressant de savoir que ces concepts existent ainsi que de connaitre leur utilité :-)

LoRa (Low-Rank Adaptation) : une technique pour spécialiser des modèles afin de les rendre plus performant (en temps) et de "guider" leur génération. C'est par exemple ce qu'on utilise avec StableDiffusion pour forcer la génération dans un style particulier ne faisant pas partie des données d'entrainement
PEFT (Parameter-Efficient Fine-Tuning): cette technique permet de fine-tuné uniquement une partie des paramètres du modèle pour réduire les coût. Par exemple, on utilise ça avec LoRa justement car les modèles d'image sont très gros et très cher à fine tuner
RAG (Retrieval-Augmented Generation): cette technique permet "d'interroger" des connaissances ne faisant pas partie des données d'entrainement d'un modèle comme les documents internes d'une entreprise par exemple (J'en parle tout le temps)
MoE (Mixture of Experts): une architecture de LLM ou le modèle est composé de "sous modèles" ayant été entrainés et spécialisé dans des domaines différents
Quantization: cette technique réduit la précision des nombres utilisés pour stocker les paramètres d'un modèle afin d'augmenter la vitesse et le coût au détriment de la performance de génération

c-ai

June 9, 2024 at 09:43:35 UTC * · permalink

·

https://decodingml.substack.com/p/10-concepts-to-know-when-working

Postgres Message Queue (PGMQ)

Une queue de message construite avec Postgres.

Projet prometteur mais assez récent donc à utiliser avec précaution.

Tout se fait en SQL:

-- creates the queue
SELECT pgmq.create('my_queue');

-- messages are sent as JSON
SELECT * from pgmq.send('my_queue', '{"foo": "bar1"}');

SELECT * FROM pgmq.read('my_queue', 30, 2);
-- or
SELECT pgmq.pop('my_queue');

c-programmation · postgresql · message-queue

June 9, 2024 at 09:27:14 UTC * · permalink

·

https://github.com/tembo-io/pgmq?ref=console.dev

4 Advanced RAG Algorithms You Must Know

Un article qui parle de techniques avancées pour améliorer les résultats d'un RAG.

Query Expension: le but est d'améliorer le champ lexical de la requête pour retrouver plus de documents pertinents. On peut aussi parler de la méthode HyDE pour récupérer des documents en provenance de champs lexicaux différents.
Self Query: c'est ce que j'appelle l'extraction de facettes, en gros ça consiste à extraire du texte brut les filtres que l'on a définit dans son moteur de recherche (couleur, poids, etc)
Hybrid & Filtered vector search: cette étape je conseille de la faire exclusivement avec un vrai moteur de recherche comme Elasticsearch en utilisant les query avancées et le scoring
ReRanking: après la récupération des documents potentiellement pertinents (disons 50), on refait une passe en demandant à un LLM de choisir les documents contenant réellement des informations pour répondre à la demande de l'utilisateur.

c-ai · retrieval-augmented-generation

June 9, 2024 at 09:24:24 UTC * · permalink

·

https://decodingml.substack.com/p/the-4-advanced-rag-algorithms-you?r=1ttoeh

LLM Latency optimization

OpenAI partage des technique pour réduire la latence des LLMs.

C'est toujours bon à prendre car le paradigme de latence des LLMs est assez inédit dans le mode du Software Engineering ou on optimise à la dizaine de micro-seconde.

Taille du modèle: plus petit = plus rapide mais surtout moins performance. Si vous n'êtes pas capable de mesurer la performance alors il vaut peut-être mieux ne pas risquer un autre modèle que ceux de la gamme GPT4.
Générer moins de tokens: les tokens de sortie sont long à générer et en plus coûtent 2x plus cher. Je partage une de mes technique pour Modifier efficacement un texte avec un Agent LLM par exemple
Utiliser moins de tokens en entrée: rien à redire ici
Faire moins de requêtes: regrouper les requêtes dans le même prompt réduit la latence mais fait baisser les performances (J'en parle dans Spécialisez vos Agents LLM pour de meilleures performances
Paralléliser les requêtes: basic software engineering
Montrer la progression à l'utilisateur: basic user experience
Ne pas utiliser des LLMs partout: cela ne sert à rien de taper sur une vis avec un marteau

c-ai · text-ai · performance

June 9, 2024 at 09:16:51 UTC * · permalink

·

https://platform.openai.com/docs/guides/latency-optimization

TotalRecall This tool extracts and displays data from the Recall feature in Windows 11, providing an easy way to access information about your PC's activity snapshots.

Microsoft propose un outil qui prend des screenshots à intervalles réguliers puis les analyse avec de l'IA pour que l'on puisse chercher dedans n'importe quelle information.

Rewind propose la même chose sur Macos par exemple.

Dans l'idée, c'est un RAG automatique sur tout ce que vous faites donc ça peut être pratique.

Dans les faits, la qualité de la donnée est assez mauvaise et l'utilité limitée.

Par contre pour un pirate ayant accès à votre PC c'est une mine d'or 😬

c-ai · retrieval-augmented-generation

June 5, 2024 at 07:55:28 UTC * · permalink

·

https://github.com/xaitax/TotalRecall

Prompt generator - Anthropic

Anthropic ont sorti un outil pour aider à la rédaction de prompts.

L'outil met notamment l'accent sur la chaine de pensée et la séparation entre données et instructions.

J'avais fait un article qui donnait aussi des techniques pour améliorer les performances des prompts

c-ai · prompt-engineering

June 4, 2024 at 06:13:34 UTC * · permalink

·

https://docs.anthropic.com/en/docs/prompt-generator

Document elements and metadata - Unstructured

Unstructured propose des produits autour de la normalisation de documents en vue de leur ingestion dans un RAG.

Ils proposent des produits en API et SaaS pour ingérer les documents mais aussi des lib open source !

Sur cette page, ils présentent leur format de découpage d'un document en plusieurs éléments standardisés comme NarrativeText, Title, Table, etc

c-ai · retrieval-augmented-generation

June 3, 2024 at 12:43:26 UTC * · permalink

·

https://docs.unstructured.io/open-source/concepts/document-elements#element-type

Cybercriminals pose as "helpful" Stack Overflow users to push malware

Des cybercriminels distribuent des packages vérolés en répondant à des questions Stackoverflow.

Ils prétendent que le package en question va régler le problème mais enfaite il contient un virus

c-securite · supply-chain-attack

May 31, 2024 at 17:03:46 UTC * · permalink

·

https://www.bleepingcomputer.com/news/security/cybercriminals-pose-as-helpful-stack-overflow-users-to-push-malware/

The AI hype bubble is deflating. Now comes the hard part.

La bulle autour de l'intelligence artificielle commence à réduire sa croissance.

L'exemple de Inflection AI est flagrant, montée par des ex de chez Google Deepmind et ayant levé plus d'un milliard, l'entreprise n'a pas créé grand chose en 11 mois et les deux fondateurs sont allés travailler chez Microsoft.

c-ai

May 21, 2024 at 20:49:51 UTC * · permalink

·

https://www.washingtonpost.com/technology/2024/04/18/ai-bubble-hype-dying-money/

Chunking Techniques with Langchain and LlamaIndex

Toutes les méthodes de chunking de documents disponibles dans Langchain et LlaMa Index.

Les plus intéressants sont ceux qui se basent sur la structure du document comme le markdown ou le HTML.

Cela n'est néanmoins pas suffisant car on peut perdre le contexte d'un chunk à l'autre. Par exemple, si le deuxième chunk fait référence au sujet du premier mais sans le reformuler.

Dans les techniques plus avancées, on peut noter le Semantic Splitting qui tente de découper les chunk entre les phrases en fonction du moment ou on change de sujet.

c-ai · retrieval-augmented-generation

May 19, 2024 at 23:24:26 UTC * · permalink

·

https://blog.lancedb.com/chunking-techniques-with-langchain-and-llamaindex/

Semantic Cache: Accelerating AI with Lightning-Fast Data Retrieval

Une utilisation très intéressante de la recherche sémantique: un cache sémantique

Si l'on souhaite utiliser un cache dans une application qui traite du langage naturel (à travers des prompt par exemple), il est très difficile de faire cela avec les techniques traditionnelles comme le hashing.

Plutôt qu'un hash, on peut stocker un vecteur sémantique avec le résultat mis en cache. Ainsi, si une demande ultérieur approche le sens de la première demande, on peut renvoyer directement le résultat.

Par exemple, ces deux questions ne sont écrites pareil mais ont le même sens:

"En quelle année est sortie Half-Life 2?"
"Quelle est l'année de sortie de Half-Life2"

Il suffit de stocker le vecteur correspondant à la première question avec la réponse (2004 bien sur!) puis lorsque l'on reçoit la deuxième question on calcule le vecteur et comme il est très proche du premier alors on renvoi la même réponse.

c-ai · text-ai

May 19, 2024 at 22:57:09 UTC * · permalink

·

https://qdrant.tech/blog/semantic-cache-ai-data-retrieval/

How DeviantArt died: A.I. and greed turned a once-thriving community into a ghost town.

De plus en plus de créateurs quittent DeviantArt car de très nombreux contenus sont générés par IA et mis en avant par la plateforme ce qui donne beaucoup moins de visibilité aux créateurs humains.

Les œuvres humaines sont littéralement noyées sous la masses des œuvres IA.

c-ai · image-ai

May 19, 2024 at 18:57:55 UTC * · permalink

·

https://slate.com/technology/2024/05/deviantart-what-happened-ai-decline-lawsuit-stability.html

Unleashing the Power of Knowledge Graphs in Retrieval Augmented Generation (RAG): Step by Step Instruction

Une introduction à l'utilisation d'un graphe en addition à la recherche sémantique classique pour améliorer la récupération d'informations d'un RAG.

Ce genre de technique est de plus en plus populaire pour palier à la limite de la perte de contexte en plusieurs chunks.

Le plus difficile reste bien sûr de créer le graphe et de le faire évoluer. (Je pense qu'il y a moyen d'utiliser un LLM pour ça)

c-ai · retrieval-augmented-generation

May 19, 2024 at 17:31:34 UTC * · permalink

·

https://medium.com/@transformergpt/unleashing-the-power-of-knowledge-graphs-in-retrieval-augmented-generation-rag-step-by-step-84c2adc66c1c

GPT-4o’s Memory Breakthrough!

A priori GPT-4o est de loin le meilleur modèle pour le problème de "needle in a haystack" qui consiste à évaluer la performance d'un modèle pour retrouver le texte pertinent dans un prompt très long.

Alors que GPT-4 Turbo, Claude ou Mistral performent à ~50% en moyenne, GPT-4o atteint presque la perfection avec plus de 80% de succès !

Cela veut dire que même avec des très longs prompt, le modèle reste performant. Pratique pour traiter un grand nombre d'informations à la fois.

c-ai · text-ai

May 19, 2024 at 16:04:08 UTC * · permalink

·

https://nian.llmonpy.ai/

zero-gpu-explorers (ZeroGPU Explorers)

HuggingFace sort une offre ou le coût des GPU est nul.

En gros, au lieu d'avoir un GPU dédié avec un Space (une application HugginFace), votre application se verra alloué un GPU quand elle en aura besoin.

Cela leur permet d'optimiser l'utilisation des GPU un peu comme dans une architecture Serverless CPU classique.

A noter que ce n'est pas entièrement gratuit, il faut un compte PRO à 9$/mois pour bénéficier de cette offre.

c-ai

May 17, 2024 at 10:09:38 UTC * · permalink

·

https://huggingface.co/zero-gpu-explorers

libyear

Une manière intéressante de calculer à quel point une lib est en retard par rapport à sa dernière version.

Rails 5.0.0 (June 2016) is 1 libyear behind 5.1.2 (June 2017).

c-programmation

May 14, 2024 at 09:56:05 UTC * · permalink

·

https://libyear.com/

Hello GPT-4o

La grosse annonce d'Open AI c'est leur nouveau modèle multi-modal avec support de l'audio en plus de la vidéo et du texte.

Son temps de réponse en audio est de 320 ms en moyenne, ce qui correspond au temps de latence dans une véritable conversation. (Avant c'était 3 et 6 sec de latence avec GPT3.5 et GPT4)

La grosse nouveauté c'est surtout qu'avant on avait une combinaison de modèle alors que maintenant on a un modèle unique et donc capable de reproduire des émotions, des rires etc dans sa sortie audio.

Pareil pour la génération d'image avec du texte, c'est quasiment parfait à présent avec le modèle unique.

Ils ont aussi fait un gros effort sur le tokenizer pour réduire le nombre de tokens dans beaucoup de langages de pays du sous continent Indien, du Moyen-Orient et d'Asie.

Finalement la dernière nouveauté et celle qui va le plus nous impacter, c'est que la vitesse d'inférence est 2x plus rapide et le prix est 2 fois moins cher ! (et disponible dès maintenant)

c-ai · text-ai

May 13, 2024 at 19:12:41 UTC * · permalink

·

https://openai.com/index/hello-gpt-4o/

Squeezing the Juice: Microsoft’s LLMLingua2 demonstrates a Token-Saving Technique using Task-agnostic Prompt Compression

Microsoft ont continué leurs recherches autour de la compression de prompt avec maintenant une v2 de LLMLingua.

C'est très pratique parce que ça permet de compresser les prompts pour utiliser moins de tokens lors de l'appel au LLM.

Cela fonctionne avec un plus petit modèle comme LlaMa 7B pour identifier et supprimer les tokens non-essentiels dans le prompt.

Pour l'instant, cela n'existe qu'en Python.

c-ai · text-ai

May 13, 2024 at 19:01:44 UTC * · permalink

·

https://medium.com/@akshaykokane09/squeezing-the-juice-microsofts-llmlingua2-research-demonstrates-a-token-saving-technique-using-4e3f222e2294