Monthly Shaarli

All links of one month in a single page.

April, 2024

vllm: A high-throughput and memory-efficient inference and serving engine for LLMs
thumbnail

vLLM est un serveur d'inférence pour LLM.

Avec (Text Generation Inference](https://links.aschen.tech/shaare/Go1xSQ) (TGI) de Hugging Face, c'est une des référence pour monter sa propre infrastructure capable de servir des LLMs.

Model-based evaluations - Langfuse
thumbnail

Langfuse est un outil Open Source très utile pour l'observabilité des applications GenAI avec un système de trace très réussi qui permet d'analyser le comportement des applications en production. ((On en parlait déjà il y a quelque temps](https://links.aschen.tech/shaare/k-yB-Q))

Ils ont sorti Langfuse v2 avec notamment une fonctionnalité très attendu: l'évaluation automatique

Il est maintenant possible de définir des "evaluator" qui utilisent un LLM pour évaluer la qualité d'une réponse ayant été générée.

Par exemple, on peut utilise un evaluator pour noter automatiquement de manière négative les interactions ou un RAG n'a pas réussi à répondre à la question de l'utilisateur.

Nous utilisons Langfuse pour tous nos usages de GenAI et je dois dire que c'est un franc succès car cela permet aux équipes de Prompt Engineer de superviser ce qu'ils déploient en production et l'évaluation automatique va nous permettre de passer à la vitesse supérieur.

Bland AI Phone Calling Platform

Une IA qui appel et répond au téléphone.

C'est assez incroyable, on peut mettre son numéro de téléphone et l'IA nous appelle.

Je lui ait demandé ce qu'elle pensait de mon entreprise par exemple et on a eu une conversation sur le futur de e-learning.

Dify.AI · The Innovation Engine for Generative AI Applications
thumbnail

Une solution clé en main complète autour des LLMs:

  • Assistant IA en NoCode
  • Génération de documents
  • Traduction
  • Ingestion de sources externes (fichier, web, Notion)
  • RAG intégré

Il y a aussi une version Open Source.

Ça fait un peu usine à gaz mais ça à le mérite d'être complet et rapide à mettre en place.

Smaller, Faster, Cheaper: Introducing Jina Rerankers Turbo and Tiny
thumbnail

2 modèles de re-ranking open source ont été release par Jina.

Pour rappel, le re-ranking est une méthode supplémentaire utilisée pour noter la pertinence de documents retrouvés dans la partie retrieval d'un RAG.

Ce sont de plus petits modèles de langue qui coûtent beaucoup moins cher à faire fonctionner et qui donne une note de similarité supplémentaire en plus de la simple recherche vectorielle.

Ça me rappelle le temps des modèles comme BERT par exemple.

Researchers: Windows Defender attack can delete databases
thumbnail

Des chercheurs exploitent des "failles" des anti-virus pour les amener à supprimer des fichiers.

Pour ça, il leur suffit d'ajouter des chaines de caractères faisant partie de la base de signatures de virus connus.

Par exemple en remplissant un formulaire, la chaine de caractère identifiée comme étant part d'un virus va se retrouver dans un fichier du serveur et l'antivirus risque de le supprimer (surement avec d'autres données au passage)

A Survey on Retrieval-Augmented Text Generation for Large Language Models

Une méta-étude sur les RAG.

Au programme les techniques pour chaque étape:

  • pre-retrieval: query extension, data modification
  • retrieval
  • post-retrieval: re-ranking, filtering
  • generation
  • evaluation
Editing your images with DALL·E

OpenAI a ajouté l'inpainting dans ChatGPT Plus.

On peut maintenant sélectionner une zone et indiquer à ChatGPT de quelle manière on souhaiterait la modifier

HuggingFaceFW - FineWeb dataset
thumbnail

FineWeb est un dataset crawlé depuis internet et épuré au maximum des contenus générés par d'autres IA.

Il contient 15 000 milliards de tokens et peut être utilisé pour entraîner des LLM depuis zéro.

Note: à priori vous ne voulez pas faire ça vous même mais plutôt fine tuner un modèle existant

@GroqInc is serving LLaMA 3 at over 800 tokens per second! 800. Tokens. Per. Second. This unlocks so many incredible use-cases. It's one thing to see my demo — it's another thing entirely to experience it for yourself. Do yourself a favor and try it asap. https://t.co/Rd5NW5SDlW" / X

LlaMA 3 sur Groq est d'une vitesse incroyable: 800 token/sec.

Les modèles sont disponible sur l'API de Groq Cloud

Ils n'ont pas encore d'offre entreprise payante mais on peut déjà essayer avec le free tiers

Scale of the Universe

Une animation interactive pour explorer l'infiniment petit et l'infiniment grand :-)

Ça me rappelle le documentaire "Puissances de dix" (qui commence à dater un peu)

Scrape a page and convert it to Markdown
thumbnail

On a souvent besoin d'extraire le contenu d'une page web et de le convertir en markdown quand on travaille avec des LLMs.

Ce script de 75 lignes de JS utilise Playwright pour convertir n'importe quel site en document markdown

EU AI Act Compliance Checker | Loi européenne sur l'intelligence artificielle

IA Act est en application depuis le 13 mars 2024.

Concrètement, il y a 4 types de Systèmes d'IA (SIA):
1) SIA à risque inacceptable (e.g. scoring social)
2) SIA très risqués (e.g. recrutement)
3) SIA avec obligation de transparence (e.g chatbot, génération)
4) SIA à risque minime ou nul (e.g. maintenance prédictive)

Pour ceux qui rentrent dans la 3e catégorie, il faut respecter les points suivants:

  • informer les gens qu'ils interagissent avec un système d'IA
  • informer en cas d'usage de système de reconnaissance émotionnelle ou de catégorisation par biométrie
  • apposer un label identifiant les contenus modifiés ou créés grâce à une IA

(Le type d'entité du formulaire est "Fabricant de produits")

New GPT4 Turbo 2024-04-09

OpenAI sort sa dernière version du modèle GPT4 Turbo avec des performances sensiblement meilleures

Il faut maintenant utiliser le modèle gpt-4-turbo pour être sur de pointer sur la dernière version en date (9 avril 2024).

Les modèles GPT 4 turbo preview ne devraient plus être utilisés.

AIcrowd | Meta Comprehensive RAG Benchmark: KDD Cup 2024
thumbnail

Une compétition de RAG. Je trouve ça intéressant de garder sous la main les 8 types de questions:

  • Question simple : questions demandant des faits simples, comme la date de naissance d'une personne et les auteurs d'un livre.

  • Question simple avec certaines conditions : questions demandant des faits simples avec certaines conditions données, telles que le cours de l'action à une certaine date et les films récents d'un réalisateur dans un certain genre.

  • Set Question: Questions qui attendent un ensemble d'entités ou d'objets comme réponse. Un exemple : quels sont les continents de l’hémisphère sud ?

  • Question de comparaison : des questions qui peuvent comparer deux entités, comme par exemple qui a commencé à se produire plus tôt, Adele ou Ed Sheeran ?

  • Question d'agrégation : questions qui peuvent nécessiter une agrégation des résultats de récupération pour répondre, par exemple, combien d'Oscars Meryl Streep a-t-elle remportés ?

  • Questions multi-sauts : questions qui peuvent nécessiter d'enchaîner plusieurs éléments d'information pour composer la réponse, comme par exemple qui a joué dans le dernier film d'Ang Lee ?

  • Question de post-traitement : questions qui nécessitent un raisonnement ou un traitement des informations récupérées pour obtenir la réponse, par exemple : combien de jours Thurgood Marshall a-t-il été juge à la Cour suprême ?

  • Question à faux prémisse : questions comportant une fausse préposition ou hypothèse ; par exemple, quel est le nom de l'album rap de Taylor Swift avant sa transition vers la pop ? (Taylor Swift n'a sorti aucun album de rap.)

Les testeurs du Humane AI Pin sont unanimes : il ne sert à rien
thumbnail

Il fallait s'y attendre, le gadget qui a fait beaucoup de bruit est tout simplement nul.

Ergonomie pas au point et peu d'autonomie en plus d'être décevant sur les fonctionnalités IA comme la reconnaissance d'image.

Bref, poubelle.

Tarifs de l'API Gemini  |  Google AI for Developers
thumbnail

Gemini 1.5 est disponible pour le grand publique.

Non seulement le modèle est très prometteur sur une fenêtre de tokens très entendue (jusqu'à 1 millions de tokens !) mais en plus il est moins cher que GPT4 Turbo avec 7$ vs 10$ le million de tokens en input et 21$ vs 30$ le million de tokens en output.

On retiendra bien sûr la meilleur performance à moindre coût mais on retiendra aussi l'avance de OpenAI qui a sorti GPT 4 il y a 18 mois et GPT4 Turbo il y a 6 mois.

Bref, Gemini est un des meilleurs modèle de 4e génération jusqu'à l'arrivée de GPT5.

Groq CEO: ‘We No Longer Sell Hardware’

Groq pivote vers le cloud plutôt que le hardware.

Ils envisagent de vendre leurs LPU à de grosses boites mais sinon tout se fera sur le nouveau cloud qu'ils prévoient de déployer.

Clairement c'est game changer pour eux car la marge va exploser en vendant du cloud plutôt que du hardware.

An unbiased evaluation of environment management and packaging tools

Comme Javascript, l'écosystème Python est aussi un sacré bordel 😅

Paper: You Want My Password or a Dead Patient?"
thumbnail

Un rapport sur l'application des pratiques de sécurité dans le monde médical.

Ces pratiques sont souvent écrites par des experts en sécurité n'ayant aucune idée de la réalité du monde médical et de ses contraintes du coup les soignants passent leur temps à trouver des contournement.

L’IA Générative au service de la pédagogie
thumbnail

Un article que j'ai écrit sur l'utilisation des LLMs chez Didask et plus généralement sur la manière dont on peut donner des instructions précises à des LLMs pour en faire des experts capables d'exécuter des tâches précises.

Je parle aussi de quelques unes de nos techniques de Prompt Engineering :-)

Bases de données vectorielles: chronique d'une mort annoncée
thumbnail

Un article que j'ai écrit pour parler de la hype autour des bases de données vectorielles et de pourquoi il vaut mieux utiliser une base de données classique avec fonctionnalité de recherche vectorielle comme Elasticsearch ou Postgres.

Perplexity, Copilot, You.com: Putting the AI search engines to the test
thumbnail

Les moteurs de recherche ne sont pas prêt de disparaitre.

Outre la différence phénoménal de coût entre une requête Google et une génération, il faut aussi se rappeler que beaucoup de requêtes sont de la navigation ("youtube" pour aller sur https://youtube.com) ou de l'information temps réel comme "météo montpellier".

JetMoE: Reaching LLaMA2 Performance with 0.1M Dollar

Le coût d'entrainement des LLMs a drastiquement baissé en seulement quelques mois.

JetMoE offre des performances similaires à Llama 2 mais avec un coût d'entrainement de seulement 100 000$ vs 5 000 000$ pour Llama 2.

Navigating the Challenges and Opportunities of Synthetic Voices
thumbnail

OpenAI fait un peu de teasing sur son modèle de text-to-speech et le produit VoiceEngine qui permet de créer des voix à partir d'un court extrait audio.

Des boîtes comme Heygen auraient déjà accès à ce modèle.

Pour l'instant ce produit reste en usage restreint, notamment pour laisser le temps de remplacer les systèmes de sécurité basés sur la voix

Stability AI reportedly ran out of cash to pay its AWS bills
thumbnail

Stability AI n'a plus d'argent pour payer ses factures de cloud de presque 100 millions de dollars avec seulement 11 millions de revenus.

Dans les prochains mois, je pense que de nombreux fournisseurs de cloud IA vont suivre le même chemin vu que beaucoup on eu la même tactique en cassant les prix pour attirer des utilisateurs.

Matching Retrieved Context With Question Context Using LogProbs With OpenAI for RAG

Les LogProbs sont des métadonnées retournées avec la génération et elles indiquent la confiance du modèle dans le texte généré.

Dans le cas d'un RAG cela est extrêmement utile car ces informations peuvent nous aider à renvoyer un score de pertinence de la réponse généré.

Par exemple, si le prompt ne contient pas suffisamment d'informations pour répondre à la question, au mieux la réponse sera incomplète, au pire elle sera pleine d'hallucination.

Avec les LogProbs, il est possible de savoir quel degré de confiance accorder à cette réponse et de transmettre cette information à l'utilisateur ou de basculer sur un autre processus (nouvelle requête, prompt différent, etc)

Cet article utilise l'API d'OpenAI mais techniquement c'est possible de le faire avec n'importe quel modèle (pour peu que l'API retournent ces métadonnées)

Stanford CS25 course on Transformers architecture

Un cours de Stanford sur les transformers.

https://web.stanford.edu/class/cs25/

Tiny but mighty: The Phi-3 small language models with big potential

Microsoft sort Phi-3 et tente de changer de paradigme avec un "Small Language Model" (SLM) vs les traditionnels LLMs.

SLM car une des version de Phi-3 ne possède "que" 4 milliards de paramètres, c'est 2 fois moins que LlaMa-3 8B ou Mistral 7B (le "B" signifie "billions").

Cette version Phi-3-mini surpasserait les modèles LlaMa-3 8B et Mistral 7B.

Un petit modèle c'est un modèle moins gourmand en ressources et donc plus rapide sur une grosse carte graphique de datacenter mais aussi possible sur du matériel de particulier.

Deux autres versions sont aussi disponibles: Phi-3-small (7B) et Phi-3-medium (14B).

Tous les modèles ont une fenêtre de contexte de 128K tokens.

Backend ressources for Albert. Albert, also known as LIA (Legal Information Assistant), is a conversational agent that uses official French data sources to answer administrative agents questions.
thumbnail

L'État français a fine tuné des modèles Open Source (LlaMa 2 et Mistral 7b) avec les données des procédures administratives afin de répondre correctement aux questions des utilisateurs.

C'est un choix curieux de fine tune les modèles plutôt que de faire un RAG car du coup la mise à jour de la connaissances est très difficile (impossible sans ré-entrainer)

Je me demande combien ça a coûté pour le fine tuning.

Exemple d'une réponse

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

Un papier de recherche sur une méthode pour avoir une fenêtre de contexte virtuellement infinie.

Le mécanisme d'attention de Transformers présente une complexité quadratique (sous la forme O(na)) la fois en termes d'empreinte mémoire et de temps de calcul.

Leur méthode propose de réduire cette complexité en utilisant une une "mémoire compressée".

Dans les benchmarks, leur modèle utilise seulement 1.6Mo de mémoire vs 50 à 180Mo que des modèle Transformer classique ayant le même nombre de paramètre (et les perfs sont meilleures)

Cela questionne l'utilisation des RAG sans toutefois les remettre en question entièrement.

  • un contexte infini ne fait pas tout car on a remarqué que même avec 128K de contexte dans GPT-4, les résultats sont quand même meilleurs lorsque les prompts sont moins longs.

  • le coût de poser 128K tokens dans un prompt n'est pas le même que de sélectionner attentivement et de poser seulement les 4K tokens intéressants

PS: j'aime beaucoup ce format HTML des papiers de recherche, j'avoue ne jamais avoir apprécié le format LaTeX standard

State Space Model for New-Generation Network Alternative to Transformers: A Survey

Une méta-étude sur l'avancement de la recherche sur une architecture alternative à celle des Transformers.

State Space Model (SSM) est une architecture qui se veut plus économe en terme de puissance de calcul nécessaire pour l'entrainement et la génération.

Pour l'instant on en est toujours au début et rien de concrètement utilisable au vu des faibles performances mais c'est bien de garder un oeil la dessus pour le futur.

New features in the Assistants API
thumbnail

OpenAI a sorti une mise à jour de son API pour créer des Assistants.

On peut notamment utiliser jusqu'à 10000 fichiers dans leur RAG intégré et streamer les réponses.

Les Assistants permettent de développer très rapidement des POC d'Agents spécialisés en entreprise mais le côté boîte noir finit par se payer comme pour tout produit complètement fermé.

Lessons after a half-billion GPT tokens

Un retour d'expérience sur l'utilisation de GPT4 pour un usage modéré (500M tokens sur 6 mois).

Les retours d'expérience que je partage:

  • Langchain et LlamaIndex ça apporte une couche d'abstraction supplémentaire difficile à maitriser alors que le SDK simple suffit
  • le streaming pour faire attendre les utilisateurs est indispensable
  • GPT4 a du mal à ne pas halluciner plutôt que de se taire lorsqu'il n'a pas d'info suffisantes
  • la fenêtre de contexte de 128K c'est que en input, pour l'output ça n'a pas bougé et c'est toujours 4K tokens seulement
  • les bases de données vectorielle sont inutiles dans la majorité des cas
An unfair advantage: multi-tenant queues in Postgres

Un système de queue qui utilise Postgres.

Ils expliquent comment ils ont construit cette gestion des queues et surtout le dépilage des tâches par des workers en présentant la structure des tables et les requêtes.

Ça à l'air chouette mais encore très peinture fraiche donc prudence :-)

Meta Llama 3
thumbnail

On attendait l'annonce de Meta sur la sortie de LlaMa 3 (8B et 70B) et c'est maintenant chose faite :-)

Pas trop de surprise avec un modèle aux performances similaires que tous les autres gros modèles de 4e génération comme GPT4 Turbo, Claude 3 Opus, Mistral 8x22B et Gemini 1.5.

Par contre pour l'instant la fenêtre de contexte n'est que de 8K tokens ce qui est très peu comparer à ce qu'il se fait maintenant. On peut s'attendre à une mise à jour du modèle dans les prochaines semaines pour améliorer ça.

Un autre très bon modèle open source qui aura sa carte à jouer dans les prochains mois avec l'entrainement et le fine tuning de modèles.

Sinon dans les annonces, il y aurait aussi un modèle à 400B paramètres de prévu ce qui est énorme

Stable Diffusion 3 API Now Available
thumbnail

La version 3 de Stable Diffusion est disponible en API chez Stability AI.

La génération d'image est meilleure et ils ont fait de gros efforts sur l'insertion de texte dans les images.

Broken Ownership

Très bonne analyse de ce qu'il faut pour un véritable leadership.

Vous ne pouvez pas être responsable de quelque chose que vous ne contrôlez pas. Il faut le mandat.

Vous ne pouvez pas utiliser ce mandat efficacement pour quelque chose que vous ne comprenez pas. Vous avez besoin de connaissances.

Vous n’acquérez des connaissances que si vous êtes entièrement responsable des conséquences de votre mandat.

ARAGOG: Advanced RAG Output Grading

Une méta étude sur les RAG avec notamment:

  • Sentence-window retrieval
  • Document summary index
  • HyDE
  • Multi-query
  • Maximal Marginal Relevance
  • Cohere Re-ranker
  • LLM-based Re-ranker

L'étude montre que la combinaisons des méthodes Sentence Window Retrieval, LLM Rerank, Cohere Rerank et HyDE donnent les meilleurs résultats.

Dommage que l'étude ne parle pas des techniques qui limitent le chunking et d'autre chose méthode que les seules Vector Database pour récupérer les documents comme Elasticsearch par exemple.

Encore - Backend platform for event-driven applications
thumbnail

Une solution pour faciliter la réalisation et le déploiement d'applications event-driven.

Ça gère la distribution des évènements dans des queues pub/sub avec des SDKs mais aussi la partie déploiement local et production de la stack en mode IAC.

Il y a aussi une UI pour la configuration, l'observabilité, les logs, etc

Ça peut être intéressant plutôt que de partir sur une infrastructure Kafka ou Rabbit

Debunking Devin: "First AI Software Engineer" Upwork lie exposed!
thumbnail

Sans surprise, la vidéo de Devin qui prend une issue Upwork et la fix est pleine de fake.

Devin fix de soit disant erreurs dans des fichiers qui n'existent pas dans le repo et il utilise aussi des commandes Bash inutiles (head -n 5 file.json | tail -n 5)

Aussi, l'auteur de la vidéo a complété la tâche en 35 min et c'était assez simple vu que le Readme était très clair.

Bref encore une fois les Agents complètement autonomes restent très décevants.

How Figma's Databases Team Lived to Tell the Scale
thumbnail

Un retour de Figma sur une architecture de scaling de Postres

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

Un modèle multi-modal créé par Apple qui se spécialise dans la compréhension des UI mobile et autres interfaces graphiques.

Dans la même veine, il y a aussi CogVML

Open-Sora-Plan: This project aim to reproduce Sora (Open AI T2V model)
thumbnail

Un modèle open source de Text to Video.

Pour l'instant les vidéos générées sont soit courtes en 1024 (<3sec), soit plus longues en 512 (<10sec)

La cohérence de génération n'est pas parfaite non plus mais c'est un bon début!

L'avantage de ce genre de modèle Open Source c'est que la génération offrira beaucoup plus de contrôle qu'avec les modèles "API only" comme Sora.

Building AI Models is faster and cheaper than you probably think
thumbnail

Plusieurs startup du dernier batch YCombinator ont entrainé leur propre modèle de GenAI en seulement 2 mois et moins 500K$.

Pas que des LLM mais aussi un modèle de prévision météo ou un modèle de navigation.

FreeAskInternet is a completely free, private and locally running search aggregator & answer generate using LLM
thumbnail

Un projet qui propose une interface de recherche à la Perplexity en local et 100% gratuit en se basant sur l'API publique de ChatGPT.

En gros ça permet de répondre à vos questions en agrégeant les résultats des moteurs de recherche comme un RAG

huggingface/text-generation-inference: Revert license to Apache 2.0
thumbnail

Huggingface passe son moteur d'inférence texte en Apache 2.

C'est une excellente nouvelle car c'est cette techno qui fait tourner HuggingFace.

Ça permet de servir des modèles à travers une API. C'est un Python et en Rust et de gros efforts ont été fait sur la scalabilité.

Cela permet à tout le monde de déployer un système d'inférence robuste au sein de son infrastructure.

GitHub’s latest AI tool can automatically fix code vulnerabilities
thumbnail

Github va un peu plus loin dans la génération de code en proposant un service de correction automatique des vulnérabilités détectées dans les repository.

Sous le capot c'est du GPT4 qui propose une modification d'une PR pour fix une potentielle faille de sécurité.

A priori ça reste des choses assez simple et cantonnées à un seul endroit comme échapper du HTML, éviter un prototype polution, etc

Pour l'instant, les failles sont détectées par des outils conventionnels et corrigé par GPT4 mais plus tard elles pourront aussi être détectés par GPT4

Long-context LLMs Struggle with Long In-context Learning

Une étude sur les performances des LLMs sur de longs contexte.

Même si les LLMs supportent des contextes très long maintenant, ce n'est pas un secret que plus il y a de token et moins le LLM est performant.

Dans leur benchmark, GPT4-Turbo s'en sort mieux que les autres mais ils n'ont pas testé Claude 3 ou Gemini 1.5.

Dans un autre benchmark, Gemini 1.5 arrivait à de meilleurs résultats que GPT4-Turbo avec un très long contexte

Ils ont créé un benchmark pour continuer à analyser les performances des LLMs sur de long contextes: LongICLBench

I've put a complex codebase into a single 120K-token prompt, and asked 7 questions GPT-4 and Gemini 1.5. Here are the results! : singularity

A priori le modèle Gemini de Google s'en sort beaucoup mieux sur des prompts long.

Ici l'auteur pose des question avec la totalité de sa code base dans les 120K tokens du prompt

Mitigating Spectre and Other Security Threats: The Cloudflare Workers Security Model

Un article très détaillé sur le fonctionnement des Cloudflare Worker (le service serverless de Cloudflare).

Beaucoup de détails sont donnés sur la manière dont Cloudflare sécurise des environnements isolés pour ses clients et notamment sur les méthodes utilisés pour mitiger les attaques Spectre

PEFT - Parameter Efficient Fine-Tuning

Un guide très complet sur le fine tuning de modèles.

La méthode décrite dans ce guide se nomme PEFT (Parameter Efficient Fine-Tuning) et permet de fine tuné uniquement un certain nombres de paramètres d'un modèle.

Cela permet de conserver les performances d'origines sur la majorité des cas (e.g. la compréhension de la langue et les connaissances d'entrainement) tout en améliorant les performances sur une tâche précise.

C'est ce genre de méthode qui est très populaire dans les modèles d'image pour contrôler la génération et avoir des images du même style.

OpenBioLLM-Llama3-70B
thumbnail

Ce modèle est une version fine tuné de LlaMa 3 pour le domaine médical.

Il surpasse GPT-4 sur les benchmark portant sur des dataset du domaine médical.

Encore une fois un signe que le fine tuning a de l'avenir pour créer des LLMs spécialisés.

A l'intérieur des LLMs: comprendre les tokens - Generative AI France
thumbnail

Un article que j'ai écrit à propos des tokens pour comprendre la manière dont ils découpent le texte avant d'être envoyé au LLM.

mistral.rs: Blazingly fast LLM inference.
thumbnail

Un moteur d'inférence LLM qui fonctionne avec CPU et GPU.

C'est utilisable depuis du code python mais aussi en API HTTP.

Ça supporte la plupart des modèles Open Source:

  • Mistral 7B et 8x7B
  • LlaMa 2 et 3
  • Phi 2 et 3

Pour de la production je conseille d'utiliser le moteur d'inférence de Hugging Face car c'est scalable et surtout maintenu mais c'est une alternative plus portable à garder sous le coude.

Ecosia Browser, ou quand le greenwashing numérique fume la moquette tout en plantant des arbres
thumbnail

La communication d'Ecosia pue le greenwashing.

Le deal c'est Ecosia vous fait voir des pubs et en échange ils plantent des arbres avec l'argent.

A voir si le coût énergétique des pubs est vraiment contrebalancé par les arbres qu'ils plantent.

Dans tous les cas, je préfère ne pas utiliser ce genre d'outil.

LlaMa Hub Rag Evaluation Datasets

Une collection de datasets pour évaluer un RAG est disponible chez LlaMa Hub.

Par exemple, ce dataset contient 44 questions et réponses basées sur les articles de Paul Graham. (Pas forcément le meilleur car il y a de fortes chances que ces articles soient dans les données d'entraînement de votre LLM)

Les évaluations se font entre autre avec le module LabelledRagDataset de LlaMaIndex.

On peut aussi créer ses propres datasets bien sûr.

Effect – The best way to build robust apps in TypeScript
thumbnail

La syntax de Javascript est tellement nul que depuis le début du langage, tout le monde cherche à utiliser des syntaxes alternatives.

Aucune de ces syntaxes ne survit sur le long terme car cela rajoute une couche de complexité à appréhender pour les développeurs.

Ici on a une nouvelle syntaxe qui change complètement le paradigme et le flow d'exécution.

Attention à ne pas mettre ce genre de chose en prod car c'est une énorme dette technique instantanément

Ragas - Evaluate RAG system

RAGAS est un framework pour évaluer les RAG.

Il propose d'évaluer les deux aspects importants du RAG, à savoir:

  • le retrieval: le RAG est-il capable de retrouver les documents pertinents?
  • la génération: le RAG est-il capable de générer une réponse à la question?

Il y a plusieurs évaluateurs de disponible pour évaluer ces deux critères.

Pour tout ce qui est évaluation de la réponse à la question, RAGAS propose d'utiliser GPT4.

A noter aussi, le framework ARES

Tips on Adding JSON Output to Your CLI App
thumbnail

Une liste de bon conseils pour structurer son JSON correctement dans la sortie d'une CLI.

IA pas que la Data : #7 - AI Act / Normes ISO : une nécessité pour une IA éthique et de confiance ?
thumbnail

Je ne partage pas souvent des podcast mais dans celui-ci on en apprend un peu plus sur l'IA Act (à partir de 23 min)

Notamment, le texte originel n'était pas pensé pour la GenAI et il sera surement amendé dans les prochains mois.

InstructLab - synthetic data-based alignment tuning method for Large Language Models
thumbnail

Un framework de fine tuning de LLMs.

Afin de pouvoir fine tuner des modèles même avec très peu de données (5-10 question/answer), ils ont une méthode pour générer de la donnée supplémentaire.

D'ailleurs, on voit qu'ils ont prévu les cas de RAG car on peut aussi renseigner un contexte

C'est une contribution en provenance des labo de recherche d'IBM.

VASA-1 - Microsoft Research

Un modèle d'IA capable de réaliser des clips vidéos de têtes de personnes en incluant des mouvements avancés du visage comme des émotions.

En entrée, il lui suffit d'une image et d'un clip audio.

Impressionnant et en même temps ça fait peur pour les deepfakes

Mistral 8x22B - Cheaper, Better, Faster, Stronger

Mistral release leur nouveau modèle.

C'est le modèle qui présente le meilleur ratio performances / coût. Bien meilleur que le modèle Command R+ de Cohere par exemple.

Les performances sont bien en dessous de GPT 4 et Claude 3 Opus

Ça reste néanmoins le meilleur modèle Open Source et donc une très bonne base pour du fine tuning par exemple

Verified curl

La liste de toutes les procédures mises en place pour assurer la fiabilité de la supply chain pour cURL et éviter un fiasco comme avec xz

Understanding OpenAI’s “Temperature” and “Top_p” Parameters in Language Models

Les paramètres "temperature" et "top_p" contrôlent les choix fait par le LLM pour choisir les tokens les plus probable lors de la génération.

Plus la température est haute, plus le LLM sera à même de choisir des tokens ayant une faible probabilité d'apparaitre.

Top_p définit le nombre de tokens considérés pour la génération, ainsi une valeur élevé permettra au LLM de choisir parmi plus de mots.

Appel à projets « Accélérer l’usage de l’intelligence artificielle générative dans l’économie » | Bpifrance

La BPI lance un appel à projet autour de la GenAI avec à la clé entre 1 et 5 millions d'euro de financement.

RAFT: Adapting Language Model to Domain Specific RAG

Une méthode très intéressante pour améliorer les performances d'un RAG avec du fine tuning de modèle.

En gros on va créer un dataset contenant:

  • une question
  • un document pertinent pour y répondre
  • un document non pertinent ("distractor")
  • la réponse générée depuis le document pertinent
  • une chaine de pensée (Chain of Thought) expliquant le raisonnement (généré par GPT4 par exemple)

Ensuite il faut fine tuner un modèle avec ce dataset (Voir ce LlamaPack ou un exemple sur Azure AI)

Ils ont des résultats avec Llama2 7B qui sont meilleurs que GPT3.5 + RAG.

Dommage qu'ils n'aient pas comparés avec GPT4 + RAG mais c'est surement parce que GPT4 est meilleur. Il faudrait fine tuner un modèle de 4è génération Open Source comme Mistral ou GPT4 via l'API de fine tuning pour arriver à des résultats vraiment bons.

Firefox surpasse désormais Google Chrome en termes de performances selon l'outil de benchmark Speedometer
thumbnail

Firefox n'a pas dit son dernier mot, ces derniers mois ils ont progressivement amélioré les perfs du navigateur jusqu'à dépasser Chrome aujourd'hui 😄

Large Language Models Suffer From Their Own Output: An Analysis of the Self-Consuming Training Loop - 2311.16822.pdf

Les performances des LLM baissent significativement lorsqu'on les entraines sur des données générées par d'autres LLM.

C'est le challenge des prochains mois/années, pouvoir distinguer les données générées par un LLM pour les exclure des données d'entrainement

auto-code-rover: Autonomous program improvement
thumbnail

Un autre Agent capable de résoudre des issues GitHub.

Ils font mieux que Devin (13%) avec 22% des issues du SWE-bench-lite résolues

Sur le benchmark classique, ils sont à 16% vs le précédent SOTA, SWE-agent à 12.30

UncovAI - Detect AI content
thumbnail

Un outil de détection des contenus créés par IA (texte, image et son).

La grosse différence c'est qu'ils ne se basent pas sur un algorithme d'IA mais sur un système d'algorithmes mathématiques.

Du coup, pas besoin de GPU pour faire tourner une détection, un simple CPU et quelques centaines de ms suffisent !

Ce genre de techno est indispensable à toute personne souhaitant entrainer son propre modèle car il faut absolument écarter les données générées par IA pour l'entrainement des modèles de fondation.

Monolith - CLI tool for saving complete web pages as a single HTML file
thumbnail

Un outil en ligne de commande pour sauvegarder une page web avec toutes ses ressources externes dans un seul fichier

karpathy/llm.c: LLM training in simple, raw C/CUDA
thumbnail

Une implémentation de GPT2 en 1000 lignes de code C.

Karpathy cherche à dénoncer la complexité de l'écosystème de machine learning en général avec des centaines de Mo (!) de code Python à télécharger pour faire tourner le moindre programme d'IA.

Une bulle d’intelligence artificielle et de stupidité naturelle
thumbnail

Un avis critique de Ploum sur la GenAI.

Je suis au moins d'accord sur le fait qu'il y a belle et bien une bulle. On a vu par exemple Stability AI qui n'a plus d'argent pour payer ses factures de cloud et il y a beaucoup d'entreprises qui ont de la même manière "cramé" l'argent des VCs sans avoir de business modèle.

princeton-nlp/SWE-agent: SWE-agent takes a GitHub issue and tries to automatically fix it, using GPT-4, or your LM of choice. It solves 12.29% of bugs in the SWE-bench evaluation set and takes just 1.5 minutes to run.
thumbnail

Un Agent Open Source comme Devin qui est capable de résoudre des issues Github.

Sur SWE-Bench, ils sont à 12.29 vs 13.84 (Devin, SOTA)

On est pas encore au niveau d'un développeur junior mais ça progresse.

jpillora/chisel: A fast TCP/UDP tunnel over HTTP
thumbnail

Un tunnel TCP en HTTP qui permet de contourner les restrictions de port.

NVIDIA ChatRTX
thumbnail

Nvidia se fait de la pub en lançant une application de RAG locale qui utilise un de ses GPU pour fonctionner.

Sous le capot c'est Llama 2 et une simple DB vectorielle (Faiss).

Bref, plus une démo marketing qu'un vrai produit :-)

AutoRFP.ai Pricing
thumbnail

Un Agent LLM qui aide à répondre automatiquement aux questionnaires des grandes entreprises quand on leur vend des solutions SaaS par exemple