Monthly Shaarli
April, 2024
vLLM est un serveur d'inférence pour LLM.
Avec (Text Generation Inference](https://links.aschen.tech/shaare/Go1xSQ) (TGI) de Hugging Face, c'est une des référence pour monter sa propre infrastructure capable de servir des LLMs.
Langfuse est un outil Open Source très utile pour l'observabilité des applications GenAI avec un système de trace très réussi qui permet d'analyser le comportement des applications en production. ((On en parlait déjà il y a quelque temps](https://links.aschen.tech/shaare/k-yB-Q))
Ils ont sorti Langfuse v2 avec notamment une fonctionnalité très attendu: l'évaluation automatique
Il est maintenant possible de définir des "evaluator" qui utilisent un LLM pour évaluer la qualité d'une réponse ayant été générée.
Par exemple, on peut utilise un evaluator pour noter automatiquement de manière négative les interactions ou un RAG n'a pas réussi à répondre à la question de l'utilisateur.
Nous utilisons Langfuse pour tous nos usages de GenAI et je dois dire que c'est un franc succès car cela permet aux équipes de Prompt Engineer de superviser ce qu'ils déploient en production et l'évaluation automatique va nous permettre de passer à la vitesse supérieur.
Une IA qui appel et répond au téléphone.
C'est assez incroyable, on peut mettre son numéro de téléphone et l'IA nous appelle.
Je lui ait demandé ce qu'elle pensait de mon entreprise par exemple et on a eu une conversation sur le futur de e-learning.
Une solution clé en main complète autour des LLMs:
- Assistant IA en NoCode
- Génération de documents
- Traduction
- Ingestion de sources externes (fichier, web, Notion)
- RAG intégré
Il y a aussi une version Open Source.
Ça fait un peu usine à gaz mais ça à le mérite d'être complet et rapide à mettre en place.
2 modèles de re-ranking open source ont été release par Jina.
Pour rappel, le re-ranking est une méthode supplémentaire utilisée pour noter la pertinence de documents retrouvés dans la partie retrieval d'un RAG.
Ce sont de plus petits modèles de langue qui coûtent beaucoup moins cher à faire fonctionner et qui donne une note de similarité supplémentaire en plus de la simple recherche vectorielle.
Ça me rappelle le temps des modèles comme BERT par exemple.
Des chercheurs exploitent des "failles" des anti-virus pour les amener à supprimer des fichiers.
Pour ça, il leur suffit d'ajouter des chaines de caractères faisant partie de la base de signatures de virus connus.
Par exemple en remplissant un formulaire, la chaine de caractère identifiée comme étant part d'un virus va se retrouver dans un fichier du serveur et l'antivirus risque de le supprimer (surement avec d'autres données au passage)
Une méta-étude sur les RAG.
Au programme les techniques pour chaque étape:
- pre-retrieval: query extension, data modification
- retrieval
- post-retrieval: re-ranking, filtering
- generation
- evaluation
OpenAI a ajouté l'inpainting dans ChatGPT Plus.
On peut maintenant sélectionner une zone et indiquer à ChatGPT de quelle manière on souhaiterait la modifier
FineWeb est un dataset crawlé depuis internet et épuré au maximum des contenus générés par d'autres IA.
Il contient 15 000 milliards de tokens et peut être utilisé pour entraîner des LLM depuis zéro.
Note: à priori vous ne voulez pas faire ça vous même mais plutôt fine tuner un modèle existant
LlaMA 3 sur Groq est d'une vitesse incroyable: 800 token/sec.
Les modèles sont disponible sur l'API de Groq Cloud
Ils n'ont pas encore d'offre entreprise payante mais on peut déjà essayer avec le free tiers
Une animation interactive pour explorer l'infiniment petit et l'infiniment grand :-)
Ça me rappelle le documentaire "Puissances de dix" (qui commence à dater un peu)
On a souvent besoin d'extraire le contenu d'une page web et de le convertir en markdown quand on travaille avec des LLMs.
Ce script de 75 lignes de JS utilise Playwright pour convertir n'importe quel site en document markdown
IA Act est en application depuis le 13 mars 2024.
Concrètement, il y a 4 types de Systèmes d'IA (SIA):
1) SIA à risque inacceptable (e.g. scoring social)
2) SIA très risqués (e.g. recrutement)
3) SIA avec obligation de transparence (e.g chatbot, génération)
4) SIA à risque minime ou nul (e.g. maintenance prédictive)
Pour ceux qui rentrent dans la 3e catégorie, il faut respecter les points suivants:
- informer les gens qu'ils interagissent avec un système d'IA
- informer en cas d'usage de système de reconnaissance émotionnelle ou de catégorisation par biométrie
- apposer un label identifiant les contenus modifiés ou créés grâce à une IA
(Le type d'entité du formulaire est "Fabricant de produits")
OpenAI sort sa dernière version du modèle GPT4 Turbo avec des performances sensiblement meilleures
Il faut maintenant utiliser le modèle gpt-4-turbo pour être sur de pointer sur la dernière version en date (9 avril 2024).
Les modèles GPT 4 turbo preview ne devraient plus être utilisés.
Une compétition de RAG. Je trouve ça intéressant de garder sous la main les 8 types de questions:
-
Question simple : questions demandant des faits simples, comme la date de naissance d'une personne et les auteurs d'un livre.
-
Question simple avec certaines conditions : questions demandant des faits simples avec certaines conditions données, telles que le cours de l'action à une certaine date et les films récents d'un réalisateur dans un certain genre.
-
Set Question: Questions qui attendent un ensemble d'entités ou d'objets comme réponse. Un exemple : quels sont les continents de l’hémisphère sud ?
-
Question de comparaison : des questions qui peuvent comparer deux entités, comme par exemple qui a commencé à se produire plus tôt, Adele ou Ed Sheeran ?
-
Question d'agrégation : questions qui peuvent nécessiter une agrégation des résultats de récupération pour répondre, par exemple, combien d'Oscars Meryl Streep a-t-elle remportés ?
-
Questions multi-sauts : questions qui peuvent nécessiter d'enchaîner plusieurs éléments d'information pour composer la réponse, comme par exemple qui a joué dans le dernier film d'Ang Lee ?
-
Question de post-traitement : questions qui nécessitent un raisonnement ou un traitement des informations récupérées pour obtenir la réponse, par exemple : combien de jours Thurgood Marshall a-t-il été juge à la Cour suprême ?
-
Question à faux prémisse : questions comportant une fausse préposition ou hypothèse ; par exemple, quel est le nom de l'album rap de Taylor Swift avant sa transition vers la pop ? (Taylor Swift n'a sorti aucun album de rap.)
Il fallait s'y attendre, le gadget qui a fait beaucoup de bruit est tout simplement nul.
Ergonomie pas au point et peu d'autonomie en plus d'être décevant sur les fonctionnalités IA comme la reconnaissance d'image.
Bref, poubelle.
Gemini 1.5 est disponible pour le grand publique.
Non seulement le modèle est très prometteur sur une fenêtre de tokens très entendue (jusqu'à 1 millions de tokens !) mais en plus il est moins cher que GPT4 Turbo avec 7$ vs 10$ le million de tokens en input et 21$ vs 30$ le million de tokens en output.
On retiendra bien sûr la meilleur performance à moindre coût mais on retiendra aussi l'avance de OpenAI qui a sorti GPT 4 il y a 18 mois et GPT4 Turbo il y a 6 mois.
Bref, Gemini est un des meilleurs modèle de 4e génération jusqu'à l'arrivée de GPT5.
Groq pivote vers le cloud plutôt que le hardware.
Ils envisagent de vendre leurs LPU à de grosses boites mais sinon tout se fera sur le nouveau cloud qu'ils prévoient de déployer.
Clairement c'est game changer pour eux car la marge va exploser en vendant du cloud plutôt que du hardware.
Comme Javascript, l'écosystème Python est aussi un sacré bordel 😅
Un rapport sur l'application des pratiques de sécurité dans le monde médical.
Ces pratiques sont souvent écrites par des experts en sécurité n'ayant aucune idée de la réalité du monde médical et de ses contraintes du coup les soignants passent leur temps à trouver des contournement.
Un article que j'ai écrit sur l'utilisation des LLMs chez Didask et plus généralement sur la manière dont on peut donner des instructions précises à des LLMs pour en faire des experts capables d'exécuter des tâches précises.
Je parle aussi de quelques unes de nos techniques de Prompt Engineering :-)
Un article que j'ai écrit pour parler de la hype autour des bases de données vectorielles et de pourquoi il vaut mieux utiliser une base de données classique avec fonctionnalité de recherche vectorielle comme Elasticsearch ou Postgres.
Les moteurs de recherche ne sont pas prêt de disparaitre.
Outre la différence phénoménal de coût entre une requête Google et une génération, il faut aussi se rappeler que beaucoup de requêtes sont de la navigation ("youtube" pour aller sur https://youtube.com) ou de l'information temps réel comme "météo montpellier".
Le coût d'entrainement des LLMs a drastiquement baissé en seulement quelques mois.
JetMoE offre des performances similaires à Llama 2 mais avec un coût d'entrainement de seulement 100 000$ vs 5 000 000$ pour Llama 2.
OpenAI fait un peu de teasing sur son modèle de text-to-speech et le produit VoiceEngine qui permet de créer des voix à partir d'un court extrait audio.
Des boîtes comme Heygen auraient déjà accès à ce modèle.
Pour l'instant ce produit reste en usage restreint, notamment pour laisser le temps de remplacer les systèmes de sécurité basés sur la voix
Stability AI n'a plus d'argent pour payer ses factures de cloud de presque 100 millions de dollars avec seulement 11 millions de revenus.
Dans les prochains mois, je pense que de nombreux fournisseurs de cloud IA vont suivre le même chemin vu que beaucoup on eu la même tactique en cassant les prix pour attirer des utilisateurs.
Les LogProbs sont des métadonnées retournées avec la génération et elles indiquent la confiance du modèle dans le texte généré.
Dans le cas d'un RAG cela est extrêmement utile car ces informations peuvent nous aider à renvoyer un score de pertinence de la réponse généré.
Par exemple, si le prompt ne contient pas suffisamment d'informations pour répondre à la question, au mieux la réponse sera incomplète, au pire elle sera pleine d'hallucination.
Avec les LogProbs, il est possible de savoir quel degré de confiance accorder à cette réponse et de transmettre cette information à l'utilisateur ou de basculer sur un autre processus (nouvelle requête, prompt différent, etc)
Cet article utilise l'API d'OpenAI mais techniquement c'est possible de le faire avec n'importe quel modèle (pour peu que l'API retournent ces métadonnées)
Un cours de Stanford sur les transformers.
Microsoft sort Phi-3 et tente de changer de paradigme avec un "Small Language Model" (SLM) vs les traditionnels LLMs.
SLM car une des version de Phi-3 ne possède "que" 4 milliards de paramètres, c'est 2 fois moins que LlaMa-3 8B ou Mistral 7B (le "B" signifie "billions").
Cette version Phi-3-mini surpasserait les modèles LlaMa-3 8B et Mistral 7B.
Un petit modèle c'est un modèle moins gourmand en ressources et donc plus rapide sur une grosse carte graphique de datacenter mais aussi possible sur du matériel de particulier.
Deux autres versions sont aussi disponibles: Phi-3-small (7B) et Phi-3-medium (14B).
Tous les modèles ont une fenêtre de contexte de 128K tokens.
L'État français a fine tuné des modèles Open Source (LlaMa 2 et Mistral 7b) avec les données des procédures administratives afin de répondre correctement aux questions des utilisateurs.
C'est un choix curieux de fine tune les modèles plutôt que de faire un RAG car du coup la mise à jour de la connaissances est très difficile (impossible sans ré-entrainer)
Je me demande combien ça a coûté pour le fine tuning.
Un papier de recherche sur une méthode pour avoir une fenêtre de contexte virtuellement infinie.
Le mécanisme d'attention de Transformers présente une complexité quadratique (sous la forme O(na)) la fois en termes d'empreinte mémoire et de temps de calcul.
Leur méthode propose de réduire cette complexité en utilisant une une "mémoire compressée".
Dans les benchmarks, leur modèle utilise seulement 1.6Mo de mémoire vs 50 à 180Mo que des modèle Transformer classique ayant le même nombre de paramètre (et les perfs sont meilleures)
Cela questionne l'utilisation des RAG sans toutefois les remettre en question entièrement.
-
un contexte infini ne fait pas tout car on a remarqué que même avec 128K de contexte dans GPT-4, les résultats sont quand même meilleurs lorsque les prompts sont moins longs.
-
le coût de poser 128K tokens dans un prompt n'est pas le même que de sélectionner attentivement et de poser seulement les 4K tokens intéressants
PS: j'aime beaucoup ce format HTML des papiers de recherche, j'avoue ne jamais avoir apprécié le format LaTeX standard
Une méta-étude sur l'avancement de la recherche sur une architecture alternative à celle des Transformers.
State Space Model (SSM) est une architecture qui se veut plus économe en terme de puissance de calcul nécessaire pour l'entrainement et la génération.
Pour l'instant on en est toujours au début et rien de concrètement utilisable au vu des faibles performances mais c'est bien de garder un oeil la dessus pour le futur.
OpenAI a sorti une mise à jour de son API pour créer des Assistants.
On peut notamment utiliser jusqu'à 10000 fichiers dans leur RAG intégré et streamer les réponses.
Les Assistants permettent de développer très rapidement des POC d'Agents spécialisés en entreprise mais le côté boîte noir finit par se payer comme pour tout produit complètement fermé.
Un retour d'expérience sur l'utilisation de GPT4 pour un usage modéré (500M tokens sur 6 mois).
Les retours d'expérience que je partage:
- Langchain et LlamaIndex ça apporte une couche d'abstraction supplémentaire difficile à maitriser alors que le SDK simple suffit
- le streaming pour faire attendre les utilisateurs est indispensable
- GPT4 a du mal à ne pas halluciner plutôt que de se taire lorsqu'il n'a pas d'info suffisantes
- la fenêtre de contexte de 128K c'est que en input, pour l'output ça n'a pas bougé et c'est toujours 4K tokens seulement
- les bases de données vectorielle sont inutiles dans la majorité des cas
Un système de queue qui utilise Postgres.
Ils expliquent comment ils ont construit cette gestion des queues et surtout le dépilage des tâches par des workers en présentant la structure des tables et les requêtes.
Ça à l'air chouette mais encore très peinture fraiche donc prudence :-)
On attendait l'annonce de Meta sur la sortie de LlaMa 3 (8B et 70B) et c'est maintenant chose faite :-)
Pas trop de surprise avec un modèle aux performances similaires que tous les autres gros modèles de 4e génération comme GPT4 Turbo, Claude 3 Opus, Mistral 8x22B et Gemini 1.5.
Par contre pour l'instant la fenêtre de contexte n'est que de 8K tokens ce qui est très peu comparer à ce qu'il se fait maintenant. On peut s'attendre à une mise à jour du modèle dans les prochaines semaines pour améliorer ça.
Un autre très bon modèle open source qui aura sa carte à jouer dans les prochains mois avec l'entrainement et le fine tuning de modèles.
Sinon dans les annonces, il y aurait aussi un modèle à 400B paramètres de prévu ce qui est énorme
La version 3 de Stable Diffusion est disponible en API chez Stability AI.
La génération d'image est meilleure et ils ont fait de gros efforts sur l'insertion de texte dans les images.
Très bonne analyse de ce qu'il faut pour un véritable leadership.
Vous ne pouvez pas être responsable de quelque chose que vous ne contrôlez pas. Il faut le mandat.
Vous ne pouvez pas utiliser ce mandat efficacement pour quelque chose que vous ne comprenez pas. Vous avez besoin de connaissances.
Vous n’acquérez des connaissances que si vous êtes entièrement responsable des conséquences de votre mandat.
Une méta étude sur les RAG avec notamment:
- Sentence-window retrieval
- Document summary index
- HyDE
- Multi-query
- Maximal Marginal Relevance
- Cohere Re-ranker
- LLM-based Re-ranker
L'étude montre que la combinaisons des méthodes Sentence Window Retrieval, LLM Rerank, Cohere Rerank et HyDE donnent les meilleurs résultats.
Dommage que l'étude ne parle pas des techniques qui limitent le chunking et d'autre chose méthode que les seules Vector Database pour récupérer les documents comme Elasticsearch par exemple.
Une solution pour faciliter la réalisation et le déploiement d'applications event-driven.
Ça gère la distribution des évènements dans des queues pub/sub avec des SDKs mais aussi la partie déploiement local et production de la stack en mode IAC.
Il y a aussi une UI pour la configuration, l'observabilité, les logs, etc
Ça peut être intéressant plutôt que de partir sur une infrastructure Kafka ou Rabbit
Sans surprise, la vidéo de Devin qui prend une issue Upwork et la fix est pleine de fake.
Devin fix de soit disant erreurs dans des fichiers qui n'existent pas dans le repo et il utilise aussi des commandes Bash inutiles (head -n 5 file.json | tail -n 5)
Aussi, l'auteur de la vidéo a complété la tâche en 35 min et c'était assez simple vu que le Readme était très clair.
Bref encore une fois les Agents complètement autonomes restent très décevants.
Un retour de Figma sur une architecture de scaling de Postres
Un modèle multi-modal créé par Apple qui se spécialise dans la compréhension des UI mobile et autres interfaces graphiques.
Dans la même veine, il y a aussi CogVML
Un modèle open source de Text to Video.
Pour l'instant les vidéos générées sont soit courtes en 1024 (<3sec), soit plus longues en 512 (<10sec)
La cohérence de génération n'est pas parfaite non plus mais c'est un bon début!
L'avantage de ce genre de modèle Open Source c'est que la génération offrira beaucoup plus de contrôle qu'avec les modèles "API only" comme Sora.
Plusieurs startup du dernier batch YCombinator ont entrainé leur propre modèle de GenAI en seulement 2 mois et moins 500K$.
Pas que des LLM mais aussi un modèle de prévision météo ou un modèle de navigation.
Un projet qui propose une interface de recherche à la Perplexity en local et 100% gratuit en se basant sur l'API publique de ChatGPT.
En gros ça permet de répondre à vos questions en agrégeant les résultats des moteurs de recherche comme un RAG
Huggingface passe son moteur d'inférence texte en Apache 2.
C'est une excellente nouvelle car c'est cette techno qui fait tourner HuggingFace.
Ça permet de servir des modèles à travers une API. C'est un Python et en Rust et de gros efforts ont été fait sur la scalabilité.
Cela permet à tout le monde de déployer un système d'inférence robuste au sein de son infrastructure.
Github va un peu plus loin dans la génération de code en proposant un service de correction automatique des vulnérabilités détectées dans les repository.
Sous le capot c'est du GPT4 qui propose une modification d'une PR pour fix une potentielle faille de sécurité.
A priori ça reste des choses assez simple et cantonnées à un seul endroit comme échapper du HTML, éviter un prototype polution, etc
Pour l'instant, les failles sont détectées par des outils conventionnels et corrigé par GPT4 mais plus tard elles pourront aussi être détectés par GPT4
Une étude sur les performances des LLMs sur de longs contexte.
Même si les LLMs supportent des contextes très long maintenant, ce n'est pas un secret que plus il y a de token et moins le LLM est performant.
Dans leur benchmark, GPT4-Turbo s'en sort mieux que les autres mais ils n'ont pas testé Claude 3 ou Gemini 1.5.
Dans un autre benchmark, Gemini 1.5 arrivait à de meilleurs résultats que GPT4-Turbo avec un très long contexte
Ils ont créé un benchmark pour continuer à analyser les performances des LLMs sur de long contextes: LongICLBench
A priori le modèle Gemini de Google s'en sort beaucoup mieux sur des prompts long.
Ici l'auteur pose des question avec la totalité de sa code base dans les 120K tokens du prompt
Un article très détaillé sur le fonctionnement des Cloudflare Worker (le service serverless de Cloudflare).
Beaucoup de détails sont donnés sur la manière dont Cloudflare sécurise des environnements isolés pour ses clients et notamment sur les méthodes utilisés pour mitiger les attaques Spectre
Un guide très complet sur le fine tuning de modèles.
La méthode décrite dans ce guide se nomme PEFT (Parameter Efficient Fine-Tuning) et permet de fine tuné uniquement un certain nombres de paramètres d'un modèle.
Cela permet de conserver les performances d'origines sur la majorité des cas (e.g. la compréhension de la langue et les connaissances d'entrainement) tout en améliorant les performances sur une tâche précise.
C'est ce genre de méthode qui est très populaire dans les modèles d'image pour contrôler la génération et avoir des images du même style.
Ce modèle est une version fine tuné de LlaMa 3 pour le domaine médical.
Il surpasse GPT-4 sur les benchmark portant sur des dataset du domaine médical.
Encore une fois un signe que le fine tuning a de l'avenir pour créer des LLMs spécialisés.
Un article que j'ai écrit à propos des tokens pour comprendre la manière dont ils découpent le texte avant d'être envoyé au LLM.
Un moteur d'inférence LLM qui fonctionne avec CPU et GPU.
C'est utilisable depuis du code python mais aussi en API HTTP.
Ça supporte la plupart des modèles Open Source:
- Mistral 7B et 8x7B
- LlaMa 2 et 3
- Phi 2 et 3
Pour de la production je conseille d'utiliser le moteur d'inférence de Hugging Face car c'est scalable et surtout maintenu mais c'est une alternative plus portable à garder sous le coude.
La communication d'Ecosia pue le greenwashing.
Le deal c'est Ecosia vous fait voir des pubs et en échange ils plantent des arbres avec l'argent.
A voir si le coût énergétique des pubs est vraiment contrebalancé par les arbres qu'ils plantent.
Dans tous les cas, je préfère ne pas utiliser ce genre d'outil.
Une collection de datasets pour évaluer un RAG est disponible chez LlaMa Hub.
Par exemple, ce dataset contient 44 questions et réponses basées sur les articles de Paul Graham. (Pas forcément le meilleur car il y a de fortes chances que ces articles soient dans les données d'entraînement de votre LLM)
Les évaluations se font entre autre avec le module LabelledRagDataset de LlaMaIndex.
On peut aussi créer ses propres datasets bien sûr.
La syntax de Javascript est tellement nul que depuis le début du langage, tout le monde cherche à utiliser des syntaxes alternatives.
Aucune de ces syntaxes ne survit sur le long terme car cela rajoute une couche de complexité à appréhender pour les développeurs.
Ici on a une nouvelle syntaxe qui change complètement le paradigme et le flow d'exécution.
Attention à ne pas mettre ce genre de chose en prod car c'est une énorme dette technique instantanément
RAGAS est un framework pour évaluer les RAG.
Il propose d'évaluer les deux aspects importants du RAG, à savoir:
- le retrieval: le RAG est-il capable de retrouver les documents pertinents?
- la génération: le RAG est-il capable de générer une réponse à la question?
Il y a plusieurs évaluateurs de disponible pour évaluer ces deux critères.
Pour tout ce qui est évaluation de la réponse à la question, RAGAS propose d'utiliser GPT4.
A noter aussi, le framework ARES
Une liste de bon conseils pour structurer son JSON correctement dans la sortie d'une CLI.
Je ne partage pas souvent des podcast mais dans celui-ci on en apprend un peu plus sur l'IA Act (à partir de 23 min)
Notamment, le texte originel n'était pas pensé pour la GenAI et il sera surement amendé dans les prochains mois.
Un framework de fine tuning de LLMs.
Afin de pouvoir fine tuner des modèles même avec très peu de données (5-10 question/answer), ils ont une méthode pour générer de la donnée supplémentaire.
D'ailleurs, on voit qu'ils ont prévu les cas de RAG car on peut aussi renseigner un contexte
C'est une contribution en provenance des labo de recherche d'IBM.
Un modèle d'IA capable de réaliser des clips vidéos de têtes de personnes en incluant des mouvements avancés du visage comme des émotions.
En entrée, il lui suffit d'une image et d'un clip audio.
Impressionnant et en même temps ça fait peur pour les deepfakes
Mistral release leur nouveau modèle.
C'est le modèle qui présente le meilleur ratio performances / coût. Bien meilleur que le modèle Command R+ de Cohere par exemple.
Les performances sont bien en dessous de GPT 4 et Claude 3 Opus
Ça reste néanmoins le meilleur modèle Open Source et donc une très bonne base pour du fine tuning par exemple
La liste de toutes les procédures mises en place pour assurer la fiabilité de la supply chain pour cURL et éviter un fiasco comme avec xz
Les paramètres "temperature" et "top_p" contrôlent les choix fait par le LLM pour choisir les tokens les plus probable lors de la génération.
Plus la température est haute, plus le LLM sera à même de choisir des tokens ayant une faible probabilité d'apparaitre.
Top_p définit le nombre de tokens considérés pour la génération, ainsi une valeur élevé permettra au LLM de choisir parmi plus de mots.
La BPI lance un appel à projet autour de la GenAI avec à la clé entre 1 et 5 millions d'euro de financement.
Une méthode très intéressante pour améliorer les performances d'un RAG avec du fine tuning de modèle.
En gros on va créer un dataset contenant:
- une question
- un document pertinent pour y répondre
- un document non pertinent ("distractor")
- la réponse générée depuis le document pertinent
- une chaine de pensée (Chain of Thought) expliquant le raisonnement (généré par GPT4 par exemple)
Ensuite il faut fine tuner un modèle avec ce dataset (Voir ce LlamaPack ou un exemple sur Azure AI)
Ils ont des résultats avec Llama2 7B qui sont meilleurs que GPT3.5 + RAG.
Dommage qu'ils n'aient pas comparés avec GPT4 + RAG mais c'est surement parce que GPT4 est meilleur. Il faudrait fine tuner un modèle de 4è génération Open Source comme Mistral ou GPT4 via l'API de fine tuning pour arriver à des résultats vraiment bons.
Firefox n'a pas dit son dernier mot, ces derniers mois ils ont progressivement amélioré les perfs du navigateur jusqu'à dépasser Chrome aujourd'hui 😄
Les performances des LLM baissent significativement lorsqu'on les entraines sur des données générées par d'autres LLM.
C'est le challenge des prochains mois/années, pouvoir distinguer les données générées par un LLM pour les exclure des données d'entrainement
Un autre Agent capable de résoudre des issues GitHub.
Ils font mieux que Devin (13%) avec 22% des issues du SWE-bench-lite résolues
Sur le benchmark classique, ils sont à 16% vs le précédent SOTA, SWE-agent à 12.30
Un outil de détection des contenus créés par IA (texte, image et son).
La grosse différence c'est qu'ils ne se basent pas sur un algorithme d'IA mais sur un système d'algorithmes mathématiques.
Du coup, pas besoin de GPU pour faire tourner une détection, un simple CPU et quelques centaines de ms suffisent !
Ce genre de techno est indispensable à toute personne souhaitant entrainer son propre modèle car il faut absolument écarter les données générées par IA pour l'entrainement des modèles de fondation.
Un outil en ligne de commande pour sauvegarder une page web avec toutes ses ressources externes dans un seul fichier
Une implémentation de GPT2 en 1000 lignes de code C.
Karpathy cherche à dénoncer la complexité de l'écosystème de machine learning en général avec des centaines de Mo (!) de code Python à télécharger pour faire tourner le moindre programme d'IA.
Un avis critique de Ploum sur la GenAI.
Je suis au moins d'accord sur le fait qu'il y a belle et bien une bulle. On a vu par exemple Stability AI qui n'a plus d'argent pour payer ses factures de cloud et il y a beaucoup d'entreprises qui ont de la même manière "cramé" l'argent des VCs sans avoir de business modèle.
Un Agent Open Source comme Devin qui est capable de résoudre des issues Github.
Sur SWE-Bench, ils sont à 12.29 vs 13.84 (Devin, SOTA)
On est pas encore au niveau d'un développeur junior mais ça progresse.
Un tunnel TCP en HTTP qui permet de contourner les restrictions de port.
Nvidia se fait de la pub en lançant une application de RAG locale qui utilise un de ses GPU pour fonctionner.
Sous le capot c'est Llama 2 et une simple DB vectorielle (Faiss).
Bref, plus une démo marketing qu'un vrai produit :-)
Un Agent LLM qui aide à répondre automatiquement aux questionnaires des grandes entreprises quand on leur vend des solutions SaaS par exemple