Comme Javascript, l'écosystème Python est aussi un sacré bordel 😅
Un rapport sur l'application des pratiques de sécurité dans le monde médical.
Ces pratiques sont souvent écrites par des experts en sécurité n'ayant aucune idée de la réalité du monde médical et de ses contraintes du coup les soignants passent leur temps à trouver des contournement.
Un outil en ligne de commande pour sauvegarder une page web avec toutes ses ressources externes dans un seul fichier
Un projet qui propose une interface de recherche à la Perplexity en local et 100% gratuit en se basant sur l'API publique de ChatGPT.
En gros ça permet de répondre à vos questions en agrégeant les résultats des moteurs de recherche comme un RAG
Une implémentation de GPT2 en 1000 lignes de code C.
Karpathy cherche à dénoncer la complexité de l'écosystème de machine learning en général avec des centaines de Mo (!) de code Python à télécharger pour faire tourner le moindre programme d'IA.
Un article que j'ai écrit sur l'utilisation des LLMs chez Didask et plus généralement sur la manière dont on peut donner des instructions précises à des LLMs pour en faire des experts capables d'exécuter des tâches précises.
Je parle aussi de quelques unes de nos techniques de Prompt Engineering :-)
Huggingface passe son moteur d'inférence texte en Apache 2.
C'est une excellente nouvelle car c'est cette techno qui fait tourner HuggingFace.
Ça permet de servir des modèles à travers une API. C'est un Python et en Rust et de gros efforts ont été fait sur la scalabilité.
Cela permet à tout le monde de déployer un système d'inférence robuste au sein de son infrastructure.
Un avis critique de Ploum sur la GenAI.
Je suis au moins d'accord sur le fait qu'il y a belle et bien une bulle. On a vu par exemple Stability AI qui n'a plus d'argent pour payer ses factures de cloud et il y a beaucoup d'entreprises qui ont de la même manière "cramé" l'argent des VCs sans avoir de business modèle.
Un article que j'ai écrit pour parler de la hype autour des bases de données vectorielles et de pourquoi il vaut mieux utiliser une base de données classique avec fonctionnalité de recherche vectorielle comme Elasticsearch ou Postgres.
Github va un peu plus loin dans la génération de code en proposant un service de correction automatique des vulnérabilités détectées dans les repository.
Sous le capot c'est du GPT4 qui propose une modification d'une PR pour fix une potentielle faille de sécurité.
A priori ça reste des choses assez simple et cantonnées à un seul endroit comme échapper du HTML, éviter un prototype polution, etc
Pour l'instant, les failles sont détectées par des outils conventionnels et corrigé par GPT4 mais plus tard elles pourront aussi être détectés par GPT4
Les moteurs de recherche ne sont pas prêt de disparaitre.
Outre la différence phénoménal de coût entre une requête Google et une génération, il faut aussi se rappeler que beaucoup de requêtes sont de la navigation ("youtube" pour aller sur https://youtube.com) ou de l'information temps réel comme "météo montpellier".
Un Agent Open Source comme Devin qui est capable de résoudre des issues Github.
Sur SWE-Bench, ils sont à 12.29 vs 13.84 (Devin, SOTA)
On est pas encore au niveau d'un développeur junior mais ça progresse.
Le coût d'entrainement des LLMs a drastiquement baissé en seulement quelques mois.
JetMoE offre des performances similaires à Llama 2 mais avec un coût d'entrainement de seulement 100 000$ vs 5 000 000$ pour Llama 2.
Une étude sur les performances des LLMs sur de longs contexte.
Même si les LLMs supportent des contextes très long maintenant, ce n'est pas un secret que plus il y a de token et moins le LLM est performant.
Dans leur benchmark, GPT4-Turbo s'en sort mieux que les autres mais ils n'ont pas testé Claude 3 ou Gemini 1.5.
Dans un autre benchmark, Gemini 1.5 arrivait à de meilleurs résultats que GPT4-Turbo avec un très long contexte
Ils ont créé un benchmark pour continuer à analyser les performances des LLMs sur de long contextes: LongICLBench
Un tunnel TCP en HTTP qui permet de contourner les restrictions de port.
OpenAI fait un peu de teasing sur son modèle de text-to-speech et le produit VoiceEngine qui permet de créer des voix à partir d'un court extrait audio.
Des boîtes comme Heygen auraient déjà accès à ce modèle.
Pour l'instant ce produit reste en usage restreint, notamment pour laisser le temps de remplacer les systèmes de sécurité basés sur la voix
Nvidia se fait de la pub en lançant une application de RAG locale qui utilise un de ses GPU pour fonctionner.
Sous le capot c'est Llama 2 et une simple DB vectorielle (Faiss).
Bref, plus une démo marketing qu'un vrai produit :-)
A priori le modèle Gemini de Google s'en sort beaucoup mieux sur des prompts long.
Ici l'auteur pose des question avec la totalité de sa code base dans les 120K tokens du prompt
Stability AI n'a plus d'argent pour payer ses factures de cloud de presque 100 millions de dollars avec seulement 11 millions de revenus.
Dans les prochains mois, je pense que de nombreux fournisseurs de cloud IA vont suivre le même chemin vu que beaucoup on eu la même tactique en cassant les prix pour attirer des utilisateurs.
Un Agent LLM qui aide à répondre automatiquement aux questionnaires des grandes entreprises quand on leur vend des solutions SaaS par exemple