Gemini 1.5 est disponible pour le grand publique.
Non seulement le modèle est très prometteur sur une fenêtre de tokens très entendue (jusqu'à 1 millions de tokens !) mais en plus il est moins cher que GPT4 Turbo avec 7$ vs 10$ le million de tokens en input et 21$ vs 30$ le million de tokens en output.
On retiendra bien sûr la meilleur performance à moindre coût mais on retiendra aussi l'avance de OpenAI qui a sorti GPT 4 il y a 18 mois et GPT4 Turbo il y a 6 mois.
Bref, Gemini est un des meilleurs modèle de 4e génération jusqu'à l'arrivée de GPT5.
Un modèle multi-modal créé par Apple qui se spécialise dans la compréhension des UI mobile et autres interfaces graphiques.
Dans la même veine, il y a aussi CogVML
Un autre Agent capable de résoudre des issues GitHub.
Ils font mieux que Devin (13%) avec 22% des issues du SWE-bench-lite résolues
Sur le benchmark classique, ils sont à 16% vs le précédent SOTA, SWE-agent à 12.30
Un modèle open source de Text to Video.
Pour l'instant les vidéos générées sont soit courtes en 1024 (<3sec), soit plus longues en 512 (<10sec)
La cohérence de génération n'est pas parfaite non plus mais c'est un bon début!
L'avantage de ce genre de modèle Open Source c'est que la génération offrira beaucoup plus de contrôle qu'avec les modèles "API only" comme Sora.
Un outil de détection des contenus créés par IA (texte, image et son).
La grosse différence c'est qu'ils ne se basent pas sur un algorithme d'IA mais sur un système d'algorithmes mathématiques.
Du coup, pas besoin de GPU pour faire tourner une détection, un simple CPU et quelques centaines de ms suffisent !
Ce genre de techno est indispensable à toute personne souhaitant entrainer son propre modèle car il faut absolument écarter les données générées par IA pour l'entrainement des modèles de fondation.
Groq pivote vers le cloud plutôt que le hardware.
Ils envisagent de vendre leurs LPU à de grosses boites mais sinon tout se fera sur le nouveau cloud qu'ils prévoient de déployer.
Clairement c'est game changer pour eux car la marge va exploser en vendant du cloud plutôt que du hardware.
Plusieurs startup du dernier batch YCombinator ont entrainé leur propre modèle de GenAI en seulement 2 mois et moins 500K$.
Pas que des LLM mais aussi un modèle de prévision météo ou un modèle de navigation.
Comme Javascript, l'écosystème Python est aussi un sacré bordel 😅
Un rapport sur l'application des pratiques de sécurité dans le monde médical.
Ces pratiques sont souvent écrites par des experts en sécurité n'ayant aucune idée de la réalité du monde médical et de ses contraintes du coup les soignants passent leur temps à trouver des contournement.
Un outil en ligne de commande pour sauvegarder une page web avec toutes ses ressources externes dans un seul fichier
Un projet qui propose une interface de recherche à la Perplexity en local et 100% gratuit en se basant sur l'API publique de ChatGPT.
En gros ça permet de répondre à vos questions en agrégeant les résultats des moteurs de recherche comme un RAG
Une implémentation de GPT2 en 1000 lignes de code C.
Karpathy cherche à dénoncer la complexité de l'écosystème de machine learning en général avec des centaines de Mo (!) de code Python à télécharger pour faire tourner le moindre programme d'IA.
Un article que j'ai écrit sur l'utilisation des LLMs chez Didask et plus généralement sur la manière dont on peut donner des instructions précises à des LLMs pour en faire des experts capables d'exécuter des tâches précises.
Je parle aussi de quelques unes de nos techniques de Prompt Engineering :-)
Huggingface passe son moteur d'inférence texte en Apache 2.
C'est une excellente nouvelle car c'est cette techno qui fait tourner HuggingFace.
Ça permet de servir des modèles à travers une API. C'est un Python et en Rust et de gros efforts ont été fait sur la scalabilité.
Cela permet à tout le monde de déployer un système d'inférence robuste au sein de son infrastructure.
Un avis critique de Ploum sur la GenAI.
Je suis au moins d'accord sur le fait qu'il y a belle et bien une bulle. On a vu par exemple Stability AI qui n'a plus d'argent pour payer ses factures de cloud et il y a beaucoup d'entreprises qui ont de la même manière "cramé" l'argent des VCs sans avoir de business modèle.
Un article que j'ai écrit pour parler de la hype autour des bases de données vectorielles et de pourquoi il vaut mieux utiliser une base de données classique avec fonctionnalité de recherche vectorielle comme Elasticsearch ou Postgres.
Github va un peu plus loin dans la génération de code en proposant un service de correction automatique des vulnérabilités détectées dans les repository.
Sous le capot c'est du GPT4 qui propose une modification d'une PR pour fix une potentielle faille de sécurité.
A priori ça reste des choses assez simple et cantonnées à un seul endroit comme échapper du HTML, éviter un prototype polution, etc
Pour l'instant, les failles sont détectées par des outils conventionnels et corrigé par GPT4 mais plus tard elles pourront aussi être détectés par GPT4
Les moteurs de recherche ne sont pas prêt de disparaitre.
Outre la différence phénoménal de coût entre une requête Google et une génération, il faut aussi se rappeler que beaucoup de requêtes sont de la navigation ("youtube" pour aller sur https://youtube.com) ou de l'information temps réel comme "météo montpellier".
Un Agent Open Source comme Devin qui est capable de résoudre des issues Github.
Sur SWE-Bench, ils sont à 12.29 vs 13.84 (Devin, SOTA)
On est pas encore au niveau d'un développeur junior mais ça progresse.
Le coût d'entrainement des LLMs a drastiquement baissé en seulement quelques mois.
JetMoE offre des performances similaires à Llama 2 mais avec un coût d'entrainement de seulement 100 000$ vs 5 000 000$ pour Llama 2.