Github va un peu plus loin dans la génération de code en proposant un service de correction automatique des vulnérabilités détectées dans les repository.
Sous le capot c'est du GPT4 qui propose une modification d'une PR pour fix une potentielle faille de sécurité.
A priori ça reste des choses assez simple et cantonnées à un seul endroit comme échapper du HTML, éviter un prototype polution, etc
Pour l'instant, les failles sont détectées par des outils conventionnels et corrigé par GPT4 mais plus tard elles pourront aussi être détectés par GPT4
Les moteurs de recherche ne sont pas prêt de disparaitre.
Outre la différence phénoménal de coût entre une requête Google et une génération, il faut aussi se rappeler que beaucoup de requêtes sont de la navigation ("youtube" pour aller sur https://youtube.com) ou de l'information temps réel comme "météo montpellier".
Un Agent Open Source comme Devin qui est capable de résoudre des issues Github.
Sur SWE-Bench, ils sont à 12.29 vs 13.84 (Devin, SOTA)
On est pas encore au niveau d'un développeur junior mais ça progresse.
Le coût d'entrainement des LLMs a drastiquement baissé en seulement quelques mois.
JetMoE offre des performances similaires à Llama 2 mais avec un coût d'entrainement de seulement 100 000$ vs 5 000 000$ pour Llama 2.
Une étude sur les performances des LLMs sur de longs contexte.
Même si les LLMs supportent des contextes très long maintenant, ce n'est pas un secret que plus il y a de token et moins le LLM est performant.
Dans leur benchmark, GPT4-Turbo s'en sort mieux que les autres mais ils n'ont pas testé Claude 3 ou Gemini 1.5.
Dans un autre benchmark, Gemini 1.5 arrivait à de meilleurs résultats que GPT4-Turbo avec un très long contexte
Ils ont créé un benchmark pour continuer à analyser les performances des LLMs sur de long contextes: LongICLBench
Un tunnel TCP en HTTP qui permet de contourner les restrictions de port.
OpenAI fait un peu de teasing sur son modèle de text-to-speech et le produit VoiceEngine qui permet de créer des voix à partir d'un court extrait audio.
Des boîtes comme Heygen auraient déjà accès à ce modèle.
Pour l'instant ce produit reste en usage restreint, notamment pour laisser le temps de remplacer les systèmes de sécurité basés sur la voix
Nvidia se fait de la pub en lançant une application de RAG locale qui utilise un de ses GPU pour fonctionner.
Sous le capot c'est Llama 2 et une simple DB vectorielle (Faiss).
Bref, plus une démo marketing qu'un vrai produit :-)
A priori le modèle Gemini de Google s'en sort beaucoup mieux sur des prompts long.
Ici l'auteur pose des question avec la totalité de sa code base dans les 120K tokens du prompt
Stability AI n'a plus d'argent pour payer ses factures de cloud de presque 100 millions de dollars avec seulement 11 millions de revenus.
Dans les prochains mois, je pense que de nombreux fournisseurs de cloud IA vont suivre le même chemin vu que beaucoup on eu la même tactique en cassant les prix pour attirer des utilisateurs.
Un Agent LLM qui aide à répondre automatiquement aux questionnaires des grandes entreprises quand on leur vend des solutions SaaS par exemple
Un article très détaillé sur le fonctionnement des Cloudflare Worker (le service serverless de Cloudflare).
Beaucoup de détails sont donnés sur la manière dont Cloudflare sécurise des environnements isolés pour ses clients et notamment sur les méthodes utilisés pour mitiger les attaques Spectre
Incroyable cette histoire, je ne savais pas qu'il fallait fournir sa clé privée de signature à Google pour publier sur le playstore dans certains cas !
C'est n'importe quoi niveau sécurité
Après Elastic, c'est Redis qui adopte une double licence.
Les fournisseurs de cloud vont maintenant devoir payer pour fournir du Redis sur étagère.
Microsoft a déjà annoncé qu'ils supporteraient Redis dans Azure.
Une carte des trains en temps réel !
Un Agent semi autonome capable de réaliser des tâches sur des codebases complexes.
Ses capacités d'adaptation à de nouvelles technologies semblent impressionnante, à voir si ça se confirme autrement que dans des vidéos.
Il obtient plus de 13% sur le SWE benchmark qui évalue les Agents sur des tâches de programmation. C'est moi devant le Claude 2 qui était devant jusqu'ici avec 4%
Un modèle d'animation des lèvres.
Un outil de workflow graphique avec des nœuds pour créer des pipeline de création d'images avec Stable Diffusion
Une manière de contrôler la génération d'images Stable Diffusion comme les ControlNet.
Un article très complet et très intéressant sur le fonctionnement de HTTP/3 et de QUIC.