Daily Shaarli
April 7, 2024

Un article que j'ai écrit pour parler de la hype autour des bases de données vectorielles et de pourquoi il vaut mieux utiliser une base de données classique avec fonctionnalité de recherche vectorielle comme Elasticsearch ou Postgres.

Un Agent Open Source comme Devin qui est capable de résoudre des issues Github.
Sur SWE-Bench, ils sont à 12.29 vs 13.84 (Devin, SOTA)
On est pas encore au niveau d'un développeur junior mais ça progresse.

Github va un peu plus loin dans la génération de code en proposant un service de correction automatique des vulnérabilités détectées dans les repository.
Sous le capot c'est du GPT4 qui propose une modification d'une PR pour fix une potentielle faille de sécurité.
A priori ça reste des choses assez simple et cantonnées à un seul endroit comme échapper du HTML, éviter un prototype polution, etc
Pour l'instant, les failles sont détectées par des outils conventionnels et corrigé par GPT4 mais plus tard elles pourront aussi être détectés par GPT4
Une étude sur les performances des LLMs sur de longs contexte.
Même si les LLMs supportent des contextes très long maintenant, ce n'est pas un secret que plus il y a de token et moins le LLM est performant.
Dans leur benchmark, GPT4-Turbo s'en sort mieux que les autres mais ils n'ont pas testé Claude 3 ou Gemini 1.5.
Dans un autre benchmark, Gemini 1.5 arrivait à de meilleurs résultats que GPT4-Turbo avec un très long contexte
Ils ont créé un benchmark pour continuer à analyser les performances des LLMs sur de long contextes: LongICLBench

Les moteurs de recherche ne sont pas prêt de disparaitre.
Outre la différence phénoménal de coût entre une requête Google et une génération, il faut aussi se rappeler que beaucoup de requêtes sont de la navigation ("youtube" pour aller sur https://youtube.com) ou de l'information temps réel comme "météo montpellier".
Le coût d'entrainement des LLMs a drastiquement baissé en seulement quelques mois.
JetMoE offre des performances similaires à Llama 2 mais avec un coût d'entrainement de seulement 100 000$ vs 5 000 000$ pour Llama 2.