Daily Shaarli

All links of one day in a single page.

April 7, 2024

Bases de données vectorielles: chronique d'une mort annoncée
thumbnail

Un article que j'ai écrit pour parler de la hype autour des bases de données vectorielles et de pourquoi il vaut mieux utiliser une base de données classique avec fonctionnalité de recherche vectorielle comme Elasticsearch ou Postgres.

princeton-nlp/SWE-agent: SWE-agent takes a GitHub issue and tries to automatically fix it, using GPT-4, or your LM of choice. It solves 12.29% of bugs in the SWE-bench evaluation set and takes just 1.5 minutes to run.
thumbnail

Un Agent Open Source comme Devin qui est capable de résoudre des issues Github.

Sur SWE-Bench, ils sont à 12.29 vs 13.84 (Devin, SOTA)

On est pas encore au niveau d'un développeur junior mais ça progresse.

GitHub’s latest AI tool can automatically fix code vulnerabilities
thumbnail

Github va un peu plus loin dans la génération de code en proposant un service de correction automatique des vulnérabilités détectées dans les repository.

Sous le capot c'est du GPT4 qui propose une modification d'une PR pour fix une potentielle faille de sécurité.

A priori ça reste des choses assez simple et cantonnées à un seul endroit comme échapper du HTML, éviter un prototype polution, etc

Pour l'instant, les failles sont détectées par des outils conventionnels et corrigé par GPT4 mais plus tard elles pourront aussi être détectés par GPT4

Long-context LLMs Struggle with Long In-context Learning

Une étude sur les performances des LLMs sur de longs contexte.

Même si les LLMs supportent des contextes très long maintenant, ce n'est pas un secret que plus il y a de token et moins le LLM est performant.

Dans leur benchmark, GPT4-Turbo s'en sort mieux que les autres mais ils n'ont pas testé Claude 3 ou Gemini 1.5.

Dans un autre benchmark, Gemini 1.5 arrivait à de meilleurs résultats que GPT4-Turbo avec un très long contexte

Ils ont créé un benchmark pour continuer à analyser les performances des LLMs sur de long contextes: LongICLBench

Perplexity, Copilot, You.com: Putting the AI search engines to the test
thumbnail

Les moteurs de recherche ne sont pas prêt de disparaitre.

Outre la différence phénoménal de coût entre une requête Google et une génération, il faut aussi se rappeler que beaucoup de requêtes sont de la navigation ("youtube" pour aller sur https://youtube.com) ou de l'information temps réel comme "météo montpellier".

JetMoE: Reaching LLaMA2 Performance with 0.1M Dollar

Le coût d'entrainement des LLMs a drastiquement baissé en seulement quelques mois.

JetMoE offre des performances similaires à Llama 2 mais avec un coût d'entrainement de seulement 100 000$ vs 5 000 000$ pour Llama 2.