LiveBench - LLM Benchmarks - Aschen

1391 shaares

Filters

Links per page

20 50 100

LiveBench - LLM Benchmarks

LiveBench est un agrégateur des différents benchmark à destination des LLMs.

Il propose un score qui correspond à la moyenne sur les différents benchmark qui existent.

Afin d’éviter la “contamination” (=triche), c’est à dire que les modèles soient entrainer avec les réponses des benchmark, ils utilisent de nouvelles questions chaque mois.

C’est aujourd’hui Claude 3.5 Sonnet qui tiens la première place avec 61% vs 55% pour GPT-4o.

Le premier modèle Open Source est Mistral Large à la 12e place du classement avec 39%.

c-ai · text-ai

July 8, 2024 at 12:53:40 UTC * · permalink

https://livebench.ai/

Filters

Links per page

20 50 100