1306 shaares
Une étude sur les performances des LLMs sur de longs contexte.
Même si les LLMs supportent des contextes très long maintenant, ce n'est pas un secret que plus il y a de token et moins le LLM est performant.
Dans leur benchmark, GPT4-Turbo s'en sort mieux que les autres mais ils n'ont pas testé Claude 3 ou Gemini 1.5.
Dans un autre benchmark, Gemini 1.5 arrivait à de meilleurs résultats que GPT4-Turbo avec un très long contexte
Ils ont créé un benchmark pour continuer à analyser les performances des LLMs sur de long contextes: LongICLBench