OpenAI et le défi des « hallucinations » : une étude d'OpenAI révèle que même ses meilleurs modèles donnent de mauvaises réponses dans une très large proportion, la concurrence ne se porte pas forcément mieux - Aschen

1380 shaares

Filters

Links per page

20 50 100

OpenAI et le défi des « hallucinations » : une étude d'OpenAI révèle que même ses meilleurs modèles donnent de mauvaises réponses dans une très large proportion, la concurrence ne se porte pas forcément mieux

OpenAI a sorti un nouveau benchmark de questions/réponses: SimpleQA

Ce benchmark permet notamment de tester la capacité des LLMs à répondre correctement à des questions, sans tomber dans les hallucinations.

Les résultats sont assez mauvais avec 48% d'hallucination (réponses incorrectes présentées comme telles) pour leur modèle o1, 61% pour GPT-4o et 36% pour Claude 3.5 Sonnet.

Le modèle Claude 3.5 Sonnet refuse plus souvent de répondre lorsqu'il ne connait pas la réponse (35 % du temps), à contrario, le modèle GPT-4o refuse de répondre seulement dans 1% des cas et c'est à peine plus pour o1 avec un refus 9% du temps.

On voit donc que Claude 3.5 Sonnet possède moins de connaissances générales mais est moins prône aux hallucinations.

c-ai · text-ai · hallucinations

November 18, 2024 at 13:20:36 UTC * · permalink

https://intelligence-artificielle.developpez.com/actu/364536/OpenAI-et-le-defi-des-hallucinations-une-etude-d-OpenAI-revele-que-meme-ses-meilleurs-modeles-donnent-de-mauvaises-reponses-dans-une-tres-large-proportion-la-concurrence-ne-se-porte-pas-forcement-mieux/

Filters

Links per page

20 50 100