Turing test on steroids: Chatbot Arena crowdsources ratings for 45 AI models

1391 shaares

Filters

Links per page

20 50 100

Une étude faites avec des évaluateurs humains sur la qualité des réponses de différents LLMs.

Différentes versions de GPT4 sont en 1er, 2e et 4e position. Sinon ce sont Claude 1 et Claude 2 qui arrivent en 3e et 5e positions.

c-ai · text-ai

Filters

Links per page

20 50 100