GAIA: A Benchmark for General AI Assistants

1391 shaares

Filters

Links per page

20 50 100

Une méthode pour évaluer les performances des Agents LLM.

Pour chaque tâche, l'Agent doit utiliser un ou plusieurs outils comme un navigateur web, de l'exécution de code, une API custom, etc.

Les tâches sont réparties en 3 niveaux:

Ils ont évalué GPT-4, AutoGPT et GPT-4 avec plugins et aucun n'arrive à réaliser des tâches de niveau 3

c-ai · text-ai · assistant-ai

Filters

Links per page

20 50 100