1306 shaares
Ce benchmark est constitué de questions avec des descriptions de fonctions à utiliser récupérer des informations extérieures comme la météo par exemple.
Plusieurs capacités sont évaluées:
- appels de fonctions Python, Java et Javascript pour résoudre des problèmes
- utilisation d'API REST depuis une documentation
- création de requêtes SQL
- capacité à répondre "je ne sais pas" si aucune des fonctions ne convient
GPT-4 Turbo et Claude 3 sont au coude à coude dans le benchmark mais GPT-4 est 2x moins cher