MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

1363 shaares

Filters

Links per page

20 50 100

MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

Un nouveau benchmark qui vise à évaluer les capacités des LLMs à résoudre des tâche de ML engineering.

Concrètement, on leur pose des problèmes de MLE comme entrainer des modèles, préparer des dataset ou exécuter des expérimentations.

Certaines tâches ont été résolues par les modèles avec plus de 200 étapes et plusieurs heures de calcul.

Sans surprise, c'est le modèle o1 de OpenAI qui obtient la meilleure place avec 16.9% des problèmes résolus. On trouve ensuite GPT4-o avec 8.7%, Claude 3.5 Sonnet avec 7.6% et LlaMa 3.1 avec 3%

c-ai · benchmark-ai · text-ai

October 20, 2024 at 22:10:21 UTC * · permalink

https://arxiv.org/pdf/2410.07095

Filters

Links per page

20 50 100