1306 shaares
Un nouveau benchmark qui vise à évaluer les capacités des LLMs à résoudre des tâche de ML engineering.
Concrètement, on leur pose des problèmes de MLE comme entrainer des modèles, préparer des dataset ou exécuter des expérimentations.
Certaines tâches ont été résolues par les modèles avec plus de 200 étapes et plusieurs heures de calcul.
Sans surprise, c'est le modèle o1 de OpenAI qui obtient la meilleure place avec 16.9% des problèmes résolus. On trouve ensuite GPT4-o avec 8.7%, Claude 3.5 Sonnet avec 7.6% et LlaMa 3.1 avec 3%