Un nouveau benchmark qui se concentre sur la résolution de problèmes mathématiques de niveau d'olympiades (compétitions internationales)
Le classement est dominé de très loin par o1 d'OpenAI avec 60% pour o1-mini et 52% pour o1-preview.
Les résultats suivants sont 36% pour Qwen2.5-MATH-72b-instruct (un modèle spécialisé en math donc), GPT-4o est à 30% et Claude 3.5 Sonnet à 26%.
Sans surprise, le modèle o1 avec sa chaine de pensée interne remporte la palme.
C'est assez étrange de voir o1-mini devant o1-preview d'ailleurs.
Un nouveau benchmark qui vise à évaluer les capacités des LLMs à résoudre des tâche de ML engineering.
Concrètement, on leur pose des problèmes de MLE comme entrainer des modèles, préparer des dataset ou exécuter des expérimentations.
Certaines tâches ont été résolues par les modèles avec plus de 200 étapes et plusieurs heures de calcul.
Sans surprise, c'est le modèle o1 de OpenAI qui obtient la meilleure place avec 16.9% des problèmes résolus. On trouve ensuite GPT4-o avec 8.7%, Claude 3.5 Sonnet avec 7.6% et LlaMa 3.1 avec 3%