Daily Shaarli

All links of one day in a single page.

October 21, 2024

Omni-MATH, a mathematics benchmark

Un nouveau benchmark qui se concentre sur la résolution de problèmes mathématiques de niveau d'olympiades (compétitions internationales)

Le classement est dominé de très loin par o1 d'OpenAI avec 60% pour o1-mini et 52% pour o1-preview.

Les résultats suivants sont 36% pour Qwen2.5-MATH-72b-instruct (un modèle spécialisé en math donc), GPT-4o est à 30% et Claude 3.5 Sonnet à 26%.

Sans surprise, le modèle o1 avec sa chaine de pensée interne remporte la palme.

C'est assez étrange de voir o1-mini devant o1-preview d'ailleurs.