1306 shaares
Anthropic a sorti une mise à jour importante de Claude 3.5 Sonnet et il obtient des résultats impressionnant sur les benchmark !
Il dépasse GPT4-o sur la plupart des benchmarks existants et de loin mais c'est surtout sur la partie code qu'il réalise un exploit car il dépasse tous les autres modèles spécialisés sur le benchmark SWE-Bench avec 49% des tâches de réalisées.
La progression des modèles pour les tâches de programmation est vertigineuse, pour rappel en août le SOTA était Aider avec 19%
Personnellement, j'utilise uniquement Claude 3.5 Sonnet dans Cursor et c'est vrai qu'il y a une différence notable avec GPT-4o.