Daily Shaarli
December 11, 2024
Google annonce Gemini 2.0 Flash.
Niveau benchmark comme d'habitude il faut attendre que ça sorte sur Livebench pour avoir une meilleure comparaison mais quand même ils affichent de très bon résultats:
- 89.7% sur MATH (76.6 GPT-4o)
- 62.1% sur GPQA (59.4% Claude 3.5 Sonnet)
- 35.1% sur LiveCodeBench (42% Claude 3.5 Sonnet, 67% o1-mini)
La big new c'est surtout la multi-modalité en entrée et en sortie du modèle qui est capable de générer un mix de texte, son et image pour répondre si besoin.
Google a vraiment rattrapé son retard, c'est cool de voir toutes ces améliorations.
Anthropic propose un optimisateur de prompt.
Pendant son entrainement, Claude a été optimisé sur certains patterns comme l'utilisation de balises XML pour organiser le contenu et ces patterns peuvent améliorer la performance des prompts.