Daily Shaarli

All links of one day in a single page.

July 7, 2025

Mercury: Ultra-Fast Language Models Based on Diffusion

Mercury est un modèle spécialisé dans la génération de code mais qui fonctionne selon le principe de diffusion.

Au lieu de générer un stream de tokens, il fonctionne comme un modèle de génération d'image en générant une réponse contenant une première version des tokens puis en itérant sur tous les tokens de cette réponse.

Une très bonne visualisation de ce principe est disponible sur le site de Google pour Gemini Diffusion

Le modèle Mercury est disponible en deux versions Mini (1000 tok/sec) et Small (700 tok/sec)

Les performances de Small sont comparables aux modèles Gemini 2.5 Flash-Lite (200 tok/sec) ou GPT-4o mini (60 tok/sec).

On peut tester la vitesse directement sur https://chat.inceptionlabs.ai/

Les DiffusionLM ont fait du chemin depuis les premiers papiers sortis en décembre 2024, c'est une architecture qui a beaucoup d'avenir étant donné les performances et la vitesse !