1321 shaares
Une percée potentielle dans l'architecture des LLMs !
L'architecture actuelle (ARM) est une génération "de gauche à droite" ou l'on génère les tokens les un après les autres en concaténant les tokens générés pour faire le nouveau prompt.
En s'inspirant des modèles de diffusion d'image, les chercheurs ont mis au point une nouvelle architecture de modèle (MDM) qui génère les tokens avant et après le prompt.
Ces modèles sont plus cher à entrainer mais ils présentent plusieurs avantages:
- meilleures performances de génération sur des problèmes standards
- capable "d'apprendre" et d'inférer que si A = B alors B = A (les LLMs ont beaucoup de mal à ça)
- jusqu'à 40% plus rapide
C'est un tout nouveau champ de recherche qui commence à prendre de l'ampleur !
Finalement on dirait qu'on a pas encore atteint ce fameux plafond de verre ;-)