We had Image Gen copying LLM... and now the REVERSE?? [DiffusionLM]

1391 shaares

Filters

Links per page

20 50 100

We had Image Gen copying LLM... and now the REVERSE?? [DiffusionLM]

Une percée potentielle dans l'architecture des LLMs !

L'architecture actuelle (ARM) est une génération "de gauche à droite" ou l'on génère les tokens les un après les autres en concaténant les tokens générés pour faire le nouveau prompt.

En s'inspirant des modèles de diffusion d'image, les chercheurs ont mis au point une nouvelle architecture de modèle (MDM) qui génère les tokens avant et après le prompt.

Ces modèles sont plus cher à entrainer mais ils présentent plusieurs avantages:

meilleures performances de génération sur des problèmes standards
capable "d'apprendre" et d'inférer que si A = B alors B = A (les LLMs ont beaucoup de mal à ça)
jusqu'à 40% plus rapide

C'est un tout nouveau champ de recherche qui commence à prendre de l'ampleur !

Finalement on dirait qu'on a pas encore atteint ce fameux plafond de verre ;-)

c-ai · text-ai

December 2, 2024 at 03:31:16 UTC * · permalink

https://www.youtube.com/watch?v=yXHSPzHfe1s

Filters

Links per page

20 50 100