Large Concept Models: Language Modeling in a Sentence Representation Space

1370 shaares

Filters

Links per page

20 50 100

Large Concept Models: Language Modeling in a Sentence Representation Space

Meta publie un article sur une nouvelle architecture de modèle de langue.

Au lieu de s'appuyer sur des tokens qui représente des "bouts" de mots de quelques lettres, ils proposent de s'appuyer directement sur des concepts de haut niveau.

Un exemple de token avec cette architecture serait "Tim n'était pas très athlétique".

Cela ressemble aux idéogrammes chinois vs les alphabets et d'ailleurs les compromis sont sensiblement les mêmes:

Par exemple, la vitesse d'inférence (= écriture) accrue pour les concepts mais au prix d'un nombre de concepts beaucoup plus importants et donc aussi un coût d'entrainement + inférence (FLOPS) plus élevé.

En tout cas c'est rassurant de voir qu'il y a des architectures radicalement différente des LLMs actuels qui émergent !

c-ai · text-ai

January 4, 2025 at 23:44:11 UTC * · permalink

https://ai.meta.com/research/publications/large-concept-models-language-modeling-in-a-sentence-representation-space/

Filters

Links per page

20 50 100