RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokens

1391 shaares

Filters

Links per page

20 50 100

RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokens

Un autre projet pour créer un LLM entièrement open source (code du modèle + jeux de données + poids entrainés).

Pour l'instant ils ont réalisé la première étape qui est de constitué un jeux de données open source en suivant les instructions données dans la publication scientifique de LLaMa.

Ils ont des données, principalement en anglais, qui proviennent de:

Commoncrawl
C4
Github
ArXiv
Wikipédia
StackExchange
des livres

Plus d'info et les liens de DL chez HuggingFace

D'ici quelques semaines le modèle devrait être entrainé (avec LLaMa) et disponible en open source comme Cerebras et StableLLM

April 23, 2023 at 14:23:31 UTC * · permalink

https://www.together.xyz/blog/redpajama

Filters

Links per page

20 50 100