1306 shaares
Un autre projet pour créer un LLM entièrement open source (code du modèle + jeux de données + poids entrainés).
Pour l'instant ils ont réalisé la première étape qui est de constitué un jeux de données open source en suivant les instructions données dans la publication scientifique de LLaMa.
Ils ont des données, principalement en anglais, qui proviennent de:
- Commoncrawl
- C4
- Github
- ArXiv
- Wikipédia
- StackExchange
- des livres
Plus d'info et les liens de DL chez HuggingFace
D'ici quelques semaines le modèle devrait être entrainé (avec LLaMa) et disponible en open source comme Cerebras et StableLLM