FineWeb est un dataset crawlé depuis internet et épuré au maximum des contenus générés par d'autres IA.
Il contient 15 000 milliards de tokens et peut être utilisé pour entraîner des LLM depuis zéro.
Note: à priori vous ne voulez pas faire ça vous même mais plutôt fine tuner un modèle existant
Un autre projet pour créer un LLM entièrement open source (code du modèle + jeux de données + poids entrainés).
Pour l'instant ils ont réalisé la première étape qui est de constitué un jeux de données open source en suivant les instructions données dans la publication scientifique de LLaMa.
Ils ont des données, principalement en anglais, qui proviennent de:
- Commoncrawl
- C4
- Github
- ArXiv
- Wikipédia
- StackExchange
- des livres
Plus d'info et les liens de DL chez HuggingFace
D'ici quelques semaines le modèle devrait être entrainé (avec LLaMa) et disponible en open source comme Cerebras et StableLLM
Exploration du contenu d'un des plus gros jeux de données utilisé pour entrainer les IA.
Il contient des données récupérées depuis le web depuis des sites comme Wikipédia ou patent.google.com ou encore des sites de ebooks piratés.
Cela pose beaucoup de question de copyright sur la légitimité de l'utilisation de ce jeux de données pour entrainer des IA commerciales sans compensation pour les créateurs de contenu.
De même pour les différents biais induit dans les IA par leur entrainement sur des contenus reflétant majoritairement la culture occidentale