Search: [dataset] - Aschen | Sharing the webz

1370 shaares

Filters

Links per page

20 50 100

3 results tagged dataset

HuggingFaceFW - FineWeb dataset

FineWeb est un dataset crawlé depuis internet et épuré au maximum des contenus générés par d'autres IA.

Il contient 15 000 milliards de tokens et peut être utilisé pour entraîner des LLM depuis zéro.

Note: à priori vous ne voulez pas faire ça vous même mais plutôt fine tuner un modèle existant

c-ai · text-ai · training-ai · dataset

April 21, 2024 at 08:49:26 UTC * · permalink

·

https://huggingface.co/HuggingFaceFW

RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokens

Un autre projet pour créer un LLM entièrement open source (code du modèle + jeux de données + poids entrainés).

Pour l'instant ils ont réalisé la première étape qui est de constitué un jeux de données open source en suivant les instructions données dans la publication scientifique de LLaMa.

Ils ont des données, principalement en anglais, qui proviennent de:

Commoncrawl
C4
Github
ArXiv
Wikipédia
StackExchange
des livres

Plus d'info et les liens de DL chez HuggingFace

D'ici quelques semaines le modèle devrait être entrainé (avec LLaMa) et disponible en open source comme Cerebras et StableLLM

c-ai · text-ai · open-source · dataset

April 23, 2023 at 14:23:31 UTC * · permalink

·

https://www.together.xyz/blog/redpajama

See the websites that make AI bots like ChatGPT sound so smart

Exploration du contenu d'un des plus gros jeux de données utilisé pour entrainer les IA.

Il contient des données récupérées depuis le web depuis des sites comme Wikipédia ou patent.google.com ou encore des sites de ebooks piratés.

Cela pose beaucoup de question de copyright sur la légitimité de l'utilisation de ce jeux de données pour entrainer des IA commerciales sans compensation pour les créateurs de contenu.

De même pour les différents biais induit dans les IA par leur entrainement sur des contenus reflétant majoritairement la culture occidentale

c-ai · big-data · dataset · copyright

April 23, 2023 at 12:11:07 UTC * · permalink

·

https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/