1306 shaares
Exploration du contenu d'un des plus gros jeux de données utilisé pour entrainer les IA.
Il contient des données récupérées depuis le web depuis des sites comme Wikipédia ou patent.google.com ou encore des sites de ebooks piratés.
Cela pose beaucoup de question de copyright sur la légitimité de l'utilisation de ce jeux de données pour entrainer des IA commerciales sans compensation pour les créateurs de contenu.
De même pour les différents biais induit dans les IA par leur entrainement sur des contenus reflétant majoritairement la culture occidentale