Exploration du contenu d'un des plus gros jeux de données utilisé pour entrainer les IA.
Il contient des données récupérées depuis le web depuis des sites comme Wikipédia ou patent.google.com ou encore des sites de ebooks piratés.
Cela pose beaucoup de question de copyright sur la légitimité de l'utilisation de ce jeux de données pour entrainer des IA commerciales sans compensation pour les créateurs de contenu.
De même pour les différents biais induit dans les IA par leur entrainement sur des contenus reflétant majoritairement la culture occidentale
Arquero est une librairie Javascript qui permet de manipuler des données tabulaires en RAM.
Elle supporte l'algèbre relationnelle comme pour une base SQL.
C'est du même genre que Pandas en Python mais du coup pour faire de la datascience directement en Javascript!
Derrière les performances de la lib on retrouve encore une fois le format binaire Arrow
beers
.orderby(aq.desc('ibu'))
.select('name', 'style', 'ibu')
.filter(d => op.includes(op.lower(d.name), 'hop'))
.view()
Un benchmark des librairies et bases de données (en RAM) pour traiter des données tabulaires dans le genre de Pandas.
Polars remporte haut la main le benchmark, c'est une lib écrite en Rust et qui utilise aussi le standard Arrow
Apache Arrow est un projet qui développe des SDK dans la plupart des langages afin de manipuler efficacement des données tabulaires (vecteurs, matrices) en RAM.
Ils ont notamment des optimisations des calculs spécialement conçues pour les CPU et les GPU.
Par exemple, les données sont regroupées pour éviter les "jump" CPU et tenter de les faire tenir dans les différents caches.
Pour les GPU, Arrow utilise CUDA afin de paralléliser les calculs.
C'est utilisé dans la nouvelle version 2.0 de Pandas, la lib de référence en Python pour manipuler les données.
Les performances peuvent être jusqu'à 25x supérieurs (!)
(Merci Ocav pour le partage)
Un article intéressant d'un ingénieur de chez Google Big Query sur la hype autour du Big Data qui a tendance à s'essoufler un peu.
Sans surprise, la majorité des entreprises ne font pas de "big data" et n'en ont pas besoin.
Une lib pour manipuler des données tabulaires (vectors, matrices) de la même manière qu'avec Panda.
Celle la est écrite en Rust donc on peut s'attendre des à des performances ~7x plus rapide que Panda. (Benchmarks)
(Via Alex)