Une lib en Python pour charger des données depuis différentes sources dans des databases.
ça supporte notamment Slack, Notion, Github en source.
Par contre j'ai l'impression que c'est limité à de la synchronisation one shot et pas forcément à une mise à jour des documents retrouvés
Un outil de data visualisation qui peut se connecter à la plupart des bases de données afin de créer des dashboards.
C'est un aggrégateur de sources de données pour créer des dashboards assez facilement.
Le but de ce genre d'outil c'est que l'équipe data se charge de la stratégie de collecte mais ensuite chaque équipe est responsable de créer ses propres metriques un utilisant le système de dashboarding.
Aussi le produit est open source donc on peut commencer en SaaS et passer en OS quand ça coûte trop cher et inversement
Un article intéressant d'un ingénieur de chez Google Big Query sur la hype autour du Big Data qui a tendance à s'essoufler un peu.
Sans surprise, la majorité des entreprises ne font pas de "big data" et n'en ont pas besoin.
Le club Med a profité de la crise covid et de la fermeture de ses 60 villages pour construire une stratégie Data flambant neuve !
Les objectifs principaux étaient d'augmenter les ventes (~2-3% estimés) et d'analyser en détails l'impact des budgets publicité et marketing injectés dans le cycle de vente.
Niveua technique, le groupe voulait de l'analyse temps réel donc il a fallut ingérer les données depuis une douzaine de sources (CRM, ERP, site web , appels téléphoniques, etc) dans un datalake.
Concrètement un broker Kafka reçoit les messages qui proviennent majoritairement d'une base de données DB2 et tout est écrit sur un PostgreSQL ou BigQuery (donc tout chez Google Cloud Platform)
Des outils de Business Intelligence comme Qlikview ou Google Analytics permettent ensuite aux différents métiers d'exploiter la donnée.
Ce que je connaissais pas c'est Zeenea, un catalogue de données pour comprendre quels sont les flux, d'où viennent les données, à quelle moment sont-elles disponibles etc.
Au niveau des volumes, ils annoncent quand même 5 millions d'événements par jour !
Un backend pour fédérer les données en provenances de plusieurs sources (SQL, NoSQL, Datawarehouses)
Ils permettent ensuite d'accèder aux données via une API unifiée en ajoutant une couche de droits et du cache.
Le positionnement est clairement orienté Business Intelligence même si ils ne proposent pas de solution concrète pour ça mais plutôt la promesse de facilement connecter des outils existants.