La Modern Data Stack
La Modern Data Stack est un ensemble d’outils et de technologies hébergés sur le Cloud, ayant pour but de collecter, traiter, stocker et visualiser des données.
Ces outils peuvent fonctionner indépendamment ou interagir entre eux, permettant ainsi à chaque entreprise de créer sa propre combinaison, appelée sa "Data Stack". Il est courant de classer les outils de la Modern Data Stack en différentes catégories, selon leurs fonctionnalités spécifiques. Il faut cependant noter que les offres de chaque solution évoluent et que les éditeurs tendent aujourd’hui à élargir le panel de fonctionnalités pour créer des solutions de plus en plus complètes.
Aujourd’hui, nous identifions six grandes briques fonctionnelles :
Les 6 briques principales de la MDS :
1 - Data Ingestion
2 - Data Storage
3 - Data Transformation
4 - Data Activation (BI, ML, AI…)
5 - Data Orchestration
6 - Data Gouvernance (Observability, Catalog, Quality, Security…)

1. Data Ingestion
La Modern Data Stack contient de nombreux outils permettant de déplacer des données d’une ou plusieurs sources vers une destination. Des outils permettent d’acheminer les données depuis différentes sources vers une destination centralisée.
• Fivetran : ingestion automatisée, prise en charge de nombreuses sources, sans scripts
Fivetran est un service d'ingestion automatisé qui facilite la centralisation des données de multiples sources vers un entrepôt de données unique. Il se distingue par sa capacité à automatiser l'extraction, la transformation et le chargement (ETL) des données, permettant ainsi de ne pas avoir à développer de scripts personnalisés pour chaque source de données. Fivetran supporte une large gamme de sources de données, y compris des bases de données, des applications SaaS, et des plateformes cloud, ce qui en fait un outil clé pour les entreprises cherchant à simplifier leur infrastructure de données et à accélérer l'analyse des données.
• Airbyte : open-source, large choix de connecteurs, interface intuitive.
Airbyte est un outil open-source d'intégration de données qui permet aux utilisateurs de synchroniser leurs données de multiples sources. Sa nature open-source et sa communauté active contribuent à un catalogue croissant de connecteurs. Airbyte est conçu pour être facile à utiliser, offrant une installation simple et une bonne interface utilisateur, rendant l'automatisation des flux de données accessible à une large gamme d'entreprises. En parallèle, le fait que la solution soit open-source permet aux développeurs de personnaliser ou développer de nouveaux connecteurs en Python.
• Popsink : streaming temps réel, connecteurs managés.
Popsink est une plateforme d'intégration de données en temps réel qui modernise l'approche ETL grâce aux technologies de streaming. Elle permet de déplacer et d'exploiter les données en continu, à moindre coût par rapport aux mises à jour par batch. Popsink s'intègre facilement à votre stack existante, permettant d’optimiser les processus de données progressivement. Elle propose des connecteurs managés qui agissent comme sources et consommateurs de données, tout en garantissant la sécurité et la transparence des flux de données.
dltHub : structuration automatisée, intégration rapide.
dltHub est une solution d'intégration de données qui simplifie le déplacement et la structuration des données à partir de multiples sources vers diverses destinations. Conçue pour une prise en main rapide, dltHub permet de gérer efficacement les flux de données, y compris les données non structurées, tout en automatisant les processus de transformation et d'ingestion. La solution s’intègre bien avec d'autres outils de la Modern Data Stack, offrant une gouvernance et une centralisation accrues des données.
Python : langage pivot pour l’ETL personnalisé via bibliothèques comme Pandas, Airflow…
Python est un langage de programmation jouant un rôle central dans l’ingestion de données, notamment grâce à son écosystème riche en bibliothèques dédiées à l’extraction, la transformation et le chargement des données (ETL/ELT).
Python est également le langage principal derrière de nombreuses solutions open-source d’ingestion comme Airbyte, Meltano ou dltHub, facilitant ainsi la création de connecteurs personnalisés et l’automatisation des pipelines. Sa flexibilité en fait un outil idéal pour gérer les cas d’usage non couverts par des solutions clés-en-main existantes, tout en restant lisible et maintenable par des équipes data.
2. Data Storage
Il existe différents types de stockage de données, utilisés pour des cas d’usages différents selon la fréquence d’accès à la donnée, sa volumétrie. La Modern Data Stack propose des outils pour chacune des options, que ce soit pour du stockage de données sous forme de fichiers au format non défini (données non-structurées), sous forme d’images ou dans des bases de données avec des colonnes et des types fixes.
• Snowflake : data warehouse cloud avec fonctions d’analyse intégrées.
Snowflake est un datawarehouse cloud parfaitement adapté au stockage et à l’analyse de très grands volumes de données. En plus du stockage, la solution offre également des fonctionnalités d'ingestion de données en lot (batch) ou en continu (streaming), d'analyses et de visualisation. Facilement intégrable avec divers outils et services de la Modern Data Stack, Snowflake supporte un large éventail de cas d'usage de données. Cette solution peut cependant rapidement se révéler onéreuse.
• ClickHouse : base orientée colonnes, très performante en OLAP.
ClickHouse est une base de données open-source connue pour sa vitesse de traitement et ses performances remarquables sur de grands volumes de données. Orientée colonnes, cet outil est conçu pour des analyses OLAP (traitement analytique en ligne). ClickHouse propose une gamme étendue de fonctionnalités, telles que le traitement distribué des requêtes ou la compression des données.
• Amazon Redshift : interface SQL, requêtes sur data lakes avec Redshift Spectrum.
Amazon Redshift est un data warehouse cloud entièrement managé, conçu pour stocker et analyser des jeux de données massifs. Il propose une interface SQL familière et s'intègre facilement avec divers outils de BI pour une analyse rapide et efficace. Grâce à Redshift Spectrum, il permet de requêter directement des données dans un data lake sans nécessiter de chargement préalable. La solution offre une scalabilité automatique pour répondre à l'évolution des besoins, tout en optimisant les coûts d'exploitation
• BigQuery : solution serverless Google Cloud, rapide et scalable.
Bigquery est un data warehouse entièrement géré et sans serveur de Google Cloud. Il offre des performances d'interrogation rapides, une évolutivité et une rentabilité. Il est idéal pour les entreprises qui ont besoin d'analyser de grands ensembles de données rapidement et de manière rentable. Bigquery propose un vaste panel de services et s’intègre parfaitement avec d'autres services Google Cloud. Renseignez-vous sur ses fonctionnalités en détail dans notre article sur BigQuery !
Amazon S3 : stockage d’objets simple, sécurisé, très scalable.
S3 est une solution de stockage d'objets d'Amazon Web Services (AWS). Il s'agit d'un moyen très évolutif, sécurisé et rentable de stocker des données. Il est facile à utiliser et peut être intégré à une multitude d'autres services. Il offre également une durabilité et une disponibilité élevées des données stockées.
3. Data Transformation
La transformation des données brutes en données exploitables est primordiale pour tirer de la valeur de ses data. Ces traitements sont généralement planifiés, suivis et exécutés grâce à des outils d’orchestration. La Modern Data Stack contient de nombreuses solutions ayant ces finalités.
• Databricks : moteur Spark, performant sur grands volumes, avec Delta Lake.
Databricks est une plateforme d'analyse de données basée sur le cloud qui combine puissance de calcul et stockage optimisé. Cette plateforme est étroitement liée à Spark, un moteur de traitement de données à grande échelle fondé sur un fonctionnement parallélisé en clusters. Databricks intègre un système de fichiers propriétaire, Delta Lake, qui améliore la gestion et la performance des données avec des fonctionnalités ACID (règles d’or des transactions en bases de données, atomicity, consistency, isolation, durability), permettant des analyses fiables et à grande échelle sur des données structurées et semi-structurées.
• dbt : transformations versionnées, bonnes pratiques et collaboration intégrées.
S’il y a bien un outil de transformation de données incontournable depuis quelques années, c’est dbt (Data Build Tool). dbt est une application open-source qui aide les data engineers et les data analystes à construire, maintenir et documenter les transformations de données. C’est la capacité de cet outil à favoriser les bonnes pratiques de développement, comme le versionnage et la réutilisation de code, et le travail en équipe sur la partie de retraitement des données qui a fait sa renommée.
4. Data Activation
La couche d’activation de la donnée est la finalité d’une Modern Data Stack en proposant de déployer toutes ces couches d’activation (parfois plusieurs en parallèle). C’est ici que les données seront exploitées à leur plein potentiel, pour différents cas d’usage, parmi lesquels :
- la visualisation de données ou “data visualisation” - l’automatisation de workflows - l’activation marketing en réinjectant des données dans des outils CRM, publicitaires ou d’emailing pour des campagnes personnalisées - la modélisation prédictive, en utilisant des modèles d’IA, de machine learning... permettant la mise en place d’algorithmes de recommandation, de personnalisation produit.
• Dataiku : data science accessible, modélisation prédictive sans code.
Dataiku est une plateforme pour gérer des projets de data science et d’IA de manière collaborative entre des experts et les équipes métier. Elle offre des outils visuels pour la préparation des données, la modélisation prédictive et le déploiement de modèles d'IA, rendant l'analyse de données accessible à tous les niveaux d'expertise. Les fonctions intégrées d'apprentissage automatique permettent notamment aux utilisateurs de créer des modèles de prédiction sans codage.
• Looker Studio : visualisation simple via Google, création de rapports.
Looker Studio est un outil de Business Intelligence conçu pour être facile et rapide à utiliser. Il permet aux débutants comme aux experts de créer des visualisations de données et des rapports à l'aide des outils de Google. Il s'intègre de manière transparente à Google Analytics, Google Sheets et d'autres services, et propose un générateur de rapports par drag-and-drop. Il facilite également le partage et l'intégration des rapports.
• Toucan : storytelling de données, tableaux de bord embarqués
Toucan est une solution française de visualisation de données conçue pour rendre l’analytics accessible, engageant et actionnable pour tous, notamment les décideurs non techniques. Pensée dès le départ pour l’embedded analytics, Toucan permet d’intégrer simplement des visualisations de données dans des produits, portails ou tableaux de bord internes. Son approche centrée sur le data storytelling facilite la lecture des graphiques et la compréhension des enjeux, encourageant ainsi une véritable culture de la donnée dans les organisations.
Grâce à son studio d’applications, Toucan permet de créer des applications BI personnalisables, disponibles en marque blanche et adaptables à tous les types d’écrans. Son interface ergonomique, combinée à plus de 100 connecteurs de données prêts à l’emploi, permet aux équipes de centraliser leurs données issues de sources comme Salesforce, NetSuite ou Google Analytics. Toucan met l'accent sur la clarté et la contextualisation des données : glossaire intégré, annotations collaboratives, recommandations automatiques, vues configurables... tout est pensé pour que la donnée parle d’elle-même. L’outil propose également des options de déploiement variées : intégration dans une plateforme existante, affichage autonome, ou génération de rapports imprimables.
• Tableau : dashboards interactifs, interface drag-and-drop.
Tableau est un outil de visualisation de données puissant permettant de transformer des données complexes en tableaux de bord interactifs. Son interface drag-and-drop permet de créer facilement des rapports détaillés sans compétences techniques avancées. Tableau se connecte à une large gamme de sources de données, y compris les plateformes cloud et les bases de données relationnelles. Il offre également des fonctionnalités de collaboration en temps réel et d'analyse approfondie, rendant les insights accessibles à tous.
• Metabase : BI open-source, accessible sans SQL.
Metabase est une plateforme open-source de business intelligence (BI) qui permet aux utilisateurs de visualiser et de partager des informations à partir de leurs données sans nécessiter de compétences en SQL. Facile à installer et à utiliser, l’approche intuitive de l'exploration de données rend Metabase accessible à tous les niveaux de compétence technique, favorisant ainsi une culture de données démocratisée au sein des organisations.
• Omni : nouvelle génération de self-BI, pensée pour les équipes métier.
Omni est une solution moderne de data visualisation pensée pour démocratiser la Business Intelligence (BI) au sein des équipes métier. Basée sur un semantic layer, Omni permet aux utilisateurs de manipuler, transformer et visualiser leurs données directement dans l’interface produit, avec une approche hyper intuitive. Cette flexibilité rend l’analyse accessible même sans compétences techniques avancées. La solution permet aussi de faciliter la collaboration entre les équipes Data et métier. Conçue par d’anciens membres de l’équipe Looker, la plateforme incarne une nouvelle génération d’outils de self-BI, combinant puissance analytique et simplicité d’usage. Bien qu'encore récente, Omni s’impose progressivement comme une solution incontournable sur le marché des outils d’activation de données, en particulier dans les organisations en quête d’autonomie et d’agilité dans leurs décisions basées sur la donnée.
5. Data Orchestration
La planification et l’automatisation des pipelines de données sont des éléments clés pour garantir un traitement fluide, fiable et reproductible des flux de données. La Modern Data Stack propose plusieurs outils d’orchestration qui permettent de gérer les dépendances entre tâches, de planifier les exécutions et de superviser les workflows de bout en bout. Ces solutions assurent la cohérence, la traçabilité et l’optimisation des traitements dans des environnements complexes et en constante évolution.
• Apache Airflow : gestion des tâches, langage Python
Apache Airflow est un orchestrateur open-source utilisé pour la gestion et la planification des pipelines de données. Combiné à Python, il peut être utilisé pour automatiser les tâches de transformation des données, créer des data pipelines complexes et surveiller le processus de transformation des données.
• Dagster : orchestration complète avec validation intégrée.
Dagster est un orchestrateur de données qui gère les data pipelines, les dépendances et la qualité des données. Il fournit un cadre unifié pour construire, tester et déployer des data pipelines. La fonction principale de Dagster est l'orchestration, permettant aux utilisateurs de définir et de planifier des flux de data complexes impliquant de multiples tâches et dépendances. Il comprend des fonctionnalités permettant de surveiller et d'assurer la qualité des données tout au long du pipeline, telles que la validation des données et la gestion des erreurs.
• Prefect : surveillance temps réel des workflows, déploiement cloud ou local.
Prefect est un outil d’orchestration moderne conçu pour automatiser, planifier et surveiller les workflows de données de manière flexible et fiable. Il permet aux équipes data de construire des pipelines robustes en Python, avec une gestion fine des dépendances, des erreurs et des exécutions. Grâce à son interface intuitive et son architecture orientée cloud ou on-premise, Prefect facilite le déploiement et le suivi des tâches, tout en offrant une grande visibilité sur l’état des workflows en temps réel.
6. Data Observability & Gouvernance
Cette brique vise à garantir la qualité, la conformité et la traçabilité des données. Elle regroupe des outils permettant de surveiller les pipelines, détecter les anomalies et centraliser les métadonnées pour une gouvernance fiable et évolutive.
• Dinmo : CDP composable, activation marketing.
DinMo est une Customer Data Platform composable qui permet de centraliser et d'unifier les données clients dans une infrastructure existante. Elle facilite la création d'audiences et l’activation des données dans divers outils comme les plateformes publicitaires ou CRM. DinMo se distingue par sa capacité à enrichir les données avec des attributs prédictifs, améliorant ainsi la personnalisation des campagnes. La solution est scalable et permet une activation rapide des données, tout en offrant une sécurité renforcée sans duplication de données.
• Monte Carlo : observabilité automatisée avec IA.
Monte Carlo est une solution de data observability qui utilise l'intelligence artificielle pour surveiller, identifier et corriger les problèmes de qualité des données à travers les systèmes. Elle aide les organisations à prévenir les interruptions de données et à garantir la précision des insights pour la prise de décision.
• DataHub : plateforme open-source de métadonnées.
DataHub est une plateforme de métadonnées open-source pour la découverte de données, conçue pour centraliser et organiser les informations sur les données au sein d'une entreprise. Elle facilite la recherche et la compréhension des données à travers une vue unifiée, améliorant la gouvernance, la collaboration et la gestion du cycle de vie des données.
• Sifflet : détection proactive d’anomalies, surveillance continue.
Sifflet est un outil de data observability conçu pour surveiller en continu la santé des pipelines et la qualité des données. Il permet de détecter proactivement les anomalies, les ruptures de schéma ou les problèmes de rafraîchissement et de mise à jour des données, tout en offrant une visibilité claire sur les flux de données à travers l’ensemble de la Stack. En centralisant les alertes et les métadonnées, Sifflet facilite l’orchestration des interventions et renforce la fiabilité des systèmes data, en permettant aux équipes de réagir rapidement en cas d’incident.
Pour aller plus loin, explorez la carte interactive de la Modern Data Stack sur mad.firstmark.com