Construction de pipelines d'ingestion et de transformation de données en temps réel
Contexte
Notre client, un acteur majeur de l’industrie cosmétique possédant de nombreuses marques à son actif, est reconnu pour avoir popularisé le concept de Beauty Tech. Guidée par une profonde culture de la recherche, l’entreprise a entrepris de nombreux projets de recherche et développement et a rapidement adopté une approche orientée vers la data pour accélérer la recherche et améliorer la productivité en exploitant au maximum les données disponibles.
Au cours des deux dernières années, l’équipe Modeo a travaillé en étroite collaboration avec l’équipe technologique de notre client, au sein du département recherche et innovation, dans le but de développer de nouveaux produits data et de fournir des données essentielles aux équipes métier et de recherche.
Enjeux
Pour garantir le succès de ce projet, plusieurs défis majeurs ont dû être relevés :
- mise à disposition de données accessibles et fiables pour les data scientists : nous devions fournir des outils permettant aux data scientists d’accéder à des données de haute qualité avec une offre complète de services et d’outils d’observabilité assurant la fiabilité et l’expérience de développement.
- contraintes réglementaires strictes : le projet devait être fonctionnel en moins d’un an pour répondre aux obligations légales, nécessitant une organisation agile et une mise en production rapide des solutions développées.
La solution : Airflow DAG Factory
Au cours de notre collaboration, nous sommes intervenus sur un grand nombre de projets, en particulier sur l’ingestion de données et le développement de pipelines ETL / ELT pour :
- la prédiction de formules : ingestion et transformation des données de R&D pour accélérer l'innovation cosmétique.
- la modélisation des données : structuration et normalisation des données pour une meilleure exploitation par les équipes métier.
- la mise en œuvre de services de domaine de données partagées (data mesh) : création d’un écosystème où chaque domaine métier gère ses propres données avec des standards partagés.
- la gestion des pipelines de streaming : stockage des données applicatives dans des data warehouses en utilisant Pub/Sub et Apache Kafka.
- le monitoring et la gouvernance des pipelines : mise en place d’outils de suivi pour garantir la qualité et la disponibilité des données.
- la création d'une Airflow DAG Factory : développement d’un mécanisme standardisé permettant l’ingestion automatique de nouveaux flux de données, réduisant ainsi le temps de mise en production et améliorant la flexibilité du système.
Au cours de notre collaboration, nous sommes intervenus sur un grand nombre de projets, en particulier sur l’ingestion de données et le développement de pipelines ETL / ELT pour :
- la prédiction de formules : ingestion et transformation des données de R&D pour accélérer l'innovation cosmétique.
- la modélisation des données : structuration et normalisation des données pour une meilleure exploitation par les équipes métier.
- la mise en œuvre de services de domaine de données partagées (data mesh) : création d’un écosystème où chaque domaine métier gère ses propres données avec des standards partagés.
- la gestion des pipelines de streaming : stockage des données applicatives dans des data warehouses en utilisant Pub/Sub et Apache Kafka.
- le monitoring et la gouvernance des pipelines : mise en place d’outils de suivi pour garantir la qualité et la disponibilité des données
.

Résultats obtenus
Grâce à cette transformation, notre client bénéficie aujourd’hui de :
- une amélioration significative de l’accès aux données : les data scientists disposent d’une plateforme stable et performante pour leurs analyses.
- une réduction du temps de traitement des données : les pipelines automatisés permettent d’accélérer les processus de calcul et de mise à disposition des datasets.
- une conformité réglementaire assurée dans les délais impartis : la solution a été mise en place en moins d’un an, respectant ainsi les contraintes légales.
- une meilleure collaboration entre les équipes : le partage des données est simplifié, ce qui améliore la synergie entre les différents départements.
Stack technique
- langages : Python, SQL
- orchestration : Airflow
- cloud & services :
- GCP : Pub/Sub, BigQuery, Cloud Logging, Cloud Run, GCS, GCR
- Azure : Active Directory, EventHub
Grâce à notre expertise en data engineering, nous avons su répondre aux défis complexes de ce projet et accompagner notre client dans sa transition vers une infrastructure data moderne et performante.