Data Warehouse : ce que vous devez absolument savoir

Le data warehouse est un incontournable de la data d'analyse. Pourquoi ? À quoi ça sert ? On vous dit tout dans cet article.
Sommaire

Avez-vous déjà entendu parler de data warehouse ?

On aurait pu tout aussi bien utiliser le mot « entrepôt de données », nous direz-vous.

Mais parfois, notre chauvinisme en prend un coup : en France ou ailleurs, les pros de la data parlent bien de data warehouse.

Qu’est-ce qu’un data warehouse ?

Un data warehouse est un système qui récolte et stocke toutes les données dont dispose l’entreprise. Ces données sont récupérées à travers une multitude de sources différentes, à des fins de reporting ou d’analyse. Grâce à des requêtes SQL complexes, l’entreprise crée ainsi des rapports qu’elle utilise pour prendre des décisions sur son activité.

Par exemple, chez Shapr, les équipes utilisent un data warehouse pour créer des audiences similaires à partir des utilisateurs les plus actifs sur l’application afin de générer de nouveaux leads.

Concrètement, les données arrivent brutes dans le data warehouse, qui se charge de les ingérer, les transformer, les traiter et les rendre accessible à la prise de décision.

À l’origine, les data warehouse étaient hébergés sur les serveurs des entreprises. Aujourd’hui, la plupart des data engineers choisissent des solutions cloud.

Si ces dernières ont contribué à rendre le stockage de la donnée plus accessible, elles requièrent encore des connaissances et des compétences techniques très pointues.

On distingue donc souvent les data engineers, qui récoltent et transforment les données, et les data analysts, qui les analysent.

D’où viennent les données ?

L’entreprise dispose de plusieurs sources de données – aussi appelées data sources :

  • les bases de données, comme votre produit, un ERP, un CRM, etc.
  • les outils SaaS, comme les outils d’emailing, d’analytics, de comptabilité, etc.
  • les feuilles de calcul, mises à jour manuellement ou automatiquement.
  • les API externes, qui incluent l’open data.

Quelle est la différence entre un data warehouse et une base de données classique ?

Une base de données classique, que l’on qualifie d’opérationnelle, stocke uniquement les données nécessaires pour faire fonctionner le produit. Sur ces données, vous pouvez appliquez une quantité massive de requêtes simples. Mais pour croiser les données de deux bases de données transactionnelles grâce à des requêtes plus complexes, il vous faut un data warehouse.

Alors que les données des data warehouse suivent un modèle « append only », c’est-à-dire qu’on y intègre des données datées sans modifier les données existantes, les données d’une base transactionnelle sont sans cesse écrasées pour être mises à jour par les applications métiers et reflètent seulement la valeur en cours.

Dans un data warehouse, on retrouve généralement 3 niveaux de couches data – aussi appelées data layers :

  • la couche raw data : les données brutes des data sources
  • la couche staging : les données qui sont formatées par des règles métiers
  • la couche data mart : les données agrégées et transformées pour les équipes métiers. Par exemple, les équipes marketing vont pouvoir analyser le nombre de prospects par canaux ainsi que leur coût d’acquisition, plutôt que d’avoir les données brutes de chaque canal indépendamment.

Dans une base de données opérationnelle, les données ne sont pas stockées dans une optique d’analyse, mais pour faire fonctionner le produit. Elles sont optimisées pour minimiser le temps de réponse aux requêtes qu’utilise le produit. Vous ne retrouverez pas cette logique de couche de données et vous aurez encore moins une table par métier avec les données essentielles pour piloter l’activité métier.

Pourquoi vous devez en avoir un ?

Avant toute chose, il est important de préciser que toute entreprise ne doit pas à tout prix se munir d’un data warehouse. Tout dépend du volume de données que vous traitez et des compétences que vous avez en interne.

Validez donc votre potentiel sur ces deux sujets avant de passer à l’acte 😉

Le data warehouse est un vrai atout pour prendre de meilleures décisions. Il permet de :

  • s’assurer de l’homogénéité de la donnée : si les données sont stockées sous différents formats dans les bases de données source, elles sont formatées en arrivant dans le data warehouse. Les analystes peuvent ainsi facilement les utiliser pour des analyses croisées.
  • mener des analyses dans le temps : les données n’étant pas écrasées par les anciennes, vous pouvez créer des tableaux de bord historiques.
  • accéder facilement à la data sans impacter les opérations : les bases de données analytiques, dont le data warehouse, sont distincts des outils opérationnels pour ne pas ralentir l’expérience client à cause des analyses.

Concrètement, vous pourrez par exemple :

  • calculer la customer lifetime value de vos clients par canal d’acquisition
  • mener des analyses en cohorte pour étudier l’utilisation du support par vos clients en fonction de leur fidélité
  • réaliser des prédictions très précises de vos ventes sur la prochaine année

Alors, on vous a mis l’eau à la bouche ? On aborde justement ce sujet en large et en travers lors de notre prochaine session de formation Data Analyst.

Les internautes ont également consulté :
Pour développe mes compétences
Formation développeur web
Formation data scientist
Formation data analyst
Les internautes ont également consulté :
Comment nous aidons nos alumni à lancer leur carrière dans la tech

Après 9 semaines de bootcamp intensif, les élèves du Wagon ne sont pas abandonnés dans

coding, team work and a lot of good time

Les 12 et 13 juillet dernier avait lieu le HackerFest, un marathon d’innovation dans le

Suscribe to our newsletter

Receive a monthly newsletter with personalized tech tips.