Le lac de données (Data Lake):
un complément agile et évolutif à l’entrepôt de données

Le lac de données (Data Lake):
un complément agile et évolutif à l’entrepôt de données

Jusqu’à présent, ton entrepôt de données («data warehouse» ou DWH en anglais) évoluait au fil du temps et satisfaisait à toutes les exigences. Mais la numérisation croissante de ton entreprise lui pose désormais de nouveaux défis. Les départements spécialisés veulent une application rapide de rapports et d’analyses afin de tenir tête à la rapidité sur les marchés. Mais leur représentation dans l’entrepôt de données prend-elle trop de temps ? Ou de nouveaux modèles commerciaux, basés sur les données, exigent-ils des informations et des analyses dans la seconde afin de réagir aux exigences des clients ? La quantité de données structurées et non augmente-elle inexorablement ?

Un lac de données peut compléter, voire élargir le DWH existant afin de répondre aux exigences croissantes de l’entreprise numérique dans la gestion de données. Un lac de données maîtrise avec flexibilité l’enregistrement de formats au choix, reste agile en ce qui concerne les différentes possibilités de requête, traite rapidement les données, en temps réel, et est évolutif en matière de performance de calcul et de capacité mémoire.

Tirer le meilleur parti des données grâce au lac de données gouverné

L’idée selon laquelle toutes les données disparaissent littéralement dans un énorme lac de données pour être «pêchées» au besoin n’est plus d’actualité. Un tel lac de données se transformerait en effet rapidement en marécage et l’atout initial de collecte non structurée de données deviendrait un inconvénient.

Il faut donc compléter les atouts de l'entrepôt de données avec ceux d'un lac de données, c’est-à-dire créer une Managed Data Foundation, comme nous l’appelons chez Trivadis: le lac de données dit gouverné en fait partie. Ainsi, le lac de données se voit conférer une structure bien ordonnée, avec des zones et une archive. Et il reste un «réservoir» flexible pour toutes les données de l’entreprise, allant bien au-delà des possibilités d’un entrepôt de données en termes de complexité, de taille et d’évolutivité.

cp-Jackpot-dank-Data-Lake_ib

Nous rassemblons toutes les données de ton entreprises dans un lac de données, établissons de nouveaux liens entre elles et faisons en sorte que tu disposes d’analyses fondées pour tes affaires et tes projets en moins d’une seconde.

 

En plus de son agilité supérieure, de sa gestion de grands volumes de données et de plus de flexibilité dans les options d’analyse, un lac de données tel que nous l’entendons, à savoir doté des fast data et d’un event hub, propose les fonctions souvent utiles aujourd'hui de traitement de flux et d’analyse en temps réel, contrairement à un entrepôt de données. D'une part, l’objectif est d’aller chercher et d’enregistrer des données quasiment en temps réel, par des machines et des véhicules qui peuvent s’en servir pour produire des téraoctets en quelques heures. D’autre part, les données disponibles aussi rapidement doivent être traitées et analysées dans la seconde afin d’être réellement utiles. Le traitement rapide de fast data représente le premier point. Mais il faut aussi que les données soient réparties par filtrage afin de ne mettre à disposition que celles nécessaires à l’analyse alors que les autres sont enregistrées pour être utilisées plus tard.

Le lac de données gouverné convient donc parfaitement comme base à un laboratoire de données (Data Lab) pour les travaux de recherche des scientifiques des données. Les formats de données ne sont pas limités. Ainsi, le lac de données vient élargir l’entrepôt de données tout en en remplaçant certaines parties, l’entrepôt classique continuant à remplir ses fonctions traditionnelles pour l’utilisateur final.

Un lac de données auprès d’un seul prestataire avec le conseil, la planification, la mise en œuvre et l’exploitation

Nous sommes des experts en données et pour les lacs de données, nous misons de préférence sur des outils comme Spark, Kafka, Streamseats et Hadoop ou BlobStores dans le cloud. Nous maîtrisons toutefois aussi d’autres outils si ton entreprise les utilise déjà. Dans nos lacs de données mûrement réfléchis avec un fort degré de gouvernance, nous misons souvent sur un outil que nous avons développé en interne pour la modélisation et la mise en œuvre: biGENiUS. Initialement développé pour l’automatisation d’entrepôts de données, cet outil déploie aujourd'hui aussi ses forces dans les lacs de données.

Même si le lac de données semble prédestiné au cloud, il peut arriver que les solutions sur site soient plus adaptées. Le cloud est surtout utile quand il peut déployer ses atouts en matière de souplesse, à savoir quand il faut une performance de calcul élevée, mais pas tout le temps.

Chez Trivadis, nous nous penchons sur les données depuis plus de 25 ans. Nous disposons donc de l’expérience et du savoir-faire nécessaires pour savoir si un lac de données peut ou doit compléter l’entrepôt de données de ton entreprise. Pour trouver la bonne stratégie à appliquer à la gestion des données, nous vérifions la performance de ton entrepôt de données et analysons comment les exigences de ton entreprise vont évoluer dans le futur pour décider de la pertinence d’un lac de données. Nous considérons en effet qu’il est de notre devoir de générer une valeur ajoutée à partir des données de ton entreprise.

Tu as des questions ou besoin d'aide pour ton projet ?

Nous sommes là pour toi et serons ravis de t'aider.