Data Lake als agile und skalierbare Ergänzung zum Data Warehouse

Data Lake als agile und skalierbare Ergänzung zum Data Warehouse

Bisher hat dein über lange Jahre gewachsenes Data Warehouse (DWH) alle Anforderungen erfüllt, doch die zunehmende Digitalisierung in deinem Unternehmen stellt das Datenlager vor neue Herausforderungen. Die Fachabteilungen benötigen die schnelle Umsetzung von Analysen und Berichten, um mit der Geschwindigkeit der Märkte Schritt zu halten. Dauert die Abbildung im Data Warehouse aber zu lange? Oder verlangen eure neuen, datengetriebenen Geschäftsmodelle nach Informationen und Analysen in Sekundenschnelle, um auf Kundenanforderungen reagieren zu können? Nimmt die Menge an strukturierten und unstrukturierten Daten unaufhörlich zu?

Mit einem Data Lake lässt sich das bestehende DWH ergänzen oder erweitern, um so den wachsenden Ansprüchen des digitalisierten Unternehmens für den Umgang mit Daten zu entsprechen. Ein Data Lake ist flexibel bei der Speicherung beliebiger Formate, agil mit Blick auf unterschiedliche Abfragemöglichkeiten, schnell bei der Verarbeitung von Daten in Echtzeit und skalierbar in punkto Rechenleistung und Speicherkapazität.

Mit dem geordneten Data Lake mehr aus Daten machen

Die Idee, dass bei einem Data Lake wortwörtlich alle Daten in einem grossen See verschwinden und bei Bedarf „herausgefischt“ werden, gehört dabei der Vergangenheit an. Zu schnell „versumpft“ ein derartiger Datensee, und der zunächst gepriesene Vorteil der unstrukturierten Sammlung aller Daten wird zu einem immer grösseren Nachteil.

Es gilt also, die Vorteile eines DWH mit denen eines Data Lakes zu ergänzen, also eine, wie wir bei Trivadis es nennen, Managed Data Foundation zu schaffen: Der sogenannte Governed Data Lake ist ein wesentlicher Bestandteil davon. Damit bekommt der Datensee eine Struktur mit Ordnung, Zonen und Archiv. Und trotzdem bleibt er ein flexiblerer „Behälter“ für alle Daten des Unternehmens, der in punkto Komplexität, Grösse und Skalierbarkeit weit über die Möglichkeiten eines DWH herausgeht.

cp-Jackpot-dank-Data-Lake_ib

Wir bringen alle Daten deines Unternehmens im Data Lake zusammen. Stellen neue Zusammenhänge her. Und sorgen dafür, dass du in Bruchteilen von Sekunden fundierte Analysen für dein Geschäft oder Projekt erhältst.

 

Neben der grösseren Agilität, dem Umgang mit grossen Datenmengen und mehr Flexibilität bei den Analysemöglichkeiten, bietet ein Data Lake, wie wir ihn verstehen, also mit Fast Data und Event Hub, im Gegensatz zum reinen DWH ergänzend die heutzutage häufig benötigten Funktionen wie Stream-Verarbeitung und Echtzeitanalyse. Einerseits geht es darum, Daten quasi in Echtzeit zu holen und zu speichern; etwa von Maschinen oder Fahrzeugen, die in wenigen Stunden Terabytes davon produzieren können. Andererseits müssen die derart schnell verfügbaren Daten auch bearbeitet und in Sekundenschnelle analysiert werden, um einen Nutzen daraus zu ziehen. Die schnelle Verarbeitung von Fast Data ist dabei das Eine, das Andere ist auch die Daten durch Vorfilterung so aufzuteilen, dass nur die für die Analyse benötigten schnell bereitgestellt werden, während die anderen zur späteren Verwendung gespeichert werden.

Der Governed Data Lake eignet sich damit auch ausgezeichnet als Basis für ein Daten Labor (Data Lab) für exploratives Arbeiten durch Data Scientists. Eine Einschränkung bei Datenformaten gibt es nicht. Damit erweitert ein Data Lake das DWH und löst Teile davon ab, wobei das klassische DWH derzeit noch seine traditionellen Aufgaben in Endbenutzernähe erfüllt.

Data Lake aus einer Hand mit Beratung, Planung, Umsetzung und Betrieb

Wir als Datenexperten setzen für Data Lakes bevorzugt auf Tools wie Spark, Kafka, Streamsets und Hadoop oder BlobStores in der Cloud, beherrschen jedoch auch andere Werkzeuge, wenn sie in deinem Unternehmen bereits eingesetzt werden. Für unsere ausgereiften Data Lakes mit einem hohen Governance-Grad setzen wir zur Modellierung und Implementierung am liebsten unser eigenes Tool biGENiUS ein. Ursprünglich für die Automatisierung von DWHs entwickelt, kann es seine Stärken heute auch bei Data Lakes ausspielen.

Auch wenn der Data Lake auf den ersten Blick für die Cloud prädestiniert scheint, so gibt es auch Fälle, in denen eine On-Premises-Lösung bei der Gesamtbetrachtung geeigneter ist. Die Cloud macht sich vor allem dann bezahlt, wenn sie ihre Vorteile in puncto Elastizität ausspielen kann, das heisst, wenn hohe Compute-Leistung benötigt, aber nicht ständig abgerufen wird.

Wir von Trivadis befassen uns seit über 25 Jahren mit Daten, deshalb verfügen wir über die Erfahrung und das Wissen zu beurteilen, ob ein Data Lake euer bestehendes DWH sinnvoll ergänzt oder gar notwendig ist. Um die richtige Strategie für den Umgang mit euren Daten zu finden, prüfen wir die Leistungsfähigkeit eures DWH und analysieren, wie sich die Anforderungen eures Unternehmens zukünftig entwickeln, und ob ein Data Lake sinnvoll ist. Denn aus euren Daten Mehrwerte für euer Geschäft zu generieren, verstehen wir als unsere Aufgabe.

Du hast Fragen oder benötigst Unterstützung bei deinem Projekt?

Wir sind für dich da und helfen dir gerne weiter.