Online Magazine
DataOps: Ein schneller und skalierbarer Weg, Daten in Insights zu verwandeln

Die Menge der von Unternehmen gesammelten Daten übersteigt bereits jetzt unsere Vorstellungskraft, und sie wächst in Umfang und Komplexität exponentiell weiter. In Anbetracht dessen brauchen wir moderne Ansätze, die es Datenteams ermöglichen, schnell und skalierbar Insights daraus zu gewinnen. Könnte DataOps die Lösung für diese Herausforderung sein?
von Claude Zwicker

In den letzten Jahren sind Daten zunehmend in den Mittelpunkt des (wirtschaftlichen) Wachstums und der Entwicklung von Unternehmen gerückt. Daten werden unter anderem genutzt, um das Kundenerlebnis zu verbessern, Lieferketten zu optimieren und Produktionsabfälle zu reduzieren. Möglich wird all dies dank der riesigen Datenmengen, über die wir in jeder Branche und jedem Unternehmen verfügen und mit denen wir arbeiten können. Und diese Mengen sollen noch weiter wachsen: Laut dem Marktforschungsunternehmen IDC wird das Datenvolumen bis 2025 mit einer durchschnittlichen jährlichen Wachstumsrate von 32 % auf 180 Zettabyte (1021 Byte) ansteigen.
Analog zum enormen Wachstum wird die Verwaltung der Daten immer schwieriger. Immer mehr Unternehmen stehen bei der Verwaltung von Datenprojekten vor folgenden Herausforderungen:
- Datenprojekte sind komplex: Sie umfassen viele verschiedene Komponenten, die integriert werden und miteinander arbeiten müssen, wie z. B. sich schnell entwickelnde Ökosysteme, Open-Source- und anbieterspezifische Technologien sowie toolorientierte Entwicklungsansätze.
- Sie haben eine lange Time-to-Market: Die durchschnittliche Zeit bis zur Time-to-Market von Dateninitiativen beträgt 12-18 Monate.
- Ihnen fehlt Data Ownership: Daten für umfangreiche Tests, Datenqualität und die Einhaltung der Datensensibilität machen Daten-Lieferketten-Engagements noch komplexer und einzigartiger.
- Sie müssen mit dem hohen Tempo des Business mithalten: Nur 17 % der IT-Teams liefern erfolgreiche Datenprojekte, die dem vom Business vorgegeben Tempo gerecht werden.
Bis heute verwalten viele Unternehmen ihre Datenprojekte mit zentralisierten oder Wasserfall-Ansätzen und monolithischen Anwendungen. Um die oben genannten Herausforderungen zu lösen, brauchen wir jedoch eine andere Methode für das Datenmanagement.
Ein Ansatz, der in dieser Hinsicht zunehmend an Bedeutung gewinnt, ist DataOps. Laut Data Science Central besteht die Idee hinter DataOps darin, "die widersprüchlichen Ziele der verschiedenen Datenquellen im Unternehmen (Data Science, BI, Geschäftsbereiche, Betrieb und IT) zusammenzubringen". Auf diese Weise will DataOps die Qualität und die Zusammenarbeit bei Datenprojekten verbessern und gleichzeitig ihre Time-to-Market verkürzen.
Aber wie schafft DataOps das? Und funktioniert die Methode wirklich oder ist sie nur ein Hype? Finden wir es heraus, indem wir uns ansehen, worauf DataOps beruht und wie es in einem konkreten Use Case angewendet werden kann.
Worauf beruht DataOps?
Um Datenprojekte qualitativer und teamorientierter zu gestalten und sie schneller auf den Markt zu bringen, nutzt DataOps eine Kombination von Prozessen und Technologien aus 3 bewährten Frameworks und wendet sie auf Daten an:
- Agile: Ziel der Agile-Methode ist es, dass Datenteams und Nutzer*innen effizienter und effektiver zusammenarbeiten. Zu diesem Zweck veröffentlicht das Datenteam regelmässig neue oder aktualisierte Analysen, so genannte "Sprints" – wohl wissend, dass diese möglicherweise noch nicht vollständig entwickelt sind. Durch das kontinuierliche Feedback der Nutzer*innen kann das Team auf veränderte Bedingungen und Anforderungen des Marktes reagieren und sich anpassen. Dadurch ist das gesamte Datenprojekt weitaus reaktionsfähiger als bei der traditionellen Wasserfall-Methode: Dort findet das gesamte Datenprojekt hinter verschlossenen Türen statt, und nur das "Endergebnis" wird mit den Nutzer*innen geteilt, was oft dazu führt, dass das Datenprojekt längst nicht mehr das adressiert, was diese tatsächlich wollen und brauchen.
- DevOps: Bei DevOps (software development meets IT operations) lautet das Schlüsselwort "Automatisierung". Durch die Automatisierung von Prozessen wie Integration, Test und Deployment von Code verkürzt DevOps die Zeit bis zum Deployment, die Zeit bis zur Time-to-Market sowie die Zeit, die zur Problembehebung benötigt wird.
- Lean Manufacturing: Lean Manufacturing zielt darauf ab, den Ausschuss innerhalb eines Systems zu minimieren und gleichzeitig die Produktivität aufrechtzuerhalten. Diese Methodik bezieht sich auf die "operative" Seite eines Datenprojekts, insbesondere auf die Verwaltung der Datenpipeline: Die Daten treten in die Pipeline ein, durchlaufen verschiedene Schritte und verlassen sie in Form von Berichten, Modellen und Ansichten. DataOps orchestriert, überwacht und verwaltet diesen konstanten Datenfluss und schickt dem Datenanalyse-Team bei Abweichungen im Prozess eine automatische Warnung. Dies verbessert die Effizienz, die Qualität und die Transparenz.
Um diese Prozesse und Technologien für ein besseres Management der eigenen Datenprojekte zu implementieren, können Unternehmen eine sogenannte "DataOps Journey" durchlaufen. An dessen Ende erreichen sie den Zustand von "Full DataOps" – einen End-2-End DataOps-Lifecycle.
WAS FÜR INSIGHTS LIEFERN DATEN?
Sie sagen die künftige Nachfrage voraus. Erfahre mehr in diesem Artikel.
Sie helfen dir dabei, deine Kundschaft besser zu kennen. Wie das geht, erklären wir dir in diesem Beitrag.
Sie zeigen, wie und wo du Energie sparen kannst. Mehr Infos gibt's in diesem Podcast.
Die DataOps Journey
Derzeit befinden sich die meisten Unternehmen noch am Anfang ihrer DataOps Journey. Aus Sicht der Daten- und Analysetechnologie besteht diese aus 4 Schritten, wobei der vierte Schritt der Endzustand ist, den wir erreichen wollen (siehe Abbildung 1):
Abbildung 1: Zeitleiste einer DataOps Journey.
- DevOps für Daten: Im ersten Schritt der DataOps Journey verwenden Unternehmen standardisierte Verfahren für Codebereitstellungen und Tests für Test- und Produktionsumgebungen. Im Gegensatz dazu gibt es noch keine Standardisierung bezüglich Datenqualität und Beobachtbarkeit, ETL-Pipelines usw.
- ETL-Vereinfachung: In Schritt 2 führen Unternehmen benutzerverwaltete Konfigurationen für die flexible und automatisierte Orchestrierung und Verwaltung von ETL-Pipelines ein.
- DQ-Automatisierung: In einem dritten Schritt nutzen wir Machine-Learning-Algorithmen, um metadatengesteuerte automatisierte Vorschläge und Anwendungen von Datenqualitäts- und Beobachtbarkeitsregeln zu etablieren.
- Full DataOps: Schlussendlich ist das Ziel, alle datenbezogenen Aktivitäten über den DataOps Lifecycle abzuwickeln – einschliesslich der automatisierten Registrierung von Datenbeständen im Datenkatalog, der Anwendung zusammengehöriger Sicherheitsprinzipien und der Erstellung von APIs für den programmatischen Daten-Austausch zwischen Projekten.
Dies ist also der theoretische Rahmen für die Implementierung von DataOps mit dem Schwerpunkt auf Daten- und Analysetechnologie. Schauen wir uns nun an, wie DataOps in einem konkreten Use Case umgesetzt wird und welche Vorteile dies tatsächlich bringt.
WIE ERREICHEN ÖL- UND GASFIRMEN EIN AGILES DATENMANAGEMENT?
Wenn es darum geht, die nächste Stufe der Daten- und Analysetransformation zu erreichen, sind Unternehmen aus den verschiedensten Industrien gefordert – auch solche im Öl- und Gas-Geschäft. Zum Beispiel wird ihre Transformation dadurch gebremst, dass sie nicht skalieren können.
Wie kann ein Öl- und Gas-Unternehmen diese Hürde überwinden? Lies mehr dazu in diesem Blogbeitrag.
Use Case und Best Practices: DataOps für ein globales Pharmaunternehmen
Ein weltweit führendes Pharmaunternehmen mit Hauptsitz in der Schweiz trat mit der folgenden Problemstellung bezüglich seiner Datenlandschaft an uns heran:
- Die Datenlandschaft bestand aus zentralisierten, monolithischen On-Premise-Anwendungen, die eine dreimonatige Vorlaufzeit für die Skalierung von Computing-Ressourcen (z. B. die Anschaffung eines neuen Servers) nötig machten. Aus diesem Grund war die Zufriedenheit mit der Zuverlässigkeit mittel und mit der Leistung gering.
- Ihre Datenprojekte hatten eine lange Time-to-Market – der Release-Zyklus dauerte in der Regel 3 bis 4 Monate.
- Aufgrund des geringen Vertrauens in die IT-Organisation begannen einige Geschäftsbereiche, ihre eigenen IT-Systeme aufzubauen und zu verwalten, was zu einer Schatten-IT führte.
Angesichts dieser Herausforderungen war klar, dass ein skalierbarer und effizienter Delivery-Ansatz erforderlich wäre, um die Anforderungen der Geschäftsfunktionen zu erfüllen. Mit der Implementierung von DataOps verfolgten wir folgende Ziele:
- Die über 15 Tools und Technologien automatisieren, die in die neue Cloud-basierte Datenplattform des Kunden integriert waren (diese ersetzte die alte zentralisierte monolithische Landschaft).
- Eine positive Nutzer- und Entwicklererfahrung sicherstellen, damit Datenteams Daten als Self-Service bereitstellen und abrufen könnten, wodurch Engpässe beseitigt und die Time-to-Market beschleunigt würden.
- Intelligente und wiederverwendbare Ressourcen entwickeln, wie Out-of-the-Box-Testing-Frameworks und Metriken für die Datenbeobachtung und Veröffentlichung von Datenbeständen auf dem internen Datenmarktplatz zur skalierten Delivery.
- Eine DataOps-Community aufbauen, um das Vertrauen und die Zusammenarbeit zwischen den zahlreichen Daten- und Analyseteams des Unternehmens zu gewährleisten und das Self-Service-Enablement zu fördern.
Durch den Einsatz von DataOps konnte das Pharmaunternehmen seine Fähigkeit, aus Daten einen Mehrwert zu schaffen, erheblich verbessern:
- Die Anzahl der Releases stieg auf 120 pro Monat (im Vergleich zu 1 Release in 3 Monaten zuvor).
- Im Durchschnitt waren die Teams in der Lage, die erste Version eines neuen Datenprojekts in nur 4-6 Wochen zu starten (MVP-Zeit).
- Darüber hinaus erzielten sie einen hohen Return on Investment durch Bestandsreduzierung, Kostenvermeidung und Ressourcenoptimierung.
Bei der Einführung von DataOps bei unserem Kunden haben wir eine Reihe von Best-Practice-Erfahrungen gemacht. Dies sind meine 4 besten Tipps für deine eigene DataOps Journey:
- Die Team-Zusammensetzung ist entscheidend: Unterscheide zwischen DataOps Engineers und Data Engineers und stelle sicher, dass jedes Team einen starken DataOps Engineer hat. Der DataOps Engineer sollte der Process Owner für das Erstellen, Testen, Bereitstellen und Warten der Datenpipelines sein.
- Try. Fail. Learn. Repeat: Beginne mit dem Rollout deines Datenprojekts, sobald es "gut genug" ist, anstatt zu warten, bis es (deiner Meinung nach) "perfekt" ist. Unterstütze die Projektentwicklung mit einer aussagekräftigen Dokumentation.
- Dank Förderung zu Spitzenleistungen: Fördere deine Datenteams durch einen Center of Excellence-Ansatz mit wöchentlichen Gesprächen, die es ihnen ermöglichen, gemeinsam zu lernen und zu wachsen.
- Achte auf die Harmonie der Produktpalette: Wähle Softwareprodukte und Tools, die auf natürliche Weise miteinander harmonieren, damit du bestehende Integrationen zwischen Tools für die Automatisierung nutzen kannst, anstatt sie selbst entwickeln zu müssen.
Fazit
DataOps ist mehr als nur ein Hype – die Kombination von Agile-, DevOps- und Lean-Manufacturing-Methoden und deren Anwendung auf Datenprojekte kann deren Qualität, die Zusammenarbeit und die Time-to-Market erheblich verbessern. So ermöglicht es DataOps, das volle Potenzial der Insights auszuschöpfen, die in den ständig wachsenden Datenmengen erst noch darauf warten, entdeckt zu werden.
