Zurück zur Übersicht

Online Magazin

Dataiku und H2O Driverless AI & MLOps auf dem Prüfstand

Key Visual Tech Talk

Um herauszufinden, welche Machine Learning Plattform am besten geeignet ist, um deine ML-Lösung aus dem Labor in die Produktion zu bringen, kannst du ein Evaluation Framework verwenden. Aber wie schneiden die verschiedenen ML-Plattformen auf dem Markt dabei tatsächlich ab? Stellen wir zwei von ihnen – Dataiku und H2O Driverless AI & MLOps – auf den Prüfstand.


von Marcel Moldenhauer

Wie in diesem Artikel erklärt, können wir Machine Learning Plattformen anhand ihrer Abdeckung und der Maturität der einzelnen Funktionsbereiche und Komponenten bewerten. Um dir einen Einblick in die dadurch gewonnenen Erkenntnisse zu geben, schauen wir uns zwei Mitbewerber in diesem Bereich an: Dataiku und H2O Driverless AI & MLOps. Im Falle von H2O betrachten wir zwei Produkte, H2O Driverless AI und H2O MLOps, die separat verwendet werden können, zusammen aber den E2E ML Lifecycle umfassen.

Das Assessment zeigt, dass sich die beiden Plattformen in der Herangehensweise an einen Data Science Workflow ziemlich stark unterscheiden. Während H2O Driverless AI den Data Science Lifecycle automatisieren will und damit das Modelltraining auch für Citizen Data Scientists ermöglicht, will Dataiku die tägliche Arbeit von Data Scientists erleichtern – von der Datenexploration und -bereinigung bis zum Modelltraining und -einsatz.

Abbildung 1: Dataiku und H2O Driverless AI & MLOps im direkten Vergleich.


1. Datenerfassung und -speicherung

Dataiku bietet mehrere Konnektoren für Batch- und Streaming-Daten aus über 25 führenden Datenquellen, sowohl aus der Cloud als auch On-Premises. Zu den Quellen gehören bekannte Hyperscaler wie Amazon S3, Azure Blob Storage, Google Cloud Storage sowie Snowflake, SQL- und NoSQL-Datenbanken und HDFS. Der Dataiku Visual Flow ermöglicht es Programmierern und Nicht-Programmierern, an einem Projekt zusammenzuarbeiten, indem er no-code und codebasierte Bausteine nahtlos integriert und die Möglichkeit bietet, Datenpipelines einfach zu erstellen und zu überwachen. Zum Bereinigen, Aufbereiten und Analysieren von Daten gibt es integrierte oder anpassbare Rezepte. Ausserdem können integrierte Datentransformatoren gängige Datenmanipulationsaufgaben ausführen, wie das Suchen und Ersetzen oder die Normalisierung von Daten. Für anspruchsvollere Aufgaben können User die Funktionalitäten des geschriebenen Codes mit Python, R oder Scala erweitern. Monitoring ist im Falle von Datenpipelines nur in Form eines Protokolls aller Aktionen möglich, da Dataiku keine Metriken für das Dashboarding bereitstellt.

Im Vergleich dazu arbeitet H2O Driverless AI auf einer bestehenden Big-Data-Infrastruktur, auf Bare Metal oder auf bestehenden Hadoop-, Spark- oder Kubernetes-Clustern. Die Daten werden direkt von Hadoop HDFS, Spark, Amazon S3, Azure Data Lake oder anderen Datenquellen übernommen und sind sofort einsatzbereit. Manuelle und benutzerdefinierte Transformationsmöglichkeiten sind eingeschränkt, da die Plattform Änderungsfunktionen als Code ausführt (in einem Textfeld mit einfachen Syntax-Highlights). Die Stärke von H2O Driverless AI ist die automatische Feature-Generierung und Transformation, um die Entwicklung neuer, hochwertiger Features für einen bestimmten Datensatz zu automatisieren. Darüber hinaus bietet H2O Driverless AI automatisierte Visualisierungen, die Usern einen schnellen Überblick über ihre Daten geben, bevor sie mit der Modellerstellung beginnen. Die Überwachung von Dateneingabeprozessen ist mit der H2O Driverless AI-Plattform nicht möglich und muss über separate Tools implementiert werden.

2. Experimentierbereich

Die AutoML-Funktionen von Dataiku bieten automatisierte Lösungen für das Feature-Engineering und die Algorithmen für das Modelltraining. Für codebasierte Experimente unterstützt Dataiku eine Vielzahl von Notebooks mit Python, R und Scala, die auf Jupyter basieren. Für Deep-Learning-Modelle können Data Scientists auf Keras- und Tensorflow-Module und -Bibliotheken zurückgreifen: So können sie die zusätzliche Leistung von GPUs für das Training und die Bereitstellung nutzen. Darüber hinaus ermöglicht Dataiku eine solide Verwaltung der Modelle und eine Vielzahl von Visualisierungen, um die Ergebnisse und das Verhalten der Modelle zu verstehen. Der Dataiku Visual Flow steuert und verwaltet den gesamten Experimentierprozess in einer einheitlichen Ansicht von der Dateneingabe bis zur Bereitstellung.

H2O Driverless AI ist in erster Linie eine AutoML-Plattform, die sich voll und ganz auf die automatisierte ML-Entwicklung konzentriert. Somit erlaubt sie es auch Personen ohne Programmierkenntnisse, ML-Modelle zu erstellen, zu trainieren und zu evaluieren. Darüber hinaus kann man mit benutzerdefinierten Codeschnipseln (bereitgestellt in externen Code-Repositories wie Git) die vorhandenen AutoML-Funktionen erweitern. Die manuelle Entwicklung von ML-Modellen über Code ist bei H2O Driverless AI nicht möglich. Für die Nachverfolgung von Experimenten werden robuste Techniken und anpassbare Visualisierungen zur Verfügung gestellt – das hilft bei der Interpretation und Erklärung der Ergebnisse von ML-Modellen. Ebenfalls erwähnenswert ist, dass H2O Driverless AI einen Schwerpunkt auf die Erklärbarkeit von Modellen legt und eine grosse Auswahl an Visualisierungen bereitstellt, um dieses neue und aufstrebende Thema in der KI anzugehen.

3. Kontinuierliche Integration

Dataiku bietet eine Integration mit Git, einschliesslich Versionskontrolle von Projekten, Import von Python- und R-Code, Entwicklung und Import von wiederverwendbaren Plugins und mehr. Mit Dataiku Visual Flow erstellte Datensätze werden in Case Data Pipelines automatisch versioniert und mehrfach ausgeführt. Modelle, die man über die von Dataiku bereitgestellten Bausteine entwickelt, werden standardmässig mit den entsprechenden Metadaten versioniert. Dataiku bietet keinen umfassenden Feature Store. Man kann aber eine Reihe von Rezepten generieren, die als funktional begrenzter Funktionsspeicher dienen.

H2O Driverless AI bietet einen umfassenden Modellspeicher, der die auf der Plattform entwickelten Modelle persistiert und versioniert. Ein grundlegender Datensatzmanager zeigt alle nutzbaren und verbundenen Datensätze, einschliesslich Metadaten, an. Vor kurzem hat H2O hat einen neuen Feature Store eingeführt, der jedoch nicht Teil dieser Bewertung ist. H2O MLOps und H2O Driverless AI bieten ein gemeinsames Produktionsmodell-Repository: Das ermöglicht Teams die einfache Zusammenarbeit und Bereitstellung von Modellen in Test- oder Produktionsumgebungen. Darüber hinaus schafft die Plattform eine gut funktionierende Verbindung zwischen Experimenten und der Industrialisierung von Modellen auf der Plattform. Extern entwickelte ML-Modelle können von H2O MLOps unter Verwendung der erforderlichen Code-Wrapper bereitgestellt werden.

4. Industrialisierungsbereich

Dataiku Data Science-Projekte bündeln die entwickelten ML-Modelle als einsatzbereites Paket mit allen notwendigen Umgebungsvariablen, um sie in einer Produktionsumgebung auszuführen. Die Containerisierung erfordert zusätzliche Plugins mit der Möglichkeit der Integration mit Kubernetes. Der Dataiku Unified Deployer verwaltet die Bewegungen des verpackten Projekts zwischen Experiment und Produktion für Batch- und Echtzeit-Scoring. Die Dataiku-Produktionsumgebung kann alltägliche Aufgaben für Projekte wie Monitoring, Datenaktualisierung und Neutraining von Modellen auf der Grundlage eines Zeitplans oder von Warnmeldungen planen. Darüber hinaus ist es möglich, Dataiku in eine bestehende CI/CD-Landschaft zu integrieren. Dort kann man mit Hilfe verfügbarer DevOps-Tools wie Jenkins und GitLabCI automatisierte Tests, Umschulungen und Bereitstellungen durchführen.

Mit H2O MLOps ist es einfach, Modelle zu verpacken und in Produktionsumgebungen als einzelne Instanz oder als Kubernetes-Cluster bereitzustellen. MLOps-Teams können problemlos mehrere Umgebungen für Entwicklung, Tests und Produktion verwalten, die alle an verschiedenen Standorten direkt von H2O MLOps aus laufen. H2O MLOps umfasst das Monitoring verschiedener Service-Levels sowie von Datendrifts mit Echtzeit-Dashboards, die von Grafana integriert werden. Für das Modell-Lifecycle-Management stellt H2O MLOps dem Betriebsteam die Tools zur Verfügung, um Modelle in der Produktion nahtlos zu aktualisieren und zu fördern, Modelle zu beheben und Bereitstellungsstrategien wie A/B-Tests in verbundenen Umgebungen durchzuführen.

5. Datenpräsentation

Dataiku bietet wirkungsvolle Visualisierungen, um Ergebnisse zu analysieren und aus den Daten gewonnene Erkenntnisse an das Team oder die Organisation weiterzugeben. Interaktive und datengesteuerte Dashboards lassen sich mit wenigen Klicks erstellen, anzeigen und mit allen Beteiligten im Unternehmen teilen. Die Integration mit bestehenden BI-Plattformen wie Tableau, Qlik und PowerBI ist sofort verfügbar. Darüber hinaus gibt es die Möglichkeit, die Modelle als REST-API bereitzustellen, die von einer Schnittstelle genutzt werden können. Mit den Dataiku-Apps kann man ganz einfach KI-Apps erstellen und ein Projekt als brauchbare Geschäftsanwendung veröffentlichen.

Mit H2O Driverless AI hingegen kann man Modelle automatisch über mehrere Umgebungen hinweg als REST-API-Endpunkt bereitstellen, um sie in jeder Art von Anwendung zu verwenden. Alternativ kann man sie automatisch als Service in der Cloud ausführen (mit AWS Lambda) oder als hochoptimierte Jar-Datei für Edge-Geräte exportieren. H2O Driverless AI lässt sich auch in Knime und Snowflake integrieren. H2O Wave bietet eine leicht zugängliche integrierte Web-App-Plattform, die die in H2O Driverless AI entwickelte ML-Modelle nutzt. Dieses Produkt war nicht Teil unserer Bewertung; trotzdem ist es erwähnenswert.

Fazit

Dataiku glänzt als eigenständige Plattform mit dem Schwerpunkt auf Benutzerfreundlichkeit, visuellen Pipelines und keinen Programmieranforderungen. Im Gegensatz zu H2O Driverless AI ist Dataiku eine vollwertige Data-Science-Plattform, die nicht nur ML-Modelltraining, sondern auch Datenaufbereitung, Datenexploration und die notwendige Erweiterung durch Code abdeckt. Damit passt sie sich an die anspruchsvollsten Data-Science-Anwendungsfälle an. Während Teile von Dataiku auch für Citizen Data Scientists zugänglich sind, ist zur Nutzung der gesamten Leistung mehr Wissen erforderlich. Dataiku bietet eine grosse Abdeckung über alle Funktionsbereiche und deren Komponenten hinweg, lässt aber manchmal die nötige Maturität vermissen, z.B. beim Model Serving.

Im Gegensatz zum anspruchsvolleren Ansatz von Dataiku hilft H2O Driverless AI mit seiner intuitiven Benutzeroberfläche Citizen Data Scientists, Modelle nicht nur zu erstellen, sondern auch zu analysieren und sie über H2O MLOps erfolgreich in die Produktion zu bringen. H2O Driverless AI ermöglicht – wenn saubere Daten vorhanden sind – die schnelle Erstellung von ML-Modellen (z.B. Klassifizierung) und liefert die notwendigen Metriken und Plots. Dieses vereinfachte Paket ermöglicht es den unterschiedlichsten Personen, sich zu beteiligen. Der Preis dafür ist allerdings, dass es weniger flexibel ist und sich kaum für anspruchsvollere Data-Science-Anwendungsfälle eignet. Darüber hinaus fehlt es H2O Driverless AI & MLOps an Abdeckung in den Bereichen Datenerfassung und -speicherung sowie im Industrialisierungsbereich, z.B. durch fehlende Komponenten für das Monitoring von Datenpipelines oder das Retraining von Modellen.

Es gibt noch viele weitere Nuancen, über die man im Hinblick auf die Bewertung dieser beiden ML-Plattformen sprechen könnte. Hoffentlich hat dir dieser Artikel Lust darauf gemacht, dir diese und andere Plattformen genauer anzusehen.

DIESE BEITRÄGE WURDEN EVALUIERT UND FÜR "TOP" BEFUNDEN:

TechTalk
Datenplattform

TechTalk Audio: BI Consultant
Im Gespräch mit
KI Analytics

... Elodie Briefer
Cat!apult
Cat!apult Podcast

Deine Ansprechperson