Zoho DataPrep 2.0 Tutorial – Datenpipelines

  • 8 Minuten zum Lesen

data visualization

In der heutigen digitalen Welt ist der Umgang mit großen Datenmengen und deren sauberer Aufbereitung entscheidend für den Erfolg jedes Unternehmens. Zoho DataPrep 2.0 bietet eine leistungsstarke Plattform, um Datenintegration, Migration und Datenbereinigung ohne eine einzige Codezeile effizient zu meistern. Dieses Tutorial führt dich Schritt für Schritt durch die wichtigsten Funktionen und zeigt dir, wie du mit DataPrep 2.0 deine CRM-Datenworkflows automatisieren und optimieren kannst.

Diese Anleitung zeigt dir praxisnah, wie du Datenpipelines erstellst, Daten bereinigst und fehlerfreie Importe in dein Zoho CRM sicherstellst.

Inhaltsverzeichnis

  1. Einführung in Zoho DataPrep 2.0
  2. Schritt 1: Überblick über die Benutzeroberfläche und Hauptbereiche
  3. Schritt 2: Erstellen einer neuen Datenpipeline
  4. Schritt 3: Importieren und Bereinigen von CRM-Daten
  5. Schritt 4: Datenvorbereitung und Transformation
  6. Schritt 5: Daten an das Zielsystem senden
  7. Schritt 6: Umgang mit Importfehlern und Zielabgleich
  8. Fazit und weiterführende Tipps

Einführung in Zoho DataPrep 2.0

Zoho DataPrep 2.0 ist ein bedeutendes Update der beliebten Datenintegrations- und Bereinigungslösung von Zoho. Es bietet eine intuitive grafische Benutzeroberfläche, die es ermöglicht, Datenquellen zu verbinden, komplexe Transformationsprozesse zu definieren und die bereinigten Daten an verschiedene Ziele zu exportieren – alles ohne Programmierkenntnisse.

Ein zentraler Bestandteil des Tools sind die sogenannten Datenpipelines. Diese Pipelines visualisieren den kompletten Datenfluss von der Quelle über die Verarbeitung bis hin zum Ziel und bieten so eine transparente und effiziente Arbeitsweise. Mit DataPrep 2.0 kannst du deine Daten nicht nur bereinigen, sondern auch automatisieren und regelmäßig aktualisieren lassen.

Schritt 1: Überblick über die Benutzeroberfläche und Hauptbereiche

Bevor wir direkt in die Praxis einsteigen, ist es wichtig, die Grundstruktur von Zoho DataPrep zu verstehen. Die Anwendung gliedert sich in drei wesentliche Bereiche:

  • Workspaces: Dies sind die obersten Organisationseinheiten innerhalb von DataPrep. Ein Workspace dient dazu, verschiedene Datenquellen und -ziele zu verbinden und mehrere Pipelines zu verwalten. Außerdem erleichtert er die Zugriffssteuerung, sodass du Workspaces für einzelne Nutzer oder Teams anlegen kannst.
  • Datenpipelines: Innerhalb eines Workspaces können eine oder mehrere Pipelines existieren. Eine Pipeline definiert den kompletten Datenfluss – von der Quelle über mehrere Transformationsschritte bis hin zum Ziel. Hier findet die eigentliche Datenaufbereitung statt.
  • Jobs: Jedes Mal, wenn eine Pipeline ausgeführt wird – entweder manuell oder nach Zeitplan – entsteht ein Job. In der Jobliste siehst du, wie viele Datenzeilen verarbeitet wurden, wie viel Speicher verbraucht wurde und kannst die Ergebnisse herunterladen oder einsehen.

Zusätzlich gibt es im Einstellungsbereich wichtige Features wie:

  • Abrechnung nach verarbeiteten Zeilen: DataPrep berechnet die Nutzung basierend auf der Anzahl der verarbeiteten Datenzeilen. Daher ist es wichtig, die Datenmengen im Blick zu behalten.
  • Benutzerzugriff und Verknüpfung mit OpenAI: Du kannst Nutzer hinzufügen und KI-gestützte Funktionen aktivieren.
  • Verbindungen (Connections): Hier verwaltest du die unterschiedlichen Datenquellen und -ziele, von Cloudspeichern über Datenbanken bis hin zu Zoho-Apps.
  • Data Bridge: Ein spezielles Tool, um lokale Datenbanken wie SQL Server ins DataPrep einzubinden.
  • Datenschutz- und Compliance-Einstellungen: Zum Beispiel HIPAA-Konformität und Benachrichtigungen.

Schritt 2: Erstellen einer neuen Datenpipeline

Der Kern von DataPrep ist die Erstellung einer Pipeline, die den kompletten Datenfluss abbildet. Lass uns eine Pipeline namens „YouTube Video Beispiel Pipeline“ anlegen und die wichtigsten Schritte durchgehen.

Datenquelle hinzufügen

Der erste Schritt ist, die Datenquelle zu definieren. DataPrep unterstützt eine Vielzahl von Quellen:

  • Datei-Uploads manuell oder automatisch
  • URLs oder API-Aufrufe für Echtzeit- oder regelmäßige Datenabrufe
  • FTP-Verbindungen – ideal für den regelmäßigen Datenimport aus externen Systemen
  • Cloud-Speicher wie Zoho WorkDrive, Google Drive, OneDrive, Dropbox
  • Enterprise-Datenbanken und Cloud-Services wie Amazon S3, Oracle, Azure, Amazon RDS und Redshift
  • Zoho-Anwendungen wie CRM, Analytics, Creator, Forms und sogar Salesforce
  • GPT-basierte Datenabfragen, z. B. für externe Referenzdaten

Wichtig ist, bei der Auswahl der Datenquelle zu beachten, ab welchem Datum oder Zeitraum die Daten abgerufen werden sollen, um unnötige Verarbeitungskosten zu vermeiden.

Datenquellen importieren

Nachdem die Datenquellen ausgewählt sind, importierst du sie in die Pipeline. DataPrep zeigt dann die einzelnen Datensätze als eigene Tabellen an, auf denen du direkt arbeiten kannst.

Schritt 3: Importieren und Bereinigen von CRM-Daten

Daten zusammenführen (Join)

Oft liegen wichtige Informationen in mehreren Tabellen verteilt vor. Um diese zu konsolidieren, bietet DataPrep verschiedene Join-Optionen, die du ohne SQL-Kenntnisse visuell konfigurieren kannst.

Die wichtigsten Join-Typen sind:

  • Inner Join: Bezieht nur Datensätze ein, die in beiden Tabellen übereinstimmen.
  • Left Join: Bezieht alle Datensätze aus der linken Tabelle ein, ergänzt um passende Datensätze aus der rechten Tabelle.
  • Right Join: Analog zum Left Join, aber mit Fokus auf die rechte Tabelle.
  • Outer Join (Full Join): Bezieht alle Datensätze aus beiden Tabellen ein, unabhängig von einer Übereinstimmung.

Wichtig ist, dass du das passende Feld für den Join auswählst – idealerweise eindeutige IDs und keine Textfelder wie Namen, da diese zu Duplikaten oder fehlerhaften Verknüpfungen führen können.

Datenvorbereitung vor dem Join

Bevor du den Join ausführst, empfiehlt es sich, die Daten zu prüfen und gegebenenfalls zu bereinigen, z. B. über eine Vorschau der Datenfelder. So stellst du sicher, dass die Verknüpfung korrekt ist und vermeidest Duplikate.

Datenbereinigung und Transformation

Nach dem Join kannst du deine Daten weiter aufbereiten. Typische Bereinigungen sind:

  • Formatierung von Telefonnummern (z. B. Entfernen von Bindestrichen, Klammern und Leerzeichen)
  • Einheitliche Schreibweisen bei Ländernamen (z. B. „USA“ statt „United States“)
  • Zusammenführen von Vor- und Nachnamen zu einem vollständigen Namen
  • Ersetzen oder Entfernen bestimmter Zeichen oder Werte
  • Filtern oder Löschen unnötiger Spalten

DataPrep bietet dafür eine Reihe von Funktionen, darunter:

  • Datentypen anpassen: Z. B. als E-Mail, Zahl oder Datum
  • Ersetzen: Zeichen oder Muster suchen und austauschen
  • Filtern: Datensätze nach bestimmten Kriterien auswählen
  • Transformation by Example: Anhand von Beispielen automatisch Formeln generieren lassen (funktioniert manchmal gut, kann aber auch fehlerhaft sein)
  • Zusammenführen und Aufteilen von Spalten
  • Leerwerte auffüllen

KI-Unterstützung durch AskZia

DataPrep integriert auch KI-gestützte Funktionen wie AskZia, die dir bei der Erstellung von Formeln oder bei der Datenbereinigung helfen können. Allerdings ist die Zuverlässigkeit noch nicht perfekt und du solltest die Ergebnisse immer überprüfen.

Schritt 4: Datenvorbereitung und Transformation

Stages und Verzweigungen in der Pipeline

Ein besonderes Feature von DataPrep sind Stages, also Zwischenschritte, die eine neue Version eines Datensatzes erzeugen. Das ermöglicht es dir, verschiedene Bearbeitungszweige innerhalb einer Pipeline zu erstellen.

Zum Beispiel kannst du eine Stage anlegen, die nur für den Import in das CRM genutzt wird, während ein anderer Zweig die Daten für eine andere Anwendung oder Analyse vorbereitet.

Spalten umbenennen und löschen

Oft ist es nötig, Spalten umzubenennen, um sie an die Anforderungen des Zielsystems anzupassen. 

Auch das Entfernen unnötiger Spalten ist wichtig, um den Importprozess zu optimieren und Fehler zu vermeiden. Weniger Spalten bedeuten außerdem eine geringere Datenmenge und damit geringere Kosten.

Schritt 5: Daten an das Zielsystem senden

Zielsystem definieren

Der letzte Schritt in der Pipeline ist das Festlegen des Ziels, wohin die bereinigten und transformierten Daten geschickt werden sollen. DataPrep unterstützt hier zahlreiche Optionen, darunter:

  • Zoho CRM
  • Andere Zoho-Apps (Analytics, Creator, Forms etc.)
  • Cloud-Datenbanken und Speicher
  • CSV-Downloads

Importeinstellungen und Zielabgleich

Beim Import kannst du auswählen, ob bestehende Datensätze aktualisiert oder neue angelegt werden sollen. Der Abgleich erfolgt idealerweise über eine eindeutige ID, um Duplikate zu vermeiden.

Automatisierung und Ausführung

Die Pipeline kann manuell gestartet oder automatisiert werden – etwa durch Zeitpläne, Zoho Flow Integrationen oder Webhooks, die externe Trigger unterstützen.

So kann beispielsweise bei Abschluss eines Vorgangs in einem anderen System automatisch eine Datenbereinigung und Synchronisierung gestartet werden.

Schritt 6: Umgang mit Importfehlern und Zielabgleich

Fehleranalyse bei fehlgeschlagenen Importen

Manchmal schlägt der Import fehl, weil Pflichtfelder im Datensatz fehlen oder falsch benannt sind. DataPrep zeigt im Bereich „Target Matching“ an, welche Spalten erforderlich sind und ob Daten fehlen.

Fehlerbehebung

Um Fehler zu beheben, kannst du im Regel-Set die Löschregeln anpassen und fehlende Spalten wieder hinzufügen oder korrigieren. Anschließend aktualisierst du die Zielvorschau und startest den Import erneut.

Best Practices für den Zielabgleich

  • Nutze immer eindeutige IDs für den Abgleich, wenn möglich.
  • Vermeide Textfelder wie Namen oder Telefonnummern als Schlüssel, da diese inkonsistent formatiert sein können.
  • Stelle sicher, dass alle Pflichtfelder vorhanden sind, bevor du den Import startest.
  • Führe bei großen Datenmengen Testläufe mit kleineren Datenmengen durch.

Fazit und weiterführende Tipps

Zoho DataPrep 2.0 ist ein mächtiges Tool, das es ermöglicht, Datenpipelines visuell und ohne Programmieraufwand zu erstellen, Daten aus zahlreichen Quellen zu integrieren, zu bereinigen und in Zielsysteme zu importieren.

Die Pipeline-Visualisierung macht komplexe Datenflüsse übersichtlich und ermöglicht flexible Verzweigungen für verschiedene Anwendungsfälle. Automatisierte Abläufe sparen Zeit und reduzieren Fehlerquellen.

Besonders praktisch ist die nahtlose Integration mit Zoho-Anwendungen, wodurch sich Datenmigrationen und regelmäßige Datenaufbereitungen einfach und effizient umsetzen lassen.

Hier noch einige Tipps für deine Arbeit mit DataPrep:

  • Plane deine Pipeline sorgfältig: Nutze Tools wie Lucidchart oder Whiteboards, um den Datenfluss zu skizzieren.
  • Behalte die Abrechnung im Auge: DataPrep berechnet nach verarbeiteten Zeilen, also optimiere deine Pipelines, um Kosten zu minimieren.
  • Nutze Stages und Verzweigungen: So kannst du unterschiedliche Verarbeitungsschritte parallel abbilden.
  • Verwende eindeutige IDs zum Join und Zielabgleich: Das vermeidet Duplikate und fehlerhafte Zuordnungen.
  • Teste regelmäßig: Führe Zwischenschritte aus und prüfe die Datenqualität mit der Vorschaufunktion.
  • Nutze KI-Funktionen mit Vorsicht: Die AskZia-Funktion kann unterstützen, aber überprüfe immer die Ergebnisse.

Mit diesen Grundlagen bist du bestens gerüstet, um Zoho DataPrep 2.0 effektiv zu nutzen und deine Datenpipelines zu meistern. Probiere es aus und optimiere deine Datenprozesse noch heute!