Was ist der Unterschied zwischen ETL und Data Warehouse? - Unterschied Zwischen

Was ist der Unterschied zwischen ETL und Data Warehouse?

Das Hauptunterschied zwischen ETL und Data Warehouse ist das der ETL ist der Prozess des Extrahierens, Umwandelns und Ladens der Daten, um sie in einem Data Warehouse zu speichern, während das Data Warehouse ein zentraler Speicherort ist, an dem konsolidierte Daten aus mehreren Datenquellen gespeichert werden.

Ein Data Warehouse ist ein System, das Daten analysiert, Berichte erstellt und visualisiert, um Geschäftsentscheidungen zu treffen. Es ist themenorientiert, integriert, zeitvariant und nichtflüchtig. Es gibt jedoch mehrere Schritte, bevor Sie die Daten in einem Data Warehouse speichern. Dieser Prozess wird als ETL bezeichnet. Dabei werden Daten extrahiert, transformiert und schließlich in ein Data Warehouse geladen. Der Unterschied zwischen ETL und Data Warehouse ergibt sich daher aus diesen Grundkonzepten.

Wichtige Bereiche

1. Was ist ETL?
- Definition, Funktionalität
2. Was ist ein Data Warehouse?
- Definition, Funktionalität
3. Was ist der Unterschied zwischen ETL und Data Warehouse?
- Vergleich der wichtigsten Unterschiede

Schlüsselbegriffe

Data Warehouse, ETL


Was ist ETL?

ETL steht für Extrahieren, transformieren und laden. In diesem Prozess werden die Daten zunächst aus mehreren Datenquellen extrahiert. Dann wird es umgewandelt und in das Data Warehouse geladen. ETL bezeichnet diesen gesamten Prozess. IBM Data Stage, Informatica und Microsoft Integration Services sind einige ETL-Tools auf Unternehmensebene. Schauen wir uns nun jeden Schritt von ETL genauer an.

Extraktion

Die Extraktion ist der erste Schritt. Dabei werden Daten aus verschiedenen Datenquellen wie Datenbanken extrahiert. Bei der Extraktion ist zu beachten, dass die Leistung oder die Antwortzeit der ursprünglichen Datenquelle nicht beeinträchtigt werden sollte. Daher gibt es verschiedene Datenextraktionsstrategien.

Volle Extraktion - Dazu werden alle Daten aus allen Datenquellen extrahiert. Die Hauptanwendung dieser Strategie besteht darin, das Data Warehouse in der Anfangsphase zu laden oder es zu laden, wenn die geänderten Daten nur schwer zu identifizieren sind.

Teilextraktion (mit Updatebenachrichtigung) - Diese Strategie ist einfacher und schneller als die vollständige Extraktion. Dabei werden nur die geänderten Daten extrahiert.

Teilextraktion (ohne Update-Benachrichtigung) - Hierbei werden die Daten anhand bestimmter Schlüsselmerkmale extrahiert. Wenn beispielsweise bis gestern bereits extrahierte Daten vorhanden sind, ist es möglich, die heutigen Daten zu extrahieren und die Änderungen darin zu erkennen.

Transformation

Die extrahierten Daten sind Rohdaten und daher nicht sehr nützlich. Daher erfolgt im nächsten Schritt eine Datentransformation. Dabei werden die Daten bereinigt, zugeordnet und konvertiert. Die grundlegenden Transformationsaufgaben lauten wie folgt:

Auswahl - Auswahl der erforderlichen Daten

Kartierung - Nachschlagen der Daten aus verschiedenen Suchdateien und Abgleichen der Daten, die umgewandelt werden müssen

Datenbereinigung –Bereinigen Sie die Daten, um sie zu standardisieren

Verdichtung - Aggregation und Konsolidierung der Daten

Die wichtigsten Datentransformationsaufgaben sind wie folgt.

Standardisieren - Da die Daten aus verschiedenen Quellen stammen, müssen sie standardisiert werden

Zeichensatzkonvertierung und Codierungsbehandlung - Konvertieren der Daten in eine definierte Kodierung

Werte berechnen - Berechnung und Ableitung neuer Spalten aus den vorhandenen Spalten.

Verschüttete und verschmelzen Felder - Aufteilung eines Feldes in mehrere Felder oder Zusammenfassen mehrerer Felder in einem einzigen Feld je nach Anforderung.

Umrechnung von Maßeinheiten - Einbindung von Zeitkonvertierungen usw.

Verdichtung - Aggregation und Konsolidierung der Daten.

Duplizierung löschen - Löschen der doppelten Daten, die aus mehreren Quellen empfangen wurden.


Wird geladen

Hierbei werden die aufbereiteten Daten abgerufen und im Data Warehouse gespeichert. Es gibt verschiedene Ladetechniken.

Erstes Laden - Erstes Laden des Data Warehouse.

Inkrementelle Last - Anwenden laufender Änderungen in regelmäßigen Abständen.

Vollständige Aktualisierung - Löschen Sie den Inhalt einer oder mehrerer Tabellen vollständig und laden Sie neue Daten.

Was ist ein Data Warehouse?

Data Warehouse ist ein System, das den Business Intelligence-Prozess unterstützt. Es wandelt die Daten in aussagekräftige Informationen zur Analyse des Geschäfts um. Daher ist es eine wertvolle Ressource für das Management einer Organisation, um Entscheidungen zu treffen.

Darüber hinaus verfügt eine Organisation über verschiedene Datenbanken wie MySQL und MSSQL. Alle diese Daten werden extrahiert, transformiert und in das Data Warehouse geladen. Dann werden die Daten integriert und verarbeitet. Schließlich verwenden Datenanalytiker, Datenwissenschaftler und Manager diese Daten, um geschäftliche Erkenntnisse zu gewinnen.


Darüber hinaus sind Daten in einem Data Warehouse in Data Marts unterteilt. Jeder von ihnen enthält Daten für bestimmte Benutzer. Sie verbessern die Sicherheit und Datenintegrität. Normalerweise befindet sich ein Data Warehouse an einem anderen Ort als die normalen Betriebsdatenbanken.

Unterschied zwischen ETL und Data Warehouse

Definition

ETL ist der Prozess des Extrahierens, Umwandelns und Ladens von Daten in einer Data Warehousing-Umgebung. Im Gegensatz dazu ist ein Data Warehouse ein Verbund-Repository für alle Daten, die von den verschiedenen Betriebssystemen eines Unternehmens erfasst werden. Dies ist also der grundlegende Unterschied zwischen ETL und Data Warehouse.

Verwendungszweck

ETL ist ein Prozess, der zum Ändern der Daten verwendet wird, bevor sie im Data Warehouse gespeichert werden. Ein Data Warehouse wird verwendet, um Geschäftsentscheidungen zu treffen. Darüber hinaus verbessert es die Datenqualität und -konsistenz und verbessert die Business Intelligence. Daher gibt es einen Unterschied zwischen ETL und Data Warehouse, basierend auf der individuellen Nutzung.

Fazit

Grundsätzlich besteht der grundlegende Unterschied zwischen ETL und Data Warehouse darin, dass es sich bei ETL um das Extrahieren, Umwandeln und Laden der Daten handelt, um sie in ein Data Warehouse zu speichern, während ein Data Warehouse ein zentraler Ort ist, an dem konsolidierte Daten aus mehreren gespeichert werden Datenquellen.

Referenz:

1. “3 - ETL-Lernprogramm | Extraktion transformieren und laden “, Vikram Takkar, 8. September 2015