21. Februar 2023

Was tun mit den Daten im alten Data Warehouse?

Herbert Stauffer

Mit der Ablösung eines in die Jahre gekommenen Data Warehouse stellt sich die Frage der Datenmigration. Was gibt es zu beachten?

Ein neues Data Lakehouse ist soeben eingeführt. Die gewählten Technologien und die neue Plattform versprechen flexible und performante Auswertungen. Der schrittweise Aufbau von Data Science und KI ist möglich. Entsprechend wird der Erfolg gefeiert. Niemand trauert dem in die Jahre gekommen Data Warehouse nach, wären da nicht noch die Daten, die möglicherweise weiterhin von Interesse sind.

Bevor nun das alte System endgültig außer Betrieb genommen wird, muss geklärt werden, was nun mit den Daten geschieht. Eine Standardantwort darauf gibt es nicht.

Werden die Daten noch benötigt?

Diese Frage ist der Ausgangspunkt für die Wahl der geeigneten Lösung. Das Einfachste ist, wenn niemand mehr Bedarf für diese Daten hat, entweder weil in den Berichten wenig oder keine lange Historie benötigt wird oder die Datenqualität so schlecht ist, dass sowieso niemand einem Ergebnis aus dem alten Data Warehouse traut.

Sollten die Daten weiterhin benötigt werden, ist die Frage welche und wie viele davon. Benötigen wir vielleicht nur die letzten zwei Jahre und die 25 Jahre davor können gelöscht oder archiviert werden? Oder benötigen wir einen Teil der Daten nach anderen Gesichtspunkten, beispielsweise nur Produkthistorie, jedoch keine Logistikinformationen?

Können die Daten migriert werden?

Datenmigration ist eine aufwändige Sache. Es müssen Mappings aufgebaut und verschiedene Herausforderungen aus Sonderfällen der ehemaligen Datenerfassung gelöst werden. Das Zielsystem benötigt Daten, die es so im alten System noch nicht gab. Qualitätsprobleme in den Altdaten müssen gelöst werden.

Im Wesentlichen ist Datenmigration ein Projekt zur Erstellung von ETL-Jobs, die gerade ein einziges Mal laufen. Etwas einfacher fällt die Migration unter Data Vault aus. Die Altdaten werden einfach in separate Satellite-Tables geschrieben.

Behalten wir die alte Datenbank?

Die Datenbank des alten Data Warehouse wird nur noch lesend verwendet. Der Migrationsaufwand entfällt. Jedoch müssen Berichte auf das alte und neue Data Warehouse zugreifen und diese kombinieren. Die Komplexität in den Berichten steigt und Fehler nehmen zu.

Ein virtueller Layer hilft die Komplexität zu kapseln. Das Zusammenführen wird einmal definiert. Berichte greifen nur auf den virtuellen Layer zu, der die Queries aufteilt und die Ergebnisse zusammengeführt an den Bericht zurückgibt.

Wird das alte Datenbank-Managementsystem weiterhin genutzt, bleiben auch Lizenz- und Betriebskosten. Die Entscheidung zum Abschalten wird dadurch nur herausgezögert.

Data Lake als Archiv?

Werden die alten Daten nur selten benötigt, oder gibt es Anforderungen an die gesetzliche Aufbewahrung, ist ein Datenarchiv der sinnvollere Weg. Ein Object Storage als Data Lake ist eine deutlich kostengünstigere Lösung als ein DBMS. Wird der Data Lake in Zonen strukturiert, bietet sich dafür eine eigene Archivzone an.

Benötigen wir die Details?

In den seltensten Fällen werden die Detaildaten von inaktiven Geschäftsfallen der letzten zehn Jahre benötigt. Durch verschiedene Einflüsse, wie Reorganisationen oder andere Anpassungen, sind die Daten für direkte Vergleiche nicht mehr geeignet. Für Trendanalysen reichen verdichtete Daten aus. Das heisst, es genügt ein vereinfachtes dimensionales Modell mit aggregierten Daten. Die Details können getrost in ein Archiv geschrieben werden.

Bei Projekten zur Data-Warehouse-Modernisierung ist der Umgang mit den alten Daten die größte Herausforderung, neben der Evaluation der geeigneten Plattform.

The Data Intelligence 25 & The Data Fabric Survey 25

Nutzen Sie Data Intelligence- und Data Fabric-Technologien? Dann würden wir gerne Ihre Erfahrungen dazu hören!

Nehmen Sie jetzt an der weltweit größten Umfrage zum Thema Datenmanagement teil:

Weitere Inhalte entdecken

Artikel

26. Juni 2025

BARC Start-up Award Data & AI 2025: Einblicke in die Lösungsansätze der Finalisten

Infografik

1. April 2025

Infografik: Observability for AI Innovation

Artikel

27. März 2025

Data Products: Definitionen, Rollen und Best Practices

Infografik

26. März 2025

Infografik: Data Readiness for AI

Score

24. Februar 2025

BARC Score Data Intelligence Platforms 2025

Artikel

13. Februar 2025

BARC Perspective: SAP Business Data Cloud (BDC) – Traditionsbruch und eine Hinwendung zu Data Products

Artikel

12. Februar 2025

4 konkrete Grundsätze für Privacy by Design und Default

Artikel

3. Februar 2025

Effizient und smart Wert aus Daten generieren: mit Data Intelligence zu Transparenz und Vertrauen

Artikel

7. Januar 2025

Die Top 10 Data Culture Podcast-Episoden 2024

Artikel

16. Dezember 2024

Wir wünschen schöne Feiertage!

Artikel

6. Dezember 2024

Business im Mittelpunkt: die Produktstrategie der SAP hat einen klaren Nordstern

Infografik

27. November 2024

Infografik: BARC Data, BI & Analytics Trend Monitor 2025

Ein Beitrag von:

Herbert Stauffer

Senior Analyst Data & Analytics

Herbert Stauffers Schwerpunkte liegen in den Bereichen Daten- und Analytics-Strategie und Architektur, Organisation und Governance, Qualität und Methodik.

Er ist der Autor der Fachbücher „Testen von Data-Warehouse- und Business-Intelligence-Systems“ (dpunkt.verlag, 2013) und „Security in Data-Warehouse- und Business-Intelligence-Systemen“ (dpunkt.verlag 2018).

Herbert ist Leiter des TDWI Roundtable in Zürich, einziger TDWI Fellow und verfügt über mehr als 35 Jahre Erfahrung in Data und Analytics