16. Februar 2023

10 Erfolgsfaktoren für die Data Warehouse Modernisierung

Lesen Sie, welche Erfolgsfaktoren bei der Modernisierung eines bestehenden Data Warehouse essenziell sind.

Viele Unternehmen stehen vor großen Herausforderungen im Datenmanagement. Ihre Data Warehouses sind in die Jahre gekommen, teuer, wenig flexibel und genügen heutigen Anforderungen nicht. Häufig basieren sie auf Technologie, die im Kern bereits mehr als zehn Jahre alt ist, auch wenn regelmäßig Updates nachgezogen wurden.

Modernisieren bedeutet nicht einfach das Austauschen einzelner Technologien, sondern eine grundlegende Überprüfung der Gesamtarchitektur, der Plattform, der Methodik und der Datenlandschaft unter Berücksichtigung der geschäftlichen Anforderungen. Dabei sollten folgende Erfolgsfaktoren berücksichtigt werden:

1. Berücksichtigen der gesamten Datenlandschaft

Gerade ältere Data Warehouses enthalten oft nur Finanz- oder Vertriebsdaten. Prozess- oder Produktionskennzahlen bleiben unbekannt. Ebenso fehlen Informationen zu Service-Leistungen, IT, Personal, etc. Außerdem ändert sich parallel dazu die Datenlandschaft, da auch Kernapplikationen erneuert werden oder werden sollen. Das bedeutet, neue Schnittstellen und vermutlich geänderte Datenvolumen.

Ein modernes Data Warehouse ermöglicht eine 360 Grad Sicht auf das Unternehmen und berücksichtigt auch Sensor- und Logdaten, sowie das Anreichern mit externen Daten.

2. Data Lake Integration

Data Lakes haben sich in den letzten Jahren etabliert zur Speicherung von unstrukturierten Daten, als Datenarchiv oder für das Speichern von Rohdaten, die momentan nicht in Analysen verwendet werden. Technisch werden dazu Object Storages verwendet.

Ein weiteres Einsatzszenario ist das Speichern aller zu integrierender Daten im Data Lake. Nur noch ein Teil der Daten wird später ins Data Warehouse geladen. Der Data Lake wird somit zu einer persistenten Staging Area. Daraus entsteht eine Lakehouse-Architektur, die sowohl aufbereitete Daten für die Datenanalyse und Rohdaten für die spätere Verwendung bereitstellt. Die Implementierung erfolgt üblicherweise cloudbasiert.

3. Datenintegration und Virtualisierung

Es müssen nicht alle Daten in ein Data Warehouse übernommen werden. Manchmal ist die Datenmenge schlicht zu gross für eine Integration. Mittels Virtualisierung werden Queries auf Teile der Quelldaten ermöglicht, nämlich genau so viele wie pro Abfrage benötigt werden. Dies ist eines der Grundkonzepte von Data Mesh.

Der einfache Zugriff auf die Quellsysteme ermöglicht außerdem die Analyse von Echtdaten (real Time Analytics). Werden Daten jedoch zu einem bestimmten Zeitpunkt benötigt, beispielsweise am Tagesende, sind ETL-Jobs zu bevorzugen. Datenintegration und Virtualisierung sind gleichwertige Konzepte, die den Anforderungen entsprechend eingesetzt werden.

The Data Intelligence 25 & The Data Fabric Survey 25

Nutzen Sie Data Intelligence- und Data Fabric-Technologien? Dann würden wir gerne Ihre Erfahrungen dazu hören!

Nehmen Sie jetzt an der weltweit größten Umfrage zum Thema Datenmanagement teil:

4. Skalierbarkeit und Performance-Optimierung

Die Datenmengen in Ladeprozessen und Abfragen sind manchmal groß und haben dann lange Verarbeitungszeiten und einen entsprechend hohen Bedarf an Ressourcen zur Folge. Aus Anwendersicht sind die Antwortzeiten üblicherweise zu lang und werden zusätzlich durch unterschiedliche Nutzerverhalten beeinflusst – beispielsweise durch zusätzliche Abfragen während des Monatsabschlusses.

Merger und Acquisitions verändern das Datenvolumen sprunghaft, erhöhen die Komplexität und Heterogenität der Daten. Gleichzeitig sollen die Systeme rund um die Uhr in einem globalen Konzern verfügbar sein. Verschiedene Instrumente und Szenarien sollten von Anfang berücksichtigt werden, wie die Nutzung von cloudbasierten Infrastrukturen, verteilten Architekturen oder spaltenorientierten DBMS.

5. Self Service Analytics, Advanced Analytics und KI

Ältere Data Warehouses kennen häufig nur vorgefertigte, recht statische, retrospektive Auswertungen. Auf die fehlende Flexibilität reagieren dann Fachbereiche, indem die Berichte nach Excel exportiert und dort den Anforderungen entsprechend aufbereitet werden, häufig mit einem hohen manuellen Aufwand und Fehlerrisiko.

Dynamische, interaktive Dashboards reduzieren diese Aufwände nur teilweise. Diese genügen zwar für einen großen Teil der Fachanwender. Spezialfragen aus dem Geschäftsalltag werden aber erst durch Self-Service-Analytics gelöst. Dazu benötigt werden ausgebildete Power User mit anwendertauglichen Tools, zweckmässige Daten, ergänzt durch Hilfestellung und Support-Angebote.

Weitere Analysemöglichkeiten, wie Data Science, Advanced und Predictive Analytics oder KI sollten als Ausbauschritte vorgesehen werden. Die Erfahrung hat gezeigt, dass neue Anforderungen und Wünsche von den Usern kommen, sobald die dringendsten und wichtigsten Berichtsanforderungen der Fachanwender und Power User erfüllt sind.

6. Automatisierung und Monitoring

Leider ist das Starten von ETL-Jobs zu einem festen Zeitpunkt das Einzige, was in allen Data Warehouses automatisiert wird. Schon das Überwachen dieser Ladestrecken auf Abbrüche oder inhaltlich fehlerhafte Daten findet nur noch teilweise statt. Dabei hätte das Automatisieren und Monitoring ein hohes Potential die Qualität zu steigern und das IT-Personal zu entlasten.

Möglichkeiten zur Automatisierung gibt es viele: Monitoring der Ladeprozesse, der Datenqualität, Systemauslastung und -kapazitäten, automatisiertes Testen, Paketieren und Deployment, etc.

7. Datenqualität und Stammdaten

Ein Bericht mit falschen Daten ist nutzlos oder gefährlich. Gefährlich dann, wenn falsche Ergebnisse nicht erkannt und damit Entscheidungen gefällt werden. Weil es in der Vergangenheit immer wieder zu Fehlern gekommen ist, wird den Berichten nicht mehr vertraut.

Uneinheitliche Stammdaten (Master Data) behindern quellübergreifende Analysen. Es fehlen gemeinsame Schlüssel. Innerhalb des Data Warehouse entstehen Datensilos. Die Datenqualität muss daher von Beginn an stimmen und überwacht werden.

8. Data Governance

Data Warehouses benötigen Regeln für Entwicklung, Datenstrukturen, Betrieb und Self Service Analytics. Diese Regeln müssen von Anfang definiert, geschult und kontrolliert werden. Regelverstöße müssen Konsequenzen haben. Eine fehlende Governance hat eine verminderte System- und Datenqualität zur Folge und ist häufig die Ursache für Technical Debts. Data Governance ist eine Führungsaufgabe.

9. Data Catalogs und Business Glossar

Welche Daten haben wir? Was steht in diesem Feld und wozu kann ich es verwenden? Woher kommen die Daten für diesen Bericht? Sind die Daten aktuell und richtig?

Viele ähnliche Fragen können gelöst werden durch Data Catalogs und Business Glossars. Dabei handelt es sich um ein effektives Metadatenmanagement, mit vielen zusätzlichen Möglichkeiten, wie Kommentierung, Diskussion oder Ratings.

10. Security und Privacy

Einerseits sollen Daten möglichst breit genutzt werden. Auf der anderen Seite fordern Datenschutzgesetze den Zugriff auf Personendaten zu beschränken nach dem Prinzip «need to know». Regulatorische Anforderungen beeinflussen außerdem den Speicherort. Diese teils widersprüchlichen Konzepte führen automatisch zu einer modularen und verteilten Architektur, sowie einem dezidierten Berechtigungskonzept.

The Data Management Survey

Nutzen Sie Software für Data Intelligence, Data Catalogs & Marketplaces, Cloud Data Platforms, Data Observability & Quality, Data Warehouse Automation oder Data Product Engineering? Dann würden wir gerne Ihre Erfahrungen dazu hören!

Nehmen Sie jetzt an der weltweit größten Umfrage zum Thema Data Management teil:

Weitere Inhalte entdecken

Artikel

26. Juni 2025

BARC Start-up Award Data & AI 2025: Einblicke in die Lösungsansätze der Finalisten

Infografik

1. April 2025

Infografik: Observability for AI Innovation

Artikel

27. März 2025

Data Products: Definitionen, Rollen und Best Practices

Infografik

26. März 2025

Infografik: Data Readiness for AI

Score

24. Februar 2025

BARC Score Data Intelligence Platforms 2025

Artikel

13. Februar 2025

BARC Perspective: SAP Business Data Cloud (BDC) – Traditionsbruch und eine Hinwendung zu Data Products

Artikel

12. Februar 2025

4 konkrete Grundsätze für Privacy by Design und Default

Artikel

3. Februar 2025

Effizient und smart Wert aus Daten generieren: mit Data Intelligence zu Transparenz und Vertrauen

Artikel

7. Januar 2025

Die Top 10 Data Culture Podcast-Episoden 2024

Artikel

16. Dezember 2024

Wir wünschen schöne Feiertage!

Artikel

6. Dezember 2024

Business im Mittelpunkt: die Produktstrategie der SAP hat einen klaren Nordstern

Infografik

27. November 2024

Infografik: BARC Data, BI & Analytics Trend Monitor 2025

Ein Beitrag von:

Herbert Stauffer

Senior Analyst Data & Analytics

Herbert Stauffers Schwerpunkte liegen in den Bereichen Daten- und Analytics-Strategie und Architektur, Organisation und Governance, Qualität und Methodik.

Er ist der Autor der Fachbücher „Testen von Data-Warehouse- und Business-Intelligence-Systems“ (dpunkt.verlag, 2013) und „Security in Data-Warehouse- und Business-Intelligence-Systemen“ (dpunkt.verlag 2018).

Herbert ist Leiter des TDWI Roundtable in Zürich, einziger TDWI Fellow und verfügt über mehr als 35 Jahre Erfahrung in Data und Analytics

10 Erfolgsfaktoren für die Data Warehouse Modernisierung

1. Berücksichtigen der gesamten Datenlandschaft

2. Data Lake Integration

3. Datenintegration und Virtualisierung

4. Skalierbarkeit und Performance-Optimierung

5. Self Service Analytics, Advanced Analytics und KI

6. Automatisierung und Monitoring

7. Datenqualität und Stammdaten

8. Data Governance

9. Data Catalogs und Business Glossar

10. Security und Privacy

Weitere Inhalte entdecken

BARC Start-up Award Data & AI 2025: Einblicke in die Lösungsansätze der Finalisten

Infografik: Observability for AI Innovation

Data Products: Definitionen, Rollen und Best Practices

Infografik: Data Readiness for AI

BARC Score Data Intelligence Platforms 2025

BARC Perspective: SAP Business Data Cloud (BDC) – Traditionsbruch und eine Hinwendung zu Data Products

4 konkrete Grundsätze für Privacy by Design und Default

Effizient und smart Wert aus Daten generieren: mit Data Intelligence zu Transparenz und Vertrauen

Die Top 10 Data Culture Podcast-Episoden 2024

Wir wünschen schöne Feiertage!

Business im Mittelpunkt: die Produktstrategie der SAP hat einen klaren Nordstern

Infografik: BARC Data, BI & Analytics Trend Monitor 2025

Ein Beitrag von:

Bereit für das datengetriebene Unternehmen von morgen?

Dann lassen Sie es uns gemeinsam zum Leben erwecken