Suche
Close this search box.

10 Erfolgsfaktoren für die Data Warehouse Modernisierung

Lesen Sie, welche Erfolgsfaktoren bei der Modernisierung eines bestehenden Data Warehouse essenziell sind.

Viele Unternehmen stehen vor großen Herausforderungen im Datenmanagement. Ihre Data Warehouses sind in die Jahre gekommen, teuer, wenig flexibel und genügen heutigen Anforderungen nicht. Häufig basieren sie auf Technologie, die im Kern bereits mehr als zehn Jahre alt ist, auch wenn regelmäßig Updates nachgezogen wurden.

Modernisieren bedeutet nicht einfach das Austauschen einzelner Technologien, sondern eine grundlegende Überprüfung der Gesamtarchitektur, der Plattform, der Methodik und der Datenlandschaft unter Berücksichtigung der geschäftlichen Anforderungen. Dabei sollten folgende Erfolgsfaktoren berücksichtigt werden:

1. Berücksichtigen der gesamten Datenlandschaft

Gerade ältere Data Warehouses enthalten oft nur Finanz- oder Vertriebsdaten. Prozess- oder Produktionskennzahlen bleiben unbekannt. Ebenso fehlen Informationen zu Service-Leistungen, IT, Personal, etc. Außerdem ändert sich parallel dazu die Datenlandschaft, da auch Kernapplikationen erneuert werden oder werden sollen. Das bedeutet, neue Schnittstellen und vermutlich geänderte Datenvolumen.

Ein modernes Data Warehouse ermöglicht eine 360 Grad Sicht auf das Unternehmen und berücksichtigt auch Sensor- und Logdaten, sowie das Anreichern mit externen Daten.

2. Data Lake Integration

Data Lakes haben sich in den letzten Jahren etabliert zur Speicherung von unstrukturierten Daten, als Datenarchiv oder für das Speichern von Rohdaten, die momentan nicht in Analysen verwendet werden. Technisch werden dazu Object Storages verwendet.

Ein weiteres Einsatzszenario ist das Speichern aller zu integrierender Daten im Data Lake. Nur noch ein Teil der Daten wird später ins Data Warehouse geladen. Der Data Lake wird somit zu einer persistenten Staging Area. Daraus entsteht eine Lakehouse-Architektur, die sowohl aufbereitete Daten für die Datenanalyse und Rohdaten für die spätere Verwendung bereitstellt. Die Implementierung erfolgt üblicherweise cloudbasiert.

3. Datenintegration und Virtualisierung

Es müssen nicht alle Daten in ein Data Warehouse übernommen werden. Manchmal ist die Datenmenge schlicht zu gross für eine Integration. Mittels Virtualisierung werden Queries auf Teile der Quelldaten ermöglicht, nämlich genau so viele wie pro Abfrage benötigt werden. Dies ist eines der Grundkonzepte von Data Mesh.

Der einfache Zugriff auf die Quellsysteme ermöglicht außerdem die Analyse von Echtdaten (real Time Analytics). Werden Daten jedoch zu einem bestimmten Zeitpunkt benötigt, beispielsweise am Tagesende, sind ETL-Jobs zu bevorzugen. Datenintegration und Virtualisierung sind gleichwertige Konzepte, die den Anforderungen entsprechend eingesetzt werden.

The Data Management Survey
Was denken User über Data-Management-Produkte und welche Trends sind für Ihr Datenmanagement tatsächlich relevant? Nehmen Sie jetzt an der weltweit größten Umfrage zum Thema Data Management teil, bringen Sie Ihre persönlichen Erfahrungen ein und erhalten Sie Einblick in die Zusammenfassung der Umfrageergebnisse!

4. Skalierbarkeit und Performance-Optimierung

Die Datenmengen in Ladeprozessen und Abfragen sind manchmal groß und haben dann lange Verarbeitungszeiten und einen entsprechend hohen Bedarf an Ressourcen zur Folge. Aus Anwendersicht sind die Antwortzeiten üblicherweise zu lang und werden zusätzlich durch unterschiedliche Nutzerverhalten beeinflusst – beispielsweise durch zusätzliche Abfragen während des Monatsabschlusses.

Merger und Acquisitions verändern das Datenvolumen sprunghaft, erhöhen die Komplexität und Heterogenität der Daten. Gleichzeitig sollen die Systeme rund um die Uhr in einem globalen Konzern verfügbar sein. Verschiedene Instrumente und Szenarien sollten von Anfang berücksichtigt werden, wie die Nutzung von cloudbasierten Infrastrukturen, verteilten Architekturen oder spaltenorientierten DBMS.

5. Self Service Analytics, Advanced Analytics und KI

Ältere Data Warehouses kennen häufig nur vorgefertigte, recht statische, retrospektive Auswertungen. Auf die fehlende Flexibilität reagieren dann Fachbereiche, indem die Berichte nach Excel exportiert und dort den Anforderungen entsprechend aufbereitet werden, häufig mit einem hohen manuellen Aufwand und Fehlerrisiko.

Dynamische, interaktive Dashboards reduzieren diese Aufwände nur teilweise. Diese genügen zwar für einen großen Teil der Fachanwender. Spezialfragen aus dem Geschäftsalltag werden aber erst durch Self-Service-Analytics gelöst. Dazu benötigt werden ausgebildete Power User mit anwendertauglichen Tools, zweckmässige Daten, ergänzt durch Hilfestellung und Support-Angebote.

Weitere Analysemöglichkeiten, wie Data Science, Advanced und Predictive Analytics oder KI sollten als Ausbauschritte vorgesehen werden. Die Erfahrung hat gezeigt, dass neue Anforderungen und Wünsche von den Usern kommen, sobald die dringendsten und wichtigsten Berichtsanforderungen der Fachanwender und Power User erfüllt sind.

6. Automatisierung und Monitoring

Leider ist das Starten von ETL-Jobs zu einem festen Zeitpunkt das Einzige, was in allen Data Warehouses automatisiert wird. Schon das Überwachen dieser Ladestrecken auf Abbrüche oder inhaltlich fehlerhafte Daten findet nur noch teilweise statt. Dabei hätte das Automatisieren und Monitoring ein hohes Potential die Qualität zu steigern und das IT-Personal zu entlasten.

Möglichkeiten zur Automatisierung gibt es viele: Monitoring der Ladeprozesse, der Datenqualität, Systemauslastung und -kapazitäten, automatisiertes Testen, Paketieren und Deployment, etc.

7. Datenqualität und Stammdaten

Ein Bericht mit falschen Daten ist nutzlos oder gefährlich. Gefährlich dann, wenn falsche Ergebnisse nicht erkannt und damit Entscheidungen gefällt werden. Weil es in der Vergangenheit immer wieder zu Fehlern gekommen ist, wird den Berichten nicht mehr vertraut.

Uneinheitliche Stammdaten (Master Data) behindern quellübergreifende Analysen. Es fehlen gemeinsame Schlüssel. Innerhalb des Data Warehouse entstehen Datensilos. Die Datenqualität muss daher von Beginn an stimmen und überwacht werden.

8. Data Governance

Data Warehouses benötigen Regeln für Entwicklung, Datenstrukturen, Betrieb und Self Service Analytics. Diese Regeln müssen von Anfang definiert, geschult und kontrolliert werden. Regelverstöße müssen Konsequenzen haben. Eine fehlende Governance hat eine verminderte System- und Datenqualität zur Folge und ist häufig die Ursache für Technical Debts. Data Governance ist eine Führungsaufgabe.

9. Data Catalogs und Business Glossar

Welche Daten haben wir? Was steht in diesem Feld und wozu kann ich es verwenden? Woher kommen die Daten für diesen Bericht? Sind die Daten aktuell und richtig?

Viele ähnliche Fragen können gelöst werden durch Data Catalogs und Business Glossars. Dabei handelt es sich um ein effektives Metadatenmanagement, mit vielen zusätzlichen Möglichkeiten, wie Kommentierung, Diskussion oder Ratings.

10. Security und Privacy

Einerseits sollen Daten möglichst breit genutzt werden. Auf der anderen Seite fordern Datenschutzgesetze den Zugriff auf Personendaten zu beschränken nach dem Prinzip «need to know». Regulatorische Anforderungen beeinflussen außerdem den Speicherort. Diese teils widersprüchlichen Konzepte führen automatisch zu einer modularen und verteilten Architektur, sowie einem dezidierten Berechtigungskonzept.

The Data Management Survey
Nutzen Sie Software für Data Intelligence, Data Catalogs & Marketplaces, Cloud Data Platforms, Data Observability & Quality, Data Warehouse Automation oder Data Product Engineering? Dann würden wir gerne Ihre Erfahrungen dazu hören!
Nehmen Sie jetzt an der weltweit größten Umfrage zum Thema Data Management teil:

Weitere Inhalte entdecken

Ein Beitrag von:

Herbert Stauffer
Data, BI, Analytics oder CPM Software gesucht? Hier finden Sie führende Lösungen im Vergleich!