Data Warehouses werden gerne als «Single Point of Truth” (SPOT) bezeichnet. Doch sind sie das wirklich? Antworten dazu gibt die aktuelle BARC Studie «Data Warehouse and Data Vault Adoption Trends – Modeling, Modernization, and Automation».
Die Studie zeigt, dass die meisten Unternehmen weiterhin auf klassische Data Warehouses setzen (siehe Abbildung). Zwei Drittel der Befragten gaben an, dass ihre Architekturen maximal drei Jahre alt sind bzw. wesentliche Änderungen in diesem Zeitraum stattfanden. Somit wird von aktuellen Systemen gesprochen.
79 Prozent der Unternehmen setzen ein Data Warehouse ein, jedoch selten als alleinige Architekturoption. Üblicherweise nutzen sie mehrere Systeme parallel (siehe Abbildung). Das ist sinnvoll, da unterschiedliche Anforderungen durch unterschiedliche Architekturoptionen gelöst werden.
Im Grundsatz werden drei Architekturdomänen unterschieden:
- Information Factory für klassische Business Intelligence (BI) und Analytics. Daten werden zeitscheibenorientiert per Batch-Prozess geladen, meist per ETL oder ELT-Prozess, inklusive Bildung von Historie. Verwendet werden üblicherweise strukturierte und qualitätsgeprüfte Daten. Die Daten stammen aus transaktionalen, meist betriebswirtschaftlichen Systemen, z. B. ERP- oder CRM-Umgebungen. Die Datenbereitstellung erfolgt beispielsweise in Data Warehouses. Daten in der Domain «Information Factory» werden mehrheitlich für rückblickende Auswertungen verwendet, wie Monatsberichte, Vorjahresvergleiche, aber auch für einfache Interpolationen in die Zukunft, wie Trends. Analyseformen sind vorgefertigte Berichte in Form von interaktiven Dashboards, Reports, ergänzt durch Adhoc-Analytics und Self-Service Analytics.
- Retrospektive Analysen sind vielfach zeitverzögert und stehen im Widerspruch zum Bedarf nach Echtzeit-Informationen aus operativen Prozessen. Die Domain «Smart Process Factory» ermöglicht die operative Analytik mittels direkten Zugriffs auf die verschiedenen Quellsysteme, teilweise innerhalb der operativen Systeme, wie sie innerhalb der meisten Applikationen möglich sind. Applikationsübergreifende Analysen können durch Virtualisierung gelöst werden. Ergänzend werden Streaming Engines eingesetzt.
- Ohne die genauen Use Cases zu kennen ist es für Unternehmen wichtig sämtliche Daten zu persistieren, unabhängig der Formate. Das heißt, es werden strukturierte, semi- und unstrukturierte Daten im Originalformat beispielsweise in einem Data Lake gespeichert, unabhängig einer qualitativen Prüfung. Die Daten werden nachträglich geprüft und für entsprechende Analysen aufbereitet, beispielsweise für explorative Analytik, wie Erkennung von Mustern, Trends oder die Verprobung von Use Cases durch Data Scientists.
Tatsächlich verwenden die meisten Unternehmen parallel zum Data Warehouse ein oder zwei weitere Architekturoptionen, meistens die Möglichkeit der operativen Analytik:
Interessant sind die über 50 Unternehmen in der Umfrage, die kein Data Warehouse nutzen. Diese Gruppe kann geteilt werden. Die etwas größere Hälfte nutzt moderne Architekturkonzepte wie Data Lake, Lake House, Data Factory oder Data Mesh anstelle eines Data Warehouse. Einige Unternehmen setzen mehrere dieser Architekturmodelle ein.
Die anderen Unternehmen scheinen keine unternehmensweite Architektur zu haben, sondern stellen Daten nach Bedarf in unabhängigen Data Marts bereit oder erstellen Analysen direkt aus den operativen Systemen.
Die Studie zeigt, dass neue Architekturmodelle die bestehenden ergänzten. Bisher hat es kein Modell geschafft, bestehende Modelle zu ersetzen. Damit wird es schwieriger, das richtige Modell für das eigene Unternehmen zu finden, insbesondere wenn noch weitere Aspekte der Datenmodellierung und unterschiedliche Use Cases berücksichtigt werden. Weitere Informationen finden Sie in unserer Studie «Data Warehouse and Data Vault Adoption Trends – Modeling, Modernization, and Automation».
Data Warehouse Modernization ist ebenfalls das Thema unserer Tagung DWH.next in Zürich.