Data Warehouses werden gerne als «single point of truth” bezeichnet, abgekürzt als SPOT. Doch stimmt diese Definition wirklich? Antworten dazu gibt die Studie «Data Warehouse and Data Vault Adoption Trends – Modeling, Modernization, and Automation» vom April 2023. Die Studie wurde gemeinsam von der BARC GmbH und der Eckerson Group erstellt.
Die Ergebnisse zeigen, dass die meisten Unternehmen weiterhin auf klassische Data Warehouses setzen (Abbildung 1). Zwei Drittel der genannten Architekturen sind maximal drei Jahre alt, oder es fanden wesentliche Änderungen in diesem Zeitraum statt, womit von aktuellen Systemen gesprochen werden kann.
79 % der Unternehmen setzen ein Data Warehouse ein, jedoch selten als alleinige Architektur-Option. Üblicherweise nutzen die Unternehmen mehrere Systeme parallel (Abbildung 2). Dies macht Sinn, da unterschiedliche Anforderungen durch unterschiedliche Architekturoptionen gelöst werden.
Im Grundsatz werden drei Architekturdomänen unterschieden:
- Information Factory für klassische BI und Analytik. Daten werden zeitscheibenorientiert per Batch-Prozess geladen, meist per ETL oder ELT-Prozess, inklusive Bildung von Historie. Verwendet werden üblicherweise strukturierte und qualitätsgeprüfte Daten. Die Daten stammen aus transaktionalen, meist betriebswirtschaftlichen Systemen, wie ERP’s oder CRM’s. Die Datenbereitstellung erfolgt beispielsweise in Data Warehouses.
Daten in der Domain Information Factory werden mehrheitlich für rückblickende Auswertungen verwendet, wie Monatsberichte, Vorjahresvergleiche, aber auch für einfache Interpolationen in die Zukunft, wie Trends. Analyseformen sind vorgefertigte Berichte in Form von interaktiven Dashboards, Reports, ergänzt durch Adhoc-Analytics und Self-Service Analytics. - Retrospektive Analysen sind vielfach zeitverzögert und stehen im Widerspruch zum Bedarf nach realtime-Informationen aus operativen Prozessen. Die Domain Smart Process Factory ermöglicht die operative Analytik mittels direkten Zugriffs auf die verschiedenen Quellsysteme, teilweise innerhalb der operativen Systeme, wie sie innerhalb der meisten Applikationen möglich sind.
Applikationsübergreifende Analysen können durch Virtualisierung gelöst werden. Ergänzend werden Streaming Engines eingesetzt. - Ohne die genauen Use Cases zu kennen ist es für Unternehmen wichtig sämtliche Daten zu persistieren, unabhängig der Formate. Das heisst es werden strukturierte, semi- und unstrukturierte Daten im Originalformat beispielsweise in einem Data Lake gespeichert, unabhängig einer qualitativen Prüfung.
Die Daten werden nachträglich geprüft und für entsprechende Analysen aufbereitet, beispielsweise für explorative Analytik, wie Erkennung von Mustern, Trends oder die Verprobung von Use Cases durch Data Scientisten.
Tatsächlich verwenden die meisten Unternehmen parallel zum Data Warehouse ein oder zwei weitere Architekturoptionen, meistens die Möglichkeit der operativen Analytik (Abbildung 3).
Interessant sind die über 50 Unternehmen, die kein Data Warehouse nutzen. Diese Gruppe kann geteilt werden. Die etwas größere Hälfte nutzt moderne Architekturkonzepte wie Data Lake, Lake House, Data Factory oder Data Mesh anstelle eines Data Warehouse. Einige Unternehmen setzen mehrere dieser Architektur-Modelle ein.
Die anderen Unternehmen scheinen keine unternehmensweite Architektur zu haben, sondern stellen Daten nach Bedarf in unabhängigen Data Marts bereit oder erstellen Analysen direkt aus den operativen Systemen.
Die Studie zeigt, dass neue Architekturmodelle die bestehenden ergänzen. Bisher hat es kein Modell geschafft, bestehende Modelle zu ersetzen. Damit wird es schwieriger, das richtige Modell für das eigene Unternehmen zu finden, insbesondere wenn noch weitere Aspekte der Datenmodellierung und unterschiedliche Use Cases berücksichtigt werden.
Weitere Informationen finden Sie in unserer Studie «Data Warehouse and Data Vault Adoption Trends – Modeling, Modernization, and Automation» .