In der heutigen datengetriebenen Welt sind Data Catalogs zu einem unverzichtbaren Werkzeug für Unternehmen geworden, die ihre Daten effizient verwalten und nutzen möchten.
BARC-Studien und -Anwenderbefragungen unterstreichen immer wieder deutlich den Mehrwert der Sammlung von Expertenwissen in Data Catalogs. So zeigt zum Beispiel die Studie „Data Mesh: Game Changer or Just Hot Air?„, dass die Befragten mit Data Catalogs Daten einfacher suchen und finden, ein besseres Datenverständnis dank Kontextinformationen haben und die gefundenen Daten dann auch direkt nutzen zu können. (siehe Abbildung)
Durch die Strukturierung und Organisation von Daten tragen Data Catalogs daher entscheidend zur Steigerung der Data Intelligence bei.
Data Catalogs helfen Geschäftsanwendern effizienter und effektiver zu arbeiten. (BARC Studie „Data Mesh: Game Changer or Just Hot Air?“ n=331)
Was ist ein Data Catalog?
Ein Data Catalog dient als zentrale Informationsquelle, die es Benutzern ermöglicht, benötigte Daten schnell und effizient zu finden und zu verstehen. Es handelt sich dabei um eine Art Bibliothek oder Inventar, das Metadaten erfasst. Diese Metadaten enthalten Informationen über Datenquellen, Daten, sowie Beziehungen oder liefern wertvolle Kontextinformationen. Ein Data Catalog bietet somit eine Übersicht über alle in einer Organisation verfügbaren und relevanten Daten und fungiert als zentraler Anlaufpunkt für das Auffinden und Verstehen von Daten.
Data Catalogs und ihre Bedeutung für Data Intelligence
Data Intelligence umfasst die möglichst automatisierte und smarte Nutzung von Metadaten, um Mehrwert aus Daten zu ziehen und damit datengetrieben handeln zu können.
Insbesondere zur Implementierung von Data Mesh- und Data Fabric-Konzepten oder zur Unterstützung von Data-Governance-Initiativen oder Self-Service Analytics trägt sie entscheidend bei. Data Intelligence beschreibt die Bündelung, Vernetzung und Aktivierung von Wissen aus Metadaten, so dass diese von fachlichen wie auch technischen Anwendern, wie auch von Maschinen genutzt und verstanden werden kann und somit die Nutzung der Ressource Daten optimiert wird.
Dieses vernetzte Wissen beinhaltet daher nicht nur technische Informationen zu Daten. Die Herausforderung liegt in der Verknüpfung von Informationen, beispielsweise mit fachlichen Kontextinformationen, mit Verantwortlichen und Prozessen, mit Governance-Informationen, wie Zugriffsregeln oder Datenqualitätsmetriken, …
Ein Data Catalog hilft dabei die Informationen zu sammeln, aufzubereiten sowie zu verknüpfen und bietet eine nutzerfreundliche Schnittstelle, diese Informationen durchsuchen, verstehen und auswerten zu können. So fördert ein Data Catalog die Zusammenarbeit und den Austausch zu Daten.
Der Nutzen eines Data Catalogs sehen Anwender vor allem im effizienteren und schnellerem Datenzugriff. Weitere Vorteile durch den Einsatz eines Data Catalogs sind unter anderem ein größeres Vertrauen in Daten und den Erkenntnissen aus Daten, die Verkürzung der Analysezeiten, die Vermeidung zusätzlicher Abstimmungsprozesse, die Förderung des datengetriebenen Arbeitens sowie die Vermeidung von Doppelarbeiten oder widersprüchlichen Kennzahlen.
Funktionen und Komponenten eines Data Catalogs
Data Catalogs variieren nach Umfang und Leistung. Data Intelligence Plattformen erweitern den Data Catalog um Funktionen, wie für Active Metadata Management, Data Governance, Advanced Analytics sowie Automation und AI zur Unterstützung von Data Intelligence Jobs.
Die Kernfunktionen solcher Plattformen umfassen
- Intelligente und automatisierte Extraktion, Sammlung und Verknüpfung siloartiger, verteilter Metadatenquellen.
- Intelligente Unterstützung von menschlicher und maschinengesteuerter Metadatenpflege, -aufbereitung und Crowdsourcing.
Intelligente und flexible Metadatenanalyse zur erweiterten und automatisierten Unterstützung der Anforderungen aus Nutzungs- und Governance-Prozessen
Funktionsumfang moderner Data-Intelligence-Plattformen
Data Catalogs: Umsetzung und Best Practices
Bei der Einführung eines Data Catalogs ist es wichtig, folgende Punkte zu berücksichtigen:
- Integration mit bestehenden Systemen: Ein Data Catalog sollte nahtlos in die bestehende Dateninfrastruktur integriert werden können. Das betrifft die Anbindung von Metadatenquellen und -zielen wie auch die Integration in die bestehende Infrastruktur.
- Skalierbarkeit: Achten Sie darauf, dass der Data Catalog mit den wachsenden Anforderungen Ihrer Organisation skalieren kann, funktional wie auch vom Lizenzmodell des Herstellers.
- Benutzerfreundlichkeit: Eine intuitive Benutzeroberfläche und Zugriff auf den Data Catalog ist entscheidend, um sicherzustellen, dass alle Mitarbeiter, unabhängig von ihrem technischen Wissen, den Data Catalog effektiv nutzen können und wollen.
- Fortlaufende Pflege: Ein Data Catalog ist kein statisches Tool, sondern erfordert eine kontinuierliche Pflege und Aktualisierung, um seinen Wert aufrechtzuerhalten.
Best Practices für den Einsatz von Data Catalogs sind unter anderem:
- Definieren Sie klare Ziele, die Sie mit einem Data Catalog erreichen möchten.
- Bringen Sie den Katalog mit Ihrer Datenstrategie und Data Culture in Einklang.
- Überlegen Sie, wie der Erfolg des Data Catalogs gemessen werden kann.
- Kennen Sie Ihre Probleme im Datenmanagement (und Anwendungsfälle) und nutzen Sie diese, um die Vorteile eines Katalogs hervorzuheben.
- Finden Sie Mitstreiter und Enthusiasten, um erste Katalogprojekte durchzuführen.
- Definieren Sie eine Governance für den Data Catalog, einschließlich Wissenssammlung
- Metadatenmodell
- Metadatenerfassung
- Standards
- Menschen und Prozesse
- Seien Sie sich im klaren über Ihre Data Access Strategie
- Machen Sie „lautstark“ auf den Data Catalog aufmerksam
- Binden Sie Business-Nutzer ein und motivieren Sie sie, aktive Mitglieder der Data-Catalog-Community zu werden.
Data Catalog Anwendungsfälle
Data Mesh
Der Data Catalog unterstützt alle Hauptsäulen des Data-Mesh-Konzeptes, also sowohl bei der Dezentralisierung der Datenverantwortung, der Erstellung von Datenprodukten, der Self-Service Data Platform als auch bei der dezentralen Governance. Dabei werden wesentliche Rollen unterstützt, in etwa durch:
- Unterstützung der Data Producers bei der Definition, Bereitstellung und Weiterentwicklung von Datenprodukten (Tabellen, Reports, AI Modelle, …) durch die Auswertung von Nutzerfeedback.
- Unterstützung der Data Consumers bei der Beantwortung der alltäglichen Fragen bis hin zu analytischen Spezialfragen. Die Unterstützung umfasst bspw. Suche, effiziente Trefferlisteneingrenzung, Bereitstellung wesentlicher Kontextinformationen (u.a. Lineage-Informationen), Klassifizierung, Unterstützung in der Nutzerinteraktion, Empfehlungen
- Unterstützung von Data Stewards bei der Überprüfung, ob Datenprodukte regelkonform publiziert werden und damit auffindbar und nutzbar sind durch Monitoring.
Data Fabric
Ein Data Catalog als zentraler Punkt der Metadaten hilft dabei, einen einheitlichen semantischen Layer über verteilte Daten und Systeme zu spannen und schafft damit die Basis für einen holistischen Datenzugriff. Darüber hinaus kann ein Data Catalog als Hub zum Austausch von Metadaten zwischen Systemen fungieren und damit helfen, Daten systemübergreifend effizienter zu verarbeiten oder die Verarbeitung sogar zu automatisieren.
Self-Service-Analytics und Data Catalogs
Durch die Bereitstellung eines zentralen Zugriffspunkts auf Datenwissen unterstützt der Data Catalog Self-Service-Analytics. So können Endnutzer selbst ohne tiefe technische Kenntnisse Datenbestände durchsuchen, verstehen und auf Basis dieses Wissens Daten beschaffen und/oder Berichte erstellen. Das erhöht die Agilität und Geschwindigkeit, mit der Geschäftsentscheidungen getroffen werden können, da es nicht mehr notwendig ist, auf die Unterstützung von Datenexperten oder IT-Teams zu warten.
Einbindung in Data Governance
Data Catalogs sind ein wesentlicher Bestandteil von Data-Governance-Initiativen. Sie helfen, Datensilos aufzubrechen und stellen sicher, dass alle Mitarbeiter mit konsistenten und qualitativ hochwertigen Daten arbeiten. Gleichzeitig unterstützen sie das Monitoring der Datenqualität, von Regeln und Policies sowie von Datenschutz- und Compliance-Vorschriften.
Herausforderungen beim Einsatz von Data Catalogs
Während Data Catalogs erhebliche Vorteile bieten, gibt es auch Herausforderungen bei der Implementierung:
- Die Technologie ist nicht der begrenzende Faktor. Das Data Catalog Projekt wird scheitern, wenn keine klaren Verantwortlichkeiten für Daten und ein Plan zur Entwicklung von Datenkompetenzen in Unternehmen und IT festgelegt sind. Data Ownership sollte auf der Managementebene verankert werden.
- Transparenz über den Wert der Daten schaffen: Vorteile und Gefahren der Datennutzung sowie von Nichtstun sollten deutlich aufgezeigt werden.
- Die Erfassung von Daten erfordert die aktive Unterstützung der Geschäftsbereiche sowie die Ermutigung durch das Management. Aus diesem Grund sind die Geschäftsbereiche ein entscheidender Bestandteil eines jeden Projekts zur Erstellung eines Datenkatalogs. Die Akzeptanz der Benutzer ist entscheidend.
- Die Umsetzung und der Betrieb eines Data Catalogs bedeuten erhebliche finanzielle und organisatorische Investitionen. Datentransparenz dient dazu, die Vorteile eines Datenkatalogs zu verdeutlichen und Stakeholder sowie Management zu überzeugen.
- Es ist wichtig, durch geeignete Anwendungsszenarien Quick Wins zu erzielen und nach dem Motto „groß denken, klein starten“ zu handeln.
- Das Potenzial des Data Catalogs wächst mit dem Inhalt. Daher sollte die Katalogisierung aus einer unternehmensübergreifenden Perspektive betrachtet werden und nicht nur aus der Einzelperspektive, wie es bei BI & Analytics der Fall ist. Es ist zu beachten, dass Metadaten von den Datenproduzenten stammen. Daher sollte das Metadatenmanagement Teil eines jeden Datenprozesses sein
- Metadatenmanagement braucht eine entsprechende Datenkultur.
Zukunftsausblick
Data Catalogs finden zunehmend Anwendung in Form unterstützender Funktionen in Data & Analytics Werkzeugen oder aber übergreifend als Enterprise Data Catalog oder Data Intelligence Plattform. Die Integration in die Datenlandschaft ist dabei ausschlaggebend und wird kontinuierlich weiter ausgebaut wie auch die Funktionen, die helfen Nutzen aus den Katalogen zu ziehen. Im Einzelnen sehen wir folgende wesentliche Entwicklungen:
- Tiefere Integration in die Arbeitsumgebungen und bi-direktionaler Austausch der Werkzeuge aus der Data & Analytics Landschaft:
Ein breite Nutzung ist ausschlaggebend für den Erfolg von Data Catalogs. Um Barrieren abzubauen, gilt es möglichst nutzerfreundliche Schnittstellen anzubieten oder aber die Kataloge direkt in die gewohnte Arbeitsumgebung der Nutzer zu integrieren. - Kataloge rücken näher an die operativen Prozesse:
Der Nutzen eines Data Cataloges besteht nicht in der Anzeige von Suchergebnissen zu Daten. Nutzen stiften Kataloge, wenn Metadaten aktiviert werden können. Das heißt, wenn Metadaten auch direkt genutzt werden können. Ein prominenter Anwendungsfall liegt in der Anomalieerkennung in Daten. - Umfangreichere Anbindung an Metadatenquellen:
Data Catalogs entwickeln sich stetig weiter. Dazu zählen vor allem die Möglichkeiten zur einfachen Anbindung potenzieller Metadatenquellen- und ziele. Dies ist aktuell noch eine Herausforderung, vor allem wenn es darum geht, Applikationen anzubinden oder bspw. Lineage Informationen zu extrahieren. - Vermehrte Nutzung von Gen AI und ML-Algorithmen zur Automatisierung von Data-Catalog-Aufgaben und zur Optimierung der Nutzerinteraktion.
Hier sehen wir große Fortschritte bei den Softwareanbietern und es ist zu erwarten, dass gerade Gen AI nochmals neue Möglichkeiten zur Nutzung und zum Betrieb des Kataloges aufzeigen wird.
Fazit
Data Catalogs sind ein entscheidender Baustein für das Datenmanagement in modernen Unternehmen. Durch die effiziente Organisation von Daten und die Bereitstellung von Werkzeugen für die Datenzugänglichkeit, Zusammenarbeit und Governance sind sie unerlässlich für Unternehmen, die in einer immer komplexeren Datenlandschaft wettbewerbsfähig bleiben möchten. Ein durchdachter Einsatz von Data Catalogs kann somit als Fundament für eine effektive Data Intelligence und fundierte datenbasierte Entscheidungsfindung dienen.