Hadoop

Hadoop ist ein freies (Open Source), hochverfügbares Dateisystem und Framework, um sehr große Datenmengen auf mehreren Rechnern redundant verteilt zu speichern (im “Hadoop Distributed File System” (HDFS)) und Abfragen hoch performant zu verarbeiten z. B. per MapReduce-Algorithmus bzw. Directed-Acyclic-Graph (DAG). Dabei steht die Ablage einer Vielzahl sehr großer Dateien unterschiedlichster Satzstrukturen mit übergreifender schneller Abfrage im Fokus.

Hadoop wird primär genutzt, um einen Data Lake für das Prinzip “Schema on Read” aufzubauen, also Rohdaten für späterer flexible Auswertung unverändert zu speichern.

Gefällt Ihnen dieser Beitrag?
Wir haben noch viel mehr davon! Schließen Sie sich über 25.775 Data & Analytics Professionals an, um der Konkurrenz einen Schritt voraus zu bleiben.

Weitere Inhalte entdecken

SQL

ODS

Zukunftssicher mit SAP Data & Analytics: Erfahren Sie auf unserem Event, wie Sie mit GenAI, moderner Data Governance und dem richtigen Technologie-Stack Ihre Datenstrategie auf das nächste Level heben.