Hadoop

Hadoop ist ein freies (Open Source), hochverfügbares Dateisystem und Framework, um sehr große Datenmengen auf mehreren Rechnern redundant verteilt zu speichern (im “Hadoop Distributed File System” (HDFS)) und Abfragen hoch performant zu verarbeiten z. B. per MapReduce-Algorithmus bzw. Directed-Acyclic-Graph (DAG). Dabei steht die Ablage einer Vielzahl sehr großer Dateien unterschiedlichster Satzstrukturen mit übergreifender schneller Abfrage im Fokus.

Hadoop wird primär genutzt, um einen Data Lake für das Prinzip “Schema on Read” aufzubauen, also Rohdaten für späterer flexible Auswertung unverändert zu speichern.

Gefällt Ihnen dieser Beitrag?
Wir haben noch viel mehr davon! Schließen Sie sich über 25.775 Data & Analytics Professionals an, um der Konkurrenz einen Schritt voraus zu bleiben.

Weitere Inhalte entdecken

barc plus 3 V4
Angebot: Für 49€ im Monat Zugang zu allen kostenpflichtigen Inhalten auf barc.com