Hadoop
Hadoop ist ein freies (Open Source), hochverfügbares Dateisystem und Framework, um sehr große Datenmengen auf mehreren Rechnern redundant verteilt zu speichern (im “Hadoop Distributed File System” (HDFS)) und Abfragen hoch performant zu verarbeiten z. B. per MapReduce-Algorithmus bzw. Directed-Acyclic-Graph (DAG). Dabei steht die Ablage einer Vielzahl sehr großer Dateien unterschiedlichster Satzstrukturen mit übergreifender schneller Abfrage im Fokus.
Hadoop wird primär genutzt, um einen Data Lake für das Prinzip “Schema on Read” aufzubauen, also Rohdaten für späterer flexible Auswertung unverändert zu speichern.
Gefällt Ihnen dieser Beitrag?
Wir haben noch viel mehr davon! Schließen Sie sich über 25.775 Data & Analytics Professionals an, um der Konkurrenz einen Schritt voraus zu bleiben.