Suche
Close this search box.

Hadoop

Hadoop ist ein freies (Open Source), hochverfügbares Dateisystem und Framework, um sehr große Datenmengen auf mehreren Rechnern redundant verteilt zu speichern (im “Hadoop Distributed File System” (HDFS)) und Abfragen hoch performant zu verarbeiten z. B. per MapReduce-Algorithmus bzw. Directed-Acyclic-Graph (DAG). Dabei steht die Ablage einer Vielzahl sehr großer Dateien unterschiedlichster Satzstrukturen mit übergreifender schneller Abfrage im Fokus.

Hadoop wird primär genutzt, um einen Data Lake für das Prinzip “Schema on Read” aufzubauen, also Rohdaten für späterer flexible Auswertung unverändert zu speichern.

Gefällt Ihnen dieser Beitrag?
Wir haben noch viel mehr davon! Schließen Sie sich über 25.775 Data & Analytics Professionals an, um der Konkurrenz einen Schritt voraus zu bleiben.

Weitere Inhalte entdecken

SQL

ODS

Sie wollen mit Ihrem Datenprojekt durchstarten, aber wissen nicht so recht, wie? Hier geht's zu unseren SmartStart Workshops zu verschiedenen Themen.