MapReduce
Abfragesprache für große Datenmengen in verteilten Systemen
In Hadoop wird MapReduce eingesetzt, um Daten aus dem Hadoop File System zu extrahieren. MapReduce arbeitet in drei Schritten. Im ersten Schritt wird die Query aufgeteilt und in jedem der verteilten Datenbestände ausgeführt (Map), im zweiten Schritt werden die Ergebnisse zusammengeführt
(Shuffle) und im letzten Schritt werden Redundanzen reduziert (Reduce). Da HDFS eine redundante Speicherung zulässt, um mögliche Datenverluste durch einen Serverausfall zu vermeiden, ist der Reduce-Schritt besonders wichtig, ansonsten werden Daten doppelt ausgewiesen.
Gefällt Ihnen dieser Beitrag?
Wir haben noch viel mehr davon! Schließen Sie sich über 25.775 Data & Analytics Professionals an, um der Konkurrenz einen Schritt voraus zu bleiben.