MapReduce

Abfragesprache für große Datenmengen in verteilten Systemen

In Hadoop wird MapReduce eingesetzt, um Daten aus dem Hadoop File System zu extrahieren. MapReduce arbeitet in drei Schritten. Im ersten Schritt wird die Query aufgeteilt und in jedem der verteilten Datenbestände ausgeführt (Map), im zweiten Schritt werden die Ergebnisse zusammengeführt
(Shuffle) und im letzten Schritt werden Redundanzen reduziert (Reduce). Da HDFS eine redundante Speicherung zulässt, um mögliche Datenverluste durch einen Serverausfall zu vermeiden, ist der Reduce-Schritt besonders wichtig, ansonsten werden Daten doppelt ausgewiesen.

Zurück zum Glossar