MapReduce
Abfragesprache für große Datenmengen in verteilten Systemen
In Hadoop wird MapReduce eingesetzt, um Daten aus dem Hadoop File System zu extrahieren. MapReduce arbeitet in drei Schritten. Im ersten Schritt wird die Query aufgeteilt und in jedem der verteilten Datenbestände ausgeführt (Map), im zweiten Schritt werden die Ergebnisse zusammengeführt
(Shuffle) und im letzten Schritt werden Redundanzen reduziert (Reduce). Da HDFS eine redundante Speicherung zulässt, um mögliche Datenverluste durch einen Serverausfall zu vermeiden, ist der Reduce-Schritt besonders wichtig, ansonsten werden Daten doppelt ausgewiesen.
Don‘t miss out!
Join over 25,775 data & analytics professionals and get the latest product insights, research, surveys and more!
Weitere Inhalte entdecken
No results found.