Benutzer-Werkzeuge

Webseiten-Werkzeuge


nosql:hadoop_connect_hdfs_fuse

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen Revision Vorhergehende Überarbeitung
nosql:hadoop_connect_hdfs_fuse [2014/09/13 10:50]
gpipperr [Hadoop HDFS mit Apache Fuse als normales Filesystem mounten]
nosql:hadoop_connect_hdfs_fuse [2014/09/13 11:05] (aktuell)
gpipperr [Hadoop HDFS mit Apache Fuse als normales Filesystem mounten]
Zeile 1: Zeile 1:
 +====Hadoop HDFS mit Apache Fuse als "normales" Filesystem  mounten=====
  
 +Mit dem [[http://fuse.sourceforge.net/|Fuse]] Projekt lässt sich ein Hadoop HDFS als normales Filesystem mounten.
 +
 +=== Installation ===
 +
 +**Voraussetzung:**\\
 +Installierter Hadoop Client mit einer vollständigen Konfiguration um auf dem Cluster zuzugreifen.
 +\\
 +
 +Passendes Packet kann hier gefunden werden: http://pkgs.repoforge.org/fuse/
 +\\
 +
 +Bei Cloudera ist es bereits dabei:
 +<code bash>
 +#als root
 +yum install hadoop-hdfs-fuse.x86_6
 +</code>
 +
 +=== Mounten ===
 +
 +Mit dem Befehl <nowiki>"hadoop-fuse-dfs dfs://<name_node_hostname>:<namenode_port> <mount_point>" </nowiki> läßt sich das HDFS an die Maschine mounten.
 +<code bash>
 +cat 
 +# als root
 +
 +# Konfiguration auslesen
 +cat /etc/hadoop/conf/core-site.xml
 +
 +# Mounten
 +hadoop-fuse-dfs hdfs://quickstart.cloudera:8020 /fuse/
 +</code>
 +
 +===Test ===
 +
 +Der Test findet auf einer Cloudera VM mit relativ wenig Daten statt.
 +
 +<code bash>
 +#Daten:
 +du . -h
 +150MB
 +
 +#
 +#Kopieren mit "cp"
 +#
 +
 +time cp *.* /fuse/user/gpipperr/
 +
 +real    0m34.698s
 +user    0m0.017s
 +sys     0m0.771s
 +
 +#
 +#Kopieren mit  hdfs dfs
 +#
 +time hdfs dfs -put *.* /user/gpipperr/
 +
 +real    0m20.413s
 +user    0m9.473s
 +sys     0m3.751s
 +
 +</code>
 +
 +Damit ist "hdfs dfs" um ein gutes Drittel schneller beim Laden von Daten.
 +
 +Auch fällt auf das "ls" auf das mit fuse gemounteten Verzeichnis deutlich schneller (real 0m0.107s) ist als ein "hdfs dfs -ls" (real 0m3.410s) ist. Vermutlich benötigt "hdfs dfs" relativ lang um überhaupt zu starten.
 +
 +
 +
 +==== Quellen ====
 +
 +  * https://wiki.apache.org/hadoop/MountableHDFS
"Autor: Gunther Pipperr"
nosql/hadoop_connect_hdfs_fuse.txt · Zuletzt geändert: 2014/09/13 11:05 von gpipperr