==== Apache Flume im Überblick ====

Mit Apache Flume können Log Events eingesammelt und zentral auf dem HDFS abgelegt werden. 


  * Eine Art „syslog“ Demon 
  * Übernimmt den Transport der Log Daten 
  * Eine "Source" ließt die Quelle ein
  * Ein "Channel" puffert zwischen
  * Ein "Sink"   liefert die Daten ab / schreibt die Daten z.B. auf das HDFS


Übersicht:

{{ :hadoop:apache_flume_v01.png?400 | Apache Flume Architektur}}


==== Installation unter Linux auf einer Datenbank Umgebung ====

Da die Logs der Datenbanken auf dem Host sollen eingesammelt werden sollen, wird auf dem Host Flume installiert.
Weitere Libraries sind nicht notwendig.

Download der Software : http://flume.apache.org/download.html und prüfen der md5 Summe:
<code bash>

http://ftp-stud.hs-esslingen.de/pub/Mirrors/ftp.apache.org/dist/flume/1.5.0.1/apache-flume-1.5.0.1-bin.tar.gz 

md5sum apache-flume-1.5.0.1-bin.tar.gz
fa43105db822ce045f885a5ebc0f869e  apache-flume-1.5.0.1-bin.tar.gz

tar xfvz apache-flume-1.5.0.1-bin.tar.gz

mv apache-flume-1.5.0.1-bin /usr/lib/apache-flume-1.5.0.1-bin

ln -s /usr/lib/apache-flume-1.5.0.1-bin  /usr/lib/flume-ng

cd /usr/lib/flume-ng/bin

# Testen ob flume sich starten läßt
./flume-ng version
Flume 1.5.0.1


#Prüfen ob auch ein "echtes" Java 7 ist installiert!

java -version

java version "1.7.0_67"

#falls nicht installieren und mit alternatives bekannt geben!

</code>

==== Aufgabe - Lesen des Listener Logs einer Oracle 11g Datenbank====


=== Architektur ===

==Struktur der XML Log Datei im DIAG Verzeichnis==

zum Beispiel dieser typische Eintrag unter $ORACLE_BASE/diag/tnslsnr/<your-server>/listener/alert/log.xml:
<code xml>
<msg time='2014-09-06T11:21:44.179+02:00' org_id='oracle' comp_id='tnslsnr'
 type='UNKNOWN' level='16' host_id='JUPITER'
 host_addr='127.0.0.1'>
 <txt>06-SEP-2014 11:21:44 * (CONNECT_DATA=(SID=GPI)(CID=(PROGRAM=null)(HOST=__jdbc__)(USER=null))) * (ADDRESS=(PROTOCOL=tcp)(HOST=10.10.10.1)(PORT=49831)) * establish * GPI * 0
 </txt>
</msg>
</code>

Da im Listener.log auch viele interne Vorgänge der Datenbanken, speziell im Cluster Umfeld, protokolliert werden, sollen bereits beim Lesen bestimmte Events ausgefiltert werden. Dazu muss dann später eine eigene "Source" definiert werden.

Wir lesen die Logs direkt auf dem Oracle Server aus und schreiben die  Einträge in den Logs über eine eigenen Agent auf dem HDFS Node 1 in das HDFS.

Übersicht:

{{ :hadoop:read_listener_log_oracle_flume_v01.png?500 | Auslesen Oracle Listener Log mit Apache Fume}}

Der Agent auf dem DB Server liest als Source die XML Log Datei des Listeners ein. 

Ein Channel im Memory sorgt für die Flusssteuerung, ein Avro Skink serialisert die Daten und versendet diese Daten an den Agent auf dem HDFS Knoten. 

Der Agent auf dem HDFS Knoten hat eine Source die wiederum die serialisierten Daten im Afro Format empfangen kann, einen Channel im Memory und einen Skink vom Typ HDFS. Damit werden dann die Daten in das HDFS geschrieben.


== Voraussetzung ==

Flume ist installiert, Verzeichnis für die Konfiguration ist bekannt.

<code bash>

/usr/lib/flume-ng/bin/flume-ng version

ls - /usr/lib/flume-ng/conf

</code>


===Test 1  - Nur das Log auslesen und 1zu1 in das HDFS übertragen ===

Im ersten Test werden die Log Daten einfach in das HDFS geschrieben, um die Grundarchitektur und Konfiguration besser zu verstehen und um die Umgebung zu testen.

Die Daten werden auf dem Oracle Server gelesen und auf den HDFS übertragen, dort übernimmt ein weitere Agent die Daten und schreibt das in das HDFS.


==Auf dem HDFS Node 1 - der OracleBigData Lite==

Es wird ein Agent angelegt der Daten im Avro Format serialisiert annimmt und auf dann einfach auf das HDFS schreibt.

Dazu wird eine Konfiguration erstellt und der Agent gestartet:
<code bash>

vi /etc/flume-ng/conf/agent2-conf.properties

# The configuration file needs to define the sources, the channels and the sinks
# Sources, channels and sinks are defined per agent, in this case called agent2

agent2.sources  = OraLogFiles
agent2.channels = memoryChannel
agent2.sinks    = hdfsSink

# Channel type avro

agent2.sources.OraLogFiles.type = avro
agent2.sources.OraLogFiles.bind = 10.10.10.12
agent2.sources.OraLogFiles.port = 44444


# The channel can be defined as follows

agent2.sources.OraLogFiles.channels = memoryChannel


# Each sinks type must be defined
agent2.sinks.hdfsSink.type = hdfs
agent2.sinks.hdfsSink.hdfs.path = hdfs://bigdatalite.localdomain:8020/user/oracle/gpi
agent2.sinks.hdfsSink.hdfs.filePrefix = OraLogs-
agent2.sinks.hdfsSink.hdfs.rollCount = 1000
agent2.sinks.hdfsSink.hdfs.batchSize = 10

#Specify the channel the sink should use
agent2.sinks.hdfsSink.channel = memoryChannel

# Each channels type is defined
agent2.channels.memoryChannel.type = memory
agent2.channels.memoryChannel.capacity = 100

#
# starten
#

flume-ng agent -n agent2 -c conf -f /etc/flume-ng/conf/agent2-conf.properties

</code>


==Auf dem Oracle Server==

Eine einfache Agent Konfiguration für eine Data Source vom Type "exec" erstellen (mit dem Typ **exec** wird ein OS Kommando als Datenquelle angegeben) und als Sink den Agent auf dem Hadoop Node angeben:

<code bash>

# Testen ob der Sink auf dem HDFS Node überhaupt erreichbar ist

telnet bigdatalite.localdomain 44444

Trying 10.10.10.12...
Connected to bigdatalite.localdomain.
Escape character is '^]'.

#OK!


#Konfiguration anlegen

vi /usr/lib/flume-ng/conf/agent-conf.properties

# The configuration file needs to define the sources, the channels and the sinks
# Sources, channels and sinks are defined per agent, in this case called agent2

agent.sources  = OraListener
agent.channels = memoryChannel
agent.sinks    = avro-forward

# For each one of the sources, the type is defined

# in this example we use a command from the os
# Channel type exec

agent.sources.OraListener.type = exec
agent.sources.OraListener.command = tail -F /opt/oracle/diag/tnslsnr/oradb12c01/listener/alert/log.xml

# The channel can be defined as follows
agent.sources.OraListener.channels = memoryChannel

#sink
agent.sinks.avro-forward.type = avro
agent.sinks.avro-forward.hostname = 10.10.10.12
agent.sinks.avro-forward.port = 44444

#Specify the channel the sink should use
agent.sinks.avro-forward.channel = memoryChannel

# Each channels type is defined
agent.channels.memoryChannel.type = memory
agent.channels.memoryChannel.capacity = 100

#
# starten
#

export JAVA_HOME=/usr/java/jdk1.7.0_67

/usr/lib/flume-ng/bin/flume-ng agent -n agent -c /usr/lib/flume-ng/conf -f /usr/lib/flume-ng/conf/agent-conf.properties

# einen Eintrag in das Listener Log erzeugen

$ORACLE_HOME/bin/lsnrctl status

</code>

Auf dem HDFS Server:

<code bash>
#
# Logs auf dem HDFS kontrollieren:
#

hdfs dfs -ls /user/oracle/gpi/

hdfs dfs -cat /user/oracle/gpi/OraLogs-.1410615198350

SEQ!org.apache.hadoop.io.LongWritable"org.apache.hadoop.io.BytesWritabl]dñ´AZ¤¯¨ QHo9eU </txtHo9eV</msg>Ho9eWK<msg time='2014-09-13T15:34:58.686+02:00' org_id='oracle' comp_id='tnslsnr'Ho9eW= type='UNKNOWN' level='16' host_id='oradb12c01.pipperr.local'Ho9eW host_addr='10.10.10.110'>Ho9eX= <txt>WARNING: Subscription for node down event still pendinHo9eX </txtHo9eX</msg>Ho9eXK"

# Daten sind angekommen!

</code>


=== Erweitertes Beispiel ====

Im nächsten Schritt wird das Log vom Flume Agent mit einer eigenen Filter Source gelesen und übertragen.


==== Quellen ====


  * http://flume.apache.org
  * 
Doku:
  * http://flume.apache.org/releases/content/1.5.0.1/FlumeUserGuide.html
  * http://flume.apache.org/FlumeUserGuide.html
  * https://blogs.apache.org/flume/entry/flume_ng_architecture

Netz:
  * http://yourstory.com/2012/04/hive-for-retail-analysis/
  * http://www.lopakalogic.com/articles/hadoop-articles/log-files-flume-hive/
  * http://harish11g.blogspot.de/2012/05/retail-analysis-hive-flume-hadoop.html
  * http://www.implementhadoop.com/use-case-1-apache-log-analysis/
  * http://www.vmware.com/files/pdf/products/vsphere/VMware-vSphere-Data-Ingestion-Solution-Guide.pdf 
  * http://www.rittmanmead.com/2014/05/trickle-feeding-webserver-log-files-to-hdfs-using-apache-flume/
  * http://sanjivblogs.blogspot.de/2011/04/quick-flume-installation-and.html


Vorträge:
  * http://archive.apachecon.com/na2013/presentations/27-Wednesday/Big_Data/11:45-Mastering_Sqoop_for_Data_Transfer_for_Big_Data-Arvind_Prabhakar/Arvind%20Prabhakar%20-%20Planning%20and%20Deploying%20Apache%20Flume.pdf


XML Stream:

  * http://www.ibm.com/developerworks/opensource/library/bd-flumews/index.html