Sådan installeres Hadoop med trinvis konfiguration på Ubuntu

Indholdsfortegnelse:

Anonim

I denne vejledning fører vi dig trin for trin til installation af Apache Hadoop på en Linux-boks (Ubuntu). Dette er en 2-delt proces

  • Del 1) Download og installer Hadoop
  • Del 2) Konfigurer Hadoop

Der er 2 forudsætninger

  • Du skal have Ubuntu installeret og køre
  • Du skal have Java installeret.

Del 1) Download og installer Hadoop

Trin 1) Tilføj en Hadoop-systembruger ved hjælp af nedenstående kommando

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

Indtast din adgangskode, navn og andre detaljer.

BEMÆRK: Der er en mulighed for nedenstående fejl i denne opsætnings- og installationsproces.

"hduser er ikke i sudoers-filen. Denne hændelse vil blive rapporteret."

Denne fejl kan løses ved login som en rootbruger

Udfør kommandoen

sudo adduser hduser_ sudo

Re-login as hduser_

Trin 2) Konfigurer SSH

For at administrere noder i en klynge kræver Hadoop SSH-adgang

Skift først bruger, indtast følgende kommando

su - hduser_

Denne kommando opretter en ny nøgle.

ssh-keygen -t rsa -P ""

Aktiver SSH-adgang til lokal maskine ved hjælp af denne nøgle.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Test nu SSH-opsætningen ved at oprette forbindelse til localhost som 'hduser' -bruger.

ssh localhost

Bemærk: Bemærk, hvis du ser nedenstående fejl som svar på 'ssh localhost', så er der en mulighed for, at SSH ikke er tilgængelig på dette system-

For at løse dette -

Rens SSH ved hjælp af,

sudo apt-get purge openssh-server

Det er god praksis at rense inden installationen påbegyndes

Installer SSH ved hjælp af kommandoen -

sudo apt-get install openssh-server

Trin 3) Næste trin er at downloade Hadoop

Vælg Stabil

Vælg tar.gz-filen (ikke filen med src)

Når en download er færdig, skal du navigere til det bibliotek, der indeholder tarfilen

Gå ind,

sudo tar xzf hadoop-2.2.0.tar.gz

Omdøb nu hadoop-2.2.0 til hadoop

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

Del 2) Konfigurer Hadoop

Trin 1) Rediger ~ / .bashrc- fil

Tilføj følgende linjer til slutningen af ​​filen ~ / .bashrc

#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME=# Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin

Find nu denne miljøkonfiguration ved hjælp af kommandoen nedenfor

. ~/.bashrc

Trin 2) Konfigurationer relateret til HDFS

Indstil JAVA_HOME i filen $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

Med

Der er to parametre i $ HADOOP_HOME / etc / hadoop / core-site.xml, der skal indstilles-

1. 'hadoop.tmp.dir' - Bruges til at angive et bibliotek, der vil blive brugt af Hadoop til at gemme dets datafiler.

2. 'fs.default.name' - Dette angiver standardfilsystemet.

For at indstille disse parametre skal du åbne core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Kopier nedenunder linjen mellem tags

hadoop.tmp.dir/app/hadoop/tmpParent directory for other temporary directories.
fs.defaultFS hdfs://localhost:54310The name of the default file system. 

Naviger til biblioteket $ HADOOP_HOME / etc / Hadoop

Opret nu den mappe, der er nævnt i core-site.xml

sudo mkdir -p 

Giv tilladelser til biblioteket

sudo chown -R hduser_:Hadoop_ 

sudo chmod 750 

Trin 3) Kortreducer konfiguration

Før du begynder med disse konfigurationer, kan vi indstille HADOOP_HOME-stien

sudo gedit /etc/profile.d/hadoop.sh

Og Enter

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Næste indtast

sudo chmod +x /etc/profile.d/hadoop.sh

Afslut terminalen og genstart igen

Skriv ekko $ HADOOP_HOME. For at bekræfte stien

Kopier nu filer

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Åbn filen mapred-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Tilføj nedenstående linier for indstilling mellem tags og

mapreduce.jobtracker.addresslocalhost:54311MapReduce job tracker runs at this host and port.

Åbn $ HADOOP_HOME / etc / hadoop / hdfs-site.xml som nedenfor,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Tilføj nedenstående linier for indstilling mellem tags og

dfs.replication1Default block replication.
dfs.datanode.data.dir/home/hduser_/hdfs

Opret en mappe angivet i ovenstående indstilling-

sudo mkdir -p 
sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ 
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 
sudo chmod 750 /home/hduser_/hdfs

Trin 4) Før vi starter Hadoop for første gang, skal du formatere HDFS ved hjælp af nedenstående kommando

$HADOOP_HOME/bin/hdfs namenode -format

Trin 5) Start klyngen med Hadoop-enkeltnode ved hjælp af nedenstående kommando

$HADOOP_HOME/sbin/start-dfs.sh

En output fra ovenstående kommando

$HADOOP_HOME/sbin/start-yarn.sh

Brug 'jps' værktøj / kommando til at kontrollere, om alle Hadoop-relaterede processer kører eller ej.

Hvis Hadoop er startet med succes, skal en output af jps vise NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Trin 6) Stop Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh