I denne vejledning fører vi dig trin for trin til installation af Apache Hadoop på en Linux-boks (Ubuntu). Dette er en 2-delt proces
- Del 1) Download og installer Hadoop
- Del 2) Konfigurer Hadoop
Der er 2 forudsætninger
- Du skal have Ubuntu installeret og køre
- Du skal have Java installeret.
Del 1) Download og installer Hadoop
Trin 1) Tilføj en Hadoop-systembruger ved hjælp af nedenstående kommando
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Indtast din adgangskode, navn og andre detaljer.
BEMÆRK: Der er en mulighed for nedenstående fejl i denne opsætnings- og installationsproces.
"hduser er ikke i sudoers-filen. Denne hændelse vil blive rapporteret."
Denne fejl kan løses ved login som en rootbruger
Udfør kommandoen
sudo adduser hduser_ sudo
Re-login as hduser_
Trin 2) Konfigurer SSH
For at administrere noder i en klynge kræver Hadoop SSH-adgang
Skift først bruger, indtast følgende kommando
su - hduser_
Denne kommando opretter en ny nøgle.
ssh-keygen -t rsa -P ""
Aktiver SSH-adgang til lokal maskine ved hjælp af denne nøgle.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Test nu SSH-opsætningen ved at oprette forbindelse til localhost som 'hduser' -bruger.
ssh localhost
Bemærk: Bemærk, hvis du ser nedenstående fejl som svar på 'ssh localhost', så er der en mulighed for, at SSH ikke er tilgængelig på dette system-
For at løse dette -
Rens SSH ved hjælp af,
sudo apt-get purge openssh-server
Det er god praksis at rense inden installationen påbegyndes
Installer SSH ved hjælp af kommandoen -
sudo apt-get install openssh-server
Trin 3) Næste trin er at downloade Hadoop
Vælg Stabil
Vælg tar.gz-filen (ikke filen med src)
Når en download er færdig, skal du navigere til det bibliotek, der indeholder tarfilen
Gå ind,
sudo tar xzf hadoop-2.2.0.tar.gz
Omdøb nu hadoop-2.2.0 til hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Del 2) Konfigurer Hadoop
Trin 1) Rediger ~ / .bashrc- fil
Tilføj følgende linjer til slutningen af filen ~ / .bashrc
#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME= # Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin
Find nu denne miljøkonfiguration ved hjælp af kommandoen nedenfor
. ~/.bashrc
Trin 2) Konfigurationer relateret til HDFS
Indstil JAVA_HOME i filen $ HADOOP_HOME / etc / hadoop / hadoop-env.sh
Med
Der er to parametre i $ HADOOP_HOME / etc / hadoop / core-site.xml, der skal indstilles-
1. 'hadoop.tmp.dir' - Bruges til at angive et bibliotek, der vil blive brugt af Hadoop til at gemme dets datafiler.
2. 'fs.default.name' - Dette angiver standardfilsystemet.
For at indstille disse parametre skal du åbne core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Kopier nedenunder linjen mellem tags
hadoop.tmp.dir /app/hadoop/tmp Parent directory for other temporary directories. fs.defaultFS hdfs://localhost:54310 The name of the default file system.
Naviger til biblioteket $ HADOOP_HOME / etc / Hadoop
Opret nu den mappe, der er nævnt i core-site.xml
sudo mkdir -p
Giv tilladelser til biblioteket
sudo chown -R hduser_:Hadoop_
sudo chmod 750
Trin 3) Kortreducer konfiguration
Før du begynder med disse konfigurationer, kan vi indstille HADOOP_HOME-stien
sudo gedit /etc/profile.d/hadoop.sh
Og Enter
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Næste indtast
sudo chmod +x /etc/profile.d/hadoop.sh
Afslut terminalen og genstart igen
Skriv ekko $ HADOOP_HOME. For at bekræfte stien
Kopier nu filer
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Åbn filen mapred-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Tilføj nedenstående linier for indstilling mellem tags
mapreduce.jobtracker.address localhost:54311 MapReduce job tracker runs at this host and port.
Åbn $ HADOOP_HOME / etc / hadoop / hdfs-site.xml som nedenfor,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Tilføj nedenstående linier for indstilling mellem tags
dfs.replication 1 Default block replication. dfs.datanode.data.dir /home/hduser_/hdfs
Opret en mappe angivet i ovenstående indstilling-
sudo mkdir -p
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750
sudo chmod 750 /home/hduser_/hdfs
Trin 4) Før vi starter Hadoop for første gang, skal du formatere HDFS ved hjælp af nedenstående kommando
$HADOOP_HOME/bin/hdfs namenode -format
Trin 5) Start klyngen med Hadoop-enkeltnode ved hjælp af nedenstående kommando
$HADOOP_HOME/sbin/start-dfs.sh
En output fra ovenstående kommando
$HADOOP_HOME/sbin/start-yarn.sh
Brug 'jps' værktøj / kommando til at kontrollere, om alle Hadoop-relaterede processer kører eller ej.
Hvis Hadoop er startet med succes, skal en output af jps vise NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Trin 6) Stop Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh