Top 60 Hadoop & MapReduce Interviewspørgsmål & Svar

Download PDF

Følgende er ofte stillede spørgsmål i interviews for nybegyndere såvel som erfaren udvikler.

1) Hvad er Hadoop Map Reduce?

Til behandling af store datasæt parallelt på tværs af en Hadoop-klynge anvendes Hadoop MapReduce-ramme. Dataanalyse bruger et to-trins kort og reducerer processen.

2) Hvordan fungerer Hadoop MapReduce?

I MapReduce tæller det ordene i hvert dokument under kortfasen, mens det i reduceringsfasen aggregerer dataene pr. Dokumentet, der spænder over hele samlingen. Under kortfasen er inddataene opdelt i opdelinger til analyse af kortopgaver, der kører parallelt på tværs af Hadoop-rammen.

3) Forklar, hvad der blandes i MapReduce?

Processen, hvormed systemet udfører sorteringen og overfører kortudgangene til reduktionsanordningen som input, er kendt som shuffle

4) Forklar, hvad der distribueres Cache i MapReduce Framework?

Distribueret cache er en vigtig funktion leveret af MapReduce-rammen. Når du vil dele nogle filer på tværs af alle noder i Hadoop Cluster, bruges Distribueret cache. Filerne kan være en eksekverbar jar-fil eller en simpel egenskabsfil.

5) Forklar hvad der er NameNode i Hadoop?

NameNode i Hadoop er noden, hvor Hadoop gemmer alle filplaceringsoplysninger i HDFS (Hadoop Distribueret filsystem). Med andre ord er NameNode kernen i et HDFS-filsystem. Det registrerer alle filerne i filsystemet og sporer fildataene på tværs af klyngen eller flere maskiner

6) Forklar hvad der er JobTracker i Hadoop? Hvad er de handlinger, der følges af Hadoop?

I Hadoop til indsendelse og sporing af MapReduce-job bruges JobTracker. Jobsporing kører på sin egen JVM-proces

Jobtracker udfører følgende handlinger i Hadoop

Kundeansøgning indsender job til jobsporeren
JobTracker kommunikerer til tilstanden Navn for at bestemme datalokationen
I nærheden af dataene eller med ledige pladser finder JobTracker TaskTracker-noder
På valgte TaskTracker-noder sender den arbejdet
Når en opgave mislykkes, meddeler jobsporeren og beslutter, hvad han skal gøre derefter.
TaskTracker-noder overvåges af JobTracker

7) Forklar hvad der er hjerterytme i HDFS?

Heartbeat henvises til et signal, der bruges mellem en dataknude og en navneknude og mellem opgavesporeren og jobsporing, hvis navneknudepunktet eller jobsporeren ikke reagerer på signalet, anses det for at være nogle problemer med dataknudepunktet eller opgaven tracker

8) Forklar hvad kombinatorer er, og hvornår du skal bruge en combiner i et MapReduce Job?

For at øge effektiviteten af MapReduce-programmet bruges kombinatorer. Mængden af data kan reduceres ved hjælp af combiner, der skal overføres til reduceringerne. Hvis den udførte operation er kommutativ og associerende, kan du bruge din reduceringskode som en combiner. Udførelsen af combiner er ikke garanteret i Hadoop

9) Hvad sker der, når en datanode fejler?

Når en dataknude mislykkes

Jobtracker og navnekode registrerer fejlen
På den mislykkede node er alle opgaver omplanlagt
Namenode replikerer brugerens data til en anden node

10) Forklar hvad der er spekulativ udførelse?

I Hadoop under spekulativ udførelse startes et bestemt antal duplikatopgaver. På en anden slaveknude kan flere kopier af det samme kort eller reducere opgave udføres ved hjælp af spekulativ udførelse. Med enkle ord, hvis et bestemt drev tager lang tid at gennemføre en opgave, opretter Hadoop en duplikatopgave på en anden disk. En disk, der afslutter opgaven først, bevares, og diske, der ikke slutter først, dræbes.

11) Forklar, hvad der er de grundlæggende parametre for en Mapper?

De grundlæggende parametre for en Mapper er

Langskrivbar og tekst
Tekst og IntWritable

12) Forklar, hvad funktionen til MapReduce partitioner er?

MapReduce-partitionerens funktion er at sikre, at al værdien af en enkelt nøgle går til den samme reducering, hvilket i sidste ende hjælper med en jævn fordeling af kortudgangen over reduceringerne

13) Forklar, hvad der er forskel på en Input Split og HDFS Block?

Den logiske deling af data er kendt som Split, mens en fysisk deling af data er kendt som HDFS Block

14) Forklar hvad der sker i tekstformat?

I tekstinputformat er hver linje i tekstfilen en post. Værdi er linjens indhold, mens Key er offset for linjen. For eksempel Key: longWritable, Value: text

15) Nævn, hvad er de vigtigste konfigurationsparametre, som brugeren skal angive for at køre MapReduce Job?

Brugeren af MapReduce-rammen skal specificere

Jobs inputplaceringer i det distribuerede filsystem
Jobs outputplacering i det distribuerede filsystem
Inputformat
Outputformat
Klasse indeholdende kortfunktionen
Klasse indeholdende reduceringsfunktionen
JAR-fil, der indeholder mapper-, reducer- og driverklasser

16) Forklar hvad der er WebDAV i Hadoop?

For at understøtte redigering og opdatering af filer er WebDAV et sæt udvidelser til HTTP. På de fleste operativsystemer kan WebDAV-aktier monteres som filsystemer, så det er muligt at få adgang til HDFS som et standardfilsystem ved at udsætte HDFS over WebDAV.

17) Forklar hvad der er Sqoop i Hadoop?

For at overføre data mellem Relational database management (RDBMS) og Hadoop HDFS bruges et værktøj kendt som Sqoop. Brug af Sqoop-data kan overføres fra RDMS som MySQL eller Oracle til HDFS samt eksportere data fra HDFS-fil til RDBMS

18) Forklar, hvordan JobTracker planlægger en opgave?

Opgavetracker sender hjerteslagsbeskeder til Jobtracker normalt hvert par minutter for at sikre, at JobTracker er aktiv og fungerer. Meddelelsen informerer også JobTracker om antallet af ledige pladser, så JobTracker kan holde sig ajour med, hvor klyngearbejdet kan delegeres

19) Forklar hvad der er Sequencefileinputformat?

Sequencefileinputformat bruges til at læse filer i rækkefølge. Det er et specifikt komprimeret binært filformat, der er optimeret til at videregive data mellem output fra et MapReduce-job til input fra et andet MapReduce-job.

20) Forklar hvad gør conf.setMapper Class?

Conf.setMapperclass angiver kortklassen og alle de ting, der er relateret til kortjob, såsom læsning af data og generering af et nøgleværdipar ud af kortlæggeren

21) Forklar hvad der er Hadoop?

Det er en open source-software-ramme til lagring af data og kørsel af applikationer på klynger af råvarehardware. Det giver enorm processorkraft og massiv lagring til alle typer data.

22) Nævn, hvad er forskellen mellem en RDBMS og Hadoop?

RDBMS	Hadoop
RDBMS er et relationsdatabasesystem	Hadoop er en knudebaseret flad struktur
Det bruges til OLTP-behandling, mens Hadoop	Det bruges i øjeblikket til analytisk og til BIG DATA-behandling
I RDBMS bruger databaseklyngen de samme datafiler, der er gemt i et delt lager	I Hadoop kan lagringsdataene gemmes uafhængigt i hver behandlingsknude.
Du skal forbehandle data, før du gemmer dem	du behøver ikke at forbehandle data, før du gemmer dem

23) Nævn Hadoop-kernekomponenter?

Hadoop-kernekomponenter inkluderer,

HDFS
MapReduce

24) Hvad er NameNode i Hadoop?

NameNode i Hadoop er, hvor Hadoop gemmer alle filplaceringsoplysninger i HDFS. Det er masternoden, som jobsporing kører på, og består af metadata.

25) Nævn, hvad er de datakomponenter, der anvendes af Hadoop?

Datakomponenter brugt af Hadoop er

Svin
Hive

26) Nævn hvad er datalagringskomponenten brugt af Hadoop?

Datalagringskomponenten anvendt af Hadoop er HBase.

27) Nævn, hvad er de mest almindelige inputformater defineret i Hadoop?

De mest almindelige inputformater defineret i Hadoop er;

TextInputFormat
KeyValueInputFormat
SequenceFileInputFormat

28) Hvad er InputSplit i Hadoop?

Det opdeler inputfiler i klumper og tildeler hver split til en kortlægger til behandling.

29) Hvordan skriver du en tilpasset partitioner for et Hadoop-job?

Du skriver en brugerdefineret partitioner til et Hadoop-job, du følger følgende vej

Opret en ny klasse, der udvider Partitioner-klassen
Tilsidesæt metoden getPartition
I indpakningen, der kører MapReduce
Føj den brugerdefinerede partitioner til jobbet ved hjælp af metodesættet Partitioner Class eller - tilføj den tilpassede partitioner til jobbet som en konfigurationsfil

30) Er det muligt at ændre antallet af kortlægere, der skal oprettes, for et job i Hadoop?

Nej, det er ikke muligt at ændre antallet af mappers, der skal oprettes. Antallet af kortlæggere bestemmes af antallet af inddelinger.

31) Forklar hvad der er en sekvensfil i Hadoop?

For at gemme binære nøgle / værdipar anvendes sekvensfil. I modsætning til almindelig komprimeret fil understøtter sekvensfil opdeling, selv når dataene i filen er komprimeret.

32) Hvad sker der med jobsporing, når Namenode er nede?

Namenode er det eneste svigtende punkt i HDFS, så når Namenode er nede, går din klynge af.

33) Forklar hvordan indeksering i HDFS udføres?

Hadoop har en unik måde at indeksere på. Når dataene er gemt i henhold til blokstørrelsen, fortsætter HDFS med at gemme den sidste del af dataene, der siger, hvor den næste del af dataene vil være.

34) Forklar, er det muligt at søge efter filer ved hjælp af jokertegn?

Ja, det er muligt at søge efter filer ved hjælp af jokertegn.

35) Liste over Hadoop's tre konfigurationsfiler?

De tre konfigurationsfiler er

core-site.xml
mapred-site.xml
hdfs-site.xml

36) Forklar hvordan kan du kontrollere, om Namenode fungerer ved siden af ved hjælp af kommandoen jps?

Udover at bruge jps-kommandoen kan du også bruge til at kontrollere, om Namenode fungerer

/etc/init.d/hadoop-0.20-namenode status.

37) Forklar hvad der er "kort" og hvad er "reducer" i Hadoop?

I Hadoop er et kort en fase i HDFS-forespørgsleløsning. Et kort læser data fra en inputplacering og udsender et nøgleværdipar i henhold til inputtypen.

I Hadoop samler en reducer det output, der genereres af kortlæggeren, behandler det og skaber et eget endeligt output.

38) Hvilken fil styrer rapportering i Hadoop i Hadoop?

I Hadoop kontrollerer rapporteringen hadoop-metrics.properties-filen.

39) For at bruge Hadoop opstilles netværkskravene?

For at bruge Hadoop er listen over netværkskrav:

Adgangskodeløs SSH-forbindelse
Secure Shell (SSH) til lancering af serverprocesser

40) Nævn hvad er rackbevidsthed?

Rackbevidsthed er den måde, hvorpå namenoden bestemmer, hvordan man placerer blokke baseret på rackdefinitionerne.

41) Forklar hvad der er en task tracker i Hadoop?

En task tracker i Hadoop er en slave node-dæmon i klyngen, der accepterer opgaver fra en JobTracker. Det sender også hjerteslagsmeddelelserne til JobTracker hvert par minutter for at bekræfte, at JobTracker stadig er i live.

42) Nævn hvilke dæmoner der kører på en masternode og slaveknudepunkter?

Daemons kørt på Master node er "NameNode"
Daemoner, der køres på hver slaveknude, er "Task Tracker" og "Data"

43) Forklar hvordan kan du fejle Hadoop-kode?

De populære metoder til fejlfinding af Hadoop-kode er:

Ved hjælp af webgrænsefladen leveret af Hadoop framework
Ved hjælp af tællere

44) Forklar, hvad der er lagrings- og beregningsnoder?

Lagringsknudepunktet er den maskine eller computer, hvor dit filsystem ligger for at gemme behandlingsdataene
Computernoden er den computer eller maskine, hvor din faktiske forretningslogik udføres.

45) Nævn hvad er brugen af Context Object?

Kontekstobjektet gør det muligt for kortlæggeren at interagere med resten af Hadoop

system. Det inkluderer konfigurationsdata for jobbet samt grænseflader, der gør det muligt at udsende output.

46) Nævn hvad er det næste trin efter Mapper eller MapTask?

Det næste trin efter Mapper eller MapTask er, at output fra Mapper sorteres, og der oprettes partitioner til output.

47) Nævn, hvad er antallet af standardpartitioner i Hadoop?

I Hadoop er standardpartitioneren en "Hash" -partitioner.

48) Forklar, hvad er formålet med RecordReader i Hadoop?

I Hadoop indlæser RecordReader dataene fra kilden og konverterer dem til (nøgle, værdi) par, der er egnede til læsning af Mapper.

49) Forklar, hvordan deles data, inden de sendes til reduceringsenheden, hvis der ikke er defineret nogen brugerdefineret partitioner i Hadoop?

Hvis der ikke er defineret nogen brugerdefineret partitioner i Hadoop, beregner en standardpartitioner en hash-værdi for nøglen og tildeler partitionen baseret på resultatet.

50) Forklar hvad der sker, når Hadoop skabte 50 opgaver til et job, og en af opgaven mislykkedes?

Det genstarter opgaven igen på en anden TaskTracker, hvis opgaven mislykkes mere end den definerede grænse.

51) Nævn, hvad er den bedste måde at kopiere filer mellem HDFS-klynger på?

Den bedste måde at kopiere filer mellem HDFS-klynger er ved at bruge flere noder og distcp-kommandoen, så arbejdsbyrden deles.

52) Nævn, hvad er forskellen mellem HDFS og NAS?

HDFS-datablokke distribueres over lokale drev på alle maskiner i en klynge, mens NAS-data er gemt på dedikeret hardware.

53) Nævn, hvordan Hadoop er forskellig fra andre databehandlingsværktøjer?

I Hadoop kan du øge eller formindske antallet af kortlæggere uden at bekymre dig om mængden af data, der skal behandles.

54) Nævn hvilket job udfører conf-klassen?

Jobkonfektklasse adskiller forskellige job, der kører på samme klynge. Det udfører jobniveauindstillingerne, såsom at erklære et job i et reelt miljø.

55) Nævn, hvad er Hadoop MapReduce API'ernes kontrakt for en nøgle- og værdiklasse?

For en nøgle- og værdiklasse er der to Hadoop MapReduce API-kontrakter

Værdien skal definere grænsefladen org.apache.hadoop.io.Writable
Nøglen skal definere grænsefladen org.apache.hadoop.io.WritableComparable

56) Nævn, hvad er de tre tilstande, hvor Hadoop kan køres?

De tre tilstande, hvor Hadoop kan køres, er

Pseudodistribueret tilstand
Standalone (lokal) tilstand
Fuldt distribueret tilstand

57) Nævn hvad gør tekstinputformatet?

Tekstinputformatet opretter et linieobjekt, der er et hexadecimalt tal. Værdien betragtes som en hel linjetekst, mens nøglen betragtes som et linjeobjekt. Kortlæggeren modtager værdien som 'tekst' parameter, mens den er nøgle som 'langskrivbar' parameter.

58) Nævn, hvor mange InputSplits der er lavet af en Hadoop Framework?

Hadoop vil lave 5 opdelinger

1 split til 64K filer
2 split til 65 MB filer
2 opdelinger til 127 MB filer

59) Nævn hvad er distribueret cache i Hadoop?

Distribueret cache i Hadoop er en facilitet, der leveres af MapReduce framework. På tidspunktet for udførelsen af jobbet bruges det til at cache filen. Framework kopierer de nødvendige filer til slavernoden før udførelsen af en hvilken som helst opgave på den node.

60) Forklar, hvordan spiller Hadoop Classpath en vigtig rolle i at stoppe eller starte i Hadoop-dæmoner?

Classpath vil bestå af en liste over mapper, der indeholder jar-filer for at stoppe eller starte dæmoner.