Her er hyppigt stillede spørgsmål om dataingeniørinterview for nybegyndere såvel som erfarne kandidater for at få det rigtige job.
1) Forklar datateknik.
Data engineering er et udtryk, der bruges i big data. Det fokuserer på anvendelsen af dataindsamling og forskning. Data genereret fra forskellige kilder er kun rådata. Data engineering hjælper med at konvertere disse rådata til nyttige oplysninger.
2) Hvad er datamodellering?
Datamodellering er metoden til dokumentation af komplekst softwaredesign som et diagram, så alle let kan forstå. Det er en konceptuel repræsentation af dataobjekter, der er forbundet mellem forskellige dataobjekter og reglerne.
3) Liste over forskellige typer designskemaer i datamodellering
Der er hovedsagelig to typer skemaer i datamodellering: 1) Stjerneskema og 2) Snefnugskema.
4) Skel mellem strukturerede og ustrukturerede data
Følgende er en forskel mellem strukturerede og ustrukturerede data:
Parameter | Strukturerede data | Ustrukturerede data |
Opbevaring | DBMS | Ustyrede filstrukturer |
Standard | ADO.net, ODBC og SQL | STMP, XML, CSV og SMS |
Integrationsværktøj | ELT (Uddrag, transformer, indlæs) | Manuel dataindtastning eller batchbehandling, der inkluderer koder |
skalering | Skema skalering er vanskelig | Skalering er meget let. |
5) Forklar alle komponenter i en Hadoop-applikation
Følgende er komponenterne i Hadoop-applikationen:
- Hadoop Common: Det er et fælles sæt hjælpeprogrammer og biblioteker, der bruges af Hadoop.
- HDFS: Denne Hadoop-applikation vedrører det filsystem, hvor Hadoop-dataene er gemt. Det er et distribueret filsystem med høj båndbredde.
- Hadoop MapReduce: Det er baseret på algoritmen til levering af databehandling i stor skala.
- Hadoop GARN: Det bruges til ressourcestyring inden for Hadoop-klyngen. Det kan også bruges til opgaveplanlægning for brugere.
6) Hvad er NameNode?
Det er midtpunktet i HDFS. Den gemmer data fra HDFS og sporer forskellige filer på tværs af klyngerne. Her er de faktiske data ikke gemt. Dataene gemmes i DataNodes.
7) Definer Hadoop-streaming
Det er et værktøj, der muliggør oprettelse af kortet og reducerer job og sender dem til en bestemt klynge.
8) Hvad er den fulde form for HDFS?
HDFS står for Hadoop Distributed File System.
9) Definer Block and Block Scanner i HDFS
Blokke er den mindste enhed i en datafil. Hadoop deler automatisk store filer i små stykker.
Block Scanner verificerer listen over blokke, der præsenteres på en DataNode.
10) Hvad er de trin, der opstår, når Block Scanner registrerer en beskadiget datablok?
Følgende er de trin, der opstår, når Block Scanner finder en beskadiget datablok:
1) Først og fremmest, når Block Scanner finder en beskadiget datablok, rapporterer DataNode til NameNode
2) NameNode starter processen med at oprette en ny replika ved hjælp af en replika af den beskadigede blok.
3) Replikeringstælling af de korrekte repliker forsøger at matche med replikationsfaktoren. Hvis matchet fundet er beskadiget datablok ikke slettet.
11) Navngiv to meddelelser, som NameNode får fra DataNode?
Der er to meddelelser, som NameNode får fra DataNode. De er 1) Blokrapport og 2) Hjerteslag.
12) Liste over forskellige XML-konfigurationsfiler i Hadoop?
Der er fem XML-konfigurationsfiler i Hadoop:
- Mapred-site
- Core-site
- HDFS-site
- Garn-site
13) Hvad er fire V'er med big data?
Fire V'er med store data er:
- Hastighed
- Bred vifte
- Bind
- Ægthed
14) Forklar funktionerne i Hadoop
Vigtige træk ved Hadoop er:
- Det er en open source-ramme, der er tilgængelig freeware.
- Hadoop er kompatibel med de mange typer hardware og let adgang til ny hardware inden for en bestemt node.
- Hadoop understøtter hurtigere distribueret behandling af data.
- Den gemmer dataene i klyngen, som er uafhængig af resten af operationerne.
- Hadoop giver mulighed for at oprette 3 replikaer for hver blok med forskellige noder.
15) Forklar de vigtigste metoder til Reducer
- setup (): Det bruges til at konfigurere parametre som størrelsen på inputdata og distribueret cache.
- oprydning (): Denne metode bruges til at rense midlertidige filer.
- reducere (): Det er et hjerte af reduktionen, der kaldes en gang pr. nøgle med den tilhørende reducerede opgave
16) Hvad er forkortelsen af COSHH?
Forkortelsen af COSHH er en klassificerings- og optimeringsplan for heterogene Hadoop-systemer.
17) Forklar stjerneskema
Star Schema eller Star Join Schema er den enkleste type Data Warehouse-skema. Det er kendt som stjerneskema, fordi dets struktur er som en stjerne. I stjerneskemaet kan stjernens centrum have en faktatabel og flere tilknyttede dimensionstabeller. Dette skema bruges til forespørgsel på store datasæt.
18) Hvordan implementeres en big data-løsning?
Følg følgende trin for at implementere en big data-løsning.
1) Integrer data ved hjælp af datakilder som RDBMS, SAP, MySQL, Salesforce
2) Gem dataekstraherede data i enten NoSQL-database eller HDFS.
3) Implementér big data-løsning ved hjælp af behandlingsrammer som Pig, Spark og MapReduce.
19) Forklar FSCK
File System Check eller FSCK er en kommando, der bruges af HDFS. FSCK-kommando bruges til at kontrollere uoverensstemmelser og problemer i filen.
20) Forklar Snowflake Schema
Et snefnugskema er en udvidelse af et stjerneskema, og det tilføjer yderligere dimensioner. Det er såkaldt som snefnug, fordi dets diagram ligner en snefnug. Dimensionstabellerne er normaliseret, der opdeler data i yderligere tabeller.
21) Skel mellem Star og Snowflake Schema
Stjerne | SnowFlake-skema |
Dimensionshierarkier er gemt i dimensionstabellen. | Hvert hierarki er gemt i separate tabeller. |
Chancerne for dataredundans er store | Chancerne for dataredundans er lave. |
Det har et meget simpelt DB-design | Det har et komplekst DB-design |
Giv en hurtigere måde til behandling af terninger | Kubebehandlingen er langsom på grund af den komplekse sammenføjning. |
22) Forklar Hadoop-distribuerede filsystem
Hadoop arbejder med skalerbare distribuerede filsystemer som S3, HFTP FS, FS og HDFS. Hadoop distribuerede filsystem er lavet på Google File System. Dette filsystem er designet på en måde, så det let kan køre på en stor klynge af computersystemet.
23) Forklar dataansvarliges hovedansvar
Dataingeniører har mange ansvarsområder. De administrerer kildesystemet med data. Dataingeniører forenkler kompleks datastruktur og forhindrer reduplikering af data. Mange gange leverer de også ELT og datatransformation.
24) Hvad er den fulde form for GARN?
Den fulde form for YARN er endnu en ressourceforhandler.
25) Angiv forskellige tilstande i Hadoop
Tilstande i Hadoop er 1) Frittstående tilstand 2) Pseudodistribueret tilstand 3) Fuld distribueret tilstand.
26) Hvordan opnås sikkerhed i Hadoop?
Udfør følgende trin for at opnå sikkerhed i Hadoop:
1) Det første trin er at sikre klientens godkendelseskanal til serveren. Giv tidsstemplet til klienten.
2) I det andet trin bruger klienten den modtagne tidsstempel til at anmode TGS om en servicebillet.
3) I det sidste trin bruger klienten servicebillet til selvgodkendelse til en bestemt server.
27) Hvad er hjerteslag i Hadoop?
I Hadoop kommunikerer NameNode og DataNode med hinanden. Heartbeat er det signal, som DataNode regelmæssigt sender til NameNode for at vise dets tilstedeværelse.
28) Skel mellem NAS og DAS i Hadoop
NAS | DAS |
Lagerkapacitet er 10 9 til 10 12 byte. | Lagerkapacitet er 10 9 i byte. |
Administrationsomkostninger pr. GB er moderat. | Administrationsomkostninger pr. GB er høje. |
Overfør data ved hjælp af Ethernet eller TCP / IP. | Overfør data ved hjælp af IDE / SCSI |
29) Liste over vigtige felter eller sprog, der bruges af dataingeniør
Her er et par felter eller sprog, der bruges af dataingeniør:
- Sandsynlighed såvel som lineær algebra
- Maskinelæring
- Trendanalyse og regression
- Hive QL- og SQL-databaser
30) Hvad er Big Data?
Det er en stor mængde strukturerede og ustrukturerede data, der ikke let kan behandles ved traditionelle datalagringsmetoder. Dataingeniører bruger Hadoop til at styre big data.
31) Hvad er FIFO planlægning?
Det er en Hadoop Jobplanlægningsalgoritme. I denne FIFO-planlægning vælger en reporter job fra en arbejdskø, det ældste job først.
32) Nævn standardportnumre, som task tracker, NameNode og job tracker kører i Hadoop
Standardportnumre, som task tracker, NameNode og job tracker kører i Hadoop er som følger:
- Task tracker kører på 50060 port
- NameNode kører på 50070 port
- Jobtracker kører på 50030 port
33) Sådan deaktiveres Block Scanner på HDFS Data Node
For at deaktivere Block Scanner på HDFS Data Node skal du indstille dfs.datanode.scan.period.hours til 0.
34) Hvordan defineres afstanden mellem to noder i Hadoop?
Afstanden er lig med summen af afstanden til de nærmeste knudepunkter. Metoden getDistance () bruges til at beregne afstanden mellem to noder.
35) Hvorfor bruge råvarehardware i Hadoop?
Råvare er let at få og overkommelig. Det er et system, der er kompatibelt med Windows, MS-DOS eller Linux.
36) Definer replikationsfaktor i HDFS
Replikeringsfaktor er et samlet antal replikaer af en fil i systemet.
37) Hvilke data er gemt i NameNode?
Namenode gemmer metadataene til HDFS som blokoplysninger og oplysninger om navneområdet.
38) Hvad mener du med Rack Awareness?
I Haddop-klynge bruger Namenode Datanode til at forbedre netværkstrafikken, mens du læser eller skriver en fil, der er tættere på det nærliggende rack for at læse eller skrive anmodning. Namenode vedligeholder rack-id'et for hver DataNode for at opnå rack-information. Dette koncept kaldes Rack Awareness i Hadoop.
39) Hvad er funktionerne i Secondary NameNode?
Følgende er funktionerne i Secondary NameNode:
- FsImage, der gemmer en kopi af EditLog- og FsImage-filen.
- NameNode crash: Hvis NameNode går ned, kan Secondary NameNodes FsImage bruges til at genskabe NameNode.
- Kontrolpunkt: Det bruges af Secondary NameNode til at bekræfte, at data ikke er beskadiget i HDFS.
- Opdatering: Den opdaterer automatisk EditLog- og FsImage-filen. Det hjælper med at holde FsImage-filen på Secondary NameNode opdateret.
40) Hvad sker der, når NameNode er nede, og brugeren sender et nyt job?
NameNode er det eneste fejlpunkt i Hadoop, så brugeren ikke kan indsende et nyt job kan ikke udføre. Hvis NameNode er nede, kan jobbet muligvis mislykkes, fordi denne bruger skal vente på, at NameNode genstarter, før han kører noget job.
41) Hvad er de grundlæggende faser af reducer i Hadoop?
Der er tre grundlæggende faser af en reducering i Hadoop:
1. Shuffle: Her kopierer Reducer output fra Mapper.
2. Sort: Sort sorterer Hadoop input til Reducer ved hjælp af den samme tast.
3. Reducer: I denne fase reduceres outputværdier tilknyttet en nøgle for at konsolidere dataene i det endelige output.
42) Hvorfor bruger Hadoop kontekstobjekt?
Hadoop framework bruger kontekstobjekt med Mapper-klassen for at interagere med det resterende system. Kontekstobjekt får systemkonfigurationsoplysningerne og jobbet i sin konstruktør.
Vi bruger kontekstobjekt for at videregive oplysningerne i opsætningsmetoder (), oprydning () og kort (). Dette objekt gør vital information tilgængelig under kortoperationerne.
43) Definer Combiner i Hadoop
Det er et valgfrit trin mellem Map og Reduce. Combiner tager output fra kortfunktionen, opretter nøgleværdipar og sender til Hadoop Reducer. Combiners opgave er at opsummere det endelige resultat fra Map i oversigtsregistreringer med en identisk nøgle.
44) Hvad er standardreplikationsfaktoren tilgængelig i HDFS Hvad angiver den?
Standardreplikationsfaktor, der er tilgængelig i HDFS, er tre. Standardreplikationsfaktor angiver, at der vil være tre replikaer af hver data.
45) Hvad mener du med datalokalitet i Hadoop?
I et Big Data-system er datastørrelsen enorm, og det giver derfor ikke mening at flytte data over hele netværket. Nu forsøger Hadoop at flytte beregningen tættere på data. På denne måde forbliver dataene lokale for den gemte placering.
46) Definer balancer i HDFS
I HDFS er balanceren en administration, der bruges af admin-medarbejdere til at genbalancere data på tværs af DataNodes og flytter blokke fra overudnyttede til underudnyttede noder.
47) Forklar fejlsikret tilstand i HDFS
Det er en skrivebeskyttet tilstand af NameNode i en klynge. Oprindeligt er NameNode i Safemode. Det forhindrer skrivning til filsystem i Safemode. På dette tidspunkt samler det data og statistik fra alle DataNodes.
48) Hvad er vigtigheden af Distribueret cache i Apache Hadoop?
Hadoop har en nyttig hjælpefunktion, såkaldt Distribueret cache, som forbedrer ydeevnen for job ved at cache de filer, der bruges af applikationer. Et program kan angive en fil til cachen ved hjælp af JobConf-konfiguration.
Hadoop framework fremstiller replikaer af disse filer til noderne, som en opgave skal udføres. Dette gøres inden udførelsen af opgaven starter. Distribueret cache understøtter distribution af skrivebeskyttede filer såvel som lynlåse og krukkerfiler.
49) Hvad er Metastore i Hive?
Det gemmer skema såvel som Hive-bordplaceringen.
Hive-tabel definerer, kortlægninger og metadata, der er gemt i Metastore. Dette kan gemmes i RDBMS understøttet af JPOX.
50) Hvad betyder SerDe in Hive?
SerDe er et kort navn for Serializer eller Deserializer. I Hive tillader SerDe at læse data fra tabel til og skrive til et bestemt felt i ethvert format, du ønsker.
51) Liste over komponenter, der er tilgængelige i Hive-datamodellen
Der er følgende komponenter i Hive-datamodellen:
- Tabeller
- Skillevægge
- Skovle
52) Forklar brugen af Hive i Hadoop-økosystemet.
Hive giver en grænseflade til at administrere data, der er gemt i Hadoop øko-system. Hive bruges til kortlægning og arbejde med HBase-tabeller. Hive-forespørgsler konverteres til MapReduce-job for at skjule kompleksiteten forbundet med oprettelse og kørsel af MapReduce-job.
53) Liste over forskellige komplekse datatyper / samling understøttes af Hive
Hive understøtter følgende komplekse datatyper:
- Kort
- Struktur
- Array
- Union
54) Forklar, hvordan .hiverc-filen i Hive bruges?
I Hive er .hiverc initialiseringsfilen. Denne fil indlæses oprindeligt, når vi starter Command Line Interface (CLI) til Hive. Vi kan indstille de indledende værdier for parametre i .hiverc-filen.
55) Er det muligt at oprette mere end en tabel i Hive til en enkelt datafil?
Ja, vi kan oprette mere end en tabelskema til en datafil. Hive gemmer skema i Hive Metastore. Baseret på dette skema kan vi hente forskellige resultater fra de samme data.
56) Forklar forskellige SerDe-implementeringer, der er tilgængelige i Hive
Der er mange SerDe-implementeringer tilgængelige i Hive. Du kan også skrive din egen brugerdefinerede SerDe-implementering. Følgende er nogle berømte SerDe-implementeringer:
- OpenCSVSerde
- RegexSerDe
- AfgrænsetJSONSerDe
- ByteStreamTypedSerDe
57) Liste over generering af funktioner, der er tilgængelige i Hive
Følgende er en liste med funktioner til tabelgenerering:
- Eksplodere (array)
- JSON_tuple ()
- Stak()
- Eksplodere (kort)
58) Hvad er et skævt bord i Hive?
En skæv tabel er en tabel, der oftere indeholder kolonneværdier. I Hive, når vi angiver en tabel som SKEWED under oprettelsen, skrives skæve værdier i separate filer, og de resterende værdier går til en anden fil.
59) Liste over objekter, der er oprettet ved at oprette erklæring i MySQL.
Objekter oprettet ved at oprette erklæring i MySQL er som følger:
- Database
- Indeks
- Bord
- Bruger
- Procedure
- Udløser
- Begivenhed
- Udsigt
- Fungere
60) Hvordan kan jeg se databasestrukturen i MySQL?
For at se databasestruktur i MySQL kan du bruge
BESKRIV kommando. Syntaks for denne kommando er BESKRIVELSE Tabelnavn ;.
61) Hvordan søger jeg efter en bestemt streng i MySQL-tabelkolonnen?
Brug regex-operatoren til at søge efter en streng i MySQL-kolonnen. Her kan vi også definere forskellige typer regulært udtryk og søge efter brug af regex.
62) Forklar, hvordan dataanalyse og big data kan øge virksomhedens indtægter?
Følgende er måderne, hvordan dataanalyse og big data kan øge virksomhedens indtægter:
- Brug data effektivt for at sikre, at forretningsvækst.
- Forøg kundens værdi.
- Drejning af analytisk for at forbedre prognoser for personale.
- Nedskæring af organisationernes produktionsomkostninger.