Top 25 ETL-testspørgsmål & Svar

Anonim

Følgende er ofte stillede spørgsmål i interviews for nybegyndere såvel som erfaren ETL-tester og udvikler.

1) Hvad er ETL?

I datalagerarkitektur er ETL en vigtig komponent, der styrer dataene til enhver forretningsproces. ETL står for Extract, Transform and Load . Extract udfører processen med at læse data fra en database. Transform konverterer data til et format, der kan være passende til rapportering og analyse. Mens load laver processen med at skrive dataene i måldatabasen.

2) Forklar, hvad inkluderer ETL-testoperationer?

ETL-test inkluderer

  • Kontroller, om dataene transformeres korrekt i henhold til forretningskravene
  • Kontroller, at de projicerede data indlæses i datalageret uden afkortning og datatab
  • Sørg for, at ETL-applikationen rapporterer ugyldige data og erstattes med standardværdier
  • Sørg for, at data indlæses på forventet tidsramme for at forbedre skalerbarhed og ydeevne

3) Nævn, hvilke typer data warehouse-applikationer er, og hvad er forskellen mellem data mining og data warehousing?

Typerne af datalagerapplikationer er

  • Info behandling
  • Analytisk behandling
  • Data Mining

Data mining kan defineres som processen med at udtrække skjult forudsigelig information fra store databaser og fortolke dataene, mens datalager kan gøre brug af en datamine til analytisk behandling af dataene på en hurtigere måde. Datalager er processen med at samle data fra flere kilder til et fælles arkiv

4) Hvad er de forskellige værktøjer, der bruges i ETL?

  • Cognos beslutningsstrøm
  • Oracle Warehouse Builder
  • Forretningsobjekter XI
  • SAS forretningslager
  • SAS Enterprise ETL-server

5) Hvad er kendsgerning? Hvad er typerne af fakta?

Det er en central komponent i en flerdimensionel model, der indeholder de mål, der skal analyseres. Fakta er relateret til dimensioner.

Typer af fakta er

  • Additive fakta
  • Semi-additive fakta
  • Ikke-additive fakta

6) Forklar hvad der er Cubes og OLAP Cubes?

Kuber er databehandlingsenheder, der består af faktatabeller og dimensioner fra datalageret. Det giver flerdimensionel analyse.

OLAP står for Online Analytics Processing, og OLAP-terning lagrer store data i mutidimensionel form til rapporteringsformål. Den består af fakta kaldet som mål kategoriseret efter dimensioner.

7) Forklar, hvad der er sporingsniveau, og hvad er typerne?

Sporingsniveau er mængden af ​​data, der er gemt i logfilerne. Sporingsniveau kan klassificeres i to normale og detaljerede. Normalt niveau forklarer sporingsniveauet på en detaljeret måde, mens det detaljerede forklarer sporingsniveauerne i hver række.

8) Forklar hvad der er korn af fakta?

Kornfakta kan defineres som det niveau, hvor faktainformationen lagres. Det er også kendt som faktagranularitet

9) Forklar, hvad faktaløs skema er, og hvad er foranstaltninger?

En faktatabel uden målinger er kendt som Factless fact-tabel. Det kan se antallet af begivenheder, der forekommer. For eksempel bruges den til at registrere en begivenhed som medarbejderantal i en virksomhed.

De numeriske data baseret på kolonner i en faktatabel er kendt som Målinger

10) Forklar hvad der er transformation?

En transformation er et arkivobjekt, der genererer, ændrer eller videregiver data. Transformation er af to typer Aktiv og Passiv

11) Forklar brugen af ​​Lookup Transformation?

Lookup Transformation er nyttig til

  • Henter en relateret værdi fra en tabel ved hjælp af en kolonneværdi
  • Opdater langsomt skiftende dimensionstabel
  • Kontroller, om der allerede findes poster i tabellen

12) Forklar hvad der er partitionering, hash-partitionering og round robin-partitionering?

For at forbedre ydeevnen opdeles transaktioner, dette kaldes Partitionering. Partitionering muliggør Informatica Server til oprettelse af flere forbindelser til forskellige kilder

De typer skillevægge er

Round-Robin partitionering:

  • Ved informatica fordeles data jævnt mellem alle partitioner
  • I hver partition, hvor antallet af rækker, der skal behandles, er omtrent det samme, er denne partitionering gældende

Hash partitionering:

  • Med henblik på partitionering af nøgler til gruppering af data blandt partitioner anvender Informatica-serveren en hash-funktion
  • Det bruges, når det sikres, at processerne skal sikres, at grupper af rækker med den samme partitioneringsnøgle i den samme partition skal sikres

13) Nævn, hvad er fordelen ved at bruge DataReader Destination Adapter?

Fordelen ved at bruge DataReader Destination Adapter er, at den udfylder et ADO-recordsæt (består af poster og kolonner) i hukommelsen og udsætter dataene fra DataFlow-opgaven ved at implementere DataReader-grænsefladen, så andre applikationer kan forbruge dataene.

14) Hvad er de mulige måder at opdatere tabel på ved hjælp af SSIS (SQL Server Integration Service)?

For at opdatere tabel ved hjælp af SSIS er de mulige måder:

  • Brug en SQL-kommando
  • Brug en iscenesættelse tabel
  • Brug cache
  • Brug scriptopgaven
  • Brug det fulde databasenavn til opdatering, hvis MSSQL bruges

15) Hvis du har en kilde, der ikke er OLEDB (Object Linking and Embedding Database) til opslag, hvad ville du gøre?

Hvis du har en ikke-OLEBD-kilde til opslag, skal du bruge Cache til at indlæse data og bruge dem som kilde

16) I hvilket tilfælde bruger du dynamisk cache og statisk cache i tilsluttede og ikke-tilsluttede transformationer?

  • Dynamisk cache bruges, når du skal opdatere mastertabel og langsomt skiftende dimensioner (SCD) type 1
  • Til flade filer anvendes statisk cache

17) Forklar, hvad er forskellene mellem Uforbundet og Forbundet opslag?

Forbundet opslag

Uforbundet opslag

  • Forbundet opslag deltager i kortlægning

- Det bruges, når opslagsfunktion bruges i stedet for en ekspressionstransformation under kortlægning

  • Flere værdier kan returneres

- Returnerer kun en outputport

  • Det kan forbindes til en anden transformation og returnerer en værdi
  • En anden transformation kan ikke forbindes
  • Statisk eller dynamisk cache kan bruges til tilsluttet opslag
  • Ikke forbundet som kun statisk cache
  • Forbundet opslag understøtter brugerdefinerede standardværdier
  • Uforbundet opslag understøtter ikke brugerdefinerede standardværdier
  • I Connected Lookup kan flere kolonner returneres fra samme række eller indsættes i dynamisk opslagscache
  • Uforbundet opslag udpeger en returport og returnerer en kolonne fra hver række

18) Forklar hvad er datakildevisning?

En datakildevisning giver mulighed for at definere det relationelle skema, der skal bruges i databaser for analysetjenester. I stedet for direkte fra datakildeobjekter oprettes dimensioner og terninger ud fra datakildevisninger.

19) Forklar hvad er forskellen mellem OLAP-værktøjer og ETL-værktøjer?

Forskellen mellem ETL og OLAP-værktøjet er den

ETL-værktøjet er beregnet til udvinding af data fra de ældre systemer og indlæses i specificeret database med en eller anden proces til rensning af data.

Eksempel: Datatrin, Informatica osv.

Mens OLAP er beregnet til rapporteringsformål i OLAP-data, der er tilgængelige i multi-retningsmodel.

Eksempel: Forretningsobjekter, Cognos osv.

20) Hvordan kan du udtrække SAP-data ved hjælp af Informatica?

  • Med strømtilslutningsmuligheden udtrækker du SAP-data ved hjælp af informatica
  • Installer og konfigurer PowerConnect-værktøjet
  • Importer kilden til Source Analyzer. Mellem Informatica og SAP fungerer Powerconnect som en gateaway. Det næste trin er at generere ABAP-koden til kortlægningen, så kun informatica kan hente data fra SAP
  • For at forbinde og importere kilder fra eksterne systemer bruges Power Connect

21) Nævn, hvad er forskellen mellem Power Mart og Power Center?

Power Center

Power Mart

  • Antag at behandle enorme mængder data
  • Antag at behandle lavt datamængde
  • Den understøtter ERP-kilder som SAP, soft soft etc.
  • Det understøtter ikke ERP-kilder
  • Det understøtter lokalt og globalt arkiv
  • Det understøtter lokalt lager
  • Det konverterer lokalt til et globalt lager
  • Det har ingen specifikationer til at konvertere lokalt til et globalt lager

22) Forklar hvad iscenesættelsesområde er, og hvad er formålet med et iscenesættelsesområde?

Datastaging er et område, hvor du gemmer dataene midlertidigt på datalager-serveren. Datastaging inkluderer følgende trin

  • Ekstraktion af kildedata og transformation af data (omstrukturering)
  • Datatransformation (datarensning, værditransformation)
  • Surrogat nøgleopgaver

23) Hvad er busskema?

Til de forskellige forretningsprocesser til identifikation af de fælles dimensioner anvendes BUS-skema. Den leveres med en tilpasset dimension sammen med en standardiseret definition af information

24) Forklar hvad der renser data?

Rensning af data er en proces til sletning af data fra datalager. Det sletter uønskede data som rækker med nulværdier eller ekstra mellemrum.

25) Forklar, hvad der er skemaobjekter?

Skemaobjekter er den logiske struktur, der direkte henviser til databasedataene. Skemaobjekter inkluderer tabeller, visninger, sekvenssynonymer, indekser, klynger, funktionspakker og databaselinks

26) Forklar disse termer Session, Worklet, Mapplet og Workflow?

  • Mapplet: Den arrangerer eller skaber sæt af transformation
  • Worklet: Det repræsenterer et bestemt sæt opgaver, der er givet
  • Workflow: Det er et sæt instruktioner, der fortæller serveren, hvordan man udfører opgaver
  • Session: Det er et sæt parametre, der fortæller serveren, hvordan man flytter data fra kilder til mål

Gratis PDF-download: ETL Testing Interview Spørgsmål og svar