Følgende er ofte stillede spørgsmål i interviews for nybegyndere såvel som erfaren ETL-tester og udvikler.
1) Hvad er ETL?
I datalagerarkitektur er ETL en vigtig komponent, der styrer dataene til enhver forretningsproces. ETL står for Extract, Transform and Load . Extract udfører processen med at læse data fra en database. Transform konverterer data til et format, der kan være passende til rapportering og analyse. Mens load laver processen med at skrive dataene i måldatabasen.
2) Forklar, hvad inkluderer ETL-testoperationer?
ETL-test inkluderer
- Kontroller, om dataene transformeres korrekt i henhold til forretningskravene
- Kontroller, at de projicerede data indlæses i datalageret uden afkortning og datatab
- Sørg for, at ETL-applikationen rapporterer ugyldige data og erstattes med standardværdier
- Sørg for, at data indlæses på forventet tidsramme for at forbedre skalerbarhed og ydeevne
3) Nævn, hvilke typer data warehouse-applikationer er, og hvad er forskellen mellem data mining og data warehousing?
Typerne af datalagerapplikationer er
- Info behandling
- Analytisk behandling
- Data Mining
Data mining kan defineres som processen med at udtrække skjult forudsigelig information fra store databaser og fortolke dataene, mens datalager kan gøre brug af en datamine til analytisk behandling af dataene på en hurtigere måde. Datalager er processen med at samle data fra flere kilder til et fælles arkiv
4) Hvad er de forskellige værktøjer, der bruges i ETL?
- Cognos beslutningsstrøm
- Oracle Warehouse Builder
- Forretningsobjekter XI
- SAS forretningslager
- SAS Enterprise ETL-server
5) Hvad er kendsgerning? Hvad er typerne af fakta?
Det er en central komponent i en flerdimensionel model, der indeholder de mål, der skal analyseres. Fakta er relateret til dimensioner.
Typer af fakta er
- Additive fakta
- Semi-additive fakta
- Ikke-additive fakta
6) Forklar hvad der er Cubes og OLAP Cubes?
Kuber er databehandlingsenheder, der består af faktatabeller og dimensioner fra datalageret. Det giver flerdimensionel analyse.
OLAP står for Online Analytics Processing, og OLAP-terning lagrer store data i mutidimensionel form til rapporteringsformål. Den består af fakta kaldet som mål kategoriseret efter dimensioner.
7) Forklar, hvad der er sporingsniveau, og hvad er typerne?
Sporingsniveau er mængden af data, der er gemt i logfilerne. Sporingsniveau kan klassificeres i to normale og detaljerede. Normalt niveau forklarer sporingsniveauet på en detaljeret måde, mens det detaljerede forklarer sporingsniveauerne i hver række.
8) Forklar hvad der er korn af fakta?
Kornfakta kan defineres som det niveau, hvor faktainformationen lagres. Det er også kendt som faktagranularitet
9) Forklar, hvad faktaløs skema er, og hvad er foranstaltninger?
En faktatabel uden målinger er kendt som Factless fact-tabel. Det kan se antallet af begivenheder, der forekommer. For eksempel bruges den til at registrere en begivenhed som medarbejderantal i en virksomhed.
De numeriske data baseret på kolonner i en faktatabel er kendt som Målinger
10) Forklar hvad der er transformation?
En transformation er et arkivobjekt, der genererer, ændrer eller videregiver data. Transformation er af to typer Aktiv og Passiv
11) Forklar brugen af Lookup Transformation?
Lookup Transformation er nyttig til
- Henter en relateret værdi fra en tabel ved hjælp af en kolonneværdi
- Opdater langsomt skiftende dimensionstabel
- Kontroller, om der allerede findes poster i tabellen
12) Forklar hvad der er partitionering, hash-partitionering og round robin-partitionering?
For at forbedre ydeevnen opdeles transaktioner, dette kaldes Partitionering. Partitionering muliggør Informatica Server til oprettelse af flere forbindelser til forskellige kilder
De typer skillevægge er
Round-Robin partitionering:
- Ved informatica fordeles data jævnt mellem alle partitioner
- I hver partition, hvor antallet af rækker, der skal behandles, er omtrent det samme, er denne partitionering gældende
Hash partitionering:
- Med henblik på partitionering af nøgler til gruppering af data blandt partitioner anvender Informatica-serveren en hash-funktion
- Det bruges, når det sikres, at processerne skal sikres, at grupper af rækker med den samme partitioneringsnøgle i den samme partition skal sikres
13) Nævn, hvad er fordelen ved at bruge DataReader Destination Adapter?
Fordelen ved at bruge DataReader Destination Adapter er, at den udfylder et ADO-recordsæt (består af poster og kolonner) i hukommelsen og udsætter dataene fra DataFlow-opgaven ved at implementere DataReader-grænsefladen, så andre applikationer kan forbruge dataene.
14) Hvad er de mulige måder at opdatere tabel på ved hjælp af SSIS (SQL Server Integration Service)?
For at opdatere tabel ved hjælp af SSIS er de mulige måder:
- Brug en SQL-kommando
- Brug en iscenesættelse tabel
- Brug cache
- Brug scriptopgaven
- Brug det fulde databasenavn til opdatering, hvis MSSQL bruges
15) Hvis du har en kilde, der ikke er OLEDB (Object Linking and Embedding Database) til opslag, hvad ville du gøre?
Hvis du har en ikke-OLEBD-kilde til opslag, skal du bruge Cache til at indlæse data og bruge dem som kilde
16) I hvilket tilfælde bruger du dynamisk cache og statisk cache i tilsluttede og ikke-tilsluttede transformationer?
- Dynamisk cache bruges, når du skal opdatere mastertabel og langsomt skiftende dimensioner (SCD) type 1
- Til flade filer anvendes statisk cache
17) Forklar, hvad er forskellene mellem Uforbundet og Forbundet opslag?
Forbundet opslag |
Uforbundet opslag |
|
- Det bruges, når opslagsfunktion bruges i stedet for en ekspressionstransformation under kortlægning |
|
- Returnerer kun en outputport |
|
|
|
|
|
|
|
|
18) Forklar hvad er datakildevisning?
En datakildevisning giver mulighed for at definere det relationelle skema, der skal bruges i databaser for analysetjenester. I stedet for direkte fra datakildeobjekter oprettes dimensioner og terninger ud fra datakildevisninger.
19) Forklar hvad er forskellen mellem OLAP-værktøjer og ETL-værktøjer?
Forskellen mellem ETL og OLAP-værktøjet er den
ETL-værktøjet er beregnet til udvinding af data fra de ældre systemer og indlæses i specificeret database med en eller anden proces til rensning af data.
Eksempel: Datatrin, Informatica osv.
Mens OLAP er beregnet til rapporteringsformål i OLAP-data, der er tilgængelige i multi-retningsmodel.
Eksempel: Forretningsobjekter, Cognos osv.
20) Hvordan kan du udtrække SAP-data ved hjælp af Informatica?
- Med strømtilslutningsmuligheden udtrækker du SAP-data ved hjælp af informatica
- Installer og konfigurer PowerConnect-værktøjet
- Importer kilden til Source Analyzer. Mellem Informatica og SAP fungerer Powerconnect som en gateaway. Det næste trin er at generere ABAP-koden til kortlægningen, så kun informatica kan hente data fra SAP
- For at forbinde og importere kilder fra eksterne systemer bruges Power Connect
21) Nævn, hvad er forskellen mellem Power Mart og Power Center?
Power Center |
Power Mart |
|
|
|
|
|
|
|
|
22) Forklar hvad iscenesættelsesområde er, og hvad er formålet med et iscenesættelsesområde?
Datastaging er et område, hvor du gemmer dataene midlertidigt på datalager-serveren. Datastaging inkluderer følgende trin
- Ekstraktion af kildedata og transformation af data (omstrukturering)
- Datatransformation (datarensning, værditransformation)
- Surrogat nøgleopgaver
23) Hvad er busskema?
Til de forskellige forretningsprocesser til identifikation af de fælles dimensioner anvendes BUS-skema. Den leveres med en tilpasset dimension sammen med en standardiseret definition af information
24) Forklar hvad der renser data?
Rensning af data er en proces til sletning af data fra datalager. Det sletter uønskede data som rækker med nulværdier eller ekstra mellemrum.
25) Forklar, hvad der er skemaobjekter?
Skemaobjekter er den logiske struktur, der direkte henviser til databasedataene. Skemaobjekter inkluderer tabeller, visninger, sekvenssynonymer, indekser, klynger, funktionspakker og databaselinks
26) Forklar disse termer Session, Worklet, Mapplet og Workflow?
- Mapplet: Den arrangerer eller skaber sæt af transformation
- Worklet: Det repræsenterer et bestemt sæt opgaver, der er givet
- Workflow: Det er et sæt instruktioner, der fortæller serveren, hvordan man udfører opgaver
- Session: Det er et sæt parametre, der fortæller serveren, hvordan man flytter data fra kilder til mål
Gratis PDF-download: ETL Testing Interview Spørgsmål og svar