Hvad er ETL?
ETL er en forkortelse af Extract, Transform and Load. I denne proces udtrækker et ETL-værktøj dataene fra forskellige RDBMS-kildesystemer, transformerer derefter dataene som anvendelse af beregninger, sammenkædninger osv. Og indlæser derefter dataene i Data Warehouse-systemet.
I ETL strømmer data fra kilden til målet. I ETL-processetransformationsmotor tager sig af dataændringer.
Hvad er ELT?
ELT er en anden metode til at se på værktøjstilgangen til dataflytning. I stedet for at transformere dataene, før de er skrevet, lader ELT målsystemet foretage transformationen. Dataene blev først kopieret til målet og derefter transformeret på plads.
ELT bruges normalt med ikke-SQL-databaser som Hadoop-klynge, dataapparat eller skyinstallation.
Nøgleforskel
- ETL står for Extract, Transform and Load, mens ELT står for Extract, Load, Transform.
- ETL indlæser data først i mellemstationsserveren og derefter i målsystemet, mens ELT indlæser data direkte i målsystemet.
- ETL-modellen bruges til lokale, relationelle og strukturerede data, mens ELT bruges til skalerbare skystrukturerede og ustrukturerede datakilder.
- ETL bruges hovedsageligt til en lille mængde data, mens ELT bruges til store datamængder.
- ETL leverer ikke data lake understøtter, mens ELT leverer data lake support.
- ETL er let at implementere, mens ELT kræver nichefærdigheder for at implementere og vedligeholde.
Forskel mellem ETL vs. ELT
ETL- og ELT-processen er forskellige i følgende parametre:
Parametre | ETL | ELT |
---|---|---|
Behandle | Data transformeres på iscenesættelsesserver og overføres derefter til Datawarehouse DB. | Data forbliver i databladet i Datawarehouse. |
Kodeanvendelse | Anvendes til
| Bruges til store datamængder |
Transformation | Transformationer udføres i ETL-server / iscenesættelsesområde. | Transformationer udføres i målsystemet |
Time-Load | Data først indlæst i iscenesættelse og senere indlæst i målsystemet. Tidskrævende. | Data indlæst i målsystemet kun en gang. Hurtigere. |
Tidstransformation | ETL-processen skal vente på, at transformation er afsluttet. Efterhånden som datastørrelsen vokser, øges transformationstiden. | I ELT-processen afhænger hastigheden aldrig af datastørrelsen. |
Tid - Vedligeholdelse | Det har brug for høj vedligeholdelse, da du skal vælge data, der skal indlæses og transformeres. | Lav vedligeholdelse, da data altid er tilgængelige. |
Implementeringskompleksitet | På et tidligt tidspunkt lettere at implementere. | At implementere ELT-processen skal organisering have dyb kendskab til værktøjer og ekspertfærdigheder. |
Support til datalager | ETL-model, der bruges til lokale, relationelle og strukturerede data. | Anvendes i skalerbar skyinfrastruktur, der understøtter strukturerede, ustrukturerede datakilder. |
Data Lake Support | Understøtter ikke. | Tillader brug af Data Lake med ustrukturerede data. |
Kompleksitet | ETL-processen indlæser kun de vigtige data, som de blev identificeret på designtidspunktet. | Denne proces involverer udvikling fra output-bagud og indlæsning af kun relevante data. |
Koste | Høje omkostninger for små og mellemstore virksomheder. | Lave adgangsomkostninger ved brug af online software som serviceplatforme. |
Opslag | I ETL-processen skal både fakta og dimensioner være tilgængelige i iscenesættelsesområdet. | Alle data vil være tilgængelige, fordi udtræk og indlæsning sker i en enkelt handling. |
Aggregationer | Kompleksitet øges med den ekstra mængde data i datasættet. | Styrken fra målplatformen kan behandle betydelige mængder data hurtigt. |
Beregninger | Overskriver eksisterende kolonne eller har brug for at tilføje datasættet og skubbe til målplatformen. | Føj let den beregnede kolonne til den eksisterende tabel. |
Modenhed | Processen bruges i over to årtier. Det er veldokumenteret og bedste praksis let tilgængelig. | Relativt nyt koncept og kompleks at implementere. |
Hardware | De fleste værktøjer har unikke hardwarekrav, der er dyre. | At være Saas hardwarepris er ikke et problem. |
Støtte til ustrukturerede data | Understøtter hovedsageligt relationsdata | Støtte til ustrukturerede data, der er let tilgængelige. |