Datavarehusarkitektur, koncepter og komponenter

Indholdsfortegnelse:

Anonim

Datavarehuskoncepter

Det grundlæggende koncept med et datavarehus er at lette en enkelt version af sandheden for en virksomhed til beslutningstagning og prognoser. Et datalager er et informationssystem, der indeholder historiske og kommutative data fra enkelt eller flere kilder. Data Warehouse Concepts forenkler rapporterings- og analyseprocessen for organisationer.

Kendetegn ved datalager

Data Warehouse-koncepter har følgende egenskaber:

  • Emneorienteret
  • Integreret
  • Tidsvariant
  • Ikke-flygtig

Emneorienteret

Et datalager er emneorienteret, da det giver information om et tema i stedet for virksomhedernes løbende drift. Disse emner kan være salg, marketing, distribution osv.

Et datalager fokuserer aldrig på den igangværende drift. I stedet lægger det vægt på modellering og analyse af data til beslutningstagning . Det giver også en enkel og kortfattet visning af det specifikke emne ved at ekskludere data, som ikke er nyttige til at understøtte beslutningsprocessen.

Integreret

I Data Warehouse betyder integration oprettelse af en fælles måleenhed for alle lignende data fra den forskellige database. Dataene skal også gemmes i Datawarehouse på en fælles og universelt acceptabel måde.

Et datalager er udviklet ved at integrere data fra forskellige kilder som en mainframe, relationsdatabaser, flade filer osv. Desuden skal det holde ensartede navngivningskonventioner, format og kodning.

Denne integration hjælper med effektiv analyse af data. Konsistens i navngivningskonventioner, attributmål, kodningsstruktur osv. Skal sikres. Overvej følgende eksempel:

I ovenstående eksempel er der tre forskellige applikationer mærket A, B og C. Information gemt i disse applikationer er køn, dato og balance. Hver applikations data gemmes dog forskelligt.

  • I applikation A kønsfelt gemmer logiske værdier som M eller F
  • I ansøgning B er kønsfelt en numerisk værdi,
  • I applikation C-applikation gemmes kønsfelt i form af en tegnværdi.
  • Det samme er tilfældet med dato og balance

Efter transformation og rengøringsproces gemmes alle disse data imidlertid i almindeligt format i datavarehuset.

Tidsvariant

Tidshorisonten for datalager er ret omfattende sammenlignet med operationelle systemer. De data, der indsamles i et datalager, genkendes med en bestemt periode og giver information fra det historiske synspunkt. Den indeholder et element af tid, eksplicit eller implicit.

Et sådant sted, hvor Datawarehouse-data viser tidsvarians, er i strukturen på postnøglen. Hver primær nøgle indeholdt i DW skal enten have implicit eller eksplicit et tidselement. Ligesom dagen, ugemåneden osv.

Et andet aspekt af tidsvarians er, at når data først er indsat i lageret, kan de ikke opdateres eller ændres.

Ikke-flygtig

Datalager er også ikke-flygtigt, hvilket betyder, at de tidligere data ikke slettes, når nye data indtastes i det.

Data er skrivebeskyttet og opdateres med jævne mellemrum. Dette hjælper også med at analysere historiske data og forstå, hvad og hvornår der skete. Det kræver ikke transaktionsprocesser, genopretning og samtidige kontrolmekanismer.

Aktiviteter som sletning, opdatering og indsættelse, der udføres i et operativt applikationsmiljø, udelades i Data warehouse-miljøet. Der er kun to typer datahandlinger, der udføres i datalageret

  1. Indlæsning af data
  2. Dataadgang

Her er nogle store forskelle mellem Application og Data Warehouse

Operationel anvendelse Data varehus
Komplekt program skal være kodet for at sikre, at dataopgraderingsprocesser opretholder det høje integritet af det endelige produkt. Denne type problemer sker ikke, fordi dataopdatering ikke udføres.
Data placeres i en normaliseret form for at sikre minimal redundans. Data gemmes ikke i normaliseret form.
Teknologi, der er nødvendig for at understøtte problemer med transaktioner, datagendannelse, tilbageførsel og opløsning, da dens deadlock er ret kompleks. Det giver relativ enkelhed i teknologi.

Datavarehusarkitektur

Data Warehouse Architecture er kompleks, da det er et informationssystem, der indeholder historiske og kommutative data fra flere kilder. Der er 3 tilgange til konstruktion af datalagerlag: Single Tier, Two Tier og Three Tier. Denne 3-lags arkitektur af Data Warehouse forklares som nedenfor.

Enkelt-lags arkitektur

Formålet med et enkelt lag er at minimere mængden af ​​lagrede data. Dette mål er at fjerne dataredundans. Denne arkitektur bruges ikke ofte i praksis.

To-lags arkitektur

To-lags arkitektur er et af Data Warehouse-lagene, der adskiller fysisk tilgængelige kilder og datalager. Denne arkitektur kan ikke udvides og understøtter heller ikke et stort antal slutbrugere. Det har også forbindelsesproblemer på grund af netværksbegrænsninger.

Tre-lags datalagerarkitektur

Dette er den mest anvendte Architecture of Data Warehouse.

Den består af øverste, mellemste og nederste niveau.

  1. Bundniveau: Database over Datawarehouse-serverne som bundniveau. Det er normalt et relationsdatabasesystem. Data renses, transformeres og indlæses i dette lag ved hjælp af backend-værktøjer.
  2. Mellemklasse : Mellemklassen i datalageret er en OLAP-server, der implementeres ved hjælp af enten ROLAP- eller MOLAP-model. For en bruger præsenterer dette applikationsniveau et abstrakt billede af databasen. Dette lag fungerer også som en formidler mellem slutbrugeren og databasen.
  3. Top-Tier: Det øverste niveau er et frontend-klientlag. Topniveau er de værktøjer og API, som du forbinder og får data ud fra datalageret. Det kunne være forespørgselsværktøjer, rapporteringsværktøjer, administrerede forespørgselsværktøjer, analyseværktøjer og dataudvindingsværktøjer.

Datawarehouse-komponenter

Vi lærer om Datawarehouse Components og Architecture of Data Warehouse med diagram som vist nedenfor:

Datavarehusarkitektur

Data Warehouse er baseret på en RDBMS-server, som er et centralt informationslager, der er omgivet af nogle vigtige Data Warehousing-komponenter for at gøre hele miljøet funktionelt, håndterbart og tilgængeligt.

Der er hovedsageligt fem datalagerkomponenter:

Datalagerdatabase

Den centrale database er grundlaget for datalagermiljøet. Denne database er implementeret på RDBMS-teknologien. Selvom denne form for implementering er begrænset af det faktum, at traditionelt RDBMS-system er optimeret til transaktionsbaseret databehandling og ikke til datalagring. For eksempel er ad hoc-forespørgsel, sammenføjning med flere tabeller, aggregater ressourceintensive og bremser ydeevnen.

Derfor anvendes alternative tilgange til database som angivet nedenfor -

  • I et datawarehouse distribueres relationsdatabaser parallelt for at muliggøre skalerbarhed. Parallelle relationsdatabaser tillader også delt hukommelse eller delt intet-model på forskellige multiprocessorkonfigurationer eller massivt parallelle processorer.
  • Nye indeksstrukturer bruges til at omgå relationel tabel scanning og forbedre hastigheden.
  • Brug af multidimensionel database (MDDB'er) til at overvinde eventuelle begrænsninger, der er placeret på grund af de relationelle datavarehusmodeller. Eksempel: Essbase fra Oracle.

Sourcing, erhvervelse, oprydning og transformationsværktøjer (ETL)

Datasourcing-, transformation- og migreringsværktøjerne bruges til at udføre alle konverteringer, opsummeringer og alle de ændringer, der er nødvendige for at omdanne data til et samlet format i datawarehouse. De kaldes også Extract, Transform and Load (ETL) Tools.

Deres funktionalitet inkluderer:

  • Anonymiser data i henhold til lovbestemmelser.
  • Fjernelse af uønskede data i operationelle databaser fra indlæsning i datalager.
  • Søg og erstat almindelige navne og definitioner for data, der kommer fra forskellige kilder.
  • Beregning af resuméer og afledte data
  • I tilfælde af manglende data skal du udfylde dem med standardindstillinger.
  • De-duplikerede gentagne data, der kommer fra flere datakilder.

Disse ekstraherings-, transformerings- og indlæsningsværktøjer kan generere cron-job, baggrundsjob, Cobol-programmer, shell-scripts osv., Der regelmæssigt opdaterer data i datawarehouse. Disse værktøjer er også nyttige til at vedligeholde metadataene.

Disse ETL-værktøjer skal håndtere udfordringer ved database og dataheterogenitet.

Metadata

Navnet Meta Data antyder nogle teknologiske data warehousing koncepter på højt niveau. Det er dog ret simpelt. Metadata er data om data, der definerer datalageret. Det bruges til at opbygge, vedligeholde og administrere datalageret.

I datavarehusarkitekturen spiller metadata en vigtig rolle, da den specificerer kilden, brugen, værdierne og funktionerne i datalagerdata. Den definerer også, hvordan data kan ændres og behandles. Det er tæt forbundet med datalageret.

For eksempel kan en linje i salgsdatabasen indeholde:

4030 KJ732 299.90

Dette er meningsløse data, indtil vi konsulterer Meta, der fortæller os, at det var

  • Model nummer: 4030
  • Salgsagent-id: KJ732
  • Samlet salgsbeløb på $ 299,90

Derfor er Meta Data essentielle ingredienser i omdannelsen af ​​data til viden.

Metadata hjælper med at besvare følgende spørgsmål

  • Hvilke tabeller, attributter og nøgler indeholder datavarehuset?
  • Hvor kom dataene fra?
  • Hvor mange gange genindlæses data?
  • Hvilke transformationer blev anvendt med rensning?

Metadata kan klassificeres i følgende kategorier:

  1. Tekniske metadata : Denne form for metadata indeholder oplysninger om lager, der bruges af datalagerdesignere og administratorer.
  2. Forretningsmetadata: Denne form for metadata indeholder detaljer, der giver slutbrugere en måde, der er let at forstå oplysninger, der er gemt i datalageret.

Forespørgselsværktøjer

Et af de primære formål med datalager er at give information til virksomhederne for at tage strategiske beslutninger. Forespørgselsværktøjer giver brugerne mulighed for at interagere med datalagersystemet.

Disse værktøjer falder i fire forskellige kategorier:

  1. Forespørgsels- og rapporteringsværktøjer
  2. Applikationsudviklingsværktøjer
  3. Data mining værktøjer
  4. OLAP-værktøjer

1. Forespørgsels- og rapporteringsværktøjer:

Forespørgsels- og rapporteringsværktøjer kan opdeles yderligere i

  • Rapporteringsværktøjer
  • Administrerede forespørgselsværktøjer

Rapporteringsværktøjer:

Rapporteringsværktøjer kan yderligere opdeles i produktionsrapporteringsværktøjer og skrivebordsrapportforfatter.

  1. Rapportforfattere: Denne form for rapporteringsværktøj er værktøjer designet til slutbrugere til deres analyse.
  2. Produktionsrapportering: Denne form for værktøjer giver organisationer mulighed for at generere regelmæssige operationelle rapporter. Det understøtter også store volumen batchjob som udskrivning og beregning. Nogle populære rapporteringsværktøjer er Brio, Business Objects, Oracle, PowerSoft, SAS Institute.

Administrerede forespørgselsværktøjer:

Denne form for adgangsværktøjer hjælper slutbrugere med at løse snags i database og SQL og databasestruktur ved at indsætte metalag mellem brugere og database.

2. Applikationsudviklingsværktøjer:

Nogle gange tilfredsstiller indbyggede grafiske og analytiske værktøjer ikke en organisations analytiske behov. I sådanne tilfælde udvikles brugerdefinerede rapporter ved hjælp af applikationsudviklingsværktøjer.

3. Data mining værktøjer:

Data mining er en proces med at opdage meningsfuld ny korrelation, patten og tendenser ved minedrift af store mængder data. Data mining værktøjer bruges til at gøre denne proces automatisk.

4. OLAP-værktøjer:

Disse værktøjer er baseret på begreber i en flerdimensionel database. Det giver brugerne mulighed for at analysere dataene ved hjælp af detaljerede og komplekse flerdimensionelle visninger.

Datalager Busarkitektur

Data warehouse Bus bestemmer datastrømmen i dit lager. Datastrømmen i et datalager kan kategoriseres som Inflow, Upflow, Downflow, Outflow og Meta flow.

Mens man designer en databus, skal man overveje de delte dimensioner, fakta på tværs af datamærker.

Datamærker

En datamart er et adgangslag, der bruges til at få data ud til brugerne. Det præsenteres som en mulighed for stort datalager, da det tager mindre tid og penge at bygge. Der er dog ingen standarddefinition af en datamart, der adskiller sig fra person til person.

I et enkelt ord er Data mart et datterselskab af et datalager. Datamart bruges til partition af data, der oprettes til den specifikke brugergruppe.

Data marts kunne oprettes i den samme database som Datawarehouse eller en fysisk separat database.

Bedste praksis for datalagerarkitektur

For at designe Data Warehouse Architecture skal du følge nedenstående bedste praksis:

  • Brug datavarehusmodeller, der er optimeret til informations hentning, som kan være dimensional tilstand, denormaliseret eller hybrid tilgang.
  • Vælg den passende designtilgang som top-down- og bottom-up-tilgang i Data Warehouse
  • Behov for at sikre, at data behandles hurtigt og præcist. På samme tid skal du tage en tilgang, der konsoliderer data i en enkelt version af sandheden.
  • Design omhyggeligt dataindsamlings- og renseprocessen til datalageret.
  • Design en MetaData-arkitektur, der tillader deling af metadata mellem komponenter i Data Warehouse
  • Overvej at implementere en ODS-model, når behovet for informationssøgning er tæt på bunden af ​​dataekstraheringspyramiden, eller når der er flere operationelle kilder, der skal tilgås.
  • Man skal sikre sig, at datamodellen er integreret og ikke kun konsolideret. I så fald skal du overveje 3NF datamodel. Det er også ideelt til at erhverve ETL- og datarensningsværktøjer

Resumé:

  • Data warehouse er et informationssystem, der indeholder historiske og kommutative data fra enkelt eller flere kilder. Disse kilder kan være traditionelle Data Warehouse, Cloud Data Warehouse eller Virtual Data Warehouse.
  • Et datalager er emneorienteret, da det tilbyder information om emnet i stedet for organisationens løbende drift.
  • I Data Warehouse betyder integration oprettelse af en fælles måleenhed for alle lignende data fra de forskellige databaser
  • Datalager er også ikke-flygtigt, hvilket betyder, at de tidligere data ikke slettes, når nye data indtastes i det.
  • Et Datawarehouse er tidsvariant, da dataene i en DW har høj holdbarhed.
  • Der er hovedsageligt 5 komponenter i Data Warehouse Architecture: 1) Database 2) ETL-værktøjer 3) Metadata 4) Forespørgselsværktøjer 5) DataMarts
  • Disse er fire hovedkategorier af forespørgselsværktøjer 1. Forespørgsel og rapportering, værktøjer 2. Applikationsudviklingsværktøjer, 3. Data mining-værktøjer 4. OLAP-værktøjer
  • Datasourcing-, transformations- og migrationsværktøjerne bruges til at udføre alle konverteringer og opsummeringer.
  • I datavarehusarkitekturen spiller metadata en vigtig rolle, da den specificerer kilden, brugen, værdierne og funktionerne i datalagerdata.