Stjerneskema og snefnugskema i datavarehus med eksempler

Indholdsfortegnelse:

Anonim

Hvad er flerdimensionelt skema?

Flerdimensionelt skema er specielt designet til at modellere datalagersystemer. Skemaerne er designet til at imødekomme de unikke behov i meget store databaser designet til det analytiske formål (OLAP).

Typer af datalagerskema:

Følgende er tre hovedtyper af flerdimensionelle skemaer, der hver har sine unikke fordele.

  • Stjerneskema
  • Snowflake Schema
  • Galaxy-skema

I denne vejledning lærer du mere om-

  • Hvad er et stjerneskema?
  • Hvad er et snefnugskema?
  • Stjerneskema mod snefnugskema: Nøgleforskelle
  • Hvad er et Galaxy-skema?
  • Hvad er stjerneklyngeskema?

Hvad er et stjerneskema?

Stjerneskema i datalager, hvor stjernens centrum kan have en faktatabel og et antal tilknyttede dimensionstabeller. Det er kendt som stjerneskema, da dets struktur ligner en stjerne. Star Schema datamodellen er den enkleste type Data Warehouse skema. Det er også kendt som Star Join Schema og er optimeret til forespørgsel på store datasæt.

I det følgende stjerneskemaeksempel er faktatabellen i centrum, der indeholder nøgler til hver dimensionstabel som Dealer_ID, Model ID, Date_ID, Product_ID, Branch_ID og andre attributter som solgte enheder og indtægter.

Eksempel på stjerneskema diagram

Karakteristik af stjerneskema:

  • Hver dimension i et stjerneskema er repræsenteret med den eneste endimensionelle tabel.
  • Dimensionstabellen skal indeholde sæt attributter.
  • Dimensionstabellen er knyttet til faktatabellen ved hjælp af en fremmed nøgle
  • Dimensionstabellen er ikke forbundet med hinanden
  • Faktatabel indeholder nøgle og mål
  • Star-skemaet er let at forstå og giver optimal diskbrug.
  • Dimensionstabellerne er ikke normaliserede. For eksempel, i ovenstående figur har Country_ID ikke land-opslagstabel, som et OLTP-design ville have.
  • Skemaet understøttes bredt af BI Tools

Hvad er et snefnugskema?

Snowflake Schema i datalager er et logisk arrangement af tabeller i en flerdimensionel database, således at ER-diagrammet ligner en snefnugform. Et snefnugskema er en udvidelse af et stjerneskema, og det tilføjer yderligere dimensioner. Dimensionstabellerne normaliseres, som opdeler data i yderligere tabeller.

I det følgende eksempel på Snowflake Schema normaliseres Country yderligere til en individuel tabel.

Eksempel på Snowflake Schema

Karakteristika for snefnugskema:

  • Den største fordel ved snefnugskemaet bruger mindre diskplads.
  • Lettere at implementere en dimension føjes til skemaet
  • På grund af flere tabeller reduceres forespørgslens ydeevne
  • Den primære udfordring, som du står over for, mens du bruger snefnugskemaet, er at du skal udføre mere vedligeholdelsesindsats på grund af de flere opslagstabeller.

Stjerneskema mod snefnugskema: Nøgleforskelle

Følgende er en nøgleforskel mellem Star Schema og Snowflake Schema:

Stjerneskema Snowflake Schema
Hierarkier for dimensionerne er gemt i dimensionstabellen. Hierarkier er opdelt i separate tabeller.
Den indeholder en faktatabel omgivet af dimensionstabeller. Én faktatabel omgivet af dimensionstabel, som igen er omgivet af dimensionstabel
I et stjerneskema opretter kun enkelt sammenføjning forholdet mellem faktatabellen og eventuelle dimensionstabeller. Et snefnugskema kræver mange sammenføjninger for at hente dataene.
Simpel DB-design. Meget komplekst DB-design.
Denormaliseret datastruktur og forespørgsel kører også hurtigere. Normaliseret datastruktur.
Højt niveau af dataredundans Meget lavt niveau af dataredundans
Enkeltdimensionstabellen indeholder aggregerede data. Data opdelt i forskellige dimensionstabeller.
Kubebehandling er hurtigere. Kubebehandling kan være langsom på grund af den komplekse sammenføjning.
Tilbyder forespørgsler med højere resultater ved hjælp af Star Join Query Optimization. Tabeller kan være forbundet med flere dimensioner. Snowflake-skemaet er repræsenteret af en centraliseret faktatabel, som sandsynligvis ikke er forbundet med flere dimensioner.

Hvad er et Galaxy Schema?

Et Galaxy-skema indeholder to faktatabeller, der deler dimensionstabeller mellem dem. Det kaldes også Fact Constellation Schema. Skemaet ses som en samling af stjerner, deraf navnet Galaxy Schema.

Eksempel på Galaxy Schema

Som du kan se i eksemplet ovenfor, er der to faktatabeller

  1. Omsætning
  2. Produkt.

I Galaxy-skemaer kaldes aktiedimensioner Conformed Dimensions.

Karakteristika for Galaxy Schema:

  • Dimensionerne i dette skema er adskilt i separate dimensioner baseret på de forskellige niveauer af hierarki.
  • For eksempel, hvis geografi har fire niveauer af hierarki som region, land, stat og by, skal Galaxy-skemaet have fire dimensioner.
  • Desuden er det muligt at opbygge denne type skema ved at opdele enstjerneskemaet i flere stjerneskemaer.
  • Dimensionerne er store i dette skema, som er nødvendigt for at bygge baseret på niveauerne af hierarki.
  • Dette skema er nyttigt til sammenlægning af faktatabeller for bedre forståelse.

Hvad er stjerneklyngeskema?

Snowflake-skema indeholder fuldt udvidede hierarkier. Dette kan dog tilføje kompleksiteten til skemaet og kræver ekstra sammenføjninger. På den anden side indeholder stjerneskemaet fuldt sammenklappede hierarkier, hvilket kan føre til redundans. Så den bedste løsning kan være en balance mellem disse to skemaer, som er Star Cluster Schema design.

Eksempel på stjerneklyngeskema

Overlappende dimensioner kan findes som gafler i hierarkier. En gaffel sker, når en enhed fungerer som forælder i to forskellige dimensionelle hierarkier. Gaffel enheder identificeres derefter som klassifikation med en-til-mange forhold.

Resumé:

  • Flerdimensionelt skema er specielt designet til at modellere datalagersystemer
  • Stjerneskemaet er den enkleste type Data Warehouse-skema. Det er kendt som stjerneskema, da dets struktur ligner en stjerne.
  • Et snefnugskema er en udvidelse af et stjerneskema, og det tilføjer yderligere dimensioner. Det kaldes snefnug, fordi dets diagram ligner en snefnug.
  • I et stjerneskema definerer kun single join sammenhængen mellem faktatabellen og eventuelle dimensionstabeller.
  • Stjerneskema indeholder en faktatabel omgivet af dimensionstabeller.
  • Snefnugskema er omgivet af dimensionstabel, som igen er omgivet af dimensionstabel
  • Et snefnugskema kræver mange sammenføjninger for at hente dataene.
  • Et Galaxy-skema indeholder to faktatabeller, der deler dimensionstabeller. Det kaldes også Fact Constellation Schema.
  • Stjerneklyngeskema indeholder attributter for stjerne- og snefnugskema.