Hvad er Data Lake? Det er arkitektur

Indholdsfortegnelse:

Anonim

Hvad er Data Lake?

En Data Lake er et lagerlager, der kan gemme store mængder strukturerede, semistrukturerede og ustrukturerede data. Det er et sted at gemme alle typer data i dets oprindelige format uden faste begrænsninger for kontostørrelse eller fil. Det tilbyder høj datamængde for at øge den analytiske ydeevne og integrerede integration.

Data Lake er som en stor container, der ligner rigtig sø og floder. Ligesom i en sø har du flere bifloder, der kommer ind, en datasø har strukturerede data, ustrukturerede data, maskine til maskine, logfiler, der flyder igennem i realtid.

Data Lake demokratiserer data og er en omkostningseffektiv måde at gemme alle organisationsdata til senere behandling. Forskningsanalytiker kan fokusere på at finde meningsmønstre i data og ikke i selve data.

I modsætning til et hierarkisk Dataware-hus, hvor data er gemt i Files and Folder, har Data lake en flad arkitektur. Hvert dataelement i en Data Lake får en unik identifikator og mærket med et sæt metadataoplysninger.

I denne vejledning lærer du-

  • Hvad er Data Lake?
  • Hvorfor Data Lake?
  • Data Lake Arkitektur
  • Nøgle Data Lake koncepter
  • Modenhedsfaser i Data Lake
  • Bedste fremgangsmåder til implementering af Data Lake:
  • Forskel mellem datasøer og datalager
  • Fordele og risici ved at bruge Data Lake:

Hvorfor Data Lake?

Hovedformålet med at opbygge en datasø er at tilbyde et vidunderligt overblik over data til dataforskere.

Årsager til brug af Data Lake er:

  • Med begyndelsen af ​​lagermotorer som Hadoop er det let at gemme forskellige oplysninger. Der er ikke behov for at modellere data i et virksomhedsdækkende skema med en Data Lake.
  • Med stigningen i datamængde, datakvalitet og metadata øges kvaliteten af ​​analyserne også.
  • Data Lake tilbyder forretningsfleksibilitet
  • Maskinindlæring og kunstig intelligens kan bruges til at forudsige rentable forudsigelser.
  • Det giver en konkurrencemæssig fordel for den implementerende organisation.
  • Der er ingen datasilostruktur. Data Lake giver 360 graders overblik over kunder og gør analysen mere robust.

Data Lake Arkitektur

Figuren viser arkitekturen i en Business Data Lake. De lavere niveauer repræsenterer data, der for det meste er i ro, mens de øverste niveauer viser transaktionsdata i realtid. Disse data strømmer gennem systemet uden eller lidt latenstid. Følgende er vigtige niveauer i Data Lake Architecture:

  1. Indtagelsesniveau : Niveauene i venstre side viser datakilderne. Dataene kan indlæses i datasøen i batcher eller i realtid
  2. Insights Tier: Niveauerne til højre repræsenterer forskningssiden, hvor indsigter fra systemet bruges. SQL, NoSQL-forespørgsler eller endda excel kunne bruges til dataanalyse.
  3. HDFS er en omkostningseffektiv løsning til både strukturerede og ustrukturerede data. Det er en landingszone for alle data, der er i ro i systemet.
  4. Destillationsniveau tager data fra lagerdækket og konverterer det til strukturerede data for lettere analyse.
  5. Behandling af tierkørsel analytiske algoritmer og brugerforespørgsler med varierende realtid, interaktiv, batch for at generere strukturerede data for lettere analyse.
  6. Unified operations tier styrer systemadministration og overvågning. Det inkluderer revision og styring af færdigheder, datastyring, styring af workflow.

Nøgle Data Lake koncepter

Følgende er Key Data Lake-koncepter, som man har brug for at forstå for fuldt ud at forstå Data Lake Architecture

Indtagelse af data

Dataindtagelse gør det muligt for stik at hente data fra forskellige datakilder og indlæse i datasøen.

Indtagelse af data understøtter:

  • Alle typer strukturerede, semistrukturerede og ustrukturerede data.
  • Flere indtagelser som batch, realtid, engangsbelastning.
  • Mange typer datakilder som databaser, webservere, e-mails, IoT og FTP.

Data opbevaring

Datalagring skal være skalerbar, tilbyder omkostningseffektiv lagring og give hurtig adgang til dataudforskning. Det skal understøtte forskellige dataformater.

Datastyring

Datastyring er en proces til styring af tilgængelighed, anvendelighed, sikkerhed og integritet af data, der bruges i en organisation.

Sikkerhed

Sikkerhed skal implementeres i hvert lag af datasøen. Det starter med opbevaring, udgravning og forbrug. Det grundlæggende behov er at stoppe adgangen for uautoriserede brugere. Det skal understøtte forskellige værktøjer til at få adgang til data med let at navigere GUI og Dashboards.

Godkendelse, regnskab, godkendelse og databeskyttelse er nogle vigtige træk ved datasøsikkerhed.

Datakvalitet:

Datakvalitet er en væsentlig komponent i Data Lake-arkitekturen. Data bruges til at eksakte forretningsværdi. Uddrag af indsigt fra data af dårlig kvalitet vil føre til indsigt i dårlig kvalitet.

Opdagelse af data

Data Discovery er et andet vigtigt trin, inden du kan begynde at forberede data eller analyse. I dette trin bruges taggingsteknik til at udtrykke dataforståelsen ved at organisere og fortolke de data, der er indtaget i Data Lake.

Dataovervågning

To store data-auditopgaver sporer ændringer i nøgledatasættet.

  1. Sporing af ændringer til vigtige datasætelementer
  2. Fanger hvordan / hvornår / og hvem der skifter til disse elementer.

Datarevision hjælper med at evaluere risiko og overholdelse.

Datastamme

Denne komponent beskæftiger sig med datas oprindelse. Det handler hovedsageligt om, hvor det bevæger sig over tid, og hvad der sker med det. Det letter fejlkorrektioner i en dataanalyseproces fra oprindelse til destination.

Dataefterforskning

Det er begyndelsesfasen for dataanalyse. Det hjælper med at identificere det rigtige datasæt, der er vigtigt, inden Data Exploration startes.

Alle givne komponenter skal arbejde sammen for at spille en vigtig rolle i Data Lake-bygningen, der let kan udvikles og udforske miljøet.

Modenhedsfaser i Data Lake

Definitionen af ​​Data Lake Maturity-stadier adskiller sig fra lærebog til anden. Skønt kernen forbliver den samme. Efter modenhed er scenedefinition fra et lægmandssynspunkt.

Trin 1: Håndter og indtag data i målestok

Denne første fase af datamodenhed involverer forbedring af evnen til at transformere og analysere data. Her skal virksomhedsejere finde værktøjerne i henhold til deres færdighedssæt til at få flere data og opbygge analytiske applikationer.

Trin 2: Opbygning af den analytiske muskel

Dette er et andet trin, der involverer forbedring af evnen til at transformere og analysere data. I denne fase bruger virksomheder det værktøj, der passer bedst til deres færdigheder. De begynder at erhverve flere data og opbygge applikationer. Her bruges kapaciteterne i virksomhedsdatalageret og datasøen sammen.

Trin 3: EDW og Data Lake fungerer i fællesskab

Dette trin indebærer at få data og analyser i hænderne på så mange mennesker som muligt. I denne fase begynder datasøen og virksomhedens datalager at arbejde i en union. Begge spiller deres rolle i analyser

Trin 4: Enterprise-kapacitet i søen

I denne modenhedsfase af datasøen føjes virksomhedsfunktioner til Data Lake. Vedtagelse af informationsstyring, styring af informationslivscyklusfunktioner og metadataadministration. Imidlertid kan meget få organisationer nå dette modenhedsniveau, men dette tal vil stige i fremtiden.

Bedste fremgangsmåder til implementering af Data Lake:

  • Arkitektoniske komponenter, deres interaktion og identificerede produkter skal understøtte native datatyper
  • Design af Data Lake skal styres af det, der er tilgængeligt i stedet for det, der kræves. Skema- og datakravet er ikke defineret, før det spørges
  • Design skal styres af engangskomponenter integreret med service API.
  • Dataopdagelse, indtagelse, opbevaring, administration, kvalitet, transformation og visualisering skal styres uafhængigt.
  • Data Lake-arkitekturen skal skræddersys til en bestemt branche. Det bør sikre, at de nødvendige funktioner til dette domæne er en iboende del af designet
  • Hurtigere ombordstigning af nyopdagede datakilder er vigtig
  • Data Lake hjælper tilpasset ledelse med at udtrække maksimal værdi
  • Data Lake bør understøtte eksisterende forretningsadministrations teknikker og metoder

Udfordringer ved at opbygge en datasø:

  • I Data Lake er datamængden højere, så processen skal være mere afhængig af programmatisk administration
  • Det er vanskeligt at håndtere sparsomme, ufuldstændige, ustabile data
  • Bredere omfang af datasæt og kilde har brug for større datastyring og support

Forskel mellem datasøer og datalager

Parametre Datasøer Data varehus
Data Datasøer gemmer alt. Data Warehouse fokuserer kun på forretningsprocesser.
Forarbejdning Data behandles hovedsageligt Højt behandlede data.
Type data Det kan være ustruktureret, semi-struktureret og struktureret. Det er for det meste i tabelform og struktur.
Opgave Del datastyring Optimeret til datahentning
Adræthed Meget smidig, konfigurer og omkonfigurer efter behov. Sammenlign med Data Lake, det er mindre adræt og har fast konfiguration.
Brugere Data Lake bruges mest af Data Scientist Forretningsprofessionelle bruger i vid udstrækning datalager
Opbevaring Datasøer design til billig opbevaring. Der bruges dyr opbevaring, der giver hurtige svartider
Sikkerhed Tilbyder mindre kontrol. Tillader bedre kontrol af dataene.
Udskiftning af EDW Data lake kan være kilde til EDW Supplerende til EDW (ikke udskiftning)
Skema Skema ved læsning (ingen foruddefinerede skemaer) Skema ved skrivning (foruddefinerede skemaer)
Databehandling Hjælper med hurtig indtagelse af nye data. Tidskrævende at introducere nyt indhold.
Datagranularitet Data med et lavt detaljeringsniveau eller granularitet. Data i resuméet eller aggregeret detaljeringsniveau.
Værktøjer Kan bruge open source / værktøjer som Hadoop / Map Reduce For det meste kommercielle værktøjer.

Fordele og risici ved at bruge Data Lake:

Her er nogle store fordele ved at bruge en Data Lake:

  • Hjælper fuldt ud med produktioniserende og avanceret analyse
  • Tilbyder omkostningseffektiv skalerbarhed og fleksibilitet
  • Tilbyder værdi fra ubegrænsede datatyper
  • Reducerer langsigtede ejeromkostninger
  • Tillader økonomisk lagring af filer
  • Hurtig tilpasning til ændringer
  • Den største fordel ved datasø er centraliseringen af forskellige indholdskilder
  • Brugere fra forskellige afdelinger kan være spredt over hele kloden og har fleksibel adgang til dataene

Risiko for at bruge Data Lake:

  • Efter nogen tid kan Data Lake miste relevans og momentum
  • Der er større risiko forbundet med design af Data Lake
  • Ustrukturerede data kan føre til ustyret Chao, ubrugelig data, forskellige og komplekse værktøjer, virksomhedssamarbejde, samlet, ensartet og fælles
  • Det øger også lager- og beregningsomkostninger
  • Der er ingen måde at få indsigt fra andre, der har arbejdet med dataene, fordi der ikke er nogen redegørelse for slægten af ​​fund fra tidligere analytikere
  • Den største risiko for datasøer er sikkerhed og adgangskontrol. Nogle gange kan data placeres i en sø uden opsyn, da nogle af dataene kan have privatlivets fred og lovgivningsmæssige behov

Resumé:

  • En Data Lake er et lagerlager, der kan gemme store mængder strukturerede, semistrukturerede og ustrukturerede data.
  • Hovedformålet med at opbygge en datasø er at tilbyde et vidunderligt overblik over data til dataforskere.
  • Unified operations tier, Processing tier, Destillation tier og HDFS er vigtige lag i Data Lake Architecture
  • Indtagelse af data, datalagring, datakvalitet, dataovervågning, dataudforskning, dataopdagelse er nogle vigtige komponenter i Data Lake Architecture
  • Design af Data Lake skal styres af det, der er tilgængeligt i stedet for det, der kræves.
  • Data Lake reducerer langsigtede ejeromkostninger og muliggør økonomisk lagring af filer
  • Den største risiko for datasøer er sikkerhed og adgangskontrol. Nogle gange kan data placeres i en sø uden opsyn, da nogle af dataene kan have privatlivets fred og lovgivningsmæssige behov.