Hvad er Data Lake? Det er arkitektur

Hvad er Data Lake?

En Data Lake er et lagerlager, der kan gemme store mængder strukturerede, semistrukturerede og ustrukturerede data. Det er et sted at gemme alle typer data i dets oprindelige format uden faste begrænsninger for kontostørrelse eller fil. Det tilbyder høj datamængde for at øge den analytiske ydeevne og integrerede integration.

Data Lake er som en stor container, der ligner rigtig sø og floder. Ligesom i en sø har du flere bifloder, der kommer ind, en datasø har strukturerede data, ustrukturerede data, maskine til maskine, logfiler, der flyder igennem i realtid.

Data Lake demokratiserer data og er en omkostningseffektiv måde at gemme alle organisationsdata til senere behandling. Forskningsanalytiker kan fokusere på at finde meningsmønstre i data og ikke i selve data.

I modsætning til et hierarkisk Dataware-hus, hvor data er gemt i Files and Folder, har Data lake en flad arkitektur. Hvert dataelement i en Data Lake får en unik identifikator og mærket med et sæt metadataoplysninger.

I denne vejledning lærer du-

Hvad er Data Lake?
Hvorfor Data Lake?
Data Lake Arkitektur
Nøgle Data Lake koncepter
Modenhedsfaser i Data Lake
Bedste fremgangsmåder til implementering af Data Lake:
Forskel mellem datasøer og datalager
Fordele og risici ved at bruge Data Lake:

Hvorfor Data Lake?

Hovedformålet med at opbygge en datasø er at tilbyde et vidunderligt overblik over data til dataforskere.

Årsager til brug af Data Lake er:

Med begyndelsen af lagermotorer som Hadoop er det let at gemme forskellige oplysninger. Der er ikke behov for at modellere data i et virksomhedsdækkende skema med en Data Lake.
Med stigningen i datamængde, datakvalitet og metadata øges kvaliteten af analyserne også.
Data Lake tilbyder forretningsfleksibilitet
Maskinindlæring og kunstig intelligens kan bruges til at forudsige rentable forudsigelser.
Det giver en konkurrencemæssig fordel for den implementerende organisation.
Der er ingen datasilostruktur. Data Lake giver 360 graders overblik over kunder og gør analysen mere robust.

Data Lake Arkitektur

Figuren viser arkitekturen i en Business Data Lake. De lavere niveauer repræsenterer data, der for det meste er i ro, mens de øverste niveauer viser transaktionsdata i realtid. Disse data strømmer gennem systemet uden eller lidt latenstid. Følgende er vigtige niveauer i Data Lake Architecture:

Indtagelsesniveau : Niveauene i venstre side viser datakilderne. Dataene kan indlæses i datasøen i batcher eller i realtid
Insights Tier: Niveauerne til højre repræsenterer forskningssiden, hvor indsigter fra systemet bruges. SQL, NoSQL-forespørgsler eller endda excel kunne bruges til dataanalyse.
HDFS er en omkostningseffektiv løsning til både strukturerede og ustrukturerede data. Det er en landingszone for alle data, der er i ro i systemet.
Destillationsniveau tager data fra lagerdækket og konverterer det til strukturerede data for lettere analyse.
Behandling af tierkørsel analytiske algoritmer og brugerforespørgsler med varierende realtid, interaktiv, batch for at generere strukturerede data for lettere analyse.
Unified operations tier styrer systemadministration og overvågning. Det inkluderer revision og styring af færdigheder, datastyring, styring af workflow.

Nøgle Data Lake koncepter

Følgende er Key Data Lake-koncepter, som man har brug for at forstå for fuldt ud at forstå Data Lake Architecture

Indtagelse af data

Dataindtagelse gør det muligt for stik at hente data fra forskellige datakilder og indlæse i datasøen.

Indtagelse af data understøtter:

Alle typer strukturerede, semistrukturerede og ustrukturerede data.
Flere indtagelser som batch, realtid, engangsbelastning.
Mange typer datakilder som databaser, webservere, e-mails, IoT og FTP.

Data opbevaring

Datalagring skal være skalerbar, tilbyder omkostningseffektiv lagring og give hurtig adgang til dataudforskning. Det skal understøtte forskellige dataformater.

Datastyring

Datastyring er en proces til styring af tilgængelighed, anvendelighed, sikkerhed og integritet af data, der bruges i en organisation.

Sikkerhed

Sikkerhed skal implementeres i hvert lag af datasøen. Det starter med opbevaring, udgravning og forbrug. Det grundlæggende behov er at stoppe adgangen for uautoriserede brugere. Det skal understøtte forskellige værktøjer til at få adgang til data med let at navigere GUI og Dashboards.

Godkendelse, regnskab, godkendelse og databeskyttelse er nogle vigtige træk ved datasøsikkerhed.

Datakvalitet:

Datakvalitet er en væsentlig komponent i Data Lake-arkitekturen. Data bruges til at eksakte forretningsværdi. Uddrag af indsigt fra data af dårlig kvalitet vil føre til indsigt i dårlig kvalitet.

Opdagelse af data

Data Discovery er et andet vigtigt trin, inden du kan begynde at forberede data eller analyse. I dette trin bruges taggingsteknik til at udtrykke dataforståelsen ved at organisere og fortolke de data, der er indtaget i Data Lake.

Dataovervågning

To store data-auditopgaver sporer ændringer i nøgledatasættet.

Sporing af ændringer til vigtige datasætelementer
Fanger hvordan / hvornår / og hvem der skifter til disse elementer.

Datarevision hjælper med at evaluere risiko og overholdelse.

Datastamme

Denne komponent beskæftiger sig med datas oprindelse. Det handler hovedsageligt om, hvor det bevæger sig over tid, og hvad der sker med det. Det letter fejlkorrektioner i en dataanalyseproces fra oprindelse til destination.

Dataefterforskning

Det er begyndelsesfasen for dataanalyse. Det hjælper med at identificere det rigtige datasæt, der er vigtigt, inden Data Exploration startes.

Alle givne komponenter skal arbejde sammen for at spille en vigtig rolle i Data Lake-bygningen, der let kan udvikles og udforske miljøet.

Modenhedsfaser i Data Lake

Definitionen af Data Lake Maturity-stadier adskiller sig fra lærebog til anden. Skønt kernen forbliver den samme. Efter modenhed er scenedefinition fra et lægmandssynspunkt.

Trin 1: Håndter og indtag data i målestok

Denne første fase af datamodenhed involverer forbedring af evnen til at transformere og analysere data. Her skal virksomhedsejere finde værktøjerne i henhold til deres færdighedssæt til at få flere data og opbygge analytiske applikationer.

Trin 2: Opbygning af den analytiske muskel

Dette er et andet trin, der involverer forbedring af evnen til at transformere og analysere data. I denne fase bruger virksomheder det værktøj, der passer bedst til deres færdigheder. De begynder at erhverve flere data og opbygge applikationer. Her bruges kapaciteterne i virksomhedsdatalageret og datasøen sammen.

Trin 3: EDW og Data Lake fungerer i fællesskab

Dette trin indebærer at få data og analyser i hænderne på så mange mennesker som muligt. I denne fase begynder datasøen og virksomhedens datalager at arbejde i en union. Begge spiller deres rolle i analyser

Trin 4: Enterprise-kapacitet i søen

I denne modenhedsfase af datasøen føjes virksomhedsfunktioner til Data Lake. Vedtagelse af informationsstyring, styring af informationslivscyklusfunktioner og metadataadministration. Imidlertid kan meget få organisationer nå dette modenhedsniveau, men dette tal vil stige i fremtiden.

Bedste fremgangsmåder til implementering af Data Lake:

Arkitektoniske komponenter, deres interaktion og identificerede produkter skal understøtte native datatyper
Design af Data Lake skal styres af det, der er tilgængeligt i stedet for det, der kræves. Skema- og datakravet er ikke defineret, før det spørges
Design skal styres af engangskomponenter integreret med service API.
Dataopdagelse, indtagelse, opbevaring, administration, kvalitet, transformation og visualisering skal styres uafhængigt.
Data Lake-arkitekturen skal skræddersys til en bestemt branche. Det bør sikre, at de nødvendige funktioner til dette domæne er en iboende del af designet
Hurtigere ombordstigning af nyopdagede datakilder er vigtig
Data Lake hjælper tilpasset ledelse med at udtrække maksimal værdi
Data Lake bør understøtte eksisterende forretningsadministrations teknikker og metoder

Udfordringer ved at opbygge en datasø:

I Data Lake er datamængden højere, så processen skal være mere afhængig af programmatisk administration
Det er vanskeligt at håndtere sparsomme, ufuldstændige, ustabile data
Bredere omfang af datasæt og kilde har brug for større datastyring og support

Forskel mellem datasøer og datalager

Parametre	Datasøer	Data varehus
Data	Datasøer gemmer alt.	Data Warehouse fokuserer kun på forretningsprocesser.
Forarbejdning	Data behandles hovedsageligt	Højt behandlede data.
Type data	Det kan være ustruktureret, semi-struktureret og struktureret.	Det er for det meste i tabelform og struktur.
Opgave	Del datastyring	Optimeret til datahentning
Adræthed	Meget smidig, konfigurer og omkonfigurer efter behov.	Sammenlign med Data Lake, det er mindre adræt og har fast konfiguration.
Brugere	Data Lake bruges mest af Data Scientist	Forretningsprofessionelle bruger i vid udstrækning datalager
Opbevaring	Datasøer design til billig opbevaring.	Der bruges dyr opbevaring, der giver hurtige svartider
Sikkerhed	Tilbyder mindre kontrol.	Tillader bedre kontrol af dataene.
Udskiftning af EDW	Data lake kan være kilde til EDW	Supplerende til EDW (ikke udskiftning)
Skema	Skema ved læsning (ingen foruddefinerede skemaer)	Skema ved skrivning (foruddefinerede skemaer)
Databehandling	Hjælper med hurtig indtagelse af nye data.	Tidskrævende at introducere nyt indhold.
Datagranularitet	Data med et lavt detaljeringsniveau eller granularitet.	Data i resuméet eller aggregeret detaljeringsniveau.
Værktøjer	Kan bruge open source / værktøjer som Hadoop / Map Reduce	For det meste kommercielle værktøjer.

Fordele og risici ved at bruge Data Lake:

Her er nogle store fordele ved at bruge en Data Lake:

Hjælper fuldt ud med produktioniserende og avanceret analyse
Tilbyder omkostningseffektiv skalerbarhed og fleksibilitet
Tilbyder værdi fra ubegrænsede datatyper
Reducerer langsigtede ejeromkostninger
Tillader økonomisk lagring af filer
Hurtig tilpasning til ændringer
Den største fordel ved datasø er centraliseringen af forskellige indholdskilder
Brugere fra forskellige afdelinger kan være spredt over hele kloden og har fleksibel adgang til dataene

Risiko for at bruge Data Lake:

Efter nogen tid kan Data Lake miste relevans og momentum
Der er større risiko forbundet med design af Data Lake
Ustrukturerede data kan føre til ustyret Chao, ubrugelig data, forskellige og komplekse værktøjer, virksomhedssamarbejde, samlet, ensartet og fælles
Det øger også lager- og beregningsomkostninger
Der er ingen måde at få indsigt fra andre, der har arbejdet med dataene, fordi der ikke er nogen redegørelse for slægten af fund fra tidligere analytikere
Den største risiko for datasøer er sikkerhed og adgangskontrol. Nogle gange kan data placeres i en sø uden opsyn, da nogle af dataene kan have privatlivets fred og lovgivningsmæssige behov

Resumé:

En Data Lake er et lagerlager, der kan gemme store mængder strukturerede, semistrukturerede og ustrukturerede data.
Hovedformålet med at opbygge en datasø er at tilbyde et vidunderligt overblik over data til dataforskere.
Unified operations tier, Processing tier, Destillation tier og HDFS er vigtige lag i Data Lake Architecture
Indtagelse af data, datalagring, datakvalitet, dataovervågning, dataudforskning, dataopdagelse er nogle vigtige komponenter i Data Lake Architecture
Design af Data Lake skal styres af det, der er tilgængeligt i stedet for det, der kræves.
Data Lake reducerer langsigtede ejeromkostninger og muliggør økonomisk lagring af filer
Den største risiko for datasøer er sikkerhed og adgangskontrol. Nogle gange kan data placeres i en sø uden opsyn, da nogle af dataene kan have privatlivets fred og lovgivningsmæssige behov.

Hvad er Data Lake? Det er arkitektur

Indholdsfortegnelse:

Hvad er Data Lake?

Hvorfor Data Lake?

Data Lake Arkitektur

Nøgle Data Lake koncepter

Indtagelse af data

Data opbevaring

Datastyring

Sikkerhed

Datakvalitet:

Opdagelse af data

Dataovervågning

Datastamme

Dataefterforskning

Modenhedsfaser i Data Lake

Trin 1: Håndter og indtag data i målestok

Trin 2: Opbygning af den analytiske muskel

Trin 3: EDW og Data Lake fungerer i fællesskab

Trin 4: Enterprise-kapacitet i søen

Bedste fremgangsmåder til implementering af Data Lake:

Forskel mellem datasøer og datalager

Fordele og risici ved at bruge Data Lake:

Resumé:

Hvad er brugerudgange og kundeudgange i SAP ABAP

SAP ABAP BDC (Batch Data Communication) vejledning

ALE, EDI & IDocs Introduktion & Forskel: SAP-vejledning

Smarte formularer i SAP ABAP

SAP BAPI-vejledning - Trin for trin-guide til oprettelse af BAPI i ABAP

Opkaldsfunktion med tilfældig timer - CSS-tricks

Hent objektstørrelse - CSS-tricks

Få alle mulige DOM-begivenheder - CSS-tricks

Globale variabler - CSS-tricks

Hent URL-variabler - CSS-tricks

Hvad er SAP Instance & SAP SID?

Sap R / 3 Arkitekturvejledning

Hvad er klient? Sådan oprettes en ny klient i SAP SCC4

Sådan slettes en klient i SAP SM50

Sådan låses (SU01) & Lås op (SU10) en SAP-bruger