Før vi går til introduktion til Big Data, skal du først vide det
Hvad er data?
De mængder, tegn eller symboler, som operationer udføres af en computer, som kan lagres og transmitteres i form af elektriske signaler og optages på magnetiske, optiske eller mekaniske optagemedier.
Lad os nu lære Big Data introduktion
Hvad er Big Data?
Big Data er en samling af data, der er enorme i volumen, men som vokser eksponentielt med tiden. Det er data med så stor størrelse og kompleksitet, at ingen af traditionelle datahåndteringsværktøjer kan gemme dem eller behandle dem effektivt. Big data er også data, men med enorm størrelse.
I denne vejledning lærer du,
- Hvad er data?
- Hvad er Big Data?
- Eksempler på store data
- Typer af store data
- Karakteristik af Big Data
- Fordele ved Big Data Processing
Eksempler på store data
Følgende er nogle af eksempler på Big Data-
Den New York Stock Exchange genererer omkring en terabyte af nye handelstal om dagen.
Sociale medier
Statistikken viser, at 500 + terabyte nye data indtages i databaser på det sociale medieside Facebook hver dag. Disse data genereres primært med hensyn til foto- og videooverførsler, meddelelsesudveksling, kommentarer osv.
En enkelt Jet-motor kan generere 10 + terabyte data på 30 minutters flyvetid. Med mange tusinde flyvninger om dagen når generering af data op til mange petabyte.
Typer af store data
Følgende er typerne af Big Data:
- Struktureret
- Ustruktureret
- Semistruktureret
Struktureret
Alle data, der kan lagres, tilgås og behandles i form af fast format, betegnes som en 'struktureret' data. I løbet af tidsrummet har talent inden for datalogi opnået større succes med at udvikle teknikker til at arbejde med en sådan type data (hvor formatet er velkendt på forhånd) og også udlede værdi ud af det. Men i dag forudser vi problemer, når en størrelse af sådanne data vokser i enorm grad, typiske størrelser er i raseri af flere zettabyte.
Ved du? 10 21 byte svarende til 1 zettabyte eller en milliard terabyte danner en zettabyte .
Når man ser på disse tal, kan man let forstå, hvorfor navnet Big Data gives og forestille sig de udfordringer, der er forbundet med dets opbevaring og behandling.
Ved du? Data gemt i et relationsdatabasehåndteringssystem er et eksempel på en 'struktureret' data.
Eksempler på strukturerede data
En 'medarbejder'-tabel i en database er et eksempel på strukturerede data
Medarbejder-ID | Ansattes navn | Køn | Afdeling | Løn_In_lacs |
---|---|---|---|---|
2365 | Rajesh Kulkarni | Han | Finansiere | 650000 |
3398 | Pratibha Joshi | Kvinde | Administrator | 650000 |
7465 | Shushil Roy | Han | Administrator | 500000 |
7500 | Shubhojit Das | Han | Finansiere | 500000 |
7699 | Priya Sane | Kvinde | Finansiere | 550000 |
Ustruktureret
Alle data med ukendt form eller struktur klassificeres som ustrukturerede data. Ud over at størrelsen er enorm, udgør ikke-strukturerede data flere udfordringer med hensyn til deres behandling for at udlede værdi ud af det. Et typisk eksempel på ustrukturerede data er en heterogen datakilde, der indeholder en kombination af enkle tekstfiler, billeder, videoer osv. Nu har daglige organisationer rigdom af data til rådighed med dem, men desværre ved de ikke, hvordan de får værdi ud af det siden disse data er i rå form eller ustruktureret format.
Eksempler på ustrukturerede data
Outputtet returneret af 'Google-søgning'
Semistruktureret
Semistrukturerede data kan indeholde begge former for data. Vi kan se semistrukturerede data som en struktureret form, men de er faktisk ikke defineret med f.eks. En tabeldefinition i relationel DBMS. Eksempel på semistrukturerede data er data repræsenteret i en XML-fil.
Eksempler på semistrukturerede data
Personlige data gemt i en XML-fil-
Prashant Rao Male 35 Seema R. Female 41 Satish Mane Male 29 Subrato Roy Male 26 Jeremiah J. Male 35
Datavækst gennem årene
Bemærk, at webapplikationsdata, som er ustrukturerede, består af logfiler, transaktionshistorikfiler osv. OLTP-systemer er bygget til at arbejde med strukturerede data, hvor data er gemt i relationer (tabeller).
Karakteristik af Big Data
Big data kan beskrives ved følgende egenskaber:
- Bind
- Bred vifte
- Hastighed
- Variabilitet
(i) Volumen - Selve navnet Big Data er relateret til en størrelse, der er enorm. Datastørrelse spiller en meget afgørende rolle i bestemmelsen af værdien ud af data. Om en bestemt data faktisk kan betragtes som en Big Data eller ej, afhænger også af datamængden. Derfor er 'Volumen' en egenskab, der skal overvejes, når man beskæftiger sig med Big Data.
(ii) Variety - Det næste aspekt af Big Data er dens variation .
Variation refererer til heterogene kilder og dataens karakter, både strukturerede og ustrukturerede. Tidligere dage var regneark og databaser de eneste datakilder, der blev betragtet af de fleste applikationer. I dag overvejes også data i form af e-mails, fotos, videoer, overvågningsenheder, PDF-filer, lyd osv. I analyseapplikationerne. Denne række ustrukturerede data udgør visse problemer til opbevaring, minedrift og analyse af data.
(iii) Hastighed - Udtrykket 'hastighed' henviser til hastigheden for generering af data. Hvor hurtigt data genereres og behandles for at imødekomme kravene, bestemmer det reelle potentiale i dataene.
Big Data Velocity beskæftiger sig med den hastighed, hvormed data strømmer ind fra kilder som forretningsprocesser, applikationslogfiler, netværk og sociale mediesider, sensorer, mobile enheder osv. Datastrømmen er massiv og kontinuerlig.
(iv) Variabilitet - Dette refererer til den inkonsekvens, som dataene kan vise til tider, hvilket hæmmer processen med at kunne håndtere og administrere dataene effektivt.
Fordele ved Big Data Processing
Evnen til at behandle Big Data medfører flere fordele, såsom-
- Virksomheder kan bruge ekstern intelligens, mens de tager beslutninger
Adgang til sociale data fra søgemaskiner og websteder som facebook, twitter gør det muligt for organisationer at finjustere deres forretningsstrategier.
- Forbedret kundeservice
Traditionelle kundefeedback-systemer bliver erstattet af nye systemer designet med Big Data-teknologier. I disse nye systemer bruges Big Data og naturlige sprogbehandlingsteknologier til at læse og evaluere forbrugernes svar.
- Tidlig identifikation af risiko for produktet / tjenesterne, hvis nogen
- Bedre driftseffektivitet
Big Data-teknologier kan bruges til at oprette et mellemstationer eller landingszone til nye data, inden de identificerer, hvilke data der skal flyttes til datalageret. Derudover hjælper en sådan integration af Big Data-teknologier og datalager en organisation til at aflaste data, der ofte er adgang til.
Resumé
- Big Data definition: Big Data defineres som data, der er enorme i størrelse. Bigdata er et udtryk, der bruges til at beskrive en samling af data, der er enorme i størrelse og alligevel vokser eksponentielt med tiden.
- Eksempler på Big Data-analyse inkluderer børser, sociale mediesider, jetmotorer osv.
- Big Data kunne være 1) struktureret, 2) ustruktureret, 3) semistruktureret
- Volumen, variation, hastighed og variation er få Big Data-egenskaber
- Forbedret kundeservice, bedre driftseffektivitet, bedre beslutningstagning er få fordele ved Bigdata