Hvad er R-programmeringssprog? Introduktion & Grundlæggende om R

Indholdsfortegnelse:

Anonim

Hvad er R-software?

R er et programmeringssprog og gratis software udviklet af Ross Ihaka og Robert Gentleman i 1993. R besidder et omfattende katalog over statistiske og grafiske metoder. Det inkluderer maskinindlæringsalgoritmer, lineær regression, tidsserier, statistisk slutning for at nævne nogle få. De fleste af R-bibliotekerne er skrevet i R, men til tunge beregningsopgaver foretrækkes C, C ++ og Fortran-koder.

R er ikke kun betroet af akademikere, men mange store virksomheder bruger også R-programmeringssprog, herunder Uber, Google, Airbnb, Facebook og så videre.

Dataanalyse med R udføres i en række trin; programmering, transformation, opdagelse, modellering og kommunikation af resultaterne

  • Program : R er et klart og tilgængeligt programmeringsværktøj
  • Transform : R består af en samling biblioteker designet specielt til datalogi
  • Opdag : Undersøg dataene, finjuster din hypotese og analyser dem
  • Model : R giver en bred vifte af værktøjer til at fange den rigtige model til dine data
  • Kommuniker : Integrer koder, grafer og output til en rapport med R Markdown, eller opret skinnende apps til deling med verden

I denne introduktionsvejledning lærer du R

  • Hvad bruges R til?
  • R efter branche
  • R-pakke
  • Kommuniker med R
  • Hvorfor bruge R?
  • Skal du vælge R?
  • Er R svært?

Hvad bruges R til?

  • Statistisk slutning
  • Dataanalyse
  • Machine learning algoritme

R efter branche

Hvis vi nedbryder brugen af ​​R efter industri, ser vi, at akademikere kommer først. R er et sprog at gøre statistik. R er førstevalget i sundhedsindustrien efterfulgt af regering og rådgivning.

R-pakke

De primære anvendelser af R er og vil altid være statistik, visualisering og maskinindlæring. Billedet nedenfor viser, hvilken R-pakke der fik flest spørgsmål i Stack Overflow. I top 10 er de fleste af dem relateret til en dataforskers arbejdsgang: dataforberedelse og kommunikere resultaterne.

Alle bibliotekerne i R, næsten 12k, er gemt i CRAN. CRAN er en gratis og open source. Du kan downloade og bruge de mange biblioteker til at udføre maskinlæring eller tidsserie-analyse.

Kommuniker med R

R har flere måder at præsentere og dele arbejde på, enten gennem et markdown-dokument eller en skinnende app. Alt kan hostes i Rpub, GitHub eller virksomhedens hjemmeside.

Nedenfor er et eksempel på en præsentation, der hostes på Rpub

Rstudio accepterer markdown for at skrive et dokument. Du kan eksportere dokumenterne i forskellige formater:

  • Dokument:
    • HTML
    • PDF / Latex
    • Ord
  • Præsentation
    • HTML
    • PDF-beamer

Rstudio har et fantastisk værktøj til nemt at oprette en app. Nedenfor er et eksempel på app med data fra Verdensbanken.

Hvorfor bruge R?

Datavidenskab er ved at forme den måde, hvorpå virksomheder driver deres forretning. Uden tvivl vil holde sig væk fra kunstig intelligens og maskine få virksomheden til at mislykkes. Det store spørgsmål er, hvilket værktøj / sprog skal du bruge?

De er mange tilgængelige værktøjer på markedet til at udføre dataanalyse. At lære et nyt sprog kræver nogen tid at investere. Billedet nedenfor viser indlæringskurven sammenlignet med den forretningsevne et sprog tilbyder. Det negative forhold indebærer, at der ikke er nogen gratis frokost. Hvis du vil give det bedste indblik i dataene, skal du bruge lidt tid på at lære det passende værktøj, som er R.

Øverst til venstre i grafen kan du se Excel og PowerBI. Disse to værktøjer er enkle at lære, men tilbyder ikke enestående forretningsmuligheder, især når det gælder modellering. I midten kan du se Python og SAS. SAS er et dedikeret værktøj til at køre en statistisk analyse for erhvervslivet, men det er ikke gratis. SAS er et klik og kør-software. Python er dog et sprog med en monoton indlæringskurve. Python er et fantastisk værktøj til at implementere Machine Learning og AI, men mangler kommunikationsfunktioner. Med en identisk indlæringskurve er R en god kompromis mellem implementering og dataanalyse.

Når det kommer til datavisualisering (DataViz), ville du sandsynligvis have hørt om Tableau. Tableau er uden tvivl et godt værktøj til at opdage mønstre gennem grafer og diagrammer. Desuden er det ikke tidskrævende at lære Tableau. Et stort problem med datavisualisering er, at du måske ender med at aldrig finde et mønster eller bare oprette masser af ubrugelige diagrammer. Tableau er et godt værktøj til hurtig visualisering af data eller Business Intelligence. Når det kommer til statistik og beslutningsværktøj, er R mere passende.

Stack Overflow er et stort samfund til programmeringssprog. Hvis du har et kodningsproblem eller har brug for at forstå en model, er Stack Overflow her for at hjælpe. I løbet af året er procentdelen af ​​spørgsmålssyn steget kraftigt for R sammenlignet med de andre sprog. Denne tendens er naturligvis stærkt korreleret med datalogiets blomstrende alder, men det afspejler efterspørgslen fra R-sprog til datalogi.

I datavidenskab er der to værktøjer, der konkurrerer med hinanden. R og Python er sandsynligvis det programmeringssprog, der definerer datalogi.

Skal du vælge R?

Dataforsker kan bruge to fremragende værktøjer: R og Python. Du har muligvis ikke tid til at lære dem begge, især hvis du kommer i gang med at lære datalogi. Læring af statistisk modellering og algoritmeer langt vigtigere end at lære et programmeringssprog. Et programmeringssprog er et værktøj til at beregne og kommunikere din opdagelse. Den vigtigste opgave inden for datalogi er den måde, du håndterer dataene på: import, ren, forberedelse, funktionsteknik, valg af funktion. Dette skal være dit primære fokus. Hvis du prøver at lære R og Python på samme tid uden en solid baggrund i statistikker, er det almindeligt dumt. Data videnskabsmand er ikke programmører. Deres job er at forstå dataene, manipulere dem og udsætte den bedste tilgang. Hvis du overvejer, hvilket sprog du skal lære, lad os se, hvilket sprog der passer bedst til dig.

Det vigtigste publikum for datavidenskab er forretningsprofessionel. I virksomheden er kommunikation en stor betydning. Der er mange måder at kommunikere på: rapport, webapp, dashboard. Du har brug for et værktøj, der gør alt dette sammen.

Er R svært?

For mange år siden var R et vanskeligt sprog at mestre. Sproget var forvirrende og ikke så struktureret som de andre programmeringsværktøjer. For at overvinde dette store problem udviklede Hadley Wickham en samling af pakker kaldet tidyverse. Spillets regel ændrede sig bedst. Datamanipulation bliver trivielt og intuitivt. Oprettelse af en graf var ikke længere så vanskelig.

De bedste algoritmer til maskinindlæring kan implementeres med R. Pakker som Keras og TensorFlow gør det muligt at skabe avanceret maskinindlæringsteknik. R har også en pakke til at udføre Xgboost, en den bedste algoritme til Kaggle-konkurrence.

R kan kommunikere med det andet sprog. Det er muligt at kalde Python, Java, C ++ i R. Verden af ​​big data er også tilgængelig for R. Du kan forbinde R med forskellige databaser som Spark eller Hadoop.

Endelig har R udviklet sig og tilladt parallelisering for at fremskynde beregningen. Faktisk blev R kritiseret for kun at bruge en CPU ad gangen. Den parallelle pakke giver dig mulighed for at udføre opgaver i forskellige kerner på maskinen.

Resumé

Kort sagt er R et fantastisk værktøj til at udforske og undersøge dataene. Udførlige analyser som klyngedannelse, korrelation og datareduktion foretages med R. Dette er den mest afgørende del, uden en god funktionsteknik og model, vil implementeringen af ​​maskinindlæring ikke give meningsfulde resultater.