Faktor i R: Kategorisk variabel & Kontinuerlige variabler

Indholdsfortegnelse:

Anonim

Hvad er faktor i R?

Faktor i R er en variabel, der bruges til at kategorisere og gemme dataene med et begrænset antal forskellige værdier. Det gemmer dataene som en vektor af heltalværdier. Faktor i R er også kendt som en kategorisk variabel, der gemmer både streng- og heltal-dataværdier som niveauer. Faktor bruges mest i statistisk modellering og sonderende dataanalyse med R.

I et datasæt kan vi skelne mellem to typer variabler: kategorisk og kontinuerlig .

  • I beskrivende statistik for kategoriske variabler i R er værdien begrænset og normalt baseret på en bestemt endelig gruppe. For eksempel kan en kategorisk variabel i R være lande, år, køn, erhverv.
  • En kontinuerlig variabel kan dog tage alle værdier fra heltal til decimal. For eksempel kan vi have indtægter, pris på en aktie osv ...

Kategoriske variabler

Kategoriske variabler i R lagres i en faktor. Lad os kontrollere koden nedenfor for at konvertere en karaktervariabel til en faktorvariabel i R. Tegn understøttes ikke i maskinlæringsalgoritme, og den eneste måde er at konvertere en streng til et heltal.

Syntaks

factor(x = character(), levels, labels = levels, ordered = is.ordered(x))

Argumenter:

  • x : En vektor med kategoriske data i R. Skal være en streng eller et heltal, ikke decimal.
  • Niveauer : En vektor med mulige værdier taget af x. Dette argument er valgfrit. Standardværdien er den unikke liste over elementer i vektoren x.
  • Etiketter : Føj en etiket til de x kategoriske data i R. For eksempel kan 1 tage etiketten 'mand', mens 0, etiketten 'kvinde'.
  • bestilt : Bestem, om niveauerne skal bestilles i kategoriske data i R.

Eksempel:

Lad os oprette en faktor dataramme.

# Create gender vectorgender_vector <- c("Male", "Female", "Female", "Male", "Male")class(gender_vector)# Convert gender_vector to a factorfactor_gender_vector <-factor(gender_vector)class(factor_gender_vector)

Produktion:

## [1] "character"## [1] "factor"

Det er vigtigt at omdanne en streng til faktorvariabel i R, når vi udfører Machine Learning-opgaven.

En kategorisk variabel i R kan opdeles i den nominelle kategoriske variabel og den ordinære kategoriske variabel .

Nominel kategorisk variabel

En kategorisk variabel har flere værdier, men rækkefølgen betyder ikke noget. For eksempel mand eller kvinde. Kategoriske variabler i R har ikke rækkefølge.

# Create a color vectorcolor_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')# Convert the vector to factorfactor_color <- factor(color_vector)factor_color

Produktion:

## [1] blue red green white black yellow## Levels: black blue green red white yellow

Fra faktor_color kan vi ikke fortælle nogen rækkefølge.

Ordinær kategorisk variabel

Ordinære kategoriske variabler har en naturlig rækkefølge. Vi kan specificere rækkefølgen, fra den laveste til den højeste med ordren = SAND og højest til den laveste med ordren = FALSK.

Eksempel:

Vi kan bruge resumé til at tælle værdierne for hver faktorvariabel i R.

# Create Ordinal categorical vectorday_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')# Convert `day_vector` to a factor with ordered levelfactor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))# Print the new variablefactor_day

Produktion:

## [1] evening morning afternoon middaymidnight evening 

Eksempel:

## Levels: morning < midday < afternoon < evening < midnight# Append the line to above code# Count the number of occurence of each levelsummary(factor_day)

Produktion:

## morning midday afternoon evening midnight## 1 1 1 2 1

R beordrede niveauet fra 'morgen' til 'midnat' som specificeret i niveauparentesen.

Kontinuerlige variabler

Kontinuerlige klassevariabler er standardværdien i R. De gemmes som numeriske eller heltal. Vi kan se det fra datasættet nedenfor. mtcars er et indbygget datasæt. Den samler information om forskellige biltyper. Vi kan importere det ved hjælp af mtcars og kontrollere klassen for den variable mpg, mile per gallon. Den returnerer en numerisk værdi, der angiver en kontinuerlig variabel.

dataset <- mtcarsclass(dataset$mpg)

Produktion

## [1] "numeric"