Supervised Machine Learning: Hvad er, algoritmer, eksempel

Indholdsfortegnelse:

Anonim

Hvad er Supervised Machine Learning?

I Supervised learning træner du maskinen ved hjælp af data, der er godt "mærket ". Det betyder, at nogle data allerede er tagget med det rigtige svar. Det kan sammenlignes med læring, der finder sted i nærværelse af en vejleder eller en lærer.

En overvåget læringsalgoritme lærer af mærkede træningsdata, hjælper dig med at forudsige resultater for uforudsete data.

Succesfuld opbygning, skalering og implementering af nøjagtige overvågede maskinlæringsmodeller tager tid og teknisk ekspertise fra et team af højt kvalificerede dataforskere. Desuden skal datavidenskaberen genopbygge modeller for at sikre, at den givne indsigt forbliver sand, indtil dens data ændres.

I denne vejledning lærer du:

  • Hvad er Supervised Machine Learning?
  • Hvordan overvåget læring fungerer
  • Typer af tilsyn med maskinlæringsalgoritmer
  • Overvåget vs Uovervåget maskinlæringsteknik
  • Udfordringer i overvåget maskinlæring
  • Fordele ved overvåget læring:
  • Ulemper ved tilsynet med læring
  • Bedste praksis for overvåget læring

Hvordan overvåget læring fungerer

For eksempel vil du træne en maskine, der hjælper dig med at forudsige, hvor lang tid det tager at køre hjem fra din arbejdsplads. Her starter du med at oprette et sæt mærkede data. Disse data inkluderer

  • Vejrforhold
  • Tid på dagen
  • Helligdage

Alle disse detaljer er dine input. Outputtet er den tid, det tog at køre hjem den specifikke dag.

Du ved instinktivt, at hvis det regner udenfor, så tager det dig længere tid at køre hjem. Men maskinen har brug for data og statistik.

Lad os nu se, hvordan du kan udvikle en overvåget læringsmodel af dette eksempel, som hjælper brugeren med at bestemme pendeltiden. Det første du skal oprette er et træningssæt. Dette træningssæt indeholder den samlede pendeltid og tilsvarende faktorer som vejr, tid osv. Baseret på dette træningssæt kan din maskine muligvis se, at der er et direkte forhold mellem mængden af ​​regn og den tid, det tager at komme hjem.

Så det konstaterer, at jo mere det regner, jo længere kører du for at komme tilbage til dit hjem. Det ser muligvis også forbindelsen mellem det tidspunkt, du forlader arbejdet, og den tid du er på farten.

Jo tættere du er kl. 18, jo længere tid tager det for dig at komme hjem. Din maskine finder muligvis nogle af forholdet til dine mærkede data.

Dette er starten på din datamodel. Det begynder at påvirke, hvordan regn påvirker den måde, folk kører på. Det begynder også at se, at flere mennesker rejser i løbet af en bestemt tid på dagen.

Typer af tilsyn med maskinlæringsalgoritmer

Regression:

Regressionsteknik forudsiger en enkelt outputværdi ved hjælp af træningsdata.

Eksempel : Du kan bruge regression til at forudsige husprisen ud fra træningsdata. Inputvariablerne vil være lokalitet, størrelse på et hus osv.

Styrker : Outputs har altid en sandsynlig fortolkning, og algoritmen kan reguleres for at undgå overmontering.

Svagheder : Logistisk regression kan underpræstere, når der er flere eller ikke-lineære beslutningsgrænser. Denne metode er ikke fleksibel, så den fanger ikke mere komplekse forhold.

Logistisk regression:

Logistisk regressionsmetode anvendt til at estimere diskrete værdier baseret på givet et sæt uafhængige variabler. Det hjælper dig med at forudsige sandsynligheden for en begivenhed ved at tilpasse data til en logit-funktion. Derfor er det også kendt som logistisk regression. Som det forudsiger sandsynligheden, ligger dens outputværdi mellem 0 og 1.

Her er et par typer af regressionsalgoritmer

Klassifikation:

Klassificering betyder at gruppere output i en klasse. Hvis algoritmen forsøger at mærke input i to forskellige klasser, kaldes det binær klassifikation. Valg mellem mere end to klasser kaldes multiklasseklassifikation.

Eksempel : Bestemmelse af, om nogen vil være misligholdelse af lånet.

Styrker : Klassifikationstræ fungerer meget godt i praksis

Svagheder : Ubegrænsede, individuelle træer er tilbøjelige til at overmontere.

Her er et par typer klassificeringsalgoritmer

Naive Bayes-klassifikatorer

Naïve Bayesian-model (NBN) er let at bygge og meget nyttig til store datasæt. Denne metode består af direkte acykliske grafer med en forælder og flere børn. Det antager uafhængighed blandt barneknuder, der er adskilt fra deres forælder.

Beslutningstræer

Beslutningstræer klassificerer forekomst ved at sortere dem baseret på funktionsværdien. I denne metode er hver tilstand funktionen af ​​en forekomst. Det skal klassificeres, og hver gren repræsenterer en værdi, som noden kan antage. Det er en meget anvendt teknik til klassificering. I denne metode er klassificering et træ, der er kendt som et beslutningstræ.

Det hjælper dig med at estimere reelle værdier (omkostninger ved køb af en bil, antal opkald, samlet månedligt salg osv.).

Support Vector Machine

Support vector machine (SVM) er en type læringsalgoritme udviklet i 1990. Denne metode er baseret på resultater fra statistisk læringsteori introduceret af Vap Nik.

SVM-maskiner er også tæt forbundet med kernefunktioner, som er et centralt koncept for de fleste læringsopgaver. Kernestrukturen og SVM bruges i en række felter. Det inkluderer multimedieinformation hentning, bioinformatik og mønstergenkendelse.

Overvåget vs Uovervåget maskinlæringsteknik

Baseret på Overvåget maskinindlæringsteknik Uovervåget maskinlæringsteknik
Indtastningsdata Algoritmer trænes ved hjælp af mærkede data. Algoritmer bruges mod data, der ikke er mærket
Computational Complexity Overvåget læring er en enklere metode. Uovervåget læring er beregningsmæssigt kompleks
Nøjagtighed Meget nøjagtig og pålidelig metode. Mindre nøjagtig og pålidelig metode.

Udfordringer i overvåget maskinlæring

Her er udfordringer i overvåget maskinindlæring:

  • Irrelevante inputfunktioner nuværende træningsdata kunne give unøjagtige resultater
  • Dataforberedelse og forbehandling er altid en udfordring.
  • Nøjagtighed lider, når umulige, usandsynlige og ufuldstændige værdier er blevet angivet som træningsdata
  • Hvis den pågældende ekspert ikke er tilgængelig, er den anden tilgang "brute-force". Det betyder, at du skal tænke, at de rigtige funktioner (inputvariabler) til at træne maskinen på. Det kunne være unøjagtigt.

Fordele ved overvåget læring:

  • Overvåget læring giver dig mulighed for at indsamle data eller producere en dataoutput fra den tidligere erfaring
  • Hjælper dig med at optimere ydeevenskriterier ved hjælp af erfaring
  • Overvåget maskinindlæring hjælper dig med at løse forskellige typer af virkelige beregningsproblemer.

Ulemper ved tilsynet med læring

  • Beslutningsgrænsen kan blive overtrænet, hvis dit træningssæt, der ikke har eksempler, som du vil have i en klasse
  • Du skal vælge mange gode eksempler fra hver klasse, mens du træner klassificeringsprogrammet.
  • Klassificering af big data kan være en reel udfordring.
  • Uddannelse til overvåget læring har brug for meget beregningstid.

Bedste praksis for overvåget læring

  • Før du gør noget andet, skal du beslutte, hvilken type data der skal bruges som et træningssæt
  • Du skal beslutte strukturen for den lærte funktion og indlæringsalgoritmen.
  • Find tilsvarende output enten fra menneskelige eksperter eller fra målinger

Resumé

  • I Supervised learning træner du maskinen ved hjælp af data, der er godt "mærket".
  • Du vil træne en maskine, der hjælper dig med at forudsige, hvor lang tid det tager dig at køre hjem fra din arbejdsplads, er et eksempel på overvåget læring
  • Regression og klassificering er to typer overvågede maskinlæringsteknikker.
  • Overvåget læring er en enklere metode, mens ikke-overvåget læring er en kompleks metode.
  • Den største udfordring i overvåget læring er, at irrelevant input-funktion nuværende træningsdata kan give unøjagtige resultater.
  • Den største fordel ved overvåget læring er, at det giver dig mulighed for at indsamle data eller producere en dataoutput fra den tidligere erfaring.
  • Ulempen ved denne model er, at beslutningsgrænsen måske er overbelastet, hvis dit træningssæt ikke har eksempler, som du vil have i en klasse.
  • Som en bedste praksis for overvågning af læring skal du først beslutte, hvilken type data der skal bruges som et træningssæt.