Uovervåget maskinindlæring: Hvad er algoritmer, eksempel

Indholdsfortegnelse:

Anonim

Uovervåget læring

Uovervåget læring er en maskinlæringsteknik, hvor brugerne ikke behøver at overvåge modellen. I stedet giver det modellen mulighed for at arbejde alene for at opdage mønstre og information, der tidligere ikke blev opdaget. Det beskæftiger sig primært med de umærkede data.

Uovervåget læringsalgoritmer

Uovervåget læringsalgoritmer giver brugerne mulighed for at udføre mere komplekse behandlingsopgaver sammenlignet med overvåget læring. Selvom læring uden opsyn kan være mere uforudsigelig sammenlignet med andre naturlige læringsmetoder. Uovervåget læringsalgoritmer inkluderer klyngedannelse, anomaliedetektion, neurale netværk osv.

I denne vejledning lærer du:

  • Eksempel på maskinlæring uden tilsyn
  • Hvorfor undervisning uden opsyn?
  • Typer af ikke-overvåget læring
  • Klyngedannelse
  • Klyngetyper
  • Forening
  • Overvåget vs Uovervåget maskinindlæring
  • Anvendelser af ikke-overvåget maskinindlæring
  • Ulemper ved ikke-overvåget læring

Eksempel på maskinlæring uden tilsyn

Lad os tage sagen om en baby og hendes familiehund.

Hun kender og identificerer denne hund. Få uger senere bringer en familieven en hund med og prøver at lege med babyen.

Baby har ikke set denne hund tidligere. Men det genkender mange funktioner (2 ører, øjne, gå på 4 ben) er som hendes hund. Hun identificerer det nye dyr som en hund. Dette er læring uden opsyn, hvor du ikke bliver undervist, men du lærer af dataene (i dette tilfælde data om en hund.) Hvis dette var overvåget læring, ville familievenen have fortalt barnet, at det er en hund.

Hvorfor undervisning uden opsyn?

Her er de vigtigste grunde til at bruge Uovervåget læring:

  • Uovervåget maskinindlæring finder alle slags ukendte mønstre i data.
  • Uovervågede metoder hjælper dig med at finde funktioner, der kan være nyttige til kategorisering.
  • Det finder sted i realtid, så alle inputdata, der skal analyseres og mærkes i nærværelse af elever.
  • Det er lettere at få umærkede data fra en computer end mærkede data, som kræver manuel indgriben.

Typer af ikke-overvåget læring

Uovervåget læringsproblemer grupperet yderligere i klyngeproblemer og tilknytningsproblemer.

Klyngedannelse

Klyngedannelse er et vigtigt begreb, når det gælder læring uden opsyn. Det handler primært om at finde en struktur eller et mønster i en samling af ukategoriserede data. Klyngealgoritmer behandler dine data og finder naturlige klynger (grupper), hvis de findes i dataene. Du kan også ændre, hvor mange klynger dine algoritmer skal identificere. Det giver dig mulighed for at justere granulariteten for disse grupper.

Der er forskellige typer klynger, du kan bruge:

Eksklusiv (partitionering)

I denne klyngemetode grupperes data på en sådan måde, at en data kun kan tilhøre en klynge.

Eksempel: K-betyder

Agglomerativ

I denne klyngeteknik er alle data en klynge. De iterative fagforeninger mellem de to nærmeste klynger reducerer antallet af klynger.

Eksempel: Hierarkisk klyngedannelse

Overlappende

I denne teknik bruges fuzzy-sæt til klyngedata. Hvert punkt kan tilhøre to eller flere klynger med separate grader af medlemskab.

Her vil data blive associeret med en passende medlemsværdi. Eksempel: Fuzzy C-Means

Probabilistisk

Denne teknik bruger sandsynlighedsfordeling til at skabe klyngerne

Eksempel: Følgende nøgleord

  • "mands sko."
  • "kvinders sko."
  • "kvinders handske."
  • "mands handske."

kan grupperes i to kategorier "sko" og "handske" eller "mand" og "kvinder."

Klyngetyper

  • Hierarkisk klyngedannelse
  • K-betyder klyngedannelse
  • K-NN (k nærmeste naboer)
  • Hovedkomponentanalyse
  • Enkel værdi nedbrydning
  • Uafhængig komponentanalyse

Hierarkisk klyngedannelse:

Hierarkisk klyngedannelse er en algoritme, der bygger et hierarki af klynger. Det begynder med alle de data, der er tildelt en egen klynge. Her vil to tætte klynger være i samme klynge. Denne algoritme slutter, når der kun er én klynge tilbage.

K-betyder klyngedannelse

K betyder, at det er en iterativ klyngealgoritme, som hjælper dig med at finde den højeste værdi for hver iteration. Oprindeligt vælges det ønskede antal klynger. I denne klyngemetode skal du gruppere datapunkterne i k-grupper. Et større k betyder mindre grupper med mere granularitet på samme måde. En lavere k betyder større grupper med mindre granularitet.

Output af algoritmen er en gruppe "etiketter". Det tildeler datapunkt til en af ​​k-grupperne. I k-betyder klyngedannelse defineres hver gruppe ved at oprette en centroid for hver gruppe. Centroiderne er som hjertet i klyngen, som fanger de punkter, der er tættest på dem og føjer dem til klyngen.

K-gennemsnitsklynger definerer yderligere to undergrupper:

  • Agglomerativ klyngedannelse
  • Dendrogram

Agglomerativ klyngedannelse:

Denne type K-betyder klyngedannelse starter med et fast antal klynger. Det fordeler alle data i det nøjagtige antal klynger. Denne klyngemetode kræver ikke antallet af klynger K som input. Agglomerationsprocessen starter med at danne hver data som en enkelt klynge.

Denne metode bruger en afstandsmåling, reducerer antallet af klynger (en i hver iteration) ved at flette processen. Endelig har vi en stor klynge, der indeholder alle objekterne.

Dendrogram:

I Dendrogram-klyngemetoden repræsenterer hvert niveau en mulig klynge. Højden på dendrogram viser niveauet for lighed mellem to sammenføjningsklynger. Jo tættere på bunden af ​​processen, de er mere ens klynger, som finder gruppen af ​​dendrogram, som ikke er naturlig og mest subjektiv.

K- Nærmeste naboer

K- nærmeste nabo er den enkleste af alle maskinindlæringsklassifikatorer. Det adskiller sig fra andre maskinlæringsteknikker, idet det ikke producerer en model. Det er en simpel algoritme, der gemmer alle tilgængelige sager og klassificerer nye forekomster baseret på en lighedsmåling.

Det fungerer meget godt, når der er afstand mellem eksemplerne. Læringshastigheden er langsom, når træningssættet er stort, og afstandsberegningen ikke er praktisk.

Hovedkomponentanalyse:

Hvis du vil have et højere dimensionelt rum. Du skal vælge et grundlag for dette rum og kun de 200 vigtigste scores på dette grundlag. Denne base er kendt som en hovedkomponent. Det delsæt, du vælger udgør, er et nyt rum, der er lille i størrelse sammenlignet med det oprindelige rum. Det opretholder så meget af datakompleksiteten som muligt.

Forening

Tilknytningsregler giver dig mulighed for at etablere tilknytninger mellem dataobjekter i store databaser. Denne ikke-overvågede teknik handler om at opdage interessante forhold mellem variabler i store databaser. For eksempel er folk, der køber et nyt hjem, mest sandsynligt at købe nye møbler.

Andre eksempler:

  • En undergruppe af kræftpatienter grupperet efter deres genekspressionsmålinger
  • Grupper af shopper baseret på deres browser- og indkøbshistorik
  • Filmgruppe efter vurdering givet af film seere

Overvåget vs Uovervåget maskinindlæring

Parametre Overvåget maskinindlæringsteknik Uovervåget maskinlæringsteknik
Indtastningsdata Algoritmer trænes ved hjælp af mærkede data. Algoritmer bruges mod data, der ikke er mærket
Computational Complexity Overvåget læring er en enklere metode. Uovervåget læring er beregningsmæssigt kompleks
Nøjagtighed Meget nøjagtig og pålidelig metode. Mindre nøjagtig og pålidelig metode.

Anvendelser af ikke-overvåget maskinindlæring

Nogle anvendelser af ikke-overvågede teknikker til maskinindlæring er:

  • Clustering opdeler automatisk datasættet i grupper baseret på deres ligheder
  • Anomali detektion kan opdage usædvanlige datapunkter i dit datasæt. Det er nyttigt at finde falske transaktioner
  • Association mining identificerer sæt af elementer, der ofte forekommer sammen i dit datasæt
  • Latente variable modeller bruges i vid udstrækning til dataforbehandling. Som at reducere antallet af funktioner i et datasæt eller nedbryde datasættet i flere komponenter

Ulemper ved ikke-overvåget læring

  • Du kan ikke få præcise oplysninger om datasortering, og output som data, der bruges i ikke-overvåget læring, er mærket og ikke kendt
  • Mindre nøjagtighed af resultaterne skyldes, at inputdata ikke er kendt og ikke mærket af folk på forhånd. Dette betyder, at maskinen skal gøre det selv.
  • Spektralklasser svarer ikke altid til informationsklasser.
  • Brugeren skal bruge tid på at fortolke og mærke de klasser, der følger klassificeringen.
  • Spektrale egenskaber for klasser kan også ændre sig over tid, så du ikke kan have de samme klasseoplysninger, mens du flytter fra et billede til et andet.

Resumé

  • Uovervåget læring er en maskinlæringsteknik, hvor du ikke behøver at overvåge modellen.
  • Uovervåget maskinindlæring hjælper dig med at finde alle slags ukendte mønstre i data.
  • Klyngedannelse og tilknytning er to typer ikke-overvåget læring.
  • Fire typer klyngemetoder er 1) Eksklusiv 2) Agglomerativ 3) Overlappende 4) Probabilistisk.
  • Vigtige klyngetyper er: 1) Hierarkisk klyngedannelse 2) K-betyder klyngedannelse 3) K-NN 4) Hovedkomponentanalyse 5) Singularværdi Nedbrydning 6) Uafhængig komponentanalyse.
  • Tilknytningsregler giver dig mulighed for at etablere tilknytninger mellem dataobjekter i store databaser.
  • I overvåget læring trænes algoritmer ved hjælp af mærkede data, mens algoritmer bruges i ikke-overvåget læring mod data, der ikke er mærket.
  • Anomali-detektion kan finde vigtige datapunkter i dit datasæt, hvilket er nyttigt til at finde falske transaktioner.
  • Den største ulempe ved Uovervåget læring er, at du ikke kan få præcis information om datasortering.