Hvad er forvirringsmatrix?
En forvirringsmatrix er en målingsteknik til maskinindlæring. Det er en slags tabel, der hjælper dig med at kende klassificeringsmodelens ydeevne på et sæt testdata, for at de sande værdier er kendt. Selve udtrykket forvirringsmatrix er meget simpelt, men dets relaterede terminologi kan være lidt forvirrende. Her gives nogle enkle forklaringer på denne teknik.
I denne vejledning lærer du,
- Hvad er forvirringsmatrix?
- Fire resultater af forvirringsmatrixen
- Eksempel på forvirringsmatrix:
- Sådan beregnes en forvirringsmatrix
- Andre vigtige vilkår ved brug af en forvirringsmatrix
- Hvorfor har du brug for forvirringsmatrix?
Fire resultater af forvirringsmatrixen
Forvirringsmatrixen visualiserer nøjagtigheden af en klassifikator ved at sammenligne de faktiske og forudsagte klasser. Den binære forvirringsmatrix er sammensat af firkanter:

- TP: Ægte positive: Forudsagte værdier forudsiges korrekt som faktiske positive
- FP: Forudsagte værdier forudsagde forkert en faktisk positiv. dvs. negative værdier forudsagt som positive
- FN: Falsk negativ: Positive værdier forudsagt som negative
- TN: Sand negativ: Forudsagte værdier forudsiges korrekt som en faktisk negativ
Du kan beregne nøjagtighedstesten fra forvirringsmatrixen:
Eksempel på forvirringsmatrix:
Confusion Matrix er en nyttig maskinlæringsmetode, der giver dig mulighed for at måle Recall, Precision, Nøjagtighed og AUC-ROC-kurve. Nedenfor er der et eksempel på at kende begreberne sandt positivt, sandt negativt, falsk negativt og sandt negativt.
Ægte positive:
Du projicerede positivt, og det viser sig at være sandt. For eksempel havde du forudsagt, at Frankrig ville vinde verdensmesterskabet, og det vandt.
Ægte negativt:
Når du forudsagde negativ, og det er sandt. Du havde forudsagt, at England ikke ville vinde, og det tabte.
Falsk positiv:
Din forudsigelse er positiv, og den er falsk.
Du havde forudsagt, at England ville vinde, men det tabte.
Falsk negativ:
Din forudsigelse er negativ, og resultatet er også falsk.
Du havde forudsagt, at Frankrig ikke ville vinde, men det vandt.
Du skal huske, at vi beskriver forudsagte værdier som enten sande eller falske eller positive og negative.
Sådan beregnes en forvirringsmatrix
Her er trin for trin proces til beregning af en forvirringsmatrix i datamining
- Trin 1) Først skal du teste datasæt med dets forventede resultatværdier.
- Trin 2) Forudsig alle rækkerne i testdatasættet.
- Trin 3) Beregn de forventede forudsigelser og resultater:
- Det samlede antal korrekte forudsigelser for hver klasse.
- Det samlede antal ukorrekte forudsigelser for hver klasse.
Derefter er disse tal organiseret i nedenstående metoder:
- Hver række i matrixen linker til en forudsagt klasse.
- Hver kolonne i matricen svarer til en faktisk klasse.
- Det samlede antal korrekte og forkerte klassifikationer er indtastet i tabellen.
- Summen af korrekte forudsigelser for en klasse går ind i den forudsagte kolonne og forventede række for denne klasseværdi.
- Summen af forkerte forudsigelser for en klasse går ind i den forventede række for den pågældende klasseværdi og den forudsagte kolonne for den specifikke klasseværdi.
Andre vigtige vilkår ved brug af en forvirringsmatrix
- Positiv forudsigelig værdi (PVV): Dette er meget tæt på præcision. En væsentlig forskel mellem de to sigt er, at PVV overvejer prævalens. I den situation, hvor klasserne er perfekt afbalancerede, er den positive forudsigelsesværdi den samme som præcision.
- Null Error Rate: Dette udtryk bruges til at definere, hvor mange gange din forudsigelse ville være forkert, hvis du kan forudsige majoritetsklassen. Du kan betragte det som en baseline-måling at sammenligne din klassifikator.
- F-score: F1-score er et vægtet gennemsnitsscore for den sande positive (tilbagekaldelse) og præcision.
- Roc-kurve: Roc-kurve viser de sande positive satser mod den falske positive sats ved forskellige skærepunkter. Det viser også en afvejning mellem følsomhed (tilbagekaldelse og specificitet eller den sande negative sats).
- Præcision: Præcisionsmetricen viser nøjagtigheden af den positive klasse. Det måler, hvor sandsynligt forudsigelsen af den positive klasse er korrekt.
Den maksimale score er 1, når klassifikatoren perfekt klassificerer alle de positive værdier. Præcision alene er ikke særlig nyttig, fordi den ignorerer den negative klasse. Metricen parres normalt med Recall-metric. Recall kaldes også følsomhed eller ægte positiv hastighed.
- Følsomhed : Følsomhed beregner forholdet mellem positive klasser, der registreres korrekt. Denne måling giver, hvor god modellen er til at genkende en positiv klasse.
Hvorfor har du brug for forvirringsmatrix?
Her er fordele / fordele ved at bruge en forvirringsmatrix.
- Det viser, hvordan enhver klassificeringsmodel er forvirret, når den forudsiger.
- Forvirringsmatrix giver dig ikke kun indsigt i de fejl, der foretages af din klassifikator, men også typer af fejl, der bliver lavet.
- Denne opdeling hjælper dig med at overvinde begrænsningen ved at bruge klassificeringsnøjagtighed alene.
- Hver kolonne i forvirringsmatrixen repræsenterer forekomsterne af den forudsagte klasse.
- Hver række i forvirringsmatrixen repræsenterer forekomsterne af den aktuelle klasse.
- Det giver ikke kun indsigt i de fejl, der foretages af en klassifikator, men også i de fejl, der foretages.