Maschinelles Lernen Terminologie

Machine Learning Terminology

Klassifikator

Ein Programm oder eine Funktion die unstrukturierte Daten zu Klassen zuordnet, wird als Klassifikator bezeichnet.

Konfusionsmatrix

Eine Konfusionsmatrix, auch Kontingenztablle oder Fehlermatrix genannt, wird für die Darstellung der Performance eines Klassifikators verwendet.

Die Spalten der Matrix stellen die Instanzen der vorhergesagten Klassen dar. Die Zeilen stellen die Instanzen der aktuellen Klasse dar. (Hinweis: Es kann ebenso auch andersherum dargestellt werden.)

Im Falle der binären Klassifikation hat die Tabelle 2 Spalten und 2 Zeilen.

Beispiel:

Konfusions
Matrix
Vorhergesagte Klassen
männlich weiblich
Aktuelle
Klassen

männlich 42 8
weiblich 18 32

Das bedeutet, dass der Klassifikator in 42 Fällen korrekt eine männliche Person vorhergesagt hat und in 8 Fällen fälschlicherweise männliche Personen als weibliche vorhergesagt hat. In 32 Fällen hat er bei weiblichen Personen richtig gelegen, jedoch bei 18 Personen wurde männlich statt weiblich vorhergesagt.

Genauigkeit (Fehlerrate)

Die Genauigkeit ist eine statistische Messung die definiert ist als der Quotient aus den korrekten Vorhersagen und der Summe der insgesamt gemachten Vorhersagen des Klassifikators.

Der Klassifikator in unserem Beispiel hat 42 männliche und 32 weibliche Personen korrekt vorhergesagt.

Die Genauigkeit kann damit wie folgt berechnet werden:

genauigkeit = $(42 + 32) / (42 + 8 + 18 + 32)$

was 0.72 ergibt.

Angenommen wir haben einen Klassifikator, der immer "weiblich" vorhersagt. Damit haben wir eine Genauigkeit von 50 %.

Konfusions
Matrix
Vorhergesagte Klassen
männlich weiblich
Aktuelle
Klassen

männlich 0 50
weiblich 0 50

Wir demonstrieren das s.g. Genauigkeits-Paradox.

Ein Spam-Erkennungs-Klassifikator wird durch die folgende Konfusionsmatrix beschrieben:

Konfusions
Matrix
Vorhergesagte Klassen
spam ham
Aktuelle
Klassen

spam 4 1
ham 4 91

Die Genauigkeit dieses Klassifikators ist $(4 + 91) / 100$, also 95 %.

Der folgende Klassifikator bestimmt "ham" mit der gleichen Genauigkeit.

Konfusions
Matrix
Vorhergesagte Klassen
spam ham
Aktuelle
Klassen

spam 0 5
ham 0 95

Die Genauigkeit dieses Klassifikators liegt bei 95 %, selbst dann, wenn er nicht in der Lage ist Spam zu erkennen.

Präzision und Wiederaufruf (Recall)

Konfusions
Matrix
Vorhergesagte Klassen
negativ positiv
Aktuelle
Klassen

negativ TN FP
positiv FN TP

Genauigkeit: $(TN + TP)/(TN + TP + FN + FP)$

Präzision: $TP / (TP + FP)$

Wiederaufruf (Recall): $ TP / (TP + FN)$

Überwachtes Lernen (Supervised Learning)

Das Machine Learning-Programm wird sowohl mit Daten, als auch mit den zugehörigen Bezeichnungen (Labels) versorgt. Die zu lernenden Daten müssen also vorher durch einen Menschen manuell bezeichnet werden.

Nicht überwachtes Lernen (Unsupervised Learning)

Es sind keine Bezeichnungen (Labels) gegeben. Der Machine Learning-Algorithmus muss aus den Daten Gemeinsamkeiten (Cluster) herausfinden.

Bestärkendes Lernen (Reinforcement learning)

Ein Computer-Programm interagiert mit seiner Umgebung. Es bekommt also positive und/oder negative Rückmeldung um sein Verhalten zu verbessern.