Lernen: Hilfreiches Halbwissen

Häufig müssen Objekte aufgrund ihrer gegebenen Eigenschaften einer von mehreren vordefinierten Klassen zugeordnet werden. Man sollte meinen, dass zum Erlernen einer Zuweisungsvorschrift nur diejenigen Fälle hilfreich sein können, bei denen auch die Klasse bekannt ist. Dieser Schluss ist etwas zu voreilig!

Stellen wir uns zunächst einmal vor, dass wir Objekte aufgrund ihrer messbaren Eigenschaften automatisch klassifizieren wollen. Für diese in der Predictive Analytics häufig auftretende Problemstellung haben wir einen Experten engagiert, der genügend Zeit und Willen mitgebracht hat, um uns bei der Erstellung des Modells zu helfen.

Für jedes Objekt wurden zwei Attribute X und Y automatisch gemessen und der Experte hat nun jedes Objekt genauestens untersucht und einer der drei Klassen “Schwarz”, “Rot” und “Grün” zugeordnet (klicken Sie bitte auf die Grafik für eine vergrößerte Darstellung!):

1000 Objekte mit ihrer Klassenzuordnung

Hier stehen nun genügend Beobachtungen zur Verfügung, um für jede Klasse eine 2-dimensionale Normalverteilung für die gemeinsame Verteilung der beiden Inputs anzupassen. Diese drei Normalverteilungen sind in der Grafik durch die Höhenlinien angedeutet. Da alle drei Klassen in etwa gleich häufig vorkommen, kann ein neuer Datenpunkt (x,y) derjenigen Klasse zugewiesen werden, deren Dichtefunktion an der Stelle (x,y) den höchsten Wert aufweist. Dieses Vorgehen wird gut funktionieren und aufgrund der genügend großen Anzahl von Beobachtungen pro Klasse stabile Ergebnisse liefern.

Verändern wir nun aber einmal die Annahmen dahingehend, dass sie eher den Realitäten entsprechen. Der Experte hat natürlich nicht Zeit und Interesse, jedes der 1000 Objekte genauestens zu untersuchen und zu klassifizieren. Er lässt sich aber immerhin über einen angemessenen finanziellen Anreiz überreden, wenigstens eine Folge von zufällig ausgewählten Objekten genauer zu betrachten, bis jede Klasse mit mindestens zwei Beispielen vertreten ist. Insgesamt ergeben sich für ihn Untersuchungen an sieben Objekten.

Da die Attribute X und Y automatisch gemessen wurden, liegen diese weiterhin für alle 1000 Objekte vor. Es ergibt sich dann folgendes Bild:

7 Objekte mit ihrer Klassenzuordnung, 993 ohne

Nehmen wir nun an, dass pro Klasse weiterhin eine 2-dimensionale Normalverteilung angepasst werden soll und dass – beispielsweise aus theoretischen Überlegungen – die Kovarianzmatrix bekannt und für alle drei Verteilungen identisch ist. Das Anpassen einer Normalverteilung bedeutet dann nur noch die Festlegung des Erwartungswertvektors.

Würde man nun nur die zwei bzw. drei Beobachtungen verwenden, die pro Klasse gegeben sind, sollte klar sein, dass der Mittelwert der Inputs als Schätzer der Erwartung bei dieser geringen Anzahl stark schwanken wird. In der obigen Grafik sind die – allerdings nur uns bekannten – wahren Erwartungen als Kreuz eingezeichnet. Während der Mittelwert der beiden grünen Beobachtungen noch relativ dicht am Erwartungswert liegt, liegen beispielsweise die beiden schwarzen Beobachtungen doch schon sehr weit vom Erwartungswertkreuz entfernt.

Verfahren des sogenannten Semi-Supervised Learning bauen nun auch die 993 Beobachtungen ohne Label in die Modellierung ein. Wenn angenommen werden kann, dass jede Klasse durch eine 2-dimensionale Normalverteilung approximiert werden kann, deren Kovarianzmatrix hier als bekannt vorausgesetzt wird, dann helfen auch die ungelabelten Beobachtungen bei der Bestimmung der Lage dieser Verteilungen.

Wir betrachten einmal das folgende Gedankenexperiment, um besser verstehen zu können, warum auch ungelabelte Beobachtungen bei der Klassifikation helfen können.

Dazu ignorieren wir die Label zunächst völlig. Wir können dann über ein Gaussian-Mixture-Modell (wir hatten diese Art von Modellen bereits im Blog Der Mix macht’s zum Thema) die Dichte der Beobachtungen approximieren.

Jede Beobachtung wird im Rahmen dieses Ansatzes als Ergebnis eines zweistufigen Prozesse interpretiert. Zunächst wird eine von drei Normalverteilungen zufällig ausgewählt und dann wird mit der ausgewählten Verteilung eine Beobachtung generiert. Da wir die Kovarianzmatrix als bekannt voraussetzen, müssen nun geeignete Werte der Erwartungen und der Auswahlwahrscheinlichkeiten für jede Normalverteilung geschätzt werden. Hierzu lässt sich der EM-Algorithmus einsetzen.

Als Resultat ergeben sich dann mit wachsender Stichprobengröße sehr gute Näherungen der Auswahlwahrscheinlichkeiten und der Erwartungswertvektoren. Wenn die Annahmen stimmen (“A: Es gibt drei Klassen”, “B: Jede Klasse kann durch eine Normalverteilung repräsentiert werden”, “C: Die Kovarianzmatrizen sind identisch und bekannt”, “D: Die Erwartungen unterscheiden sich”), dann erzeugt das Gaussian-Mixture-Modell ein getreues Abbild der Generierung der Daten. Hier mit den 1000 Beobachtungen werden folgende Normalverteilungen angepasst:

Angepasstes Gaussian-Mixture-Modell

Der einzige Haken ist, dass man noch nicht weiß, welche Normalverteilung welcher Klasse zugeordnet werden muss!

Es gibt nun 3! = 6 mögliche Zuordnungen von Normalverteilungen und Klassen. Für die Plausibilität einer Zuordnung sind nur die gelabelten sieben Fälle entscheidend. Es lässt sich leicht berechnen, dass die folgende Zuordnung die geschätzte Wahrscheinlichkeit maximiert, die gelabelten 7 Werte mit der angegebenen Klasse zu beobachten:

Nahezu perfekt angepasstes Gaussian-Mixture-Modell

Diese Zuordnung wird über numerische Betrachtung der Likelihood ermittelt, kann aber auch qualitativ begründet werden:

Dass die sich unten rechts befindliche Normalverteilung der roten Klasse zugeordnet wird, ist relativ zwingend, da die drei roten Fälle ziemlich weit von den beiden linken Verteilungen entfernt sind. Die beiden schwarzen Fälle hätten noch von beiden sich links befindlichen Verteilungen erzeugt werden können und helfen somit nur bedingt, die Zuordnung zu den Klassen Grün und Schwarz zu entscheiden. Wichtiger ist hier die Lage der beiden grünen Fälle und hier vor allem die Position des oberen Punktes, der nur mit sehr kleiner Wahrscheinlichkeit von der Verteilung unten links erzeugt werden kann.

Dieses erhaltene Modell ist sehr nahe an dem Modell, das in der ersten Grafik bei Vorhandensein aller Klassenlabel angepasst wurde.

Das Beispiel zeigt somit, dass es prinzipiell möglich sein kann, teuer einzukaufende Expertise durch billige Massenerhebung zu ersetzen – wenn die Annahmen stimmen! Natürlich kann man auch Pech haben, dass die zufällig ausgewählten, vom Experten zu klassifizierenden Beispiele atypische Vertreter ihrer Klasse darstellen und somit möglicherweise den drei Klassen nicht die eigentlich entsprechenden Normalverteilungen zugeordnet werden.

Kleinere Anzahlen gelabelter Fälle reichen aus, wenn die Normalverteilungen wenig Überlappung zeigen. Liegen die Normalverteilungen extrem weit auseinander, könnte bereits ein gelabelter Fall pro Klasse die korrekte Zuordnung ermöglichen.

Andererseits werden aber auch umso mehr gelabelte Fälle benötigt, je ähnlicher sich die Normalverteilungen sind. Auch wenn die hier im gegebenen Beispiel zu Demonstrationszwecken gewählte Anzahl von sieben klassifizierten Fällen möglicherweise noch recht häufig zu Fehlzuordnungen der Klassen führen könnte, sollte jedoch eine relativ geringe Anzahl von gelabelten Fällen ausreichen, um die Wahrscheinlichkeit einer falschen Zuordnung vernachlässigbar klein zu halten.

Sonntag, 1. Mai 2016

Gaussian Mixture Model Klassifizierung Predictive Analytics Semi-Supervised Learning

Veranstaltungs-Tipp

On-Demand-Webinar 29. April 2025 Webinar: Berichtserstellung mit DeltaMaster

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Anmeldung

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

On-Demand-Webinar 7. Mai 2025 Webinar: Reporting mit DeltaMaster

DeltaMaster-Berichte geben Signale, die unmissverständlich zeigen, wo gehandelt werden muss. Im Webinar zeigen wir Ihnen die drei leistungsfähigsten Methoden für die interaktive Ad-hoc-Analyse von [...]

Anmeldung

On-Demand-Webinar 13. Mai 2025 Webinar: Business-Intelligence-Anwendungen mit DeltaMaster Repository verwalten

Das Repository ist die zentrale Komponente zur datenbankgestützten Bereitstellung von DeltaMaster-Anwendungen. Wie Sie hier Benutzergruppen, Rollen, Berechtigungen und Anwendungen verwalten, erfahren [...]

Anmeldung

Über den Autor

Dr. Achim Lewandowski

ist zu Hause in der Grundlagen- und Anwendungsforschung von Bissantz & Company.

Letzte Blogartikel

Forschung Kaltmieten in Deutschland

Kaltmieten bzw. Mieten im Allgemeinen sind in den letzten Jahren stetig gestiegen und stellen für viele Mieter den größten Posten der monatlichen [...]

mehr erfahren

Forschung Achsenelemente als Filter an Zielbericht zuweisen

Achsenelemente können mit dem neuesten Release von DeltaMaster in ihrer Gesamtheit als Filter an einen Zielbericht zugewiesen werden. Wir erklären [...]

mehr erfahren

Forschung Leistungsausgaben der gesetzlichen Krankenversicherung

Die Leistungsausgaben der gesetzlichen Krankenkassen steigen von Jahr zu Jahr. Als Folge haben im Januar 2025 etliche Krankenkassen erneut die [...]

mehr erfahren

Forschung Analyse von Verteilungen

Die Beschreibung von Verteilungen geht oft über die Angabe von Mittelwert und Standardabweichung hinaus. Wir erläutern, was sich bei den hierfür [...]

mehr erfahren

Forschung Personenverkehr mit Bussen und Bahnen in der DeltaApp

Für den Personenverkehr spielen Busse und Bahnen eine wichtige Rolle. Das Statistische Bundesamt stellt hierzu interessante Daten zur Verfügung [...]

mehr erfahren

Data Warehousing Unternehmensplanung und -konsolidierung auf Basis der Bissantz ERP Solutions

Dieser Beitrag erläutert, wie sich Prozesse der integrierten Unternehmensplanung und der Unternehmenskonsolidierung strukturiert gestalten [...]

mehr erfahren

Data Warehousing Partitionierung von Bewegungsdaten

Die Aktualisierung von Bewegungsdaten nimmt während der täglichen Aufbereitung einer SQL-Datenbank in der Regel den Großteil der benötigten [...]

mehr erfahren

Data Warehousing Arbeitstagkalender

Zur Berechnung von Kennzahlen, die von der genauen Anzahl der Arbeitstage abhängen, ist es notwendig, diese im Modell korrekt abzubilden. Die [...]

mehr erfahren

Bissantz News The BI & Analytics Survey 25: Platz 1 für Bissantz in Selfservice, Mobile BI und zahlreichen weiteren Kriterien

Im BI & Analytics Survey 25 von BARC liegt Bissantz auf Platz eins in den Vergleichsgruppen Selfservice BI, Mobile BI und zahlreichen weiteren [...]

mehr erfahren

Forschung Reisegebiete mit Ankünften und Übernachtungen

Reisegebiete in Deutschland üben sowohl auf inländische als auch auf ausländische Touristen wieder ansteigende Anziehungskraft aus. Wie sieht [...]

mehr erfahren

Vorheriger Artikel

Strategie: Das haben wir schon immer so gemacht!

Nächster Artikel

Klassifikation: Zusammen sind wir stark

Lernen: Hilfreiches Halbwissen

Veranstaltungs-Tipp

Über den Autor

Schlagwörter

Letzte Blogartikel

Mehr aus Forschung.

Nicolas Bissantz

Diagramme im Management