Semi-Supervised Learning: Halbüberwachtes Lernen erklärt
Beim Semi-Supervised Learning wird ein Modell sowohl mit beschrifteten als auch mit unbeschrifteten Daten trainiert. Dabei lernt der Algorithmus mithilfe weniger gelabelter Datenpunkte, Muster in den Dateninstanzen ohne bekannte Zielvariable zu erkennen, was zu einer präziseren und effizienteren Modellbildung führt.
Was bedeutet Semi-Supervised Learning?
Semi-Supervised Learning – im Deutschen als teil- oder halbüberwachtes Lernen bezeichnet – ist ein hybrider Ansatz im Bereich des maschinellen Lernens, der die Stärken des überwachten Lernens mit denen des unüberwachten Lernens kombiniert. Bei diesem Verfahren wird eine kleine Menge gekennzeichneter Daten zusammen mit einer großen Menge nicht markierter Daten verwendet, um KI-Modelle zu trainieren. Dies ermöglicht es dem Algorithmus, Muster in den nicht gekennzeichneten Datensätzen zu erkennen, welche durch die gelabelten Daten gestützt werden. Durch diesen kombinierten Lernprozess versteht das Modell die Struktur der unbeschrifteten Daten besser, was zu genaueren Vorhersagen führt.
- In Sekunden zur Online-Präsenz
- Mehr Wachstum mit KI-Marketing
- Zeit und Ressourcen sparen
Prämissen beim Semi-Supervised Learning
Für Semi-Supervised Learning konzipierte Algorithmen gehen von verschiedenen Grundannahmen über das Datenmaterial aus:
- Kontinuitätsannahme: Näher beieinander liegende Punkte haben mit höherer Wahrscheinlichkeit die gleiche Ausgabebezeichnung.
- Clusterannahme: Die Daten lassen sich in diskrete Cluster unterteilen und im selben Cluster eingeordnete Punkte besitzen mit einer höheren Chance dasselbe Ausgangslabel.
- Manifold-Annahme: Die Daten liegen näherungsweise auf einer Mannigfaltigkeit (Ansammlung von Punkten, die miteinander in Verbindung stehen), die eine geringere Dimension als der Eingaberaum aufweist. Aufgrund dieser Prämisse besteht die Möglichkeit, Abstände und Dichten zu verwenden.
Was ist der Unterschied zu Supervised und Unsupervised Learning?
Sowohl bei Supervised und Unsupervised Learning als auch bei Semi-Supervised Learning handelt es sich um grundlegende Ansätze im Machine Learning. Allerdings setzt jedes der Lernverfahren auf eine eigene Vorgehensweise, um KI-Modelle zu trainieren. Die nachfolgende Übersicht zeigt auf, worin sich Semi-Supervised Learning von den traditionellen Verfahren unterscheidet:
- Supervised Learning – im Deutschen „überwachtes Lernen” – zeichnet sich dadurch aus, dass lediglich gelabelte Daten verwendet werden. Das bedeutet, jedes Datenbeispiel besitzt eine bekannte Zielvariable beziehungsweise Lösung, die der Algorithmus voraussagen soll. Dieser Machine-Learning-Ansatz gilt als sehr präzise, erfordert jedoch große Mengen an markierten Daten, deren Beschaffung oftmals teuer und zeitaufwendig ist.
- Unsupervised Learning – im Deutschen „unüberwachtes Lernen” – arbeitet hingegen ausschließlich mit unstrukturierten Daten. Der Algorithmus versucht, in den Daten Muster oder Strukturen auszumachen, ohne dass eine Lösung vorgegeben wird. Unsupervised Learning bietet sich an, wenn keine gelabelten Daten zur Verfügung stehen, ist aufgrund fehlender externer Referenzpunkte jedoch möglicherweise in seiner Genauigkeit und Vorhersagekraft eingeschränkt.
- Semi-Supervised Learning vereinigt beide Ansätze, indem es eine geringe Anzahl gelabelter Daten verwendet, um die Struktur einer großen unbeschrifteten Datenmenge zu durchblicken. Halbüberwachte Lerntechniken modifizieren einen überwachten Algorithmus, um nicht markierte Daten in das Modell zu integrieren. So lässt sich mit verhältnismäßig geringem Labeling-Aufwand eine hohe Präzision von Vorhersagen erzielen.
Mithilfe eines praktischen Beispiels lassen sich die Unterschiede zwischen den einzelnen Machine-Learning-Verfahren noch besser illustrieren. Bezogen auf Schulkinder ist folgende Analogie möglich: Überwachtes Lernen bedeutet, dass die Schülerinnen und Schüler sowohl in der Schule als auch zuhause unter Aufsicht stehen. Haben die Kinder die Aufgabe, sich in Eigenregie Wissen anzueignen, handelt es sich um unüberwachtes Lernen. Wird dagegen ein Konzept im Unterricht erläutert und mit Hausaufgaben vertieft, liegt halbüberwachtes Lernen vor.
In unserem Guide „Was ist Generative AI?” erläutern wir im Detail, worum es sich bei generativer KI handelt.
Wie funktioniert Semi-Supervised Learning?
Semi-Supervised Learning ist ein mehrstufiger Prozess, der folgende Schritte beinhaltet:
- Ziel- oder Problemdefinition: Zunächst ist es erforderlich, die Ziele beziehungsweise den Einsatzzweck des Machine-Learning-Modells klar zu definieren. Im Fokus steht dabei die Frage, welche Optimierungen durch maschinelles Lernen angestrebt werden.
- Daten-Labeling: Einige der unstrukturierten Daten werden gelabelt, um dem Lernalgorithmus eine Orientierungshilfe bereitzustellen. Damit Semi-Supervised Learning funktioniert, besteht die Notwendigkeit, für das Modelltraining relevante Daten zu verwenden. Wird ein Bildklassifikator beispielsweise darauf trainiert, zwischen Hunden und Katzen zu differenzieren, erweisen sich Trainingsbilder mit Autos und Zügen nicht als zielführend.
- Modelltraining: In einem nächsten Schritt kommen die strukturierten Daten zum Einsatz, um dem Modell beizubringen, was seine Aufgabe ist und welche Ergebnisse angestrebt werden.
- Training mit unbeschrifteten Daten: Nachdem das Modell mit Trainingsdaten geübt hat, erfolgt die Integration der nicht gelabelten Daten.
- Auswertung und Modellverfeinerung: Um zu gewährleisten, dass das erstellte Modell korrekt arbeitet, sind Auswertungen und Modellanpassungen unerlässlich. Das Training trägt zu kontinuierlichen Verbesserungen bei. Der Prozess wird so lange durchlaufen, bis der Algorithmus die gewünschte Ergebnisqualität erreicht hat.
Welche Vorteile bietet Semi-Supervised Learning?
Teilüberwachtes Lernen bietet vor allem dann großen Nutzen, wenn viele unbeschrifteten Daten bereitstehen und es sich als zu teuer oder schwierig erweist, sämtliche oder einen Großteil der Daten zu markieren. Dieser Umstand ist von Bedeutung, da das Training von KI-Modellen klassischerweise eine Vielzahl beschrifteter Daten benötigt, die den erforderlichen Kontext liefern. Damit es einem Bildklassifizierungsmodell gelingt, zwei Objekte – etwa einen Tisch und einen Stuhl – zu unterscheiden, sind bereits hunderte oder sogar tausende markierte Trainingsbilder notwendig. Dazu kommt noch, dass die Beschriftung der Daten – etwa im Bereich der genetischen Sequenzierung – spezifisches Fachwissen erfordert.
Mittels Semi-Supervised Learning lässt sich trotz einer niedrigen Anzahl an beschrifteten Daten eine hohe Genauigkeit erzielen, denn die gelabelten Datensätze werten nicht gekennzeichnete Datenmengen auf. Die strukturierten Daten fungieren als Starthilfe, welche die Lerngeschwindigkeit und Genauigkeit im Optimalfall signifikant erhöhen. Damit ermöglicht es der Ansatz, das Maximum aus einer begrenzten Menge an beschrifteten Daten herauszuholen und gleichzeitig eine Vielzahl unbeschrifteter Daten zu verwenden, was zu einer höheren Kosteneffizienz beiträgt.
Semi-Supervised Learning bringt natürlich auch Herausforderungen und Limitierungen mit sich: Sind beispielsweise die anfänglich gelabelten Daten fehlerhaft, kann dies zu falschen Schlussfolgerungen führen und die Qualität des Modells negativ beeinflussen. Zudem kann das Modell schnell voreingenommen werden, wenn die gelabelten und die nicht gelabelten Daten nicht repräsentativ für die Gesamtverteilung sind.
Was sind die wichtigsten Anwendungsgebiete für Semi-Supervised Learning?
Mittlerweile wird Semi-Supervised Learning in unterschiedlichen Kontexten verwendet, doch als Klassiker gelten immer noch Klassifizierungsaufgaben. Die nachfolgende Übersicht fasst wichtige Anwendungsgebiete zusammen:
- Klassifizierung von Webinhalten: Suchmaschinen wie Google verwenden halbüberwachtes Lernen, um einzuschätzen, wie relevant Webseiten für bestimmte Suchanfragen sind.
- Text- und Bildklassifizierung: Hier ist es das Ziel, vorgegebene Texte oder Bilder in eine oder mehrere vordefinierte Kategorien einzusortieren. Semi-Supervised Learning eignet sich sehr gut dafür, da eine große Menge an unmarkierten Daten existiert und das Labeln aller Datensätze viel zu zeit- und kostenintensiv wäre.
- Sprachanalyse: Die Kennzeichnung von Audiodateien erweist sich ebenfalls als sehr aufwendig. Semi-Supervised Learning bietet einen natürlichen Ansatz, um dieses Problem zu lösen.
- Analyse von Proteinsequenzen: Aufgrund der Größe von DNA-Strängen bietet sich halbüberwachtes Lernen ideal für die Analyse von Proteinsequenzen an.
- Anomalie-Erkennung: Mithilfe von Semi-Supervised Learning lassen sich ungewöhnliche Muster erkennen, die nicht der Norm entsprechen.
- 100 % DSGVO-konform und sicher in Deutschland gehostet
- Die leistungsstärksten KI-Modelle auf einer Plattform
- Kein Vendor Lock-in durch Open Source