Named Entity Recognition: Eigennamen identifizieren und katalogisieren
Named Entity Recognition (NER) ist eine Teildisziplin der Computerlinguistik, die dazu dient, benannte Entitäten (Eigennamen) in einem Text zu identifizieren und anhand bestimmter Parameter zu katalogisieren. Insbesondere im Bereich des Machine Learnings spielt die Technik eine sehr wichtige Rolle.
Was ist Named Entity Recognition (NER)?
Bei der Named Entity Recognition (kurz NER) handelt es sich um eine Disziplin der Computerlinguistik, die Eigennamen in Texten identifiziert und automatisch bestimmten Kategorien zuordnet. Die Aufgabe wird deshalb auch als Eigennamenerkennung bezeichnet. Als Eigennamen bzw. benannte Entitäten gelten einzelne Worte oder Abfolgen von mehreren Worten, die eine real existierende Entität beschreiben. Dabei kann es sich zum Beispiel um eine Person, eine Firma, eine Behörde, ein Ereignis, einen Ort, ein bestimmtes Produkt oder auch um eine Datumsangabe handeln.
Die Disziplin wird auch im Bereich des Machine Learnings und der künstlichen Intelligenz angewendet und stammt aus dem Umfeld des Natural Language Processings (NLP), bei dem natürliche Sprache mit Algorithmen, Computern und festen Regeln kategorisiert und verarbeitet werden soll. Durch stetige Weiterentwicklung kann Named Entity Recognition in vielen Sprachen mittlerweile überzeugende Erfolgsquoten aufweisen und ist von der Identifizierung durch einen Menschen kaum noch zu unterscheiden.
- In Sekunden zur Online-Präsenz
- Mehr Wachstum mit KI-Marketing
- Zeit und Ressourcen sparen
Wie funktioniert Named Entity Recognition?
Es gibt verschiedene Verfahren für Named Entity Recognition, auf die wir im weiteren Verlauf dieses Artikels noch näher eingehen. Grundsätzlich gibt es allerdings bei jeder Methode zwei wichtige Arbeitsschritte, die für den Erfolg der Aktion besonders wichtig sind.
Identifizierung der Eigennamen
Dies beinhaltet zuerst die eigentliche Identifizierung einer oder mehrerer benannter Entitäten. Dabei handelt es sich nicht nur um typische Eigennamen wie „Peter Schulz“. Auch Begriffe wie „Chiemsee“, „Zweiter Weltkrieg“, „Porsche“, „Westerwald“, „Jurassic Park“ oder „12. Oktober 1986“ gelten als benannte Entitäten und können dementsprechend von der Named Entity Recognition erfasst werden. Nachdem diese Eigennamen als solche identifiziert wurden, werden ihr Anfang und ihr Ende markiert. So kann ein System sie innerhalb eines natürlichen Textes erkennen.
Kategorisierung der benannten Entitäten
Nach der Identifizierung werden die markierten Eigennamen definierten Kategorien zugeordnet. Dazu zählen unter anderem Personenbezeichnungen, Orte, historische Ereignisse, Unternehmen, Behörden, Produkte, Datumsangaben oder bestimmte Medientitel und Kunstwerke. Dabei ist es wichtig, dass die Named Entity Recognition zum Beispiel Varianten einer Entität erkennt und die vorher etablierten Anfangs- und Endpunkte zutreffend sind.
Welche NER-Verfahren gibt es?
Während die beiden Arbeitsschritte bei der Named Entity Recognition immer durchgeführt werden müssen, gibt es verschiedene Verfahren und Methoden, um die gewünschten Ergebnisse zu erzielen. Wir stellen Ihnen die vier gängigsten und damit auch erfolgreichsten Ansätze vor.
Analyse mit Wörterbüchern
Bei der wahrscheinlich simpelsten Methode werden die Entitäten mit unterschiedlichen Wörterbüchern verglichen. Sobald es eine Übereinstimmung zwischen Wort oder Wortfolge mit einem Eigennamen in einem Wörterbuch gibt, erfolgt eine Markierung als benannte Entität und danach die Einordnung in die entsprechende Kategorie.
Regelbasierte Named Entity Recognition
Auch definierte Regeln können als Basis für Named Entity Recognition genutzt werden. Dafür werden Muster erarbeitet, die mit den vorliegenden Texten abgeglichen werden. Bei Übereinstimmungen werden die Entitäten identifiziert und kategorisiert. Das regelbasierte Verfahren eignet sich vor allem für bestimmte Fachtexte und nicht für den flächendeckenden Einsatz.
Machine Learning und KI
Die besten Ergebnisse erzielen Verfahren, bei denen Machine Learning oder KI als Grundlage genutzt werden. Dafür werden Datensätze herangezogen, mit denen die entsprechenden Systeme trainiert werden. Insbesondere die Erkennung statistischer Zusammenhänge spielt hierbei eine große Rolle. Ist das Training abgeschlossen, kann die KI unbekannte Texte durchforsten, Eigennamen erkennen und diese einer Kategorie zuordnen. Hierbei gilt: Je umfangreicher und ausgewogener die Trainingsdaten, desto besser die späteren Ergebnisse.
Hybrid aus regelbasierter und KI-gestützter NER
Für sehr gute Resultate kann auch ein Hybrid-Ansatz von regelbasierter und KI-gestützter Named Entity Recognition sorgen. Dabei werden einfache Eigennamen durch den Regelkatalog identifiziert und komplexere Entitäten lassen sich durch die Künstliche Intelligenz finden und katalogisieren.
- 100 % DSGVO-konform und sicher in Deutschland gehostet
- Die leistungsstärksten KI-Modelle auf einer Plattform
- Kein Vendor Lock-in durch Open Source
Welche Anwendungsgebiete hat NER?
Es gibt zahlreiche tatsächliche oder in Zukunft denkbare Anwendungsgebiete für die Named Entity Recognition. Dies sind einige der wichtigsten:
- Sentimentanalyse: Die Named Entity Recognition wird bereits eingesetzt, um Kundenfeedback und Trends auszuwerten. Dafür identifiziert die KI zum Beispiel Markennennungen, Meinungen zu Produkten oder andere Reaktionen.
- Business Intelligence: Die NER wird genutzt, um unstrukturierte Texte in strukturierte Daten umzuwandeln. Dies kann im Bereich der Informationsgewinnung eingesetzt werden und hilft bei der Analyse von Finanzdokumenten.
- Datenannotation: Durch Datenannotation können verbesserte Modelle für Textübersetzungen, - klassifizierungen und -analysen entwickelt und trainiert werden. Die Named Entity Recognition spielt dabei eine wichtige Rolle.
- Digitale Assistenz: Named Entity Recognition eignet sich für Services wie Chatbots oder andere digitale Assistenten. Hierbei wertet sie Anfragen von Benutzerinnen und Benutzern aus und kann auf dieser Basis passgenaue Antwortoptionen liefern.
- Verschlagwortung: Die Methode wird genutzt, um zum Beispiel aus unterschiedlichen Artikeln Personen oder Orte zu filtern und diese dann als Meta-Information zu hinterlegen.
- Suchmaschinen: Durch die Methode werden Suchalgorithmen ausgewertet und verbessert. So können Suchmaschinen noch relevantere Ergebnisse zur Verfügung stellen.
- Neuronale Netzwerke: Im Bereich Long Short-Term Memory (LSTM) und bei vergleichbaren Techniken findet auch NER Verwendung.
Welche Probleme gibt es für die Named Entity Recognition?
Auch wenn sich die Named Entity Recognition rasant weiterentwickelt und bereits beeindruckende Ergebnisse erzielen kann, gibt es auch noch einige Herausforderungen in Bezug auf die Technik. Insbesondere die Adaption trainierter Modelle auf Fachtexte führt nicht immer zu den gewünschten Resultaten. Das gilt vor allem dann, wenn die Daten für das Transfer Learning nicht ausreichend oder spezifisch genug sind. Durch neue Entitäten müssen Modelle häufig auf zu geringe Datenmengen zugreifen. Eine mögliche Lösung bieten Zero-Shot- oder Few-Shot-Ansätze, bei denen auch mit einem geringeren Datenvolumen gearbeitet werden kann.