Named Entity Re­co­gni­ti­on (NER) ist eine Teil­dis­zi­plin der Com­pu­ter­lin­gu­is­tik, die dazu dient, benannte Entitäten (Ei­gen­na­men) in einem Text zu iden­ti­fi­zie­ren und anhand be­stimm­ter Parameter zu ka­ta­lo­gi­sie­ren. Ins­be­son­de­re im Bereich des Machine Learnings spielt die Technik eine sehr wichtige Rolle.

Was ist Named Entity Re­co­gni­ti­on (NER)?

Bei der Named Entity Re­co­gni­ti­on (kurz NER) handelt es sich um eine Disziplin der Com­pu­ter­lin­gu­is­tik, die Ei­gen­na­men in Texten iden­ti­fi­ziert und au­to­ma­tisch be­stimm­ten Ka­te­go­rien zuordnet. Die Aufgabe wird deshalb auch als Ei­gen­na­men­er­ken­nung be­zeich­net. Als Ei­gen­na­men bzw. benannte Entitäten gelten einzelne Worte oder Abfolgen von mehreren Worten, die eine real exis­tie­ren­de Entität be­schrei­ben. Dabei kann es sich zum Beispiel um eine Person, eine Firma, eine Behörde, ein Ereignis, einen Ort, ein be­stimm­tes Produkt oder auch um eine Da­tums­an­ga­be handeln.

Die Disziplin wird auch im Bereich des Machine Learnings und der künst­li­chen In­tel­li­genz an­ge­wen­det und stammt aus dem Umfeld des Natural Language Pro­ces­sings (NLP), bei dem na­tür­li­che Sprache mit Al­go­rith­men, Computern und festen Regeln ka­te­go­ri­siert und ver­ar­bei­tet werden soll. Durch stetige Wei­ter­ent­wick­lung kann Named Entity Re­co­gni­ti­on in vielen Sprachen mitt­ler­wei­le über­zeu­gen­de Er­folgs­quo­ten aufweisen und ist von der Iden­ti­fi­zie­rung durch einen Menschen kaum noch zu un­ter­schei­den.

KI-Lösungen
Mehr Digital-Power dank Künst­li­cher In­tel­li­genz
  • In Sekunden zur Online-Präsenz
  • Mehr Wachstum mit KI-Marketing
  • Zeit und Res­sour­cen sparen

Wie funk­tio­niert Named Entity Re­co­gni­ti­on?

Es gibt ver­schie­de­ne Verfahren für Named Entity Re­co­gni­ti­on, auf die wir im weiteren Verlauf dieses Artikels noch näher eingehen. Grund­sätz­lich gibt es al­ler­dings bei jeder Methode zwei wichtige Ar­beits­schrit­te, die für den Erfolg der Aktion besonders wichtig sind.

Iden­ti­fi­zie­rung der Ei­gen­na­men

Dies be­inhal­tet zuerst die ei­gent­li­che Iden­ti­fi­zie­rung einer oder mehrerer benannter Entitäten. Dabei handelt es sich nicht nur um typische Ei­gen­na­men wie „Peter Schulz“. Auch Begriffe wie „Chiemsee“, „Zweiter Weltkrieg“, „Porsche“, „Wes­ter­wald“, „Jurassic Park“ oder „12. Oktober 1986“ gelten als benannte Entitäten und können dem­entspre­chend von der Named Entity Re­co­gni­ti­on erfasst werden. Nachdem diese Ei­gen­na­men als solche iden­ti­fi­ziert wurden, werden ihr Anfang und ihr Ende markiert. So kann ein System sie innerhalb eines na­tür­li­chen Textes erkennen.

Ka­te­go­ri­sie­rung der benannten Entitäten

Nach der Iden­ti­fi­zie­rung werden die mar­kier­ten Ei­gen­na­men de­fi­nier­ten Ka­te­go­rien zu­ge­ord­net. Dazu zählen unter anderem Per­so­nen­be­zeich­nun­gen, Orte, his­to­ri­sche Er­eig­nis­se, Un­ter­neh­men, Behörden, Produkte, Da­tums­an­ga­ben oder bestimmte Me­di­en­ti­tel und Kunst­wer­ke. Dabei ist es wichtig, dass die Named Entity Re­co­gni­ti­on zum Beispiel Varianten einer Entität erkennt und die vorher eta­blier­ten Anfangs- und Endpunkte zu­tref­fend sind.

Welche NER-Verfahren gibt es?

Während die beiden Ar­beits­schrit­te bei der Named Entity Re­co­gni­ti­on immer durch­ge­führt werden müssen, gibt es ver­schie­de­ne Verfahren und Methoden, um die ge­wünsch­ten Er­geb­nis­se zu erzielen. Wir stellen Ihnen die vier gän­gigs­ten und damit auch er­folg­reichs­ten Ansätze vor.

Analyse mit Wör­ter­bü­chern

Bei der wahr­schein­lich sim­pels­ten Methode werden die Entitäten mit un­ter­schied­li­chen Wör­ter­bü­chern ver­gli­chen. Sobald es eine Über­ein­stim­mung zwischen Wort oder Wortfolge mit einem Ei­gen­na­men in einem Wör­ter­buch gibt, erfolgt eine Mar­kie­rung als benannte Entität und danach die Ein­ord­nung in die ent­spre­chen­de Kategorie.

Re­gel­ba­sier­te Named Entity Re­co­gni­ti­on

Auch de­fi­nier­te Regeln können als Basis für Named Entity Re­co­gni­ti­on genutzt werden. Dafür werden Muster er­ar­bei­tet, die mit den vor­lie­gen­den Texten ab­ge­gli­chen werden. Bei Über­ein­stim­mun­gen werden die Entitäten iden­ti­fi­ziert und ka­te­go­ri­siert. Das re­gel­ba­sier­te Verfahren eignet sich vor allem für bestimmte Fachtexte und nicht für den flä­chen­de­cken­den Einsatz.

Machine Learning und KI

Die besten Er­geb­nis­se erzielen Verfahren, bei denen Machine Learning oder KI als Grundlage genutzt werden. Dafür werden Da­ten­sät­ze her­an­ge­zo­gen, mit denen die ent­spre­chen­den Systeme trainiert werden. Ins­be­son­de­re die Erkennung sta­tis­ti­scher Zu­sam­men­hän­ge spielt hierbei eine große Rolle. Ist das Training ab­ge­schlos­sen, kann die KI un­be­kann­te Texte durch­fors­ten, Ei­gen­na­men erkennen und diese einer Kategorie zuordnen. Hierbei gilt: Je um­fang­rei­cher und aus­ge­wo­ge­ner die Trai­nings­da­ten, desto besser die späteren Er­geb­nis­se.

Hybrid aus re­gel­ba­sier­ter und KI-ge­stütz­ter NER

Für sehr gute Resultate kann auch ein Hybrid-Ansatz von re­gel­ba­sier­ter und KI-ge­stütz­ter Named Entity Re­co­gni­ti­on sorgen. Dabei werden einfache Ei­gen­na­men durch den Re­gel­ka­ta­log iden­ti­fi­ziert und kom­ple­xe­re Entitäten lassen sich durch die Künst­li­che In­tel­li­genz finden und ka­ta­lo­gi­sie­ren.

IONOS AI Model Hub
Erste deutsche, mul­ti­mo­da­le KI-Plattform
  • 100 % DSGVO-konform und sicher in Deutsch­land gehostet
  • Die leis­tungs­stärks­ten KI-Modelle auf einer Plattform
  • Kein Vendor Lock-in durch Open Source

Welche An­wen­dungs­ge­bie­te hat NER?

Es gibt zahl­rei­che tat­säch­li­che oder in Zukunft denkbare An­wen­dungs­ge­bie­te für die Named Entity Re­co­gni­ti­on. Dies sind einige der wich­tigs­ten:

  • Sen­ti­ment­ana­ly­se: Die Named Entity Re­co­gni­ti­on wird bereits ein­ge­setzt, um Kun­den­feed­back und Trends aus­zu­wer­ten. Dafür iden­ti­fi­ziert die KI zum Beispiel Mar­ken­nen­nun­gen, Meinungen zu Produkten oder andere Re­ak­tio­nen.
  • Business In­tel­li­gence: Die NER wird genutzt, um un­struk­tu­rier­te Texte in struk­tu­rier­te Daten um­zu­wan­deln. Dies kann im Bereich der In­for­ma­ti­ons­ge­win­nung ein­ge­setzt werden und hilft bei der Analyse von Fi­nanz­do­ku­men­ten.
  • Da­ten­an­no­ta­ti­on: Durch Da­ten­an­no­ta­ti­on können ver­bes­ser­te Modelle für Text­über­set­zun­gen, - klas­si­fi­zie­run­gen und -analysen ent­wi­ckelt und trainiert werden. Die Named Entity Re­co­gni­ti­on spielt dabei eine wichtige Rolle.
  • Digitale Assistenz: Named Entity Re­co­gni­ti­on eignet sich für Services wie Chatbots oder andere digitale As­sis­ten­ten. Hierbei wertet sie Anfragen von Be­nut­ze­rin­nen und Benutzern aus und kann auf dieser Basis pass­ge­naue Ant­wort­op­tio­nen liefern.
  • Ver­schlag­wor­tung: Die Methode wird genutzt, um zum Beispiel aus un­ter­schied­li­chen Artikeln Personen oder Orte zu filtern und diese dann als Meta-In­for­ma­ti­on zu hin­ter­le­gen.
  • Such­ma­schi­nen: Durch die Methode werden Such­al­go­rith­men aus­ge­wer­tet und ver­bes­sert. So können Such­ma­schi­nen noch re­le­van­te­re Er­geb­nis­se zur Verfügung stellen.
  • Neuronale Netzwerke: Im Bereich Long Short-Term Memory (LSTM) und bei ver­gleich­ba­ren Techniken findet auch NER Ver­wen­dung.

Welche Probleme gibt es für die Named Entity Re­co­gni­ti­on?

Auch wenn sich die Named Entity Re­co­gni­ti­on rasant wei­ter­ent­wi­ckelt und bereits be­ein­dru­cken­de Er­geb­nis­se erzielen kann, gibt es auch noch einige Her­aus­for­de­run­gen in Bezug auf die Technik. Ins­be­son­de­re die Adaption trai­nier­ter Modelle auf Fachtexte führt nicht immer zu den ge­wünsch­ten Re­sul­ta­ten. Das gilt vor allem dann, wenn die Daten für das Transfer Learning nicht aus­rei­chend oder spe­zi­fisch genug sind. Durch neue Entitäten müssen Modelle häufig auf zu geringe Da­ten­men­gen zugreifen. Eine mögliche Lösung bieten Zero-Shot- oder Few-Shot-Ansätze, bei denen auch mit einem ge­rin­ge­ren Da­ten­vo­lu­men ge­ar­bei­tet werden kann.

Zum Hauptmenü