Automatic Speech Re­co­gni­ti­on ist ein Verfahren zur au­to­ma­ti­schen Um­wand­lung von Sprache in Text. ASR-Tech­no­lo­gien nutzen Verfahren des ma­schi­nel­len Lernens, um Sprach­mus­ter zu ana­ly­sie­ren, zu ver­ar­bei­ten und als Text aus­zu­ge­ben. Automatic Speech Re­co­gni­ti­on bietet sich für eine Vielzahl von An­wen­dun­gen an, die von vir­tu­el­len Sprach­as­sis­ten­ten über die Erzeugung von Un­ter­ti­teln für Videos bis hin zur Tran­skrip­ti­on wichtiger Meetings reichen.

Was bedeutet Automatic Speech Re­co­gni­ti­on?

Automatic Speech Re­co­gni­ti­on (ASR), im Deutschen „Au­to­ma­ti­sche Sprach­er­ken­nung“, stellt ein Teil­ge­biet der In­for­ma­tik und Com­pu­ter­lin­gu­is­tik dar. In diesem geht es darum, Methoden zu ent­wi­ckeln, die ge­spro­che­ne Sprache au­to­ma­tisch in eine ma­schi­nen­les­ba­re Form über­set­zen. Erfolgt die Um­wand­lung in Text, ist auch von Speech-to-Text (STT) die Rede. ASR-Verfahren basieren auf sta­tis­ti­schen Modellen und komplexen Al­go­rith­men.

Hinweis

Mit welcher Präzision ein ASR-System arbeitet, zeigt die so­ge­nann­te Wort­feh­ler­ra­te (WER) auf. Diese setzt die Fehler – also die Anzahl aus­ge­las­se­ner, hin­zu­ge­füg­ter und falsch erkannter Wörter – ins Ver­hält­nis zur Ge­samt­zahl der ge­spro­che­nen Wörter. Je niedriger der Wert ausfällt, desto höher ist die Präzision der au­to­ma­ti­schen Sprach­er­ken­nung. Liegt die Wort­feh­ler­ra­te zum Beispiel bei 10 Prozent, weist das Tran­skript eine Ge­nau­ig­keit von 90 Prozent auf.

Wie funk­tio­niert Automatic Speech Re­co­gni­ti­on?

Automatic Speech Re­co­gni­ti­on setzt sich aus mehreren auf­ein­an­der­fol­gen­den Schritten zusammen, die nahtlos in­ein­an­der­grei­fen. Im Folgenden erläutern wir die einzelnen Phasen näher:

  1. Sprach­erfas­sung (Automatic Speech Re­co­gni­ti­on): Das System erfasst ge­spro­che­ne Sprache über ein Mikrofon oder eine andere Au­dio­quel­le.
  2. Sprach­ver­ar­bei­tung (Natural Language Pro­ces­sing): Zunächst wird die Sprach­auf­nah­me von Stör­ge­räu­schen bereinigt. Danach ana­ly­siert ein Al­go­rith­mus die pho­ne­ti­schen und pho­ne­mi­schen Ei­gen­schaf­ten der Sprache. Im Anschluss werden die erfassten Merkmale mit vorher trai­nier­ten Modellen ver­gli­chen, um einzelne Worte zu iden­ti­fi­zie­ren.
  3. Text­ge­ne­rie­rung (Speech to Text): In einem letzten Schritt wandelt das System die erkannten Laute in Textform um.
Bild: Schaubild der ASR-Funktionsweise
Das Schaubild ver­deut­licht die drei Schritte der au­to­ma­ti­schen Sprach­er­ken­nung.

ASR-Al­go­rith­men: Hybrider Ansatz vs. Deep Learning

Man un­ter­schei­det grund­sätz­lich zwei Haupt­an­sät­ze für Automatic Speech Re­co­gni­ti­on: Während in der Ver­gan­gen­heit vor allem klas­si­sche hybride Ansätze wie die sto­chas­ti­schen Hidden-Markov-Modelle Ver­wen­dung fanden, wird mitt­ler­wei­le immer häufiger auf Deep-Learning-Tech­no­lo­gien zu­rück­ge­grif­fen. Dieser Umstand geht darauf zurück, dass die Präzision tra­di­tio­nel­ler Modelle in letzter Zeit sta­gnier­te.

Klas­si­scher hybrider Ansatz

Klas­si­sche Modelle erfordern zwangs­aus­ge­rich­te­te Daten. Das bedeutet, sie nutzen die Text­tran­skrip­ti­on eines Audio-Sprach­seg­ments, um zu bestimmen, an welcher Stelle bestimmte Wörter auftreten. Der tra­di­tio­nel­le hybride Ansatz kom­bi­niert stets ein Le­xi­kon­mo­dell, ein akus­ti­sches Modell und ein Sprach­mo­dell, um Sprache zu tran­skri­bie­ren:

  • Das Le­xi­kon­mo­dell definiert die pho­ne­ti­sche Aus­spra­che der Wörter. Es ist er­for­der­lich, für jede Sprache einen eigenen Daten- be­zie­hungs­wei­se Phon­em­satz zu erstellen.
  • Das akus­ti­sche Modell zielt auf die Mo­del­lie­rung akus­ti­scher Muster der Sprache ab. Mithilfe der zwangs­aus­ge­rich­te­ten Daten erstellt es Prognosen, welcher Laut be­zie­hungs­wei­se welches Phonem sich den un­ter­schied­li­chen Sprach­seg­men­ten zuordnen lässt.
  • Das Sprach­mo­dell lernt, welche Wort­fol­gen in einer Sprache am wahr­schein­lichs­ten auftreten. Seine Aufgabe besteht darin, vor­her­zu­sa­gen, welche Wörter mit welcher Wahr­schein­lich­keit auf die aktuellen Wörter folgen werden.

Der we­sent­li­che Nachteil des hybriden Ansatzes ist, dass es sich schwierig gestaltet, die Ge­nau­ig­keit der Sprach­er­ken­nung mithilfe dieser Methode zu erhöhen. Darüber hinaus besteht die Not­wen­dig­keit, drei separate Modelle zu trai­nie­ren, was sich als sehr zeit- und kos­ten­in­ten­siv erweist. Da bereits um­fang­rei­ches Wissen darüber existiert, wie sich mithilfe des klas­si­schen Ansatzes ein robustes Modell erstellen lässt, ent­schei­den sich viele Un­ter­neh­men dennoch für diese Option.

IONOS AI Model Hub
Erste deutsche, mul­ti­mo­da­le KI-Plattform
  • 100 % DSGVO-konform und sicher in Deutsch­land gehostet
  • Die leis­tungs­stärks­ten KI-Modelle auf einer Plattform
  • Kein Vendor Lock-in durch Open Source

Deep Learning mit End-to-End-Prozessen

End-to-End-Systeme besitzen die Fähigkeit, eine Folge akus­ti­scher Ein­gangs­merk­ma­le direkt zu tran­skri­bie­ren. Wie die ge­spro­che­nen Wörter um­zu­wan­deln sind, erlernt der Al­go­rith­mus hier mithilfe einer großen Menge an Da­ten­paa­ren in Form von Au­dio­da­tei­en eines konkreten Satzes und der korrekten Tran­skrip­ti­on.

Deep-Learning-Ar­chi­tek­tu­ren wie CTC, LAS und RNNT lassen sich so trai­nie­ren, dass sie auch ohne zwangs­aus­ge­rich­te­te Daten, Le­xi­kon­mo­dell und Sprach­mo­dell präzise Er­geb­nis­se liefern. Viele Systeme für Deep Learning werden dennoch mit einem Sprach­mo­dell verknüpft, da ein solches dazu beitragen kann, die Ge­nau­ig­keit der Tran­skrip­ti­on weiter zu steigern.

Tipp

In unserem Artikel „Deep Learning vs. Machine Learning“ erfahren Sie, worin sich die beiden Konzepte von­ein­an­der un­ter­schei­den.

Der End-to-End-Ansatz für Automatic Speech Re­co­gni­ti­on punktet nicht nur mit einer höheren Präzision als her­kömm­li­che Modelle. Von Vorteil ist außerdem, dass sich ent­spre­chen­de ASR-Systeme leichter trai­nie­ren lassen und dass sie weniger mensch­li­che Ar­beits­kraft erfordern.

Automatic Speech Re­co­gni­ti­on: Was sind die zentralen An­wen­dungs­fel­der?

Vor allem dank der Fort­schrit­te im Bereich Machine Learning werden ASR-Tech­no­lo­gien immer genauer und leis­tungs­fä­hi­ger. Automatic Speech Re­co­gni­ti­on lässt sich in vielen Branchen verwenden, um Ef­fi­zi­enz­stei­ge­run­gen zu rea­li­sie­ren, die Kun­den­zu­frie­den­heit zu erhöhen und/oder die Ka­pi­tal­ren­di­te (ROI) zu ver­bes­sern. Zu den wich­tigs­ten Ein­satz­ge­bie­ten zählen:

  • Te­le­kom­mu­ni­ka­ti­on: Kon­takt­cen­ter nutzen ASR-Tech­no­lo­gien, um Gespräche mit Kundinnen und Kunden zu tran­skri­bie­ren und im Anschluss zu ana­ly­sie­ren. Für die An­ruf­ver­fol­gung und für mittels Cloud-Server rea­li­sier­te Te­le­fon­lö­sun­gen werden ebenfalls exakte Tran­skrip­tio­nen benötigt.
  • Vi­deo­platt­for­men: Mitt­ler­wei­le gilt die Er­stel­lung von Un­ter­ti­teln in Echtzeit auf Vi­deo­platt­for­men als In­dus­trie­stan­dard. Automatic Speech Re­co­gni­ti­on erweist sich außerdem als hilfreich für die Ka­te­go­ri­sie­rung von Inhalten.
  • Me­di­en­be­ob­ach­tung: ASR-APIs gestatten es, TV-Sendungen, Podcasts, Ra­dio­sen­dun­gen und anderen Medien da­hin­ge­hend zu ana­ly­sie­ren, wie oft bestimmte Marken- oder The­mener­wäh­nun­gen vorkommen.
  • Vi­deo­kon­fe­ren­zen: Meeting-Lösungen wie Zoom, Microsoft Teams oder Google Meet sind auf exakte Tran­skrip­tio­nen und die Analyse dieser Inhalte an­ge­wie­sen, um Schlüs­sel­er­kennt­nis­se zu gewinnen und passende Maßnahmen ab­zu­lei­ten. Automatic Speech Re­co­gni­ti­on lässt sich ebenso nutzen, um für Vi­deo­kon­fe­ren­zen Live-Un­ter­ti­tel be­reit­zu­stel­len.
  • Sprach­as­sis­ten­ten: Ob Amazon Alexa, Google Assistant oder Siri von Apple – virtuelle Sprach­as­sis­ten­ten basieren auf Automatic Speech Re­co­gni­ti­on. Die Tech­no­lo­gie gestattet es den As­sis­ten­ten, Fragen zu be­ant­wor­ten, Aufgaben aus­zu­füh­ren und mit anderen Geräten zu in­ter­agie­ren.

Welche Rolle spielt künst­li­che In­tel­li­genz bei ASR-Tech­no­lo­gien?

Künst­li­che In­tel­li­genz trägt dazu bei, die Ge­nau­ig­keit und die all­ge­mei­ne Funk­tio­na­li­tät von ASR-Systemen zu ver­bes­sern. Ins­be­son­de­re die Ent­wick­lung großer Sprach­mo­del­le hat dazu geführt, dass sich na­tür­li­che Sprache heut­zu­ta­ge deutlich besser ver­ar­bei­ten lässt. Ein Large Language Model ist nicht nur in der Lage, komplexe Texte mit hoher Relevanz zu erstellen und Über­set­zun­gen an­zu­fer­ti­gen, sondern es erkennt auch die ge­spro­che­ne Sprache. Daher pro­fi­tie­ren ASR-Systeme erheblich von Ent­wick­lun­gen in diesem Bereich. Darüber hinaus erweist sich künst­li­che In­tel­li­genz auch bei der Ent­wick­lung ak­zent­spe­zi­fi­scher Sprach­mo­del­le als hilfreich.

KI-Lösungen
Mehr Digital-Power dank Künst­li­cher In­tel­li­genz
  • In Sekunden zur Online-Präsenz
  • Mehr Wachstum mit KI-Marketing
  • Zeit und Res­sour­cen sparen

Welche Stärken und Schwächen hat Automatic Speech Re­co­gni­ti­on?

Ver­gli­chen mit der tra­di­tio­nel­len Tran­skrip­ti­on bietet Automatic Speech Re­co­gni­ti­on einige Vorteile. Eine we­sent­li­che Stärke moderner ASR-Verfahren besteht in ihrer hohen Präzision, die darauf zu­rück­geht, dass sich ent­spre­chen­de Systeme mit großen Da­ten­men­gen trai­nie­ren lassen. Das er­mög­licht es, die Qualität von Un­ter­ti­teln be­zie­hungs­wei­se Tran­skrip­tio­nen zu erhöhen und diese zu­sätz­lich in Echtzeit be­reit­zu­stel­len.

Ein weiterer wichtiger Vorzug ist die Stei­ge­rung der Effizienz. Automatic Speech Re­co­gni­ti­on gestattet es Un­ter­neh­men, Ska­lie­run­gen vor­zu­neh­men, die eigene Palette an Dienst­leis­tun­gen schneller zu erweitern und diese einem größeren Kun­den­kreis zu of­fe­rie­ren. Stu­die­ren­den und Be­rufs­tä­ti­gen er­leich­tern Tools mit au­to­ma­ti­scher Sprach­er­ken­nung die Do­ku­men­ta­ti­on von Au­dio­in­hal­ten – etwa eines Business-Meetings oder einer Uni­vor­le­sung.

Von Nachteil ist dagegen, dass ASR-Systeme zwar genauer arbeiten als jemals zuvor, aber immer noch nicht an die Ge­nau­ig­keit von Menschen her­an­rei­chen. Dies geht vor allem auf die vielen Nuancen beim Sprechen zurück. Als Her­aus­for­de­rung erweisen sich ins­be­son­de­re Akzente, Dialekte und die un­ter­schied­li­chen Tonlagen, aber auch Stör­ge­räu­sche. Selbst die leis­tungs­fä­higs­ten Deep-Learning-Modelle können nicht alle Son­der­fäl­le abdecken. Was ebenfalls als pro­ble­ma­tisch gilt: ASR-Tech­no­lo­gien ver­ar­bei­ten mitunter per­so­nen­be­zo­ge­ne Daten, was Bedenken hin­sicht­lich der Pri­vat­sphä­re und Da­ten­si­cher­heit aufwirft.

Zum Hauptmenü