PatentDe  


Dokumentenidentifikation DE102004048348B4 13.07.2006
Titel Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle
Anmelder DaimlerChrysler AG, 70567 Stuttgart, DE
Erfinder Fabregat Subirá, Albert, Dipl.-Ing., Lleida, ES;
Haiber, Udo, Dr., 89075 Ulm, DE;
Hüning, Harald, Dr.-Ing., 89134 Blaustein, DE
DE-Anmeldedatum 01.10.2004
DE-Aktenzeichen 102004048348
Offenlegungstag 13.04.2006
Veröffentlichungstag der Patenterteilung 13.07.2006
Veröffentlichungstag im Patentblatt 13.07.2006
IPC-Hauptklasse G10L 15/14(2006.01)A, F, I, 20051017, B, H, DE

Beschreibung[de]

Die Erfindung betrifft ein Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle für automatische Spracherkennungssysteme.

Bekannte automatische Spracherkennungssysteme werden in den verschiedensten Umgebungen eingesetzt. Beispielsweise werden sie als Teile von Dialogsystemen in Kraftfahrzeugen zur Steuerung von Informations- oder Unterhaltungssystemen (Navigationssystem, Telefon, Radio oder dergleichen) über Spracheingaben verwendet. Heutzutage ist die Spracherkennung noch weitgehend auf bestimmte vorgegebene Kommandos beschränkt, jedoch wird in Zukunft ein freieres Sprechen der Benutzer bzw. Fahrer angestrebt.

Die Spracherkennung wird insbesondere mittels statistischer Modelle durchgeführt. ES werden sowohl akustische Modelle, die auf sogenannten HMM-Modellen ("Hidden Markov Model") fußen, als auch linguistische Sprachmodelle, die Auftrittswahrscheinlichkeiten von Sprachelementen semantischer und syntaktischer Natur repräsentieren, eingesetzt.

Häufig besteht gerade bei Dialogsystemen das Problem, dass für das vor der Inbetriebnahme durchzuführende Training der für die Spracherkennung verwendeten statistischen Sprachmodelle – zur Schätzung der Wahrscheinlichkeiten bestimmter Wortfolgen als Spracheingabe – nicht genügend Trainingsmaterial zur Verfügung steht. Das Trainingsmaterial besteht zumeist aus einer großen Menge von Textdaten. Insbesondere im Hinblick auf das oben erwähnte Ziel, eine freiere Spracheingabe zu erlauben, wären derartige umfangreiche Trainingsdaten dringend notwendig.

Darüber hinaus besteht häufig das Problem, dass Sprachaufnahmen unter realistischen Bedingungen sehr kostenintensiv sind.

Üblicherweise sind Sprachmodelle nicht an bestimmte akustische Situationen angepasst. Wie vorstehend beschrieben werden dazu separate Modelle verwendet, was eine freie Spracheingabe zusätzlich erschwert.

Aus der DE 198 42 151 A1 ist ein Verfahren zur Adaption linguistischer Sprachmodelle in Systemen mit automatischer Spracherkennung bekannt.

Ebenfalls aus dem Stand der Technik bekannt ist das sogenannte "Discriminative Training", bei dem das Sprachmodell und das akustische Modell zusammen trainiert werden. Hierfür werden jedoch große Mengen an akustischen Trainingsdaten benötigt, die im Sprachbereich des korrespondierenden Sprachmodells liegen müssen und ebenfalls oft nicht zur Verfügung stehen.

In der deutschen Patentschrift DE 697 14 880 T2 wird ein Verfahren zum Durchführen eines dynamischen Übereinstimmungsprozesses bei einem Spracherkennungssystem beschrieben. Hierbei ist der Übereinstimmungsprozess einer Sequenz von Eingangsmustern, die ein Einganssignal repräsentieren, und einer Anzahl von gespeicherten Sequenzen von Referenzmustern, von denen jede Sequenz ein Referenzsignal repräsentiert, zwischengeschaltet. Hierbei findet eine Adaption von Sprachmodellen dergestalt statt, dass zusätzlich zu den bereits vorhandenen neue Sprachmodelle erzeugt werden, um das Sprachverhalten neuer Systemnutzer ergänzend im Sinne von Sprachmodellen abzubilden. Jeder Nutzer verfügt dabei über sein eigenes Set von Sprachmodellen. Hierbei treten jedoch mit zunehmender Anzahl unterschiedlicher Nutzer Speicherplatzprobleme, sowie Laufzeitprobleme beim Verfahrensablauf auf.

Die Offenlegungsschrift WO 99/14740 A1 zeigt ebenfalls ein Verfahren zur Adaption eines Sprachmodells innerhalb eines Spracherkennungssystems. Hierbei werden im Spracherkennungssystem bereits vorhandene Sprachmodelle an neue Anwendungsbereiche angepasst. Hierbei wird jedoch lediglich das linguistische Sprachmodell adaptiert, ohne dazu akustische Gegebenheiten mit zu berücksichtigen.

Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Anpassung und/oder Erzeugung statistischer Sprachmodelle der eingangs erwähnten Art zu schaffen, das die Nachteile des Standes der Technik vermeidet und insbesondere mit einer geringen Menge an Textdaten als Trainingsmaterial auskommt.

Diese Aufgabe wird erfindungsgemäß durch Anspruch 1 gelöst.

Durch diese Maßnahmen können in vorteilhafter Weise Wahrscheinlichkeiten für statistische Sprachmodelle erzeugt bzw. angepasst werden, ohne dass dabei große Mengen an Textdaten als Trainingsmaterial zur Verfügung stehen müssen. Gleichzeitig werden bestimmte akustische Verhältnisse bei der Anpassung bzw. Erzeugung berücksichtigt. Das Verfahren kommt mit einer geringen Datenmenge aus, welche aus vorhandenen aktuellen Spracherkennungsergebnissen extrahiert werden kann. Das Sprachmodell ist somit einfach anpassbar. Darüber hinaus besteht insbesondere die Möglichkeit, soweit akustische Daten vorliegen, die den gesamten Zielbereich des Sprachmodells abdecken, ein gänzlich neues statistisches Sprachmodell aufzubauen.

Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung ergeben sich aus den Unteransprüchen. Nachfolgend sind anhand der Zeichnung prinzipmäßig Ausführungsbeispiele der Erfindung beschrieben.

Dabei zeigen:

1 eine Darstellung der Struktur des erfindungsgemäßen Verfahrens;

2 eine Darstellung der Distanzwerte einer Sprachäußerung;

3 eine Übersichtsdarstellung über eine Berücksichtigung von Seiteneffekten;

4 eine vereinfachte Darstellung eines neuronalen Netzwerks; und

5 eine Darstellung eines dynamischen Schwellwerts.

Die einzelnen Wahrscheinlichkeiten eines bekannten statistischen Sprachmodells werden als Uni-Gramme, Bi-Gramme, Tri-Gramme oder N-Gramme bezeichnet, welche die entsprechende Auftrittswahrscheinlichkeit für ein Wort darstellen, wenn kein, eins, zwei oder N-1 Wörter bereits vorangegangen sind.

Wenn ein Spracherkennungssystem zwischen alternativen erkannten Sätzen entscheiden muss, berücksichtigt es dabei sowohl das Sprachmodell als auch die akustischen Bewertungen eines HMM-Modells. Die Wortergebnisse der Spracherkennung weichen zuweilen von den gesprochenen Wörtern ab. Diese Abweichungen werden als Wortfehler (Ersetzungen, Einfügungen und Löschungen) bezüglich einer Referenzverschriftung (korrekter Pfad) gewertet. Dabei generiert das Spracherkennungssystem zuerst einen internen übergeordneten Wortgraphen (Jumbo-Graph), welcher eine große Anzahl an alternativen Folgen (Pfaden) von Worthypothesen bzw. Sätzen mit jeweiligen Pfadbewertungen aufgrund der entsprechenden Auftrittswahrscheinlichkeiten aufweist. Das Spracherkennungssystem liefert nach Anwendung des Sprachmodells auf diesen übergeordneten Wortgraphen als Ausgabe entweder einen bestimmten Satz, den sogenannten besten Pfad, oder einen reduzierten Wortgraphen. Ein derartiger Wortgraph ist in der DE 198 42 151 A1 beispielhaft dargestellt (siehe dort 3).

Es ist nun wünschenswert, falls irgendein Pfad des übergeordneten Graphen dem Referenzpfad entspricht, dieser Pfad aber nach der Anwendung des Sprachmodells auf den übergeordneten Graphen nicht als bester Pfad identifiziert wurde, d.h. dass der korrekte Pfad nicht in der Ausgabe des Spracherkennungssystems erscheint, dann sollte das Sprachmodell bzw. dessen Wahrscheinlichkeiten derart verändert werden, dass dieser Satz das nächste Mal in der Ausgabe erscheint.

Dementsprechend werden als Ausführungsform der Erfindung folgende Verfahrensschritte vorgeschlagen:

  • – Pfadbewertungen in einem Worthypothesengraphen des Sprachmodells werden durch eine Bildung von Distanzwerten zwischen wenigstens zwei Pfaden des Worthypothesengraphen verglichen;
  • – wenigstens ein bester Pfad in dem Worthypothesengraphen bezüglich des Spracherkennungsprozesses wird identifiziert;
  • – wenigstens ein korrekter Pfad oder ein als korrekter Pfad geltender Pfad mit einer minimalen Wortfehleranzahl wird in dem Worthypothesengraphen markiert;
  • – der Vergleich der Distanzwerte bei den besten und bei den korrekten Pfaden wird derart durchgeführt, dass eine Anpassung des Sprachmodells erzielbar ist, welche zu einer geringeren Anzahl an Wortfehlern in dem besten Pfad führt, wenn dieselbe Spracheingabe erneut während des Spracherkennungsprozesses eingegeben wird, wobei zur Anpassung des Sprachmodells neben dem vorhandenen linguistischen Sprachmodell auch die akustische Bewertung des Sprachsignals durch ein HMM-Modell herangezogen wird.

Schranken ergeben sich diesbezüglich durch sogenannte Seiteneffekte der Änderungen. Falls ein erkannter Satz geändert wird, kann dies in anderen Sätzen Fehler verursachen. Es ist dementsprechend vorteilhaft, dass ein Seiteneffekt bezüglich Wortfehlern in anderen Pfaden ermittelt wird, wenn die Wahrscheinlichkeiten verändert werden sollen.

1 zeigt die Grobstruktur eines erfindungsgemäßen Verfahrens 1 zur Anpassung und/oder Erzeugung eines statistischen Sprachmodells 2 für automatische Spracherkennungssysteme (nicht dargestellt). Aus akustischen Sprachdaten 3 werden dazu in einem Schritt 4 Worthypothesengraphen erstellt, welche als übergeordnete Wortgraphen (Jumbo-Graphen) in internen Daten 5 des Spracherkennungssystems abgelegt werden. Um von den übergeordneten Wortgraphen zu einer Ausgabe 6 des Spracherkennungssystems zu kommen, wird das statistische Sprachmodell 2 angewendet. In einem Schritt 7 werden die Wortgraphen bewertet. Um den besten Satz ausgeben zu können, werden die Pfadbewertungen für jeden möglichen Pfad der Wortgraphen verglichen. Die übergeordneten Wortgraphen der internen Daten 5 des Spracherkennungssystems werden als aktuelle Spracherkennungsergebnisse 8 gespeichert, anschließend wird daraus eine Anpassung des Sprachmodells 2 ermittelt.

Die Anwendung des Sprachmodells 2 bei der Bewertung der übergeordneten Wortgraphen wird anhand eines Vergleichs alternativer Pfade des Wortgraphen durchgeführt (1: Schritt 7). Dabei wird jeder Pfad mit der nachfolgenden Gleichung bewertet, wobei nur der Pfad mit der besten Pfadbewertung als der erkannte Satz ausgewählt und ausgegeben wird.

wobei:
  • – aci logarithmische, akustische Bewertungen der Wörter,
  • – &ugr; ein globales Sprachmodellgewicht (gegenüber akustischen Bewertungen)
  • – p(wj|qj-2, wj-1) logarithmische Tri-Gramm-Wahrscheinlichkeiten,
  • – N die Anzahl der Wörter des berechneten Pfads,
  • – pen einen Strafwert für eine höhere oder niedrigere Zahl von Worthypothesen pro Pfad,
  • – Np eine Anzahl von Pausen innerhalb eines Pfades, und
  • – PWeight ein empirisch eingestelltes Pausengewicht
darstellen.

Pfadbewertungen müssen für jeweils mehrere Pfade aus mehreren Wortgraphen berechnet werden. Diese Daten werden abgespeichert. So wird ein Vergleich zwischen Pfadbewertungen übergreifend über mehrere Wortgraphen durch eine Berechnung von Differenz bzw. Distanzwerten ermöglicht. Aufgrund ihres Wertebereichs ist es günstig, den Pfadbewertungen ein negatives logarithmisches Format zu geben. Für jeden Satz, der in Betracht gezogen wird, wird ein Distanzwert gespeichert. Diese werden wie folgt berechnet:

Wenn der beste Satz der korrekte Satz ist, ergibt sich der Distanzwert des besten Satzes aus dem Absolutwert der Differenz zwischen der Pfadbewertung des besten Satzes und der des zweitbesten Satzes. Bei den restlichen Sätzen

  • des Wortgraphen ergibt sich der jeweilige Distanzwert aus dem Absolutwert der Differenz zwischen der Pfadbewertung des jeweiligen Satzes und der Pfadbewertung des besten Satzes.
  • 2. Wenn der beste Satz nicht der korrekte Satz ist, ergibt sich der Distanzwert des besten Satzes aus dem Absolutwert der Differenz zwischen seiner Pfadbewertung und der des korrekten Satzes. Falls mehrere korrekte Sätze ermittelt wurden, wird die Pfadbewertung, die der des besten Pfades am nächsten kommt, betrachtet, denn je näher die Pfadbewertung an die des besten Satzes kommt, je einfacher ist es, aus ihr die beste zu machen. Bei den restlichen Sätzen des Wortgraphen ergibt sich der jeweilige Distanzwert aus dem Absolutwert der Differenz zwischen der Pfadbewertung des besten Satzes und der Pfadbewertung des jeweiligen Satzes.

2 zeigt die verschiedenen Fälle bei der Bestimmung der Distanzwerte für eine Sprachäußerung mit der eindeutigen Bezeichnung KILW047. Jeder Kreis stellt eine Pfadbewertung eines Pfades dar, wobei die Distanzwerte als Pfeile dargestellt sind. Die beiden schraffierten Kreise stellen fehlerhafte Pfade dar, während die unschraffierten korrekte Pfade darstellen.

In vorteilhafter Weise werden die notwendigen Daten zusammen in einer Distanzdatei abgelegt. Die erste Zeile der nachfolgenden Tabelle 1 beinhaltet den (eindeutigen) Namen des übergeordneten Graphen. Darunter werden die generierten Sätze wie folgt abgespeichert: Distanzwert, Pfadbewertung, Name des übergeordneten Graphen, ein erstes Flag (=B= oder =S=), welches anzeigt, ob es sich um den besten Satz (=B=) oder nicht (=S=) handelt, ein zweites Flag (=C= oder =E=), welches anzeigt, ob es sich um den Referenzsatz, d.h. um den korrekten Satz handelt (=C=) oder ob ein Fehler enthalten ist (=E=), und schließlich die zugehörige Wortfolge. <s> und </s> kennzeichnen den Anfang und das Ende des jeweiligen Satzes.

Tabelle 1:
  • KILW047
  • 173.704 744.355 KILW047 =B= =C= <s> #PAUSE# neues Ziel eingeben #PAUSE# </s>;
  • 75.241 819.596 KILW047 =S= =C= <s> #NOISE# neues Ziel eingeben #PAUSE# </a>;
  • 449.679 1194.034 KILW047 =S= =E= <s> #PAUSE# <zahl> ist <hotel> mir eingeben #PAUSE# </s>;
  • 173.704 918.059 KILW047 =S= =E= <s> #PAUSE# neues <zahl> eingeben #PAUSE# </s>;

Nun kann eine Berechnung hinsichtlich der Änderungen der Wahrscheinlichkeiten des Sprachmodells gemäß der Gleichung (1) durchgeführt werden, die notwendig sind, um die Fehler zu korrigieren. Dazu folgendes Beispiel:

Korrekter Pfad: "<s> Zeig mir die letzte Nummer noch einmal an </s>"

Bester Pfad: "<s> Fahrzeug mir die letzte Nummer noch einmal an </s>"

Das Ziel ist nun, die Pfadbewertung des besten Satzes geringer als die des Referenzsatzes zu machen. Mit anderen Worten sollte das Spracherkennungssystem aufgrund der durchzuführenden Änderungen den korrekten als besten Satz auswählen. Die Wahrscheinlichkeiten derjenigen N-Gramme werden erhöht, welche nur im korrekten Pfad und nicht im besten Pfad auftreten und die Wahrscheinlichkeiten derjenigen N-Gramme werden verringert, welche nur im besten Pfad und nicht im korrekten Pfad auftreten.

Vorliegend sollte die Distanz sozusagen zwischen den Tri-Grammen verteilt werden, die den Fehler verursachten. Dazu gibt es vorliegend zwei Möglichkeiten: entweder werden die Pfadbewertungen der korrekten Sätze erhöht oder die der fehlerhaften verringert. Im ersten Fall sind zwei Tri-Gramme in den Fehler verwickelt, daher können diese zur Korrektur erhöht werden. Es ist möglich, das Bi-Gramm "<s> Zeig", das Tri-Gramm "<s> Zeig mir" oder sogar alle zu erhöhen. Die letzte Möglichkeit ist die bequemste, da sie nur kleine Änderungen an den Tri-Grammen erfordert, um die Differenz zwischen den Pfadbewertungen zu reduzieren, wodurch andere Sätze weniger beeinflusst werden. Eine weitere Möglichkeit besteht darin, die Tri-Gramme des besten Satzes zu verringern. Vorliegend wird eine Kombination von Erhöhung und Verringerung der Tri-Gramme benutzt. Die Distanz wird unter allen möglichen Tri-Grammen verteilt, um sie zu Null zu reduzieren. Dadurch sollte der Fehler korrigiert werden, soweit natürlich keine anderen Sätze durch Seiteneffekte betroffen werden. Derartigen Fehlern kann durch eine Analyse der gespeicherten Daten vorgebeugt werden. Dies wird durch eine Definition von Einschränkungen erreicht, welche festlegen, wann N-Gramme verändert werden sollen. Man stelle sich vor, ein Tri-Gramm soll erhöht werden. Anschließend wird das Tri-Gramm unter allen Sätzen in der Distanzdatei gesucht. Dabei können pro aufgefundenem Satz vier verschiedene Situationen in Abhängigkeit der jeweiligen gespeicherten Flags auftreten:

  • 1.BE: falls der Satz, der das zu erhöhende Tri-Gramm enthält, zwar der beste eines übergeordneten Graphen ist, jedoch einen Fehler aufweist, kann das Tri-Gramm nicht erhöht werden, denn sonst würde die Pfadbewertung des fehlerhaften Pfads auch erhöht werden. Dadurch wird die Korrektur erschwert. Nichtsdestotrotz gibt es dabei eine Ausnahme, wenn der Referenzsatz des übergeordneten Graphen das Tri-Gramm ebenfalls aufweist, dann wird es wie gewünscht erhöht. Dadurch bleibt die Distanz zwischen dem besten und dem korrekten Satz erhalten.
  • 2. SE: in diesem Fall ist der Satz, der das Tri-Gramm enthält, weder der erkannte noch der korrekte. Demzufolge kann das Tri-Gramm erhöht werden, jedoch nicht höher als die Distanz zur Pfadbewertung des besten Satzes. Sonst würde dieser Satz zum besten Satz werden, was zu einem weiteren Fehler führen würde. Hier gibt es jedoch ebenfalls eine Ausnahme. Wenn der korrekte Satz des übergeordneten Graphen dasselbe Tri-Gramm enthält, wird es wie gewünscht erhöht.
  • 3.BC: in einem solchen Fall wird das Tri-Gramm erhöht, da der Satz korrekt ist. Falls die Pfadbewertung des Satzes verbessert wird, werden Fehlerkennungen reduziert.
  • 4. SC: auch in diesem Fall wird das Tri-Gramm erhöht, auch wenn es nicht der erkannte Satz ist. Nebenbei bemerkt wird es erleichtert, den korrekten Satz zu erkennen, wenn dessen Pfadbewertung erhöht wird.

Bisher wurde lediglich die Erhöhung eines Tri-Gramms eines korrekten Satzes betrachtet. Jedoch ist es auch möglich, die Tri-Gramme des besten Satzes zu verringern, wenn dieser einen Fehler aufweist. In obigem Beispiel sind die Tri-Gramme, "<s> Fahrzeug mir" und "Fahrzeug mir die" in den Fehler verwickelt. Bei der Verringerung werden ähnliche Beschränkungen verwendet. Lediglich die Bedingungen für eine Änderung verändern sich.

  • 1. BE: falls das Tri-Gramm verringert wird, wird die Pfadbewertung des besten Satzes, nicht die des korrekten Satzes, verschlechtert. Daher gibt es hier keine Einschränkung.
  • 2. SE: Hier gibt es ebenfalls keine Einschränkung bei der Verringerung.
  • 3. BC: in diesem Fall kann das Tri-Gramm solange verringert werden, solange die Pfadbewertung des besten Satzes noch höher als die des zweitbesten Satzes ist. Mit anderen Worten kann die Verringerung des Tri-Gramms keine Verschlechterung der Pfadbewertung herbeiführen, die größer ist als der Distanzwert.
  • 4. SC: falls das Tri-Gramm in einem Satz gefunden wurde, der nicht der beste Satz, jedoch der korrekte Satz ist, darf es nicht verringert werden.

3 zeigt eine Übersicht über die Berücksichtigung der Seiteneffekte, wenn Änderungen an den Tri-Grammen durchzuführen sind.

Oft ist es wünschenswert, für den Benutzer relevantere Sätze zu bevorzugen. Mit anderen Worten ist es weniger problematisch, Sätze mit höherer Priorität zu korrigieren, auch wenn Sätze mit geringerer Priorität durch Seiteneffekte davon betroffen sind. Beispielsweise kann Sätzen, die kritische Wörter enthalten, welche für einen anschließenden Dialog oder dergleichen elementar wichtig sind, eine höhere Priorität zugewiesen werden. Diese Ausgestaltung wird wie folgt verwirklichts Zuerst muss eine Liste von priorisierten Sätzen bereitgestellt werden. Anschließend ist die Art der Bevorzugung durch die Einschränkungen festzulegen. Bei Sätzen ohne Priorität arbeitet das Verfahren gemäß den oben erwähnten Einschränkungen nach 3. Falls ein Satz mit Priorität jedoch einen Fehler aufweist, wird das Verfahren abgewandelt. Bei einem Seiteneffekt können zwei Möglichkeiten auftreten. Falls der Fehler in einem Satz mit Priorität erzeugt wurde, arbeitet das Verfahren wie zuvor. Die Änderung kann jedoch durchgeführt werden, falls die Einschränkung einen Satz ohne Priorität betrifft. Durch diese Maßnahmen kann jedoch die generelle Fehlerrate erhöht werden, da die Sätze ohne Priorität verschlechtert werden.

Das vorliegende Ausführungsbeispiel betrifft zwar nur Tri-Gramme, eine entsprechende Anwendung bei anderen N-Grammen ist jedoch analog möglich.

Falls ein Tri-Gramm nicht im Sprachmodell gefunden wurde, entspricht dies einem sogenannten Back-Off-Fall. Dabei kann ein neues Tri-Gramm als normales Tri-Gramm in das optimierte Sprachmodell eingeführt werden oder die Änderung kann unter den Werten, welche der Berechnung der Back-Off-Wahrscheinlichkeit dienen, verteilt werden (üblicherweise eine niedrigere N-Gramm-Wahrscheinlichkeit und ein Back-Off-Gewicht).

Bisher werden die Pfadbewertungen nach einer Änderung einer Sprachmodellwahrscheinlichkeit nicht neu berechnet. Daher ist die Kontrolle der Seiteneffekte unvollständig, wenn mehrere Wahrscheinlichkeiten auf einmal verändert werden. Im Gegensatz dazu berechnet die nachfolgend skizzierte Ausführungsform des erfindungsgemäßen Verfahrens alle Pfadbewertungen (und Distanzwerte) iterativ neu, was in vorteilhafter Weise zu einer Verbesserung der Behandlung von Seiteneffekten führt. Die Kernidee besteht darin, mit einem Klassifikator einen Vergleich von Pfadbewertungen für verschieden Pfade des übergeordneten Graphen zu reproduzieren (siehe 4). Die Parameter des Klassifikators sollten in Wahrscheinlichkeiten des Sprachmodells überwandelbar sein. Unterschiedliche Klassifikatorarchitekturen haben gemeinsam, dass sie viele numerische Werte als Eingaben benötigen und eine Art von Schwellwertfunktion aufweisen, um eine Ausgabe, wie beispielsweise "0" oder "1", zu liefern. Des weiteren existieren lernende Klassifikatoren, welche einige ihrer Parameter als Antwort auf eine Vorgabe von Ein-/Ausgabepaaren zusammen mit einem Lernsignal anpassen. Ein derartiger lernender Klassifikator wird hier verwendet. Er basiert auf der Beobachtung, dass die Pfadbewertungsberechnung im logarithmischen Bereich mit einer gewichteten Summe korrespondiert, welche vielen Klassifikatoren gemein ist (als Teil einer sogenannten Neuron-Funktion). Neben der Darstellung der Pfadbewertungsformel als Klassifikator (4) muss auf die Darstellung der Daten geachtet werden und wie ein dynamischer Schwellwert angewendet wird.

Die folgenden Bedingungen müssen in Ein-/Ausgabepaare eines Klassifikators übersetzt werden. Der Satz mit der besten Pfadbewertung entspricht der Ausgabe des Spracherkennungssystems. Wenn der erkannte Satz nicht der Referenzsatz ist und ein Fehler auftrat, werden die Wahrscheinlichkeiten des Sprachmodells 2, die in den Fehler verwickelt waren, nach einer Lernregel geändert. Wenn kein Fehler vorlag, wird auch das Sprachmodell nicht verändert. Diese Prozedur wird für jeden übergeordneten Graphen (Jumbo-Graphen) durchgeführt. Anschließend erfolgt eine iterative Bearbeitung. Mit anderen Worten wird der Vorgang mehrfach an den übergeordneten Graphen durchgeführt. Mit einer geeigneten Wahl der Lernregel des Klassifikators verringert sich die Fehlerzahl immer weiter, so lange das Verfahren angewendet wird.

Die Korrekturen werden entsprechend einer sogenannten Kreuzentropie-Lernregel (Cross Entropy) durchgeführt. Das Verhalten dieser Lernregel ist wünschenswert, da erwiesen ist, dass sie die Fehleranzahl minimiert, anstatt den quadratischen Fehler wie die Gradienten-Lernregel (Gradient Descent) zu minimieren, denn hier kommt es wesentlich auf die Fehlerhäufigkeit an.

Die Übergabe der Daten an ein neuronales Netz 9 als Klassifikator ist in 4 dargestellt. Für jedes Tri-Gramm des Sprachmodells 2 ist ein Eingang vorgesehen. Der Eingabewert gibt die Anzahl der Tri-Gramme in diesem Pfad wieder. Die Übergabe eines Pfades auf diese Weise wird als Lernmuster bezeichnet. Diese Lernmuster werden der Auswertung des Pfades entsprechend in zwei Zielwerte eingeteilt: korrekt ("1") und nicht korrekt ("0"). Der Ausgabewert des Lernmusters mit dem zielwert "1" sollte größer als Null sein. Der Ausgabewert der Lernmuster mit dem Zielwert "0" sollte kleiner als Null sein. Die von demselben übergeordneten Graphen stammenden Daten sollten zusammen als eine Gruppe behandelt werden. Der Grund dafür ist, dass der Vergleich der Pfadbewertungen in eine dynamische Schwellwertfunktion des neuronalen Netzwerkklassifikators 9 übersetzt werden muss. Die Lösung besteht darin, einen dynamischen Schwellwert derart einzustellen, dass er die Entscheidung, welches die höchste Pfadbewertung ist, imitiert. Der dynamische Schwellwert wird bei jedem Durchgang berechnet und ist für jede Gruppe (d.h. für jeden übergeordneten Graphen) verschieden. Das Ziel ist, dass das nur das Anlegen des besten Pfades dazuführt, dass der Schwellwert der Aktivierungsfunktion überschritten wird. Demzufolge ist die Aktivierungsfunktion nur bei dem besten Pfad aktiv. Das Einstellen des dynamischen Schwellwerts erfordert die vorherige Eingabe aller Lernmuster einer Gruppe. Somit läuft die Übergabe wie folgt ab. Zuerst erfolgt die Übergabe aller Lernmuster, um den dynamischen Schwellwert zu bestimmen. Anschließend wird der berechnete Wert von allen Pfadbewertungen subtrahiert und die neuen Werte abgespeichert. Diese neuen Werte können sowohl über als auch unter dem Schwellwert liegen. Diese Ausgabe wird mit den Zielwerten verglichen, die anzeigen, ob ein Pfad korrekt ist oder nicht. Das Lernen wird bei denjenigen Lernmustern durchgeführt, deren Ausgabe nicht identisch mit dem Zielwert ist. Die Lernregel modifiziert die Gewichte, die später wieder zurück in das Sprachmodell übersetzt werden. Zur Berechnung der dynamischen Schwelle ist ein erster Weg, einen Mittelwert zwischen dem besten Pfad und dem zweitbesten Pfad zu bilden. Jedoch sollte die Möglichkeit in Betracht gezogen werden, dass es mehr als einen korrekten Pfad gibt. Deshalb wird der dynamische Schwellwert als Mittelwert zwischen der besten Pfadbewertung aller korrekten Sätze und der besten Pfadbewertung aller fehlerhaften Sätze berechnet. Diese Berechnung ist in 5 dargestellt.

Es ist ebenfalls vorteilhaft zwei Schranken zu definieren, damit der Fehler mit einer höheren Zuverlässigkeit beseitigt werden kann, Der Zweck der Schranken besteht darin, die fehlerhaften Sätze zu zwingen, nicht nur über dem Schwellwert, sondern auch über dem Schwellwert und einer vorgegebenen Schranke zu liegen. Dasselbe geschieht mit dem korrekten Satz. Er muss ebenfalls über einer bestimmten Schranke liegen. Diese Schranken werden empirisch festgelegt. In der Praxis werden sie auf -0,1 und +0,1 gesetzt, da sich die Ausgabe innerhalb [-1,1] bewegt. Wie aus 5 ersichtlich, muss der unschraffierte Kreis (korrekter Satz) über der hohen Schranke und die schraffierten Kreise (fehlerhafte Sätze) unter der niedrigen Schranke liegen. Dadurch wird ein Vertrauensintervall definiert. Falls sich die Kreise innerhalb des Intervalls befinden, ist nicht sicher, ob der Fehler korrigiert wird.


Anspruch[de]
  1. Verfahren (1) zur Adaption und/oder Erzeugung statistischer Sprachmodelle (2) für automatische Spracherkennungssysteme, wobei aktuelle vorhandene linguistische Spracherkennungsmodelle berücksichtigt werden,

    dadurch gekennzeichnet,

    dass:

    – Pfadbewertungen in einem Worthypothesengraphen des Sprachmodells (2), durch eine Bildung von Distanzwerten, zwischen wenigstens zwei Pfaden des Worthypothesengraphen verglichen werden, wobei

    – wenigstens ein bester Pfad in dem Worthypothesengraphen bezüglich des Spracherkennungsprozesses identifiziert wird, wobei

    – wenigstens ein korrekter Pfad oder ein als korrekter Pfad geltender Pfad mit einer minimalen Wortfehleranzahl in dem Worthypothesengraphen markiert wird, wobei

    – der Vergleich der Distanzwerte bei den besten und bei den korrekten Pfaden derart durchgeführt wird, dass eine Anpassung des Sprachmodells (2) erzielbar ist, welche zu einer geringeren Anzahl an Wortfehlern in dem besten Pfad führt, wenn dieselbe Spracheingabe erneut während des Spracherkennungsprozesses eingegeben wird,

    – wobei zur Anpassung des Sprachmodells neben dem vorhandenen linguistischen Sprachmodell auch die akustische Bewertung des Sprachsignals durch ein HMM-Modell herangezogen wird.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das Sprachmodell als N-Gramm-Sprachmodell (2) ausgebildet ist, wobei für jedes N-Gramm eine separate und veränderbare Wahrscheinlichkeit gespeichert wird.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Wahrscheinlichkeiten derjenigen N-Gramme erhöht werden, welche nur im korrekten Pfad und nicht im besten Pfad auftreten und dass die Wahrscheinlichkeiten derjenigen N-Gramme verringert werden, welche nur im besten Pfad und nicht im korrekten Pfad auftreten.
  4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass ein Seiteneffekt bezüglich Wortfehler in anderen Pfaden ermittelt wird, wenn die Wahrscheinlichkeiten verändert werden.
  5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass die Distanzwerte durch Berechnung der Absolutwerte der Differenz zwischen logarithmischen Pfadbewertungen bestimmt werden.
  6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass nach der Veränderung von Wahrscheinlichkeiten eine Neuberechnung der Pfadbewertungen und der Distanzwerte durchgeführt wird.
  7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass bei der Berechnung ein Klassifikator verwendet wird, welcher bezüglich einer Gruppe von Pfaden des Wortgraphen aufgrund eines Schwellwerts entscheidet, ob Wahrscheinlichkeiten geändert werden müssen.
  8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass die Entscheidungen des Klassifikators Lernregeln für ein neuronales Netz (9) bilden.
  9. Verfahren nach Anspruch 7 oder 8, dadurch gekennzeichnet, dass als Klassifikator ein neuronales Netz (9) verwendet wird, wobei die Gewichtsparameter des neuronalen Netzes (9) in Wahrscheinlichkeitswerte für das Sprachmodell (2) umwandelbar sind.
Es folgen 2 Blatt Zeichnungen






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com