PatentDe  


Dokumentenidentifikation DE10040991C1 27.09.2001
Titel Verfahren zur parametrischen Synthese von Sprache
Anmelder Technische Universität Dresden, 01069 Dresden, DE
Erfinder Eichner, Matthias, Dipl.-Ing., 01069 Dresden, DE;
Wolff, Matthias, Dipl.-Ing., 02826 Görlitz, DE
DE-Anmeldedatum 18.08.2000
DE-Aktenzeichen 10040991
Veröffentlichungstag der Patenterteilung 27.09.2001
Veröffentlichungstag im Patentblatt 27.09.2001
IPC-Hauptklasse G10L 13/00
Zusammenfassung Die Erfindung betrifft ein Verfahren zur Synthese von Sprache aus einer Folge von Phonemsymbolen, die mittels einer Textvorverarbeitung gewonnen werden, bei dem den Phonemsymbolen trainierte statistische Modelle durch Auswahl aus einer Datenbasis von derartigen Modellen zugeorndet werden, die statistischen Modelle als Folge aneinander gekettet werden, und die Paramter der aneinander geketteten statistischen Modelle durch Verarbeitung zu einem Sprachsignal als synthetisierte Sprache ausgegeben werden, dadurch gekennzeichnet, daß als statistische Modelle trainierte stochastische Markov Graphen verwendet werden, wobei die Knoten und Verzweigungen der stochastischen Markov Graphen während einer Trainingsphase mit natürlicher Sprache erzeugt werden.

Beschreibung[de]

Die Erfindung betrifft ein Verfahren zur parametrischen Synthese von Sprache nach dem Oberbegriff des Anspruchs 1.

In der Spracherkennung ist die statistische Modellierung der Sprache mit Hidden Markov Models (HMM) auf Grund ihrer Leistungsfähigkeit weit verbreitet.

In der Sprachsynthese werden zunehmend Verfahren aus der Spracherkennung eingesetzt. Moderne Sprachsynthesesysteme können nach zwei prinzipiellen Verfahren arbeiten, der Synthese durch Zusammensetzen aufgenommener natürlicher Sprachsegmente (konkatenative Synthese) oder der sogenannten parametrischen Synthese, welche ein künstliches Sprachsignal durch die Variation von Steuerparametern eines Spracherzeugungsmodells generiert. In den letzten Jahren wurden zunehmend Verfahren zur Sprachsynthese auf der akustischen Ebene vorgestellt, welche den HMM Ansatz aus der Spracherkennung auch für die Generierung natürlicher Sprache verwenden (T. Masuko, K. Tokuda, T. Kobayashi, S. Imai: "Speech synthesis using HMMs with dynamic features", Proc. ICASSP-96, pp. 389-392, 1996 und J. Matou ≙ek: "Speech synthesis using HMM-based acoustic unit inventory", Proceedings of Eurospeech 99, Vol. 5 p. 2323, Budapest 1999.

Mit der akustischen Analyse nach T. Fukada, K. Tokuda, T. Kobayashi, S. Imai: "An adaptive algorithm for mel-cepstral analysis of speech", in Proc. ICASSP92, pp. I/137-I/140, 1992 dieser Verfahren werden Merkmale generiert, die durch aus S. Imai, K. Sumita and C. Furuichi: "Mel log spectrum approximation (MLSA) filter for speech synthesis", Trans. IECE, vol. J66-A, pp. 122- 129, Feb. 1983 bekannte Synthesefilter wieder in das Sprachsignal zurücktransformiert werden können. Auf diese Weise werden Hidden Markov Modelle trainiert, die jeweils ein bestimmtes Segment (z. B. einen Laut) beschreiben. Die verwendeten Hidden Markov Modelle haben dabei in Analogie zur Spracherkennung eine feste Anzahl von Zuständen (3 bzw. 5 je nach Lautklasse) und als Basisfunktionen werden multimodale Gaussdichten verwendet. Die Kontextabhängigkeit der Laute wird durch sogenannte Triphone HMMs (mehrere kontextabhängige Modelle für ein und den selben Laut) modelliert.

Nachteilig bei derartigen Syntheseverfahren ist, daß sie in der erreichbaren Sprachqualität noch weit hinter der von konkatenativen Synthesesystemen erreichbaren Qualität zurück liegen. Ein Hauptgrund dafür liegt in der relativ groben Modellierung der Merkmalvektorfolgen, welche das Sprachsignal beschreiben, durch die gewählten Modelle. Das bloße Aneinanderketten von Merkmalvektorsequenzen führt trotz kontextabhängiger HMM-Modelle zu starken Diskontinuitäten, und somit zu auffälligen Störgeräuschen, an den Segmentgrenzen.

Weiterhin wenden bisherige Systemen Glättungsalgorithmen an, die zusätzlich zu den Merkmalen selbst deren Differenzen (Delta), bzw. die Differenz der Differenz (Delta-Delta) aufeinanderfolgender Merkmalvektoren berücksichtigen [2, K. Tokuda, T. Kobayashi, S. Imai: "Speech parameter generation from HMM using dynamic features", in Proc. ICASSP95, pp. 660- 663, 1995]. Diese Differenzen können Trends in den Merkmalverktorfolgen bis zu einem gewissen Maß beschreiben. Sie lösen jedoch nicht das Problem der starken Verallgemeinerung, welche von herkömmlichen Hidden Markov Modellen bezüglich der Abfolge von Merkmalvektoren vorgenommen wird. Die auf diese Weise erzeugten Merkmalverläufe beeinträchtigen die resultierende Sprachqualität, da sie nicht der natürlichen Realisierung der Lautübergänge entsprechen. Ein weiterer Nachteil in der Verwendung von HMM-Modellen besteht in der unzureichenden Modellierung von Varianten eines Segmentes.

Aus der Spracherkennung ist ein Verfahren bekannt, bei dem jeder Laut anstelle durch eine feste Modellstruktur durch einen trainierbaren Markov-Graphen beschrieben wird. Diese sogenannten stochastischen Markov Graphen [F. Wolfertstetter, G. Ruske: "Structured Markov models for speech recognition", Proc. ICASSP-95, pp. 544-547, 1995] werden aus den HMM- Modellen in einem zusätzlichen Trainingsschritt gebildet.

Die Aufgabe der Erfindung ist es, die auffälligen Störungen in der synthetisch mit Hidden Markov Modellen erzeugten Sprache zu mindern oder zu beseitigen.

Erfindungsgemäß wird die Aufgabe in Verbindung mit den im Oberbegriff des Anspruchs 1 genannten Merkmalen dadurch gelöst, daß als trainierte statistische Modelle trainierte stochastische Markov Graphen verwendet werden, wobei die Knoten und Verzweigungen der stochastischen Markov Graphen während der Trainingsphase mit natürlicher Sprache erzeugt werden.

Eine Besonderheit der Erfindung ist, daß anstelle von Hidden Markov Modellen (HMM) Stochastische Markov Graphen (SMG) zur Modellierung der Lautsegmente benutzt werden. Im Gegensatz zu den Hidden Markov Modellen besitzen SMGs eine variable, trainierbare Struktur und ermöglicht damit eine feinere Modellierung von Kontextabhängigkeiten und Variationen in den Lautsegmenten.

Die Struktur der SMGs ist dabei nicht wie bei den HMMs fest vorgegeben, sondern die Knoten und Verzweigungen werden während der Trainingsphase erzeugt. Zur Bestimmung der Merkmalvektoren aus der Sprache kann vorteilhaft die MelCepstral-Analyse eingesetzt werden. Beim Aufbau der Markov Graphen dient der Abstand zwischen dem aktuellen Merkmalvektor und den Gaussverteilungen der existierenden Knoten als Entscheidung darüber, ob die Bildung eines neuen Knotens erfolgt oder der aktuelle Parametersatz zu einem bereits existierenden Knoten zugeordnet wird. Der Einfügung eines Übergangs zwischen zwei Knoten erfolgt dann, wenn von zwei aufeinanderfolgenden Merkmalvektoren der erste dem einen und der zweite dem anderen Knoten zugeordnet wurde. Ist dieser Übergang bereits vorhanden, dann wird dessen Übergangswahrscheinlichkeit neu bestimmt.

Die Analyse der Sprache ist dabei nicht auf die Anwendung der MelCepstral-Analyse beschränkt. Prinzipiell ist dazu auch jedes andere Analyseverfahren geeignet, das eine Rücktransformation der Merkmalvektoren in das Sprachsignal zuläßt.

Mit der Erfindung wird eine deutliche Verbesserung der Sprachqualität von parametrischen Synthesesystemen mit statistischer Modellierung der Laute erzielt.

Die Erfindung wird nachfolgend an einem Ausführungsbeispiel näher erläutert. Die Zeichnungen zeigen:

Fig. 1 eine Darstellung zur Veranschaulichung des erfindungsgemäßen Verfahrens

Fig. 2 eine Darstellung eines Hidden Markov Modells

Fig. 3 eine Darstellung eines stochastischen Markov Graphen

In der Fig. 1 ist ein Blockschaltbild dargestellt, an Hand dessen das erfindungsgemäße Verfahren beschrieben wird. In den rechten Zweig geht geschriebener Text in die Textvorverarbeitung ein und wird einer Textanalyse unterzogen. Dabei werden Satzaufbau, Satzstruktur, Wortklassen u. dgl. durch Vergleich mit einer Wissensbasis analysiert. In der Graphem-Phonem-Umsetzung (GPU) werden auf Basis von Regeln oder eines Wörterbuches die Schriftsymbole in die phonetische Darstellung überführt.

Wie bereits bekannt werden nun die phonetischen Symbole durch eine Auswahl in eine Aneinanderreihung von statistischen Modellen übersetzt (Auswahl). Als statistische Modelle dienen dazu bisher sogenannte Hidden Markov Modelle, wie sie in Fig. 2 dargestellt sind. Die einzelnen Knoten der Hidden Markov Modelle werden durch eine Anzahl von Gaußverteilungen repräsentiert, deren Mittelwerte als Steuerinformation des MLSA Filters herangezogen werden.

Der linke Zeig dient der Veranschaulichung des Trainings der Hidden Markov Modelle. Auf der Basis von gesprochener Sprache erfolgt die Zuordnung von Merkmalen zu den Knoten der Hidden Markov Modelle, die mit Hilfe von Gaußverteilungen modelliert werden. Bei der Synthese der Sprache wird durch Aneinanderreihung der entsprechenden Hidden Markov Modelle eine Parameterfolge für das Synthesefilter generiert, das letztendlich das Sprachsignal erzeugt. Die beschriebene Vorgehensweise und die Verwendung von einfachen HMMs führt zu einer relativ groben Modellierung der Laute und resultiert in einer minderen Sprachqualität.

Entsprechend der Erfindung werden anstelle der Hidden Markov Modelle stochastische Markov Graphen verwenden, die durch eine Mehrzahl von Knoten und Verzweigungen repräsentiert sind. Eine Darstellung eines solchen stochastischen Markov Graphen findet sich in Fig. 3. Der Aufbau der stochastischen Markov Graphen ist flexibel, und ergibt sich im Verlauf der Trainingsphase.

Im Ausführungsbeispiel wurde zur Analyse der natürlichen Sprache die MelCepstral-Analyse verwendet. Diese erzeugt alle 5 Millisekunden einen Merkmalvektor, bestehend aus 20 numerischen Komponenten, welcher das entsprechende Stück des Sprachsignals beschreibt.

Die so entstandene Merkmalvektorfolge wird auf die vorhandenen stochastischen Markovgraphen (Phonemmodelle) abgebildet. Im Fall, daß die Abbildung nicht vollständig vorgenommen werden kann, werden neue Knoten und Kanten (Verbindungen zwischen zwei Knoten) zu den stochastischen Markovgraphen hinzugefügt.

Ein neuer Knoten des stochastischen Markov Graphen in der Trainingsphase wird gebildet, wenn kein Knoten im Modell existiert, dessen Emissionswahrscheinlichkeit für den aktuellen Merkmalvektor über einem festgesetzten Schwellwert liegt.

Eine neue Kante des stochastischen Markov Graphen wird in der Trainingsphase gebildet, wenn kein Knoten im Modell existiert, dessen Emissionswahrscheinlichkeit für den aktuellen Merkmalvektor über einem festgesetzten Schwellwert liegt.

Das Einfügen von Knoten und Kanten stellt das Training der stochastischen Markovgraphen dar.


Anspruch[de]
  1. 1. Verfahren zur Synthese von Sprache aus einer Folge von Phonemsymbolen, die mittels einer Textvorverarbeitung gewonnen werden, bei dem den Phonemsymbolen trainierte statistische Modelle durch Auswahl aus einer Datenbasis von derartigen Modellen zugeordnet werden, die statistischen Modelle als Folge aneinander gekettet werden, und die Parameter der aneinander geketteten statistischen Modelle durch Verarbeitung zu einem Sprachsignal als synthetisierte Sprache ausgegeben werden, dadurch gekennzeichnet, daß als statistische Modelle trainierte stochastische Markov Graphen verwendet werden, wobei die Knoten und Verzweigungen der stochastischen Markov Graphen während einer Trainingsphase mit natürlicher Sprache erzeugt werden.
  2. 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß ein neuer Knoten des stochastischen Markov Graphen in der Trainingsphase gebildet wird, wenn kein Knoten im Modell existiert, dessen Emissionswahrscheinlichkeit für den aktuellen Merkmalvektor über einem festgesetzten Schwellwert liegt.
  3. 3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß ein neuer Knoten des stochastischen Markov Graphen in der Trainingsphase gebildet wird, wenn kein Knoten im Modell existiert, dessen Emissionswahrscheinlichkeit für den aktuellen Merkmalvektor über einem festgesetzten Schwellwert liegt.
  4. 4. Verfahren nach Anspruch 1 bis 3, dadurch gekennzeichnet, daß zur Analyse der natürlichen Sprache die MelCepstral-Analyse verwendet wird, wobei zum Aufbau und Training der stochastischen Markov Graphen die Emissionswahrscheinlichkeiten der mit den Knoten des stochastischen Markov-Graphen verbundenen Gauss-Modelle ausgewertet werden.
  5. 5. Verfahren nach Anspruch 1 bis 4, dadurch gekennzeichnet, daß die Parameter der verketteten statistischen Modelle einem Synthesefilter zur Generierung der Sprache zugeführt werden.






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com