PatentDe  


Dokumentenidentifikation DE69636057T2 12.04.2007
EP-Veröffentlichungsnummer 0000870300
Titel Sprecherverifizierungssystem
Anmelder Rutgers University, Piscataway, N.J., US
Erfinder MAMMONE, J., Richard, Bridewater, NJ 08807, US;
FARRELL, Kevin, Milford, CT 06460, US;
SHARMA, Manish, Piscataway, NJ 08855, US;
DEVANG, Naik, Sunnyvale, CA 94087, US;
ZHANG, Xiaoyu, Piscataway, NJ 08854, US;
ASSALEH, Khaled, Scottsdale, AZ 85252, US;
LIOU, Han-Sheng, Waltham, MA 02154, US
Vertreter Kuhnen & Wacker Patent- und Rechtsanwaltsbüro, 85354 Freising
DE-Aktenzeichen 69636057
Vertragsstaaten AT, BE, CH, DE, DK, ES, FI, FR, GB, GR, IE, IT, LI, LU, MC, NL, PT, SE
Sprache des Dokument EN
EP-Anmeldetag 06.06.1996
EP-Aktenzeichen 969213297
WO-Anmeldetag 06.06.1996
PCT-Aktenzeichen PCT/US96/09260
WO-Veröffentlichungsnummer 1996041334
WO-Veröffentlichungsdatum 19.12.1996
EP-Offenlegungsdatum 14.10.1998
EP date of grant 19.04.2006
Veröffentlichungstag im Patentblatt 12.04.2007
IPC-Hauptklasse G10L 17/00(2006.01)A, F, I, 20060321, B, H, EP

Beschreibung[de]
Hintergrund der Erfindung 1. Gebiet der Erfindung

Die vorliegende Erfindung betrifft ein Mustererkennungssystem und insbesondere ein Sprecherverifizierungssystem, das eine Datenfusion verwendet, um Daten aus einer Mehrzahl von extrahierten Merkmalen und einer Mehrzahl von Klassifikatoren zu kombinieren und dadurch eine behauptete Identität präzise zu verifizieren.

2. Beschreibung des einschlägigen Standes der Technik

Die Mustererkennung betrifft die Identifizierung eines Musters wie etwa von Sprache, eines Sprechers, oder eines Bildes. Ein identifiziertes Sprechermuster kann in einem Sprecheridentifizierungssystem verwendet werden, um aus einer Sprachprobe zu bestimmen, welcher Sprecher anwesend ist.

Aufgabe eines Sprecherverifizierungssystems ist es, die behauptete Identität eines Sprechers aus einer Sprachprobe zu verifizieren. Die gesprochene Eingabe an das Sprecherverifizierungssystem kann textabhängig or textunabhängig sein. Textabhängige Sprecherverifizierungssysteme identifizieren den Sprecher nach der Sprachprobe einer vorgegebenen Phrase oder eines Passwortes. Textunabhängige Sprecherverifizierungssysteme identifizieren den Sprecher unabhängig von der Sprachprobe. Herkömmliche textunabhängige Systeme sind vom Standpunkt des Anwenders aus praktischer, weil kein Passwort benötigt wird.

Merkmalsextraktionen von Sprecherinformationen wurden mit einem Modulationsmodell unter Verwendung einer adaptiven Komponentengewichtung an jedem Sprachrahmen durchgeführt, wie in der US-A-5522012 beschrieben ist. Das adaptive Komponentengewichtungsverfahren dämpft Komponenten, die nicht vom Sprachtrakt stammen, und normalisiert Sprachkomponenten für eine verbesserte Sprechererkennung über einen Kanal.

Andere herkömmliche Merkmalextrahierungsverfahren umfassen die Bestimmung von Cepstralkoeffizienten aus dem Frequenzspektrum oder von aus einer Linearprädiktion hergeleiteten Spektralcodierungs-Koeffizienten. Neural Tree Networks (NTN) wurden mit sprecherunabhängigen Daten verwendet, um diskriminatorbasierende Parameter zwischen Sprechern zu bestimmen. Das NTN ist ein hierarchischer Klassifikator, der die Eigenschaften von Entscheidungsbäumen und neuralen Netzen miteinander kombiniert, wie in A. Sankar und R.J. Mammone, "Growing und Pruning Neural Tree Networks", IEEE Transactions on Computers, C-42:221–229, März 1993, beschrieben ist. Für eine Sprechererkennung bestehen Trainingsdaten für das NTN aus Daten für den gewünschten Sprecher und Daten von anderen Sprechern. Das NTN unterteilt einen Merkmalsraum in Bereiche, denen Wahrscheinlichkeiten zugeordnet werden, welche widerspiegeln, wie wahrscheinlich es ist, daß ein Sprecher ein Merkmalvektor erzeugt hat, das innerhalb den Bereich des Sprechers fällt. Textunabhängige Systeme besitzen den Nachteil, daß sie eine hohe Größenordnung von Daten für das Modellieren und Bewerten akustischer Merkmale des Sprechers erfordern.

US-Patent Nr. 4,957,961 beschreibt ein neurales Netzwerk, das problemlos trainiert werden kann, um verbundene Wörter auf verläßliche Weise zu erkennen. Eine dynamische Programmiertechnik wird verwendet, bei der Eingabeneuroneneinheiten einer Eingabeschicht in ein vielschichtiges neurales Netz gruppiert werden. Für die Erkennung eines eingegebenen Musters werden Vektorkomponenten eines jeden Merkmalvektors an jeweilige Eingabeneuroneneinheiten einer der Eingabeschichten geliefert, die aus drei aufeinanderfolgend numerierten Eingabeschichtrahmen ausgewählt ist. Eine Zwischenschicht verbindet die Eingabeneuroneneinheiten von mindestens zwei Eingabeschichtrahmen. Eine Ausgabeneuroneneinheit ist mit der Zwischenschicht verbunden. Eine Einstelleinheit ist mit der Zwischenschicht verbunden zum Einstellen der eingangs-intermediären und der intermediären Ausgangsverbindungen, damit die Ausgabeeinheit ein Ausgangssignal produziert. Das neurale Netz erkennt das eingegebene Muster als ein vorgegebenes Muster, wenn die Einstelleinheit das Ausgangssignal maximiert. Etwa vierzig Trainingszeiten werden in Verbindung mit jedem Sprachmuster verwendet, um das dynamische neurale Netz zu trainieren.

Es wurde festgestellt, daß die Menge von Daten, die zum Trainieren und Testen eines Verifizierungssystems benötigt werden, durch die Verwendung von textabhängigen Sprechersprachproben verringert werden kann. Ein herkömmliches textabhängiges Sprecherverifizierungssystem verwendet Dynamic Time Warping (DTW) für eine zeitliche Anordnung der Diagnose von Merkmalen auf der Basis der Verzerrung, s. S. Furui, "Cepstral Analysis Technique For Automatic Speaker Verification", IEEE Transactions on Acoustics Speech und Signal Processing, ASSP-29:254–272, April 1981. Ein Bezugs-Template wird während des Testens aus mehreren Sprachproben eines Passwortes erzeugt. Eine Entscheidung, die behauptete Identität des Sprechers zu akzeptieren oder zurückzuweisen, wird danach getroffen, ob die Verzerrung der Sprachprobe des Sprechers innerhalb eines vorgegebenen Schwellwertes fällt. Dieses System weist den Nachteil einer mangelnden Genauigkeit auf.

Eine andere Technik unter Verwendung von Hidden Markov Models (HMM) stellte eine verbesserte Leistungsfähigkeit gegenüber DTW-Systemen zur Verfügung, wie in J.J. Naik, L.P. Netsch, und G.R. Doddington, "Speaker Verification Over Long Distance Telephone Lines", Proceedings ICASSP (1989) beschrieben ist. Mehrere Formen von HMM wurden bei der textabhängigen Sprecherverifizierung verwendet. Beispielsweise Subwortmodelle gemäß der Beschreibung in A.E. Rosenberg, C.H. Lee und F.K. Soong, "Subwort Unit Talker Verification Using Hidden Markov Models", Proceedings ICASSP, S. 269–272 (1990), und Ganzwortmodelle A.E. Rosenberg, C.H. Lee und S. Gokeen, "Connected Word Talker Recognition Using Whole Word Hidden Markov Models", Proceedings ICASSP, S. 381–384 (1991) wurden für eine Sprecherverifizierung in Betracht gezogen. HMM-Techniken weisen die Beschränkung auf, daß sie allgemein eine große Datenmenge erfordern, um die Modellparameter ausreichend zu bewerten. Ein allgemeiner Nachteil der DTW- und HMM-Systeme ist es, daß sie nur den Sprecher modellieren und keine Modellierdaten von anderen Sprechern, die das System verwenden, in Betracht ziehen. Der Mangel an einem Diskriminatortraining macht es einem Betrüger leichter, in diese Systeme einzubrechen.

Ein anderes System ist in dem Dokument 'Text-Dependent Speaker Verification Using Data Fusion', Farrell, ICASSP-95, beschrieben, das ein Verfahren für die Sprecherverifizierung eines Sprechers offenlegt. Das System verwendet Datenfusionskonzepte, um die Resultate von verzerrungsbasierenden und diskriminatorbasierenden Klassifikatoren miteinander zu kombinieren. Aus den fusionierten Klassifikatorausgängen wird bestimmt, ob der Sprecher akzeptiert oder zurückgewiesen werden soll.

Es ist wünschenswert, ein Mustererkennungssystem zur Verfügung zu stellen, bei dem eine Mehrzahl von extrahierten Merkmalen zu einer Mehrzahl von vorgegebenen Klassifikatoren kombiniert werden kann, um die Genauigkeit der Erkennung des Musters zu verbessern.

Die vorliegende Erfindung umfaßt ein Verfahren, wie es in Patentanspruch 1 angegeben ist, und ein System, wie es in Patentanspruch 18 angegeben ist. Weitere Ausführungsformen sind in den Unteransprüchen angegeben.

Die Erfindung wird im nachfolgenden unter Bezugnahme auf die beigefügte Zeichnung ausführlicher beschrieben.

Kurzbeschreibung der Zeichnung

Es zeigt:

1 ein Schemadiagramm eines Sprecherverifizierungssystems gemäß der Lehre der vorliegenden Erfindung.

2A ein Schemadiagramm des in 1 gezeigten Worterkennungsmoduls während des Trainierens des Systems.

2B ein Schemadiagramm des in 1 gezeigten Worterkennungsmoduls während des Testens des Systems.

3 ein Schemadiagramm eines Sprecherverifizierungsmoduls, das eine Mehrzahl von extrahierten Merkmalen mit einer Mehrzahl von Klassifikatoren kombiniert.

4 ein Schemadiagramm der Kombination von Modified Neural Tree Network-Klassifikatoren und Dynamic Time Warping-Klassifikatoren, die in dem in 1 gezeigten Sprecherverifizierungsmodul verwendet wird.

5 ein Schemadiagramm eines Modified Neural Tree Network (MNTN)-Klassifikators, der in dem in 1 gezeigten Sprecherverifizierungsmodul verwendet wird.

6 ein Schemadiagramm eines Dynamic Time Warping (DTW)-Klassifikators, der in einem in 1 gezeigten Sprecherverifizierungsmodul verwendet wird.

7A ein Schemadiagramm einer Mehrzahl von Sprachproben, die beim Trainieren des Sprecherverifizierungsmoduls verwendet werden.

7B ein Schemadiagramm der Anwendung der in 7A gezeigten Mehrzahl von Sprachproben im Sprecherverifizierungsmodul.

8 ein Graph der Bewertungen eines Sprechers und anderer Sprecher.

9 ein Schemadiagramm eines subwortbasierenden Sprecherverifizierungssystems.

10A ein Schemadiagramm eines subwortbasierenden Klassifizierungssystems während des Trainierens.

10B ein Schemadiagramm eines subwortbasierenden Klassifizierungssystem während des Testens.

11A ein Schemadiagramm eines Kanalnormalisierungssystems des Standes der Technik.

11B ein Schemadiagramm eines Kanalnormalisierungssystems der vorliegenden Erfindung.

12 einen Graph einer Polfilterung Kanalnormalisierung.

13A einen Graph des Spektrums eines Sprachrahmens.

13B einen Graph des Spektrums eines Sprachrahmens für ein Normalisierungssystem der vorliegenden Erfindung über einem Rahmen aus einem Normalisierungssystem des Standes der Technik.

14 ein Schemadiagramm eines affinen Transformationssystems.

Detaillierte Beschreibung der bevorzugten Ausführunsgform

Im Verlauf der vorliegenden Beschreibung werden gleiche Bezugszeichen verwendet, um gleiche Elemente gemäß verschiedenen Figuren, welche die Erfindung veranschaulichen, zu identifizieren.

1 veranschaulicht ein Schemadiagramm einer Ausführungsform eines Sprecherverifizierungssystems 10 gemäß der Lehre der vorliegenden Erfindung. Der Sprecher 11 spricht Sprache 12 aus. Die Sprache 12 wird als ein Spracheingabesignal 13an das Merkmalsextrahierungsmodul 14 gelegt. Das Merkmalextrahierungsmodul 14 bestimmt Sprachmerkmalsvektoren 15, die für charakteristische Parameter des Spracheingabesignals 13 repräsentativ sind. Bevorzugt werden die Sprachmerkmalsvektoren 15 mittels einer Linearprädiktion (LP)-Analye bestimmt, um LP-Cepstralkoeffizienten zu bestimmen. Die LP-Cepstralkoeffizienten können unter Verwendung eines angehobenen Sinusfensters mit herkömmlichen Techniken bandpassgefiltert werden, um eine verbesserte Erkennung der Cepstralkoeffizienten zur Verfügung zu stellen.

Als Alternative, oder in Kombination mit der LP-Analyse, kann das Merkmalsextrahierungsmodul 14 Merkmale mit einer Mehrzahl von Methoden extrahieren. Beispielsweise kann ein adaptives Komponentengewichtungsverfahren gemäß der Beschreibung in der oben genannten US-A-5522012 zum Extrahieren von Sprachmerkmalsvektoren 15 verwendet werden. Die Methode der adaptiven Komponentengewichtung verstärkt extrahierte Merkmale, indem sie auf vorgegebene Komponenten des Spracheingabesignals 13 Gewichtungen anwendet, um ein normalisiertes Spektrum zu produzieren, das Stimmtraktmerkmale des Signals verbessert und gleichzeitig nicht vom Stimmtrakt stammende Effekte reduziert. Das Merkmalextrahierungsmodul 14 kann weiterhin andere von einer Linearprädiktion hergeleitete Merkmale aus Linearprädiktion (LP)-Koeffizienten unter Verwendung herkömmlicher Verfahren wie etwa Logbereichverhältnissen, Linienspektrumspaaren und Reflexionskoeffizienten erzeugen. Das Merkmalextrahierungsmodul 14 kann auch von einer schnellen Fourier-Transformation (FFT) abgeleitete Spektralmerkmale an linearen und logarithmischen Frequenzskalen, Kennfrequenz (Tonhöhe), Lautstärkekoeffizient und Nulldurchgangsraten erzeugen.

Das Worterkennungsmodul 20 empfängt Sprachmerkmalsvektoren 15 und vergleicht die Sprachmerkmalsvektoren 15 mit Daten 16, die mit den Sprachmerkmalsvektoren 15 in Beziehung stehen. Die Daten 16 können in der Datenbank 50 gespeichert sein. Beispielsweise kann der Sprecher 11 ein Passwort als Sprache 12 aussprechen. Sprachmerkmalvektoren 15 repräsentieren die Sprachprobe des Passwortes für den Sprecher 11. Ein geschlossener Satz von Passwörtern kann durch die Daten 16 repräsentiert und in der Datenbank 50 gespeichert sein. Der geschlossener Satz von Passwörtern entspricht einem Satz von Sprecheridentitäten einschließlich des Passwortes für den Sprecher 11. Am Worterkennungsmodul 20 wird, wenn die am Worterkennungsmodul 20 empfangenen Sprachmerkmalsvektoren 15 mit den in der Datenbank 50 gespeicherten Daten 16 übereinstimmen, z.B. ein Passwort für eine behauptete Identität übereinstimmt, das Sprecherverifizierungsmodul 30 ausgelöst. Wenn die empfangenen Sprachmerkmalsvektoren 15 nicht mit den in der Datenbank 50 gespeicherten Daten 16 übereinstimmen, z.B. nicht mit einem für die behauptete Identität in der Datenbank 50 gespeicherten Passwort übereinstimmen, kann der Anwender 11 aufgefordert werden, noch einmal beim Modul 21 vorstellig zu werden.

Das Sprecherverifizierungsmodul 30 verwendet bevorzugt eine Datenfusion, um eine Mehrzahl von Klassifikatoren mit Sprachmerkmalsvektoren 15 zu kombinieren, wobei diese Technik nachstehend im Detail beschrieben ist. Fusionierte Klassifikatorausgänge 35 des Sprecherverifizierungsmoduls 30 werden am Entscheidungsfusionslogikmodul 40 empfangen. Das Entscheidungsfusionslogikmodul 40 liefert die endgültige Entscheidung darüber, ob die behauptete Identität des Sprechers 11 akzeptiert oder zurückgewiesen werden soll, wodurch die behauptete Identität des Sprechers verifiziert wird.

2A und 2B veranschaulichen das Worterkennungsmodul 20 während des Enrollment bzw. der Erstregistrierung des Sprechers 11, bzw. während des Testen des Sprechers 11. Während des Enrollment des Sprechers 11 im Sprecherverifizierungssystem 10 wird Trainingssprache 22 vom Sprecher 11 ausgesprochen. Beispielsweise kann die Trainingssprache 22 vier Wiederholungen eines Passwortes für den Sprecher 11 umfassen. Jede der Wiederholungen wird mit dem Wortabgleicherkennungsmodul 28 erkannt. Bevorzugt wird ein DTW-basierender Template-Abgleichalgorithmus im Wortabgleicherkennungsmodul 28 verwendet, um erkannte Wörter 23 zu erzeugen. Erkannte Wörter 23 werden in einem sprecherabhängigen Template 24 geclustert. Sprecherunabhängige Templates 26 können mit erkannten Wörtern 23 und Daten von Wiederholungen der gleichen Trainingssprache 22, die von anderen Sprechern 25 gesprochen wurde, unter Verwendung des Sprecherverifizierungssystems 10 ebenfalls erzeugt werden. Eine Mehrheitsentscheidung über erkannte Wörter 23 aus dem Worterkennungsabgleichmodul 28 kann verwendet werden, um das Passwort 27 eines Anwenders für den Sprecher 11 zu identifizieren.

Während des Testens des Sprechers 11 wird Sprache 12 vom Anwender 11 gesprochen und im Worterkennungsabgleichmodul 28 mit einem sprecherabhängigen Template 24 und einem sprecherunabhängigen Template 26 verglichen. Wenn die Sprache 12 das Passwort 27 des Sprechers 11 darstellt und entweder mit dem sprecherabhängigen Wort-Template 24 oder dem sprecherunabhängigen Wort-Template 26 übereinstimmt, wird eine Antwort "akzeptiert" an die Leitung 29 ausgegeben. Wenn die Sprache 12 weder mit dem sprecherabhängigen Wort-Template 24 noch mit dem sprecherunabhängigen Wort-Template 26 übereinstimmt, wird eine Antwort "zurückgewiesen" an die Leitung 29 ausgegeben.

Bevorzugt verwendet das Sprecherverifizierungsmodul 30 eine Datenfusion zum Kombinieren einer Mehrzahl von extrahierten Merkmalen 60, 61 und 62 mit einer Mehrzahl von Klassifikatoren 70, 71 und 72, wie in 3 gezeigt ist. Die Merkmale 60, 61 und 62 können Sprachmerkmalsvektoren 15 repräsentieren, die mit variierenden vorgegebenen Extraktionsverfahren extrahiert wurden, wie obenstehend beschrieben ist. Die Klassifikatoren 70, 71 und 72 können variierende vorgegebene Klassifizierungsverfahren repräsentieren wie z.B. ein Neural Tree Network (NTN), Multilayer Perceptron (MLP), Hidden Markov Models (HMM), Dynamic Time Warping (DTW), Gaussian Mixtures Model (GMM) und Vektorquantisierung (VQ). In einer alternativen Ausführungsform können die Merkmale 60, 61 und 62 Extraktionsmerkmale eines alternativen Musters wie Sprache or Bild repräsentieren, und die Klassifikatoren 70, 71 und 72 können vorgegebene Klassifizierungsverfahren für die Sprach- oder Bildmuster repräsentieren. Die Ausgänge 73, 74 und 75 von jeweiligen Klassifikatoren 70, 71 und 72 können im Entscheidungsfusionslogikmodul 40kombiniert werden, um eine endgültige Entscheidung zu treffen, ob der Sprecher 11 akzeptiert oder zurückgewiesen werden soll. Das Entscheidungsfusionsmodul 40 kann herkömmliche Techniken verwenden, wie Linear Opinion Pool, Log Opinion Pool, Bays'sche Kombinationsregeln; Abstimmverfahren ("voting method"), oder einen zusätzlichen Klassifikator, um die Klassifikatoren 70, 71 und 72 zu kombinieren. Es wird verständlich sein, daß jegliche Anzahl von Merkmalen oder Klassifikatoren kombiniert werden kann. Die Klassifikatoren können des weiteren Klassifikatoren umfassen, die mit verschiedenen und überlappenden Substraten von Trainingsdaten trainiert wurden, wie beispielsweise dem nachfolgend beschriebenen Leave-one-out-Verfahren.

4 veranschaulicht ein bevorzugtes Sprecherverifizierungsmodul 30 zur Verwendung im Sprecherverifizierungssystem der vorliegenden Erfindung. Die Sprachmerkmalvektoren 102 werden an die Neural Tree Network (NTN)-Klassifikatoren 104, 106, 108 und 110 und Dynamic Time Warping (DTW)-Klassifikatoren 120, 122, 124 und 126 eingegeben. Während der Klassifizierung bestmmt jeder NTN-Klassifikator 104, 106, 108 und 110 und 126, ob der Merkmalvektor 102 über einem jeweiligen vorgegebenen Schwellwert "TNTN" von NTN liegt, der in der Datenbank 132 gespeichert ist. Jeder DTW-Klassifikator 120, 122, 124 und 126 bestimmt, ob der Merkmalvektor 102 über einem jeweiligen vorgegebenen Schwellwert "TDTW" von DTW liegt, der in der Datenbank 132 gespeichert ist. Wenn die Merkmalvektoren 102 über jeweiligen Schwellwerten TNTN und TDTW liegen, wird ein binärer Ausgang "1" an die Leitung 240 bzw. an die Leitung 241 ausgegeben. Wenn die Merkmalvektoren 102 unter einem jeweiligen vorgegebenen Schwellwert TNTN und TDTW liegen, wird ein binärer Ausgang "0" an die Leitung 240 bzw. an die Leitung 241 ausgegeben.

Während des Testens des Sprechers 11 mit dem Sprecherverifizierungssystem 10 empfängt das Entscheidungsmodul 40 die binären Ausgänge von der Leitung 240 und 241. In einer bevorzugten Ausführungsform des Entscheidungsmoduls 40 kann eine Mehrheitsentscheidung an den binären Ausgängen im Entscheidungsmodul 240vorgenommen werden, um zu bestimmen, ob der Sprecher 11 akzeptiert oder zurückgewiesen werden soll. In dieser Ausführungsform wird der Sprecher akzeptiert, wenn die Mehrheit der binären Ausgänge "1" ist, und der Sprecher wird zurückgewiesen, wenn die Mehrheit der binären Ausgänge "0" ist.

Ein bevorzugter Klassifikator, der als Modified Neural Tree Network (MNTN) 200 bezeichnet wird, kann als diskriminatorbasierender Klassifikator im Sprecherverifizierungsmodul 30 verwendet werden. Das MNTN 200 weist eine Mehrzahl von miteinander verbundenen Knoten 202, 204 und 206 auf, wie in 5 gezeigt ist. Der Knoten 204 ist mit dem Blattknoten 208 und dem Blattknoten 210 gekoppelt, und der Knoten 206 ist mit dem Blattknoten 212 und dem Blattknoten 214 gekoppelt. Eine Wahrscheinlichkeitsmessung wird wegen des Vorwärtsbeschneidens ("forward pruning") des Baumes an jedem der Blattknoten 208, 210, 212 und 214 verwendet, indem das Anwachsen des MNTN 200 über einem vorgegebenen Niveau trunkiert wird.

Das MNTN 200 wird für den Sprecher 11 trainiert, indem Daten 201 von anderen Sprechern 25 unter Verwendung des Sprecherverifizierungssystems 10 angewendet werden. Extrahierten Merkmalvektoren 15 für den als "S1" identifizierten Sprecher 11 werden Etiketten "1" zugewiesen, und extrahierten Merkmalvektoren für andere Sprecher 25 unter Verwendung des Sprecherverifizierungssystems 10 werden Etiketten "0" zugewiesen. Die Daten 220, 230, 240 und 250 werden jeweils an die Blattknoten 208, 210, 212 und 214 von extrahierten Merkmalvektoren gelegt. Eine Abstimmung wird an jedem Blattknoten 208, 210, 212 und 214 vorgenommen. Jedem der Blattknoten 208, 210, 212 und 214 wird das Etikett der Mehrheit der Entscheidung zugewiesen. Ein "Vertrauen" ist als das Verhältnis der Anzahl von Etiketten für die Mehrheit zu der Gesamtzahl von Etiketten definiert. Daten 220 mit acht "0"-Merkmalen wird beispielsweise ein Etikett "0" und ein Vertrauen "1.0" zugewiesen. Daten 230, die sechs "1"-Merkmale und vier "0"-Merkmalen aufweisen, wird ein Etikett "1" und ein Vertrauen "0.6" zugewiesen.

Ein trainiertes MNTN 200 kann im Sprecherverifizierungsmodul 30 dazu verwendet werden, eine entsprechende Sprecherbewertung aus einer Abfolge von Merkmalvektoren "X" aus der Sprache 12 zu ermitteln. Die entsprechende Sprecherbewertung PMNTN (X/S1) kann mit der folgenden Gleichung bestimmt werden: wobei der Sprecher 11 als S1 identifiziert ist, c1 die Vertrauensbewertung für den Sprecher 11, und c0 die Vertrauensbewertung für alle anderen Sprecher sind. M und N entsprechen der Anzahl von Vektoren, die als "1" bzw. "0" klassifiziert wurden.

Ein bevorzugter DTW-Klassifikator verwendet einen verzerrungsbasierenden Ansatz für die zeitliche Anordnung von zwei Wellenformen oder zwei Merkmalsmustern, wie in 6 gezeigt ist. Die Wellenformen sind durch ein Bezugsmuster von Sprachmerkmalsvektoren 15 auf der X-Achse und ein Testmuster von Sprachmerkmalsvektoren 15 auf der Y-Achse repräsentiert, wobei N für die Anzahl von Bezugsmustern steht, und M für die Anzahl von Testmustern steht. Globale Einschränkungen 270, 271, 272 und 273 stellen Grenzen für den dynamischen Zeitverzerrungspfad 275 dar. Der dynamische Zeitverzerrungspfad 275 kann durch herkömmliche Verfahren bestimmt werden, wie sie etwa in H. Sakoe und S. Chiba, "Dynamic programming algorithm optimization for spoken word recognition", IEEE Trans. on Acoustics. Speech and Signal Processing, vol. ASSP-26, Nr. 1, S. 43–49, Feb. 1978 beschrieben sind.

Es ist bevorzugt, einen Klassifikator zu kombinieren, der auf einem Verzerrungsverfahren basiert, d.h. einen DTW-Klassifikator, um sprecherbezogene Informationen zur Verfügung zu stellen, und einen Klassifikator, der auf einem Diskriminatorverfahren basiert, d.h. NTN- or MNTN-Klassifikatoren, um sprecherbezogene Informationen im Hinblick auf andere Sprecher, welche das Sprecherverifizierungssystem 10 verwenden, zur Verfügung zu stellen. Die Fusion eines DTW-Klassifikators und eines MNTN- or NTN-Klassifikators hat weiterhin den Vorteil, daß der DTW-Klassifikator zeitliche Informationen zur Verfügung stellt, die nicht generell Teil der NTN- or MNTN-Klassifikatoren ist.

Die NTN-Klassifikatoren 104, 106, 108 und 110 und die DTW-Klassifikatoren 120, 122, 124 und 126 können mit dem Trainingsmodul 300 trainiert werden, das in den 7A und 7B gezeigt ist. Das Trainingsmodul 300 kann auch zum Trainieren von MNTN-Klassifikatoren, DTW-Klassifikatoren und anderen Klassifikatoren verwendet werden, die in Sprecherverifizierungsmodul 30 verwendet werden können. Ein als "Leave-one-out"-Verfahren bezeichnetes Resampling-Verfahren wird bevorzugt im Trainingsmodul 300 verwendet. Eine vorgegebene Anzahl von Sprachproben von Trainingssprache wird vom Sprecher 11 empfangen. In dieser Ausführungsform werden vier Sprachproben der Sprache 22 -wie etwa des Passwortes- verwendet, die als 302, 304, 306 und 308 identifiziert sind. Eine Kombination von drei der vier Sprachproben, wobei eine Sprachprobe ausgelassen wird, werden an Paare von NTN-Klassifikatoren 104, 106, 108 und 110 und DTW-Klassifikatoren 120, 122, 124 und 126 gelegt. Die drei Sprachproben werden dazu verwendet, die Klassifikatoren zu trainieren, und die übrige Sprachprobe wird als unabhängiger Testfall verwendet. Beispielsweise können die Sprachproben 302, 304 und 306 an den NTN-Klassifikator 104 und den DTW-Klassifikator 120 gelegt werden; die Sprachproben 304, 306 und 308 können an den NTN-Klassifikator 106 und den DTW-Klassifikator 122 gelegt werden, die Sprachproben 302, 306 und 308 können an den NTN-Klassifikator 108 und den DTW-Klassifikator 124 gelegt werden, und die Sprachproben 302, 304 und 308 können an den NTN-Klassifikator 110 und den DTW-Klassifikator 126 gelegt werden.

Nach dem Anlegen der jeweiligen drei Sprachproben an jedes Paar von NTN-Klassifikatoren 104, 106, 108 bzw. 110 und DTW-Klassifikatoren 120, 122, 124 bzw. 126 wird die ausgelassene Sprachprobe an jedes jeweilige Paar von NTN-Klassifikatoren 104, 106, 108 und 110 und DTW-Klassifikatoren 120, 122, 124 und 126gelegt, wie in 7C gezeigt ist. Beispielsweise wird die Sprachprobe 308 an den NTN-Klassifikator 104 und den DTW-Klassifikator 120 gelegt, die Sprachprobe 302 wird an NTN 106 und DTW 122 gelegt, die Sprachprobe 304 wird an NTN 108 und DTW 124 gelegt, und die Sprachprobe 306 wird an NTN 110 und DTW 126 gelegt. Eine Wahrscheinlichkeit P zwischen 0 und 1 wird berechnet, die als 310, 312, 314 bzw. 316 bezeichnet wird. Die Wahrscheinlichkeiten 310, 312, 314 und 316 werden mit einem Schwellwert TDTW und mit den Wahrscheinlichkeiten 317, 318, 319 und 320 TNT im Abstimmungsmodul 321 des Entscheidungsfusionslogikmoduls 40 verglichen.

8 ist ein Graph von Intrasprecherbewertungen von anderen Sprechern 25 und Intersprecherbewertungen vom Sprecher 11, die dazu verwendet werden können, um Schwellwerte für die im Sprecherverifizierungssystem 10 verwendeten Klassifikatoren zu bestimmen, z.B. Schwellwerte TDTW und TNTN. Die Intersprecherbewertungen des Sprechers 11 für die Sprache 12 sind durch den Graph 350 mit dem mean Sprecher score 351 dargestellt. Die Intrasprecherbewertungen anderer Sprecher 25 für die Sprache 12 sind durch den Graph 360 mit der durchschnittlichen Sprecherbewertung 361 dargestellt. Schwellwerte T lassen sich aus der folgenden Gleichung bestimmen: T = x·interspeaker + y·interspeaker

Eine weiche Bewertung S kann durch den Betrag bestimmt werden, um den die Sprache 12 über oder unter dem Schwellwert T liegt. Eine Bewertung eines jeden Klassifikators, C, liegt zwischen Null und Eins, wobei Null die zuversichtlichste Zurückweisung und Eins die zuversichtlichste Akzeptanz ist. Das Akzeptanzvertrauen Caccept, das zwischen dem Schwellwert T und Eins liegt, kann durch die folgende Gleichung definiert werden:

Ein Zurückweisungsvertrauen Creject, das zwischen 0 und dem Schwellwert T liegt, kann definiert werden als:

9 veranschaulicht ein Schemadiagramm eines subwortbasierenden Sprecherverifizierungssystems 400. Nach dem Extrahieren von Sprachmerkmalsvektoren 15 im Merkmalsextrahierungsmodul 14 werden die Sprachmerkmalsvektoren 15 im Subwort-Segmentierungsmodul 402 in Subwörter 404 segmentiert. Bevorzugt sind die Subwörter 404 Phoneme. Die Subwörter 404 können zum Trainieren des Sprechermoduls 406 und des Testsprechermoduls 408 angewendet werden.

10A ist ein Schemadiagramm des subwortbasierenden Sprecherverifizierungssystems 400 während der Anwendung des Trainingssprechermoduls 406. Die Sprecherextraktionsmerkmale 15, welche die Trainingssprachproben des Sprechers 11 und ein Passwort-Transkript 410 darstellen, werden an das Subwort-Phonemniveau-Segmentierungsmodul 402 gelegt. Das Passwort-Transkript 410 kann vom Sprecher 11 gesprochen, von einem Computer eingegeben, oder von einer Karte gescannt werden oder dergleichen. Das Sprachsegmentierungsmodul 402 segmentiert beispielsweise die Sprecherextraktionsmerkmale 15 in Subwörter 1 bis M, das Subwort "1" in Modul 420, das Subwort "m" in Modul 422, und das Subwort "M" in Modul 424, in dem M die Anzahl von segmentierten Subwörtern ist. Die Subwörter 420, 422 und 424 können in der Subwort-Datenbank 425 gespeichert werden. Das überwachte Lernvektoretikettierschema 430 bestimmt die Etiketten für die Trainingssprachevektoren als "0" oder "1" für die Trainingklassifikatoren 440, 442 und 444. Beispielsweise können alle Subwörter für andere Sprecher 25 als "0", und Subwörter für den Sprecher 15 als "1" etikettiert werden. Als Alternative können die nächsten Phoneme in der Datenbank 425 gesucht werden. Die Subwort-Klassifikatoren 440, 442 und 444 werden auf jeweilige Subwörter 420, 422 und 424 angewendet, um jedes der Subwörter zu klassifizieren. Bevorzugt verwenden die Subwort-Klassifikatoren 440, 442 und 444 NTN- und MNTN-Klassifizierungsverfahren.

10B ist eine schematische Darstellung des subwortbasierenden Sprecherverifizierungssystems 400 während der Anwendung des Testsprechermoduls 408. Das Sprecherextraktionsmerkmal 15, das die Testsprachproben des Sprechers 11 darstellt, wird an das Subwort-Phonemniveau-Segmentierungsmodul 402 mit Passwort-Transkript 410 gelegt. Die Subwort-Klassifikatoren 440, 442 und 444 klassifizieren jeweilige Subwörter 420, 422 und 424, die aus den Sprecherextraktionsmerkmalen 15 ermittelt wurden und Testsprachproben des Sprechers 11 darstellen. Der Ausgang 445 vom Klassifikator 440, 442 und 444 wird an das Entscheidungsfusionslogikmodul 40 gelegt, um zu bestimmen, ob der Sprecher 11 akzeptiert oder zurückgewiesen werden soll, basierend auf dem fusionierten Ausgang von den Klassifikatoren 440, 442, 444 auf der Grundlage eines berechneten Akzeptanzvertrauens Caccept gemäß der obenstehenden Beschreibung.

Ein bevorzugtes Verfahren, das als "Polfilterung" beschrieben werden kann, kann im Merkmalsextrahierungsmodul 14 verwendet werden, um Sprachmerkmalsvektoren 15 zu erhalten, die gegen Kanalunterschiede unempfindlich sind. Die Polfilterung führt eine Kanalnormalisierung unter Verwendung von intelligentem Filtern aller Pol-Linearprädiktions (LP)-Filter.

Saubere Sprache CS wird mit einem Kanal mit einer Impulsantwort h verfaltet, woraufhin ein Kanalcepstrum des gewöhnlichen Cepstraldurchschnitts dargestellt werden kann durch wobei der Cepstraldurchschnittkomponente einzig aufgrund der zugrundeliegenden sauberen Sprache entspricht. Die Komponente aufgrund von sauberer Sprache sollte Nulldurchschnitt sein, damit die Kanalcepstrumschätzung cS der Cepstralschätzung h der tatsächlichen zugrundeliegenden Faltungsverzerrung entspricht.

Es kann empirisch gezeigt werden, daß die durchschnittliche Cepstrumkomponente aufgrund von sauberer Sprache für kurze Sprachproben niemals Null ist, und für das Trainieren und Testen Sprecherverifizierungssystems 10 geeignet ist.

Ein Kanalnormalisierungssystem 500 des Standes der Technik ist in 11A gezeigt, in der Sprache an das Intrarahmen-Gewichtungsmodul 502 gelegt wird. Die adaptive Komponentengewichtung (ACW) ist ein Beispiel für eine Intrarahmen-Gewichtung zur Kanalnormalisierung. Gewichtete Sprache 504 wird am Interrahmenverarbeitungsmodul 506 empfangen, um zusätzliche Kanaleffekte zu entfernen. Ein herkömmliches Interrahmenverfahren für die Entfernung von Kanaleffekten ist mittels Cepstraldurchschnitt-Substraktion (CMS). Da das Kanalcepstrum eine starke Spektralverteilung aufgrund sowohl des Kanals als auch der Sprache aufweist, entspricht die herkömmliche Beseitigung einer verzerrten Schätzung des Kanalcepstrums aus dem Cepstrum eines jeden Sprachrahmens effektiv einer Auffaltung einer unzuverlässigen Schätzung des Kanals.

11B veranschaulicht ein Kanalnormalisierungssystem 600 der vorliegenden Erfindung. Eine Sprache 12 wird an das Kanalschätzungs-Polfilterungsmodul 602 gelegt. Die Polfilterung schwächt den Beitrag der invarianten Komponente infolge der Sprache sS ab. Die verfeinerte Kanalschätzung wird zum Normalisieren des Kanals verwendet. Bevorzugt kann die Verfeinerung des Kanalcepstrums auf iterative Weise durchgeführt werden.

Die Schätzung des Kanalcepstrums cS hängt von der Anzahl von Sprachrahmen ab, die in der Sprachprobe verfügbar sind. Falls die verfügbare Sprachprobe der Sprache ausreichend lang ist, ist es möglich, eine Schätzung des Kanalcepstrums zu erhalten, welche die Kanalschätzung h annähert. In den meisten praktischen Situationen sind die Sprachprobendauern zum Trainieren oder Testen niemals lang genug für sS – 0. Die Cepstraldurchschnitt-Schätzung kann durch Bestimmen der Dominanz der Pole im Sprachrahmen und ihres Beitrags zu der Schätzung des Kanalcepstrums verbessert werden.

Die Auswirkung eines jeden Modus des Stimmtraktes auf den Cepstraldurchschnitt wird bestimmt durch Konvertieren des Cepstraldurchschnitts in Linearprädiktionskoeffizienten und Untersuchen der Dominanz entsprechender komplexer konjugierter Polpaare. Eine Spektralkomponente für einen Sprachrahmen ist am dominantesten, wenn sie einem komplexen konjugierten Polpaar entspricht, das am nächsten zum Einheitskreis liegt (minimale Bandbreite), und am wenigsten dominant, wenn sie einem komplexen konjugierten Polpaar entspricht, das am weitesten vom Einheitskreis liegt (maximale Bandbreite).

Das Einschränken der Pole der Sprache, um eine glattere und somit genauere inverse Kanalschätzung im Cepstralbereich zu erhalten, entspricht einem modifizierten Cepstraldurchschnitt cpfs der die Cepstraldistanz in Bezug auf die invariante Komponente infolge der Sprache abschwächt. Die Entfernung des verfeinerten Cepstraldurchschnitts, ohne die grobe Spektralverteilungskomponente infolge von Sprache, bietet eine Vorgehensweise für eine verbesserte Kanalnormalisierung.

Die Kanalschätzung, die am besten aus dem Kanalpolfiltermodul 602 bestimt wurde, wird im Auffaltungsmodul 730 mit der Sprache 12 kombiniert, um durch Entfaltung im Zeitbereich eine normalisierte Sprache 735 zur Verfügung zu stellen. Eine herkömmliche Interrahmenkopplung 502 und Interferenzverarbeitung 506 kann auf die normalisierte Sprache 735 angewendet werden, um den kanalnormalisierten Sprachmerkmalvektor 740 zur Verfügung zu stellen. Der Sprachmerkmalvektor 740 kann auf ähnliche Weise angewendet werden wie die in 1 gezeigten Sprachmerkmalsvektoren 15. Ein bevorzugtes Verfahren für die Verbesserung der Schätzung des Kanals verwendet polgefilterte Cepstralkoeffizienten, PFCC, wobei die Bandbreite der engen Bandpole aufgeweitet wird, während ihre Frequenzen unverändert belassen werden, wie in 12 gezeigt ist. Die Pole 801, 802, 803, 804, 805, 806 werden zu den modifizierten Polen 811, 812, 813, 814, 815 und 816 verschoben. Der Effekt ist äquivalent zu einer Verschiebung der schmalen Bandpole innerhalb des Einheitskreises entlang des gleichen Radius, wodurch die Frequenz konstant gehalten wird, während die Bandbreiten aufgeweitet werden.

Polgefilterte Cepstralkoeffizienten PFCC werden für die Sprache gleichzeitig mit den Sprachmerkmalsvektoren 15 bestimmt. Die polgefilterten Cepstralkoeffizienten PFCC werden bestimmt, indem analysiert wird, ob ein Pol in einem Rahmen 12 eine Bandbreite aufweist, die unter einem vorgegebenen Schwellwert t liegt. Wenn die Sprache 12 unter dem vorgegebenen Schwellwert liegt, wird die Bandbreite dieses Pols auf den Schwellwert t zugeschnitten. Die polgefilterten Cepstralkoeffizienten können für das Bewerten des modifizierten Cepstraldurchschnitts verwendet werden. Eine verbesserte inverse Filterschätzung wird durch die Verwendung von Durchschnittswerten der polgefilterten Cepstralkoeffizienten PFCC erhalten, was das echte inverse Kanalfilter besser annähert. Das Subtrahieren des modifizierten Cepstraldurchschnitts von den Cepstralrahmen der Sprache bewahrt die Spektralinformation und kompensiert gleichzeitig die spektrale Verkippung des Kanals besser.

13A veranschaulicht ein Probenspektrum 700 eines Sprachrahmens. 13B veranschaulicht Spektren 710 eines Cepstraldurchschnitts CS des Standes der Technik, der von dem Spektrum 700 subtrahiert wird. Das Spektrum 720 ist ein polgefilterter modifizierter Cepstraldurchschnitt c pfs , der vom Spektrum 700 subtrahiert wurde. Das Spektrum 720 weist im Vergleich mit dem Spektrum 710 eine verbesserte Spektralinformation auf.

14 veranschaulicht das affine Transformierungssystem 900, das beim Trainieren und Testen des Sprecherverifizierungssystems 10 verwendet werden kann. Die fehlende Übereinstimmung zwischen Trainings- und Testumgebung kann reduziert werden, indem eine affine Transformation an dem mit dem Merkmalsextrahierungsmodul 14 extrahierten Cepstralkoeffizienten durchgeführt wird. Eine affine Transformation y des Vektors x ist definiert als y = Ax + b wobei A eine Matrix ist, die eine lineare Transformation darstellt, und b ein Ungleich-Null-Vektor ist, der die Verschiebung darstellt, y sind die Testdaten, und x entspricht den Trainingsdaten. Im Sprachverarbeitungsbereich modelliert die Matrix A das Schrumpfen von individuellen Cepstralkoeffizienten aufgrund von Rauschen, und der Vektor b ist für die Verschiebung des Cepstraldurchschnitts aufgrund der Kanaleffekte verantwortlich.

Die Singulärwertzerlegung (SVD) beschreibt die Geometrie der affinen Transformation durch die folgende Gleichung: y = U&Sgr;VTx + b in der U und VT Einheitsmatrizen sind, und &Sgr; diagonal ist. Die geometrische Interpretation ist, daß x um VT gedreht wird, und durch U reskaliert und wieder gedreht wird. Es liegt auch eine Verschiebung vor, die durch den Vektor b eingeführt wird.

Es hat sich herausgestellt, daß jeder Cepstralkoeffizient in der Praxis um einen verschiedenen Wert skaliert wird, und das Reskalieren von Cepstralkoeffizienten ist von einer geringfügigen Änderung der Winkel begleitet. Ein verrauschter Cepstralvektor cns kann dargestellt werden als die Multiplikation des sauberen Cepstrumvektors c mit einer Matrix, d.h. cns = Ac.

Um die durch sowohl den Kanal als auch durch das Rauschen verursachten Verzerrungen gleichzeitig darzustellen, kann ein affines Mapping verwendet werden, das dargestellt ist durch c' = Ac + b.

Der affine Transformationsparameter von x ist definiert durch die affine Transformation x = A–1(y – b) wobei x ein Äquivalent von x ist.

Die affinen Transformationsparameter A und b können aufgefunden werden durch Verwendung der Fehlerquadratmethode, um die obenstehende Gleichung am Trainings- oder Kreuzvalidierungs-Datensatz zu lösen.

Während des Trainierens des Sprecherverifizierungssystems 10 werden die Sprachmerkmalsvektoren 15 mit dem affinen Transformationsmodul 902 verbunden und werden während des Testens von der Klassifikator-Eingangsleitung 901 an den Klassifikator 904 gelegt. Während des Trainierens werden die Sprachmerkmalsvektoren 15 mit dem affinen Transformationsmodul 902 verbunden und werden von der Klassifikator-Eingangsleitung 903 an den Klassifikator 904 gelegt. Bevorzugt ist der Klassifikator 804 ein Vektorquantisierungs-Klassifikator. Der Klassifikator 804 kann beispielsweise den Klassifikatoren 70, 71, 72 entsprechen, die in 2 gezeigt sind, oder den NTN-Klassifikatoren 104, 106, 108, 110 und den DTW-Klassifikatoren 120, 122, 124 und 126, die in 4 gezeigt sind.

Bei dem Sprecherverifizierungssystem 10 können die Sprecher, die ihre wahre Identität behaupten, als wahre Sprecher bezeichnet werden, während Sprecher 11, die eine gefälschte Identität behaupten, als Betrüger bezeichnet werden können. Bei der Bewertung von Sprechern kann das Sprecherverifizierungssystem 10 zwei Arten von Fehlern machen: (a) Falschzurückweisung ("false rejection"; FR) und Falschakzeptanz ("false acceptance"; FA). Ein Falschzurückweisungs (FR)-Fehler tritt auf, wenn ein wahrer Sprecher, der eine wahre Identität behauptet, durch das Sprecherverifizierungssystem 10 zurückgewiesen wird. Wenn ein Betrüger vom Sprecherverifizierungssystem 10 akzeptiert wird, ist ein Falschakzeptanz (FA)-Fehler eingetreten. Die Entscheidung über das Akzeptieren oder Zurückweisen einer Identität hängt gemäß der obenstehenden Beschreibung von einem Schwellwert T ab. Je nach den Kosten eines jeden Fehlertyps kann das System so ausgelegt sein, daß es einen Fehler auf Kosten des anderen in Kauf nimmt. Als Alternative, um miteinander konkurrierende Technologien zu bewerten, kann die Equal Error Rate (EER) von Systemen verglichen werden. Eine Equal Error Rate wird erzielt, wenn beide Fehlertypen (nämlich FR und FA) mit einer gleichen Wahrscheinlichkeit auftreten.

Das subwortbasierende Sprecherverifizierungssystem der vorliegenden Erfindung wurde an einem herkömmlichen Sprachkörper mit der Bezeichnung YOHO bewertet, das durch Linguistic Data Consortium (LDC), Philadelphia, erhältlich ist. Das subwortbasierende Sprecherverifizierungssystem 10 der vorliegenden Erfindung erzielte eine Equal Error Rate (EER) von 0.36% gegenüber der EER herkömmlicher Systeme auf der Basis von Hidden Markov Model (HMM) von 1.66% unter ähnlichen Bedingungen.

Die vorliegende Erfindung besitzt den Vorteil, daß sie eine Mehrzahl von Attributen von verschiedenen Klassifikatoren kombiniert, um ein leistungsfähiges Erkennungssystem zur Verfügung zu stellen, das ein gegebenes Muster präzise erkennen kann. Bei einer Sprecherverifizierungs-Ausführungsform kann ein verzerrungsbasierender Klassifikator mit einem diskriminatorbasierenden Klassifikator kombiniert werden, um Attribute zu kombinieren, die mit dem Sprecher und anderen Sprecher in Beziehung stehen. Bevorzugt wird ein Neural Tree Network verwendet zum Klassifizieren von Daten von Sprechern und anderen Sprechern bei einem verringerten Verarbeitungsaufwand. Ein Worterkennungs-Freigabemodule kann dem Verifizierungssystem eine höhere Genauigkeit hinzufügen und den Verarbeitungsaufwand für zurückgewiesene Sprecher verringern. Des weiteren können die Klassifikatoren subwortbasierend mit textabhängigen or textunabhängigen Daten sein. Darüber hinaus kann das Verifizierungssystem mit einem Leave-one-out-Verfahren trainiert werden, um die Daten zu verringern, die zum Trainieren des Systems benötigt werden. Eine Polfilterung kann verwendet werden, um die Kanalverzerrung im System abzumildern. Eine affine Transformation von extrahierten Merkmalen stellt eine verbesserte Korrelation zwischen Trainings- und Testdaten zur Verfügung. Das System kann die Sprechermodelle auch aktualisieren, nachdem eine positive Verifizierung vorgenommen wurde, um das Alterungsphänomen mit zu berücksichtigen.

Obgleich die Erfindung unter Bezugnahme auf die bevorzugte Ausführungsform beschrieben wurde, ist diese Beschreibung nicht als Einschränkung gedacht. Für den Durchschnittsfachmann wird es ersichtlich sein, daß Modifikationen vorgenommen werden können, ohne den Schutzbereich der Erfindung gemäß der Definition in den Ansprüchen zu verlassen.


Anspruch[de]
Verfahren zur Sprecherverifizierung eines Sprechers, welches die Schritte aufweist:

Extrahieren mindestens eines Merkmals aus einer von dem Sprecher gesprochenen ersten Sprache;

Klassifizieren des mindestens einen Merkmals mit einer Mehrzahl von Klassifikatoren zum Bilden einer Mehrzahl von klassifizierten Ausgängen;

Fusionieren der Mehrzahl von klassifizierten Ausgängen zum Bilden von fusionierten Klassifikatorausgängen;

– Erkennen der fusionierten Klassifikatorausgänge durch Bestimmen der Ähnlichkeit der fusionierten Klassifikatorausgänge und der Daten für den Sprecher vor der Sprecherverifizierung; und

Bestimmen aus den erkannten fusionierten Klassifikatorausgängen, ob der Sprecher akzeptiert oder zurückgewiesen werden soll, wobei das Verfahren durch die Schritte gekennzeichet ist:

Vornehmen einer Worterkennung an der von dem Sprecher gesprochenen ersten Sprache durch Vergleichen des mindestens einen Merkmals mit Daten für den Sprecher, die vor der Sprecherverifizierung gespeichert wurden, um zu bestimmen, ob der Sprecher vorläufig akzeptiert oder vorläufig zurückgewiesen werden soll; und

Freigeben des Schrittes des Klassifizierens des mindestens einen Merkmals, wenn bestimmt wird, daß der Sprecher vorläufig akzeptiert werden soll, oder Freigeben eines Rückrufmoduls, wenn bestimmt wird, daß der Sprecher vorläufig zurückgewiesen werden soll.
Verfahren nach Anspruch 1, welches ferner den Schritt aufweist:

Bestimmen eines Vertrauens aus den erkannten fusionierten Klassifikatorausgängen.
Verfahren nach Anspruch 1, wobei die erste Sprache mindestens eine Sprachprobe eines Passwortes für den Sprecher umfaßt. Verfahren nach Anspruch 1, wobei die Daten ein sprecherabhängiges Template umfassen, das aus einer vorausgehend von dem Sprecher gesprochenen Sprache gebildet ist, sowie ein sprecherunabhängiges Template, das aus einer vorausgehend von mindestens einem zweiten Sprecher gesprochenen Sprache gebildet ist. Verfahren nach Anspruch 1, wobei der Schritt des Klassifizierens mit einem Neural Tree Network-Klassifikator und einem Dynamic Time Warping-Klassifikator durchgeführt wird. Verfahren nach Anspruch 1, wobei der Schritt des Klassifizierens mit einem Modified Neural Tree Network-Klassifikator und einem Dynamic Time Warping-Klassifikator durchgeführt wird. Verfahren nach Anspruch 1, wobei der Erkennungsschritt umfaßt:

Anlegen an ein Paar der Mehrzahl von Klassifikatoren einer Mehrzahl von ersten Sprachproben von Sprache für den Sprecher und Weglassen einer der Sprachproben, die als eine weggelassene Sprachprobe definiert ist, zum Trainieren der Klassifikatoren;

Anlegen der weggelassenen Sprachproben an das Paar von Klassifikatoren zum unabhängigen Testen der Klassifikatoren;

Berechnen einer ersten Wahrscheinlichkeit für einen ersten der Klassifikatoren in dem Paar von Klassifikatoren und einer zweiten Wahrscheinlichkeit für einen zweiten der Klassifikatoren in dem Paar von Klassifikatoren;

Bestimmen eines ersten Schwellwerts für den ersten der Klassifikatoren in dem Paar von Klassifikatoren aus der ersten Wahrscheinlichkeit und eines zweiten Schwellwerts für den zweiten der Klassifikatoren in dem Paar von Klassifikatoren aus der zweiten Wahrscheinlichkeit,

wobei die Ähnlichkeit der klassifizierten Ausgänge durch Vergleichen des ersten der Klassifikatoren in dem Paar mit dem ersten Schwellwert und des zweiten der Klassifikatoren in dem Paar mit dem zweiten Schwellwert bestimmt wird.
Verfahren nach Anspruch 1, wobei der Extrahierschritt durch das Modifizieren von Polen in einem Polfilter der vor der Sprecherverifizierung gesprochenen ersten Sprache und zweiten Sprache des Sprechers vorgenommen wird, um das mindestens eine Merkmal zu extrahieren. Verfahren nach Anspruch 1, welches ferner den Schritt aufweist:

Segmentieren des mindestens einen Merkmals aus der ersten Sprache in eine Mehrzahl von ersten Subwörtern nach dem Extrahierschritt.
Verfahren nach Anspruch 9, wobei die Subwörter Phoneme sind. Verfahren nach Anspruch 1, wobei das mindestens eine Merkmal unter Verwendung einer affinen Map-Transformation korrigiert wird, wobei die affine Transformation dargestellt ist durch y = Ax – b, wobei y die affine Transformation des Vektors x ist, A eine Matrix ist, die eine lineare Transformation darstellt, und der Vektor b die Verschiebung darstellt. Verfahren nach Anspruch 1, wobei die Pole modifiziert werden durch die Schritte:

Bestimmen einer Spektralkomponente des mindestens einen Merkmals; und Einschränken der Pole, um eine Kanalschätzung zu erhalten.
Verfahren nach Anspruch 12, welches des weiteren die Schritte aufweist:

Auffalten der vor der Sprecherverifizierung gesprochenen ersten Sprache und zweiten Sprache des Sprechers mit der Kanalschätzung, um eine normalisierte Sprache zu erhalten; und

Berechnen von Spektralmerkmalen der normalisierten Sprache, um normalisierte Sprachmerkmalsvektoren zu erhalten, die auf den Klassifizierungsschritt angewendet werden.
Verfahren nach Anspruch 12, welches des weiteren die Schritte aufweist:

Konvertieren der Kanalschätzung in Cepstralkoeffizienten, um eine modifizierte Kanalschätzung in einem Cepstralbereich zu erhalten; und

Subtrahieren der modifizierten Kanalschätzung von Cepstralrahmen der vor der Sprecherverifizierung gesprochenen ersten Sprache und zweiten Sprache des Sprechers.
Verfahren nach Anspruch 10, wobei das mindestens eine Merkmal Cepstralkoeffizienten sind, und die Cepstralkoeffizienten unter Verwendung einer affinen Map-Transformation korrigiert werden. Verfahren nach Anspruch 12, welches des weiteren die Schritte aufweist:

Extrahieren mindestens eines Merkmals aus der von anderen Sprechern gesprochenen zweiten Sprache;

Zuweisen eines ersten Etiketts an das mindestens eine Merkmal aus der von dem Sprecher gesprochenen ersten Sprache; Zuweisen eines zweiten Etiketts an das mindestens eine Merkmal aus der von anderen Sprechern gesprochenen zweiten Sprache; und

Trainieren der Klassifikatoren an den ersten und zweiten Etiketten.
Verfahren nach Anspruch 9, welches des weiteren die Schritte aufweist:

Extrahieren mindestens eines Merkmals aus der von anderen Sprechern gesprochenen zweiten Sprache;

Segmentieren des mindestens einen Merkmals aus der zweiten Sprache in eine Mehrzahl von zweiten Subwörtern nach dem Extrahierschritt;

Speichern der ersten Mehrzahl von Subwörtern und der zweiten Mehrzahl von Subwörtern in einer Subwort-Datenbank;

Bestimmen aus den gespeicherten ersten Subwörtern von ersten Etiketten für den Sprecher und aus den zweiten Subwörtern von zweiten Etiketten für andere Sprecher; und

Trainieren der Klassifikatoren an den ersten und zweiten Etiketten.
System für die Sprecherverifizierung eines Sprechers, welches aufweist:

Einrichtungen zum Extrahieren (14) mindestens eines Merkmals aus einer von dem Sprecher gesprochenen ersten Sprache;

Einrichtungen zum Klassifizieren des mindestens einen Merkmals mit einer Mehrzahl von Klassifikatoren zum Bilden einer Mehrzahl von klassifizierten Ausgängen;

Einrichtungen zum Fusionieren (40) der Mehrzahl von klassifizierten Ausgängen zum Bilden von fusionierten Klassifikatorausgängen;

Einrichtungen zum Erkennen der fusionierten Klassifikatorausgänge durch Bestimmen der Ähnlichkeit der fusionierten Klassifikatorausgänge und der vor der Sprecherverifizierung für den Sprecher gespeicherten Daten;

Einrichtungen zum Bestimmen aus den erkannten fusionierten Klassifikatorausgängen, ob der Sprecher akzeptiert oder zurückgewiesen werden soll;

gekennzeichnet durch:

Einrichtungen zum Durchführen einer Worterkennung (20) an der von dem Sprecher gesprochenen ersten Sprache durch Vergleichen des mindestens einen Merkmals mit vor der Sprecherverifizierung für den Sprecher in einer Datenbank (50) gespeicherten Daten zum Bestimmen, ob der Sprecher vorläufig akzeptiert oder vorläufig zurückgewiesen werden soll; und

Einrichtungen zum Freigeben (20) der Einrichtungen zum Klassifizieren des mindestens einen Merkmals, wenn bestimmt wird, daß der Sprecher vorläufig akzeptiert werden soll, oder Freigeben eines Rückrufmoduls, wenn bestimmt wird, daß der Sprecher vorläufig zurückgewiesen werden soll.
System nach Anspruch 18, wobei die Daten ein sprecherabhängiges Template umfassen, das aus einer vorausgehend von dem Sprecher gesprochenen Sprache gebildet ist, sowie ein sprecherunabhängiges Template, das aus einer vorausgehend von mindestens einem zweiten Sprecher gesprochenen Sprache gebildet ist. System nach Anspruch 19, wobei die Einrichtungen zum Klassifizieren einen Modified Neural Tree Network-Klassifikator und einen Dynamic Time Warping-Klassifikator umfassen. System nach Anspruch 20, wobei die Einrichtungen zum Extrahieren eine Einschränkung von Polen in einem Filter für alle Pole durchführen. System nach Anspruch 21, wobei das mindestens eine Merkmal ein Cepstralkoeffizient ist, und der Cepstralkoeffizient unter Verwendung einer affinen Transformation korrigiert wird.






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com