PatentDe  


Dokumentenidentifikation DE60301773T2 29.06.2006
EP-Veröffentlichungsnummer 0001393652
Titel Verfahren und Gerät für die Montage eines Haushaltgeräts in einem Schrank
Anmelder WHIRLPOOL CORP., Benton Harbor, Mich., US
Erfinder Joelsson, Arne, V.le G. Borghi 27, 21025 Comerio, IT;
Gustafsson, Linda, V.le G. Borghi 27, 21025 Comerio, IT
Vertreter derzeit kein Vertreter bestellt
DE-Aktenzeichen 60301773
Vertragsstaaten DE, FR, GB, IT, SE
Sprache des Dokument EN
EP-Anmeldetag 06.06.2003
EP-Aktenzeichen 030122113
EP-Offenlegungsdatum 03.03.2004
EP date of grant 05.10.2005
Veröffentlichungstag im Patentblatt 29.06.2006
IPC-Hauptklasse A47B 77/08(2006.01)A, F, I, 20051017, B, H, EP

Beschreibung[de]

Die vorliegende Erfindung bezieht sich auf die automatische Spracherkennung eines Sprechers, insbesondere auf die Überprüfung eines Sprechers zum Zugriff auf eine Serviceanwendung, unabhängig oder in Abhängigkeit vom Inhalt des Sprachsegments, wie beispielsweise einem Passwort, das vom Sprecher gesagt wird.

Die Überprüfung des Sprechers oder die Sprach-Authentisierung stellt eine ergonomische Möglichkeit für die Zugriffssicherung dar. Leider gewährleisten die aktuellen Leistungen noch keine vollständige Sicherheit.

Der Entwickler von Überprüfungseinrichtungen für Sprecher in einer automatischen Spracherkennungsvorrichtung, dem Gegenstand der vorliegenden Erfindung, muss einen Kompromiss schließen zwischen dem zulässigen Fälschungsgrad durch Unbefugte, die auf die Anwendung zugreifen, und dem erforderlichen Niveau an Ergonomie, entsprechend dem Annahmegrad für ehrliche Sprecher, denen die Serviceanwendung nicht verweigert werden darf.

Der Kompromiss zwischen Sicherheit und Ergonomie ist die Grundlage für die Höhe eines Entscheidungsgrenzwerts. Tatsächlich führt jedes Verfahren zur Überprüfung eines Sprechers zu einem Prüfergebnis, das die Ähnlichkeit zwischen dem Sprachmodell eines mutmaßlich berechtigten Sprechers und dem Sprachsegment eines unbekannten Sprechers, der auf die Anwendung zugreifen möchte, wiedergibt. Das Prüfergebnis wird anschließend mit dem Entscheidungsgrenzwert verglichen. Entsprechend dem Ergebnis dieses Vergleichs entscheidet die Vorrichtung, den unbekannten Sprecher anzunehmen oder abzulehnen, d.h. ihm den Zugriff auf die Anwendung zu gestatten oder zu verweigern. Wenn der Entscheidungsgrenzwert streng und damit hoch ist, werden zu Recht wenige Unbefugte zugelassen, es werden jedoch auch berechtigte Sprecher abgewiesen. Wenn der Entscheidungsgrenzwert großzügig, d.h. niedrig ist, werden wenig berechtigte Sprecher zurückgewiesen, es werden jedoch auch viele Unbefugte zugelassen.

Die Schwierigkeit besteht also in der Festlegung des Entscheidungsgrenzwerts, umso mehr als der Grenzwert bei gleichem Annahmegrad von einem Sprecher zum anderen variiert („A Comparison of A Priori Threshold Setting Procedures For Speaker Verification in the Cave Project", J.-B. Pierrot et al., Proceedings ICASSP, 1998).

Die Verteilung der Prüfergebnisse ist somit abhängig vom Sprachmodell des Sprechers, auf dessen Grundlage sie berechnet werden. Eine optimale Funktion der Sprecherüberprüfung erfordert daher einen an das Modell angepassten Entscheidungsgrenzwert.

Eine Möglichkeit, die Sensibilität des Sprecherspezifischen Grenzwerts zu beseitigen, besteht in der Standardisierung der Prüfergebnis-Verteilung. Wenn die Ergebnisverteilung anhand einer entsprechenden Transformation vom Sprechermodell unabhängig gemacht werden kann, wird das Problem der Suche nach einem Grenzwert pro Sprecher, d.h. pro Sprechermodell gelöst. Das Problem wird somit auf die Suche nach einer Ergebnisstandardisierung verschoben.

In der in dem Artikel „A Map Approach with Synchronous Decoding and Unit-based Normalization for Text-Dependent Speaker Verification", Johnny Mariethoz et al., Proceedings ICASSP, 2000, beschriebenen, so genannten „Z-Norm"-Methode wird die Verteilung der Prüfergebnisse mit Hilfe der Parameter &mgr;x und &sgr;x für die Verteilung der Ergebnisse von angenommenen Unbefugten in einer Unbefugten-Gruppe standardisiert. Wenn Sx(Y) das Prüfergebnis für ein zu prüfendes Sprachsegment Y im Verhältnis zum Modell des berechtigten Sprechers X darstellt, lautet das standardisierte Prüfergebnis gemäß der Z-Norm-Methode wie folgt:

wobei &mgr;x und &sgr;x den Durchschnitt, bzw. die Standardabweichung der Verteilung der Betrugsergebnisse im Modell X darstellen. Diese Standardisierungsparameter werden vorab, während der Selbstlernphase der Vorrichtung, mit einer Datenbank von Aufzeichnungen, die als plausible Fälle von Betrugsversuchen für das Sprechermodell X betrachtet werden, bewertet.

Die erforderliche Datenbank mit Aufnahmen von Sprechern, die im Verhältnis zu einem berechtigten Sprecher als Unbefugte betrachtet werden, ist im Fall der Überprüfung eines Sprechers in Abhängigkeit von einem festgelegten und der Spracherkennungsvorrichtung bekannten Passwort denkbar. Dies setzt voraus, dass der Entwickler der Serviceanwendung zuvor eine Sammlung der Aufnahmen von Personen erstellt hat, die das Passwort in einem der Anwendung nahe kommenden Kontext aussprechen, damit diese Aufnahmen plausible Fälle von Betrugsversuchen darstellen. Diese notwendige Sammlung von Aufnahmen erschwert die Änderung des Passwortes im Fall eines Systems mit Passwort, das von der Vorrichtung festgelegt wird, und macht die Auswahl des Passworts durch den berechtigten Sprecher, dem Nutzer der Anwendung, unmöglich.

In einer ergonomischen Lösung, in der das Passwort vom Nutzer selbst im Rahmen der Selbstlernphase gewählt wird, ist es nämlich praktisch unmöglich, eine Sammlung von Aufnahmen dieses Passworts durch verschiedene andere Sprecher zu erstellen.

Andererseits ist eine sehr kurze Selbstlernphase vorgesehen, um die Ergonomie bestimmter Anwendungen zu verbessern, in deren Verlauf ein Sprachmuster des berechtigten Nutzers/Sprechers erstellt wird, indem ein entsprechendes Sprachmodell generiert wird.

Um die Modellbildung zu erweitern, wird das Sprachmodell des berechtigten Sprechers im Verlauf der Nutzung mit von der Anwendung validierten Sprachaufzeichnungen oder mit einem Entscheidungsalgorithmus, wie er im Artikel „Robust Methods of Updating Model and a priori Threshold in Speaker Verification", Tomoko Matsui et al., Proceedings ICASSP, 1996, S. 97–100 beschrieben wird, angepasst. Wenn ein Nutzer eindeutig erkannt wurde, wird seine während der Zugangsanforderung aufgezeichnete Stimme verwendet, um sein Modell zu aktualisieren. Diese Aktualisierung erweitert die Modellbildung und berücksichtigt die Weiterentwicklung der Sprache des berechtigten Sprechers im Lauf der Zeit.

Wenn die Modellbildung erweitert wird, verändert sich auch die Verteilung der Ergebnisse und der anfangs definierte Entscheidungsgrenzwert kann für die Anwendung ungeeignet sein. Denn je mehr das Modell mit vielen Daten festgelegt wird, desto besser sind die Prüfergebnisse im Fall eines berechtigten Nutzers/Sprechers. Wenn der Entscheidungsgrenzwert zu locker festgesetzt wird, um nicht zu viele, in der anfänglichen Konfiguration berechtigte Nutzer abzuweisen, ist er auch relativ freizügig und lässt eine große Anzahl an Unbefugten zu. In dem Maße, in dem das Sprachmodell des Sprechers im Verlauf der Zugangsanforderungen erweitert wird, ändern sich die Ergebnisverteilungen, was zu einer sehr geringen Anzahl an Abweisungen von berechtigen Sprechern und zu einem relativ hohen Annahmegrad von Unbefugten führen kann, während eine Änderung des Entscheidungsgrenzwerts in vollem Umfang der Erweiterung der Modellbildung zugute kommt und eine geringe Anzahl an falschen Ablehnungen, bei gleichzeitig geringem Annahmegrad von Unbefugten beibehalten würde.

In dem oben genannten Artikel schlagen Matsui et al. vor, den Entscheidungsgrenzwert anzupassen, wenn das Sprechermodell geeignet ist. Diese Anpassung erfolgt dann direkt über den Entscheidungsgrenzwert an einem bestimmten Betriebspunkt.

Die von Matsui et al. vorgeschlagene Anpassung des Grenzwerts setzt voraus, dass die Vorrichtung alle für die Selbstlernphase und die Anpassung des Sprechermodells erforderlichen Sprachaufzeichnungen gespeichert hat, um eine Gruppe von Prüfergebnissen festlegen zu können, die der Bewertung eines Entscheidungsgrenzwerts für diese Gruppe dienen. Dieser Grenzwert wird mit dem früheren Grenzwert interpoliert, um den neuen Grenzwert festzulegen.

Die Nachteile dieser Grenzwertanpassung werden im Folgenden erläutert. Einerseits sind Aufzeichnungen von Unbefugten erforderlich, was in manchen Anwendungen unrealistisch ist. Andererseits müssen die Sprachaufzeichnungen von Sprechern gespeichert werden, um den Entscheidungsgrenzwert neu festzulegen, was erhebliche Speicherkosten mit sich bringt. Außerdem die müssen bei einer Neufestlegung des Entscheidungsgrenzwerts, d.h. für einen bestimmten Betriebspunkt, wenn man den Betriebspunkt beispielsweise aufgrund von ergonomischen Gesichtspunkten ändern will, alle Parameter der Interpolation geändert werden.

Das vorrangige Ziel der Erfindung besteht darin, das Prüfergebnis zu standardisieren, damit es mit einem stets geltenden, vom Sprecher unabhängigen Entscheidungsgrenzwert verglichen werden kann, wobei gewährleistet wird, dass sich das Prüfergebnis mit der Sprache des berechtigten Sprechers weiterentwickelt, ohne auf zusätzliche Aufzeichnungen von Unbefugten zurückgreifen zu müssen. Infolge dessen hat die Erfindung zum Ziel, in Bezug auf die Spracherkennungsvorrichtung den erforderlichen Speicherplatz für zusätzliche Aufzeichnungen von Unbefugten zu reduzieren und dabei gleichzeitig eine präzisere und schnellere Entscheidung zu gewährleisten.

Um dieses Ziel zu erreichen, umfasst die Vorrichtung zur automatischen Erkennung der Sprache eines berechtigten Sprechers für den Zugriff auf eine Anwendung ein Mittel zur Generierung von Parametern für ein Annahme-Sprachmodell in Bezug auf ein Sprachsegment, das von dem berechtigten Sprecher gesprochen wird, und Parameter für ein Ablehnungs-Sprachmodell, das zuvor während der Selbstlernphase definiert wurde, ein Mittel zur Standardisierung eines Sprecher-Prüfergebnisses durch Standardisierungsparameter, die vom Wahrscheinlichkeitsverhältnis zwischen einem zu prüfenden Sprachsegment und den Annahme- und Ablehnungsmodellen abhängig sind, und ein Mittel zum Vergleich des standardisierten Prüfergebnisses mit einem ersten Grenzwert, der den Zugriff eines Sprechers, der das zu prüfende Sprachsegment ausgesprochen hat, auf die Anwendung nur freigibt, wenn das Standardergebnis mindestens dem ersten Grenzwert entspricht. Diese Vorrichtung ist dadurch gekennzeichnet, dass sie gemäß der Erfindung ein Mittel zur Aktualisierung mindestens eines der Standardisierungsparameter in Abhängigkeit von dem vorhergehenden Wert des genannten Parameters und vom Prüfergebnis des Sprechers bei jedem Test des Sprachsegments umfasst, jedoch nur wenn das standardisierte Ergebnis mindestens einem zweiten Grenzwert entspricht, der mindestens dem ersten Grenzwert entspricht.

Der Ausdruck „mindestens" bezeichnet eine Variable über oder gleich einem Grenzwert.

Wenn man den Betriebspunkt ändern möchte, wird der erste Grenzwert geändert, ohne dass die Parameter angepasst werden müssen.

Das standardisierte Ergebnis wird auf diese Weise online, im Verlauf der Versuche zur Sprecherüberprüfung und damit der Zugriffsanforderungen auf die Anwendung aktualisiert, so dass sich das standardisierte Ergebnis zusammen mit der Veränderung der Stimme des Sprechers weiterentwickelt. Die Aktualisierung in Abhängigkeit von mindestens einem Parameter, und nicht von einem Grenzwert, bietet die Möglichkeit zur Änderung des standardisierten Prüfergebnisses unabhängig von dem von der Anwendung vorgegebenen Betriebspunkt.

Der aktualisierte Standardisierungsparameter kann für den statistischen Mittelwert des Sprecher-Prüfergebnisses oder für die Standardabweichung des Sprecher-Prüfergebnisses repräsentativ sein, oder es werden beide Parameter aktualisiert.

Die Aktualisierung des standardisierten Ergebnisses wird weiter verbessert, wenn die Vorrichtung ein Mittel umfasst, das mindestens einen der Parameter des Annahmemodells in Abhängigkeit von dem vorhergehenden Wert des genannten Modellparameters aktualisiert, jedoch nur, wenn das standardisierte Ergebnis mindestens einem zweiten Grenzwert entspricht.

Weitere Merkmale und Vorteile der vorliegenden Erfindung werden beim Durchlesen der folgenden Beschreibung mehrerer, bevorzugter Ausführungsvarianten der Erfindung in Bezug auf die beiliegenden Zeichnungen deutlich, wobei:

1 ein schematisches Blockdiagramm eines Telekommunikationssystems mit einem Server ist, der eine Vorrichtung zur Spracherkennung eines Sprechers umfasst;

2 ein Funktionsblockdiagramm einer Selbstlernvorrichtung ist, die in die Vorrichtung integriert ist; und

3 ein Funktionsblockdiagramm eines Mittels zur Sprecherüberprüfung ist, das in die Vorrichtung integriert ist.

In 1 ist ein bevorzugter Kontext für den Einsatz der Vorrichtung zur automatischen Spracherkennung eines Sprechers DR gemäß der vorliegenden Erfindung schematisch dargestellt. Dieser Kontext bezieht sich auf ein Client-Server-Telekommunikationssystem, in dem ein Sprecher-Terminal TE, wie beispielsweise ein Telefonapparat oder ein mit einem Modem ausgerüsteter PC, oder ein mobiles Endgerät, wie beispielsweise ein Mobiltelefon, mit einem interaktiven Sprach-Telefonserver SV, der die Vorrichtung DR beinhaltet, über ein Telefon-Teilnehmernetz oder ein Mobilfunknetz RA verbunden ist. Wenn ein berechtigter Sprecher auf eine vordefinierte Serviceanwendung AP zugreifen will, wird ein vom berechtigten Sprecher L vor dem Mikrofon MI des Endgeräts TE ausgesprochenes Passwort MP oder ein Satz an den Server SV übertragen, und zwar als Antwort auf eine Aufforderung zur Übermittlung des Passworts im Verlauf eines Dialogs mit dem Sprachserver SV. Die Vorrichtung DV analysiert das Passwort MP und gewährt den Zugriff auf die vordefinierte Anwendung AP, wenn die Stimme des Sprechers L korrekt erkannt wurde. Die Anwendung AP bietet beispielsweise Dienste, die in einem Anwendungsserver SAP verwaltet werden, der über ein Paketnetzwerk RP, wie beispielsweise das Internet, mit dem Sprachserver SV verbunden ist.

In anderen Ausführungsvarianten ist die Vorrichtung DR in einem Endgerät implementiert, wie beispielsweise einem Telefonapparat, einem PC, einem Mobiltelefon oder einem PDA.

Wie in den 2 und 3 dargestellt, umfasst die Vorrichtung zur automatischen Spracherkennung eines Sprechers DR gemäß der Erfindung funktionell eine Selbstlernvorrichtung, bestehend aus drei Programmmodulen A1, A2 und A3, sowie ein Mittel zur automatischen Überprüfung des Sprechers, bestehend aus sechs Programmmodulen V1 bis V6. Diese arbeiten mit einem nicht flüchtigen Speicherbereich im Server zusammen, um verschiedene Parameter zu speichern, von denen die meisten aktualisiert werden und die zur Festlegung des standardisierten Prüfergebnisses dienen, das im Folgenden definiert wird.

Die Selbstlernvorrichtung legt die Parameter fest, die im Wesentlichen ein Modell des berechtigten Sprechers L kennzeichnen, der erkannt werden soll. Sie umfasst ein Spracherfassungsmodul A1, das mit einer Akustikquelle, wie beispielsweise dem Mikrofon MI verbunden ist, ein Akustik-Analysemodul A2, dessen Ausgang während der Selbstlernphase mit einem iterativen Eingang der Sprachmodelle in Schleife geschaltet ist, und ein Modul zur Generierung eines Sprechermodells A3.

Die automatische Selbstlernphase gründet beispielsweise auf der statistischen Modellbildung eines Passworts MP anhand verborgener Markowscher Ketten HMM (Hidden Markov Model). Erläuterungen zum Thema der statistischen Markowschen Methoden zur verborgenen Modellbildung sind im Artikel von Lawrence R. Rabiner, „A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition", Proceedings of the IEEE, Vol. 77, Nr. 2, Februar 1989, S. 257–286, zu finden. Das Passwort MP wird vom berechtigten Sprecher L für den Zugriff auf die Anwendung AP auf dem Sprachserver SV in N Fällen vor dem Mikrofon MI mit jeweils vordefinierter Dauer ausgesprochen, wobei üblicherweise N = 3 Mal. Somit werden nach einer Analog-Digital-Umwandlung N Versionen des Passworts im Erfassungsmodul A1 gespeichert. Das Passwort MP wird vom Sprecher L frei gewählt und ist der Spracherkennungsvorrichtung des Sprechers DR zunächst unbekannt. Während der Selbstlernphase sind keine anderen Aufzeichnungen des Passworts erforderlich, die von anderen Sprechern als dem berechtigten Sprecher L ausgesprochen werden.

In einer Variante ist die Zusammensetzung der Passwörter frei, d.h. sie besteht aus einem beliebigen Sprachsegment und kann vom berechtigten Sprecher nach Belieben beim jedem Spracherkennungs-versuch seiner Stimme geändert werden.

Im Verlauf der analysierten Versionen des ausgesprochenen Passworts bewertet das Analysemodul A2 auf bekannte, iterative Weise die vordefinierten Parameter m eines verborgenen Markowschen Modells &lgr;, um daraus die Mittelwerte der Gaußschen Verteilung dieser Modellparameter abzuleiten. Das Modul A2 übernimmt andere Parameter eines allgemeinen Sprachmodells, die im Modul A2 aufgrund der geringen Anzahl an verfügbaren Daten aus der Analyse der Passwort-Versionen mit der kleinen Zahl N vorgespeichert wurden. Die Parameter des auf diese Weise vom berechtigten Sprecher L generierten Annahme-Sprachmodells &lgr; werden im Modul A3 gespeichert.

Das Sprachmodell &lgr;, auch als akustische Referenz bezeichnet, ist charakteristisch für die Stimme des berechtigten Sprechers L und kann im Speicher des Servers SV einer Sprecherkennung, beispielsweise einem Geheimcode, zugeordnet und auf der Tastatur des Endgeräts TE eingegeben werden, ehe das Passwort MP ausgesprochen wird.

Parallel zur Erstellung des Annahmemodells &lgr;, erstellt das Akustik-Analysemodell A2 ein Ablehnungs-Sprachmodell &ohgr;, das so genannte Alternativmodell (Background Model) oder Anti-Modell. Die Parameter des Ablehnungsmodells &ohgr; sind bekannt und werden während der Selbstlernphase im Server SV vorgespeichert. Sie sind repräsentativ für ein „durchschnittliches" Sprachmodell einer größeren Anzahl von beliebigen Sprechern, und infolge dessen für ein Unbefugten-Sprachmodell.

Nach Abschluss der Selbstlernphase ermittelt das Generierungsmodul A3 die Anfangswerte für die Parameter &mgr;&lgr;0 und &tgr;&lgr;0, die für die Standardisierung des Prüfergebnisses gemäß der Erfindung erforderlich sind, und die anhand einer Gruppe von Selbstlerndaten festgelegt werden, die vorab, insbesondere in Abhängigkeit von der Anwendung AP, auf die der Sprecher mit Hilfe des erkannten Passworts zugreift, definiert werden. Diese Selbstlerndaten wurden zuvor in den Speicher des Servers SV geschrieben und ermöglichen dem Modul A3 die Festlegung der anfänglichen Werte &mgr;&lgr;0 und &tgr;&lgr;0 für die Standardisierungsparameter, die insbesondere von den Parametern der Sprachmodelle &lgr; und &ohgr; abhängig sind und in den iterativen Formeln dieser Parameter während eines ersten Tests verwendet werden, und für die Anpassungsfaktoren &tgr;&mgr; bzw. &tgr;&sgr; für die Standardisierungs-parameter &mgr;&lgr; und &sgr;&lgr;.

In einer Ausführungsvariante werden anstelle der Generierung von Parametermodellen vom Typ HHM Annahme- und Ablehnungsmodelle &ohgr; auf der Grundlage einer GMM-Modellbildung (Gaussian Mixture Model) erstellt, die auf einer Mischung von Normalverteilungen, so genannten Gaußschen Verteilungen, in Bezug auf diese Parameter basieren. Die GMM-Modellbildung wird beispielsweise in dem Artikel von Douglas A. Reynolds, „Speaker Identification and Verification using Gaussian Mixture Speaker Models", Speech Communication 17, 1995, S. 91–108, definiert.

Bei einem Zugriffsversuch auf die Anwendung AP, beispielsweise nach Bestätigung des oben genannten, vom Sprachserver SV zusammengestellten Geheimcodes, spricht der Sprecher L ein Sprachsegment in das Mikrofon MI, das das Passwort MP enthält, d.h. Anliegen des Sprachsignals X über eine Dauer T, damit die Modulkette V1 bis V6, die in 3 dargestellt ist, überprüfen kann, ob der Sprecher wirklich derjenige ist, der im Rahmen der Selbstlernphase das Passwort auf gesprochen hat. Die Dauer T wird anhand einer bestimmten Anzahl an vordefinierten Zeiteinheiten des Sprachsegments mit etwa 32 ms ausgedrückt, den so genannten Rahmen (Frames). Die Anzahl T ist in Abhängigkeit von der Sprechgeschwindigkeit des Sprechers variabel.

Die Erfassungsmodule A1 und A2 analysieren das Signal X, das das soeben ausgesprochene Passwort MP enthält, akustisch und erzeugen ein Test-Sprachsignal X, das aus einer Abfolge von T-Vektoren der CEP-Koeffizenten zusammengesetzt ist.

Die Ähnlichkeitsmodule V1 und V2 bewerten einerseits die Ähnlichkeit zwischen dem vom akustischen Analysemodul A2 erzeugten Test-Sprachsignal X und dem Annahme-Sprachmodell &lgr; und dem Ablehnungs-Sprachmodell &ohgr;, die vom Modul A3 aus dem Speicher ausgelesen werden, und andererseits die Parameter m der Modelle &lgr; und &ohgr;, die nach Abschluss der Stimmüberprüfung des vorhergehenden Sprechers aktualisiert wurden, wie im Folgenden noch erläutert wird. Die Ähnlichkeit wird anhand der bedingten Wahrscheinlichkeiten P(X|&lgr;) bzw. P(X|&ohgr;), die von den Modulen V1 und V2 erstellt werden und die Wahrscheinlichkeit bezeichnen, dass das erfasste Test-Sprachsignal X für den berechtigten Sprecher repräsentativ ist, der ein Sprachsegment ausgesprochen hat, das vom Annahmemodell &lgr; dargestellt wird, sowie die Wahrscheinlichkeit, dass das erfasste Testsprachsignal X für einen beliebigen Sprecher repräsentativ ist, der ein Sprachsegment ausgesprochen hat, das durch das Ablehnungsmodell &ohgr; dargestellt wird.

Das Modul V3 legt das Prüfergebnis SV in Abhängigkeit der ermittelten Wahrscheinlichkeiten entsprechend der folgenden Gleichungen fest:

Das Ergebnis ist proportional zum Verhältnis der Wahrscheinlichkeiten für das Annahmemodell &lgr;, das für den berechtigten Sprecher repräsentativ ist, und für das Ablehnungsmodell &ohgr;, das für einen beliebigen Sprecher repräsentativ ist. Es drückt das Vertrauen aus, das dem erfassten Test-Sprachsignal X gewährt wird. Je höher das Ergebnis SV ist, desto mehr weist die Stimme des Sprechers, die dem Test-Sprachsignal X zu Grunde liegt, Merkmale auf, die dem Annahmemodell &lgr; ähnlich sind. T bezeichnet die Anzahl an Rahmen (Frames), die in dem zu prüfenden Sprachsegment MP enthalten sind.

Das Modul V3 legt ebenfalls ein standardisiertes Prüfergebnis SN in Abhängigkeit vom Prüfergebnis des Sprechers SV und den beiden Standardisierungsparametern &mgr;&lgr; und &sgr;&lgr; des Annahmemodells &lgr; fest, die repräsentativ für die Stimme des berechtigten Sprechers L sind, und zwar anhand der folgenden Gleichung:

Die beiden Parameter &mgr;&lgr; und &sgr;&lgr; resultieren aus einer Aktualisierung anhand der folgenden Rekursionsgleichungen, zum Zwecke der Überprüfung des Sprechers, die der aktuellen Überprüfung vorausgegangen ist: &mgr;~&lgr; ≡ (1 – &tgr;&mgr;)&mgr;~&lgr; + &tgr;&mgr;·SV

Der erste Standardisierungsparameter &mgr;&lgr; stellt den statistischen Durchschnittswert dar, d.h. die mathematische Erwartung des Sprecher-Prüfergebnisses. Die Aktualisierung des ersten Parameters wird anhand eines vordefinierten Anpassungsfaktors &tgr;&mgr; gewichtet, der unter 1 liegt. Der zweite Standardisierungsparameter &sgr;&lgr; stellt die Standardabweichung des Prüfergebnisses SV gleich der Quadratwurzel aus der Differenz des Durchschnittswertes des Ergebnisses SV zum Quadrat und dem Quadrat des statistischen Durchschnittswertes &mgr;2&lgr; dar. Die Aktualisierung des zweiten Parameters wird anhand eines anderen vordefinierten Anpassungsfaktors &tgr;&sgr;, der unter 1 liegt, gewichtet. Auf diese Weise werden die Standardisierungsparameter &mgr;&lgr; und &sgr;&lgr; online durch Schätzung der Mittelwerte aus der Überprüfung der vorhergehenden Sprecher aktualisiert.

Die Werte der Parameter &mgr;&lgr; und &sgr;&lgr; in den rechten Gliedern der beiden Rekursionsgleichungen wurden im Verlauf der Sprecher-Überprüfung ermittelt, die der aktuellen Prüfung vorausging, und werden vom Modul V3 mit den Anpassungsfaktoren &tgr;&mgr; und &tgr;&sgr; vor der Ermittlung des Ergebnisses SN ausgelesen. Bei der ersten Überprüfung des folgenden Sprechers in der Selbstlernphase werden die anfänglichen Parameter &mgr;&lgr;0 und &sgr;&lgr;0 vom Modul V3 als die Parameter &mgr;&lgr; und &sgr;&lgr; ausgelesen, die der ersten Festlegung des standardisierten Ergebnisses SN dienen.

Die Standardisierung des Sprecher-Prüfergebnisses SV zum standardisierten Ergebnis SN folgt in vorteilhafter Weise den Variationen des Prüfergebnisses, d.h. der Stimme des Sprechers, die in den Parametern &mgr;&lgr; und &sgr;&lgr; dargestellt wird. Wie im Folgenden erläutert wird, ist die Entwicklung der Stimme des berechtigten Sprechers im standardisierten Ergebnis SN anhand der Aktualisierung der Parameter &mgr;&lgr; und &sgr;&lgr; sowie der Modellparameter m übertragen, die der anfänglichen Modellbildung gedient haben.

Anschließend vergleicht das Entscheidungsmodul V4 das standardisierte Ergebnis SN mit einem ersten vordefinierten Grenzwert TH1. Das Modul V4 gewährt dem Sprecher den Zugriff auf die Serviceanwendung AP, wenn das standardisierte Ergebnis SN gleich oder über dem vordefinierten Grenzwert TH1 liegt.

Ist jedoch SN < TH1, wird dem Sprecher der Zugriff auf die Serviceanwendung AP verweigert. Es erfolgt keinerlei Aktualisierung der Parameter, wenn der Sprecher als Unbefugter betrachtet wird. Vorzugsweise fordert der Sprachserver SV den Sprecher auf, das Passwort MP noch mehrmals auszusprechen, beispielsweise drei Mal.

Die Zugangsentscheidung, die im Modul V4 getroffen wird, hängt vom konstanten Grenzwert TH1 ab und ist somit unabhängig vom berechtigten Sprecher. Gemäß der Erfindung hängt die Entscheidung vielmehr von dem standardisierten Prüfergebnis SN ab, dessen Parameter, wie die Faktoren &tgr;&mgr; und &tgr;&sgr;, einmalig in Abhängigkeit von der gewünschten Ergonomie festgelegt werden, um auf die Anwendung AP zuzugreifen. Wenn der Anwendungstyp geändert wird, können auch der Grenzwert TH1 sowie ein zweiter Grenzwert TH2 vom Administrator der neuen Anwendung im Server SV geändert werden.

Wenn der Zugang gewährt wird, vergleicht das Validierungsmodul V5 den standardisierten Grenzwert SN mit dem zweiten Grenzwert TH2, der vorzugsweise größer ist als der erste Grenzwert TH1, obwohl beide Grenzwerte auch gleich sein können. Das Anpassungsmodul V6 aktualisiert die Parameter nur, wenn das standardisierte Ergebnis größer ist als der Grenzwert TH2, d.h. wenn sich die Stimme des berechtigten Sprechers beispielsweise leicht verändert hat, insbesondere aufgrund des Alters oder einer Laryngitis des Sprechers.

Wie bereits gesagt, werden die Standardisierungsparameter &mgr;&lgr; und &sgr;&lgr; anhand der beiden oben stehenden Rekursionsgleichungen aktualisiert, und zwar in Abhängigkeit von dem Prüfergebnis SV, das vom Modul V3 ermittelt wurde, und der Werte der Parameter &mgr;&lgr; und &sgr;&lgr;, die bei der vorhergehenden Sprecher-Überprüfung ermittelt wurden.

Vorzugsweise variieren einer oder beide Anpassungsfaktoren &tgr;&mgr; und &tgr;&sgr; in Abhängigkeit von der Anzahl an Anpassungen, d.h. von der Anzahl an Aktualisierungen der Standardisierungsparameter, die im Modul V6 seit Beginn der Selbstlernphase durchgeführt wurden, um die Standardisierungsparameter schnell anzupassen, damit sie bei den ersten Anpassungen schnell, und anschließend immer langsamer konvergieren, bis zur Aussetzung der Anpassung. Je größer der Geschwindigkeitsfaktor der Anpassung &tgr;&mgr;, &tgr;&sgr;, desto schneller erfolgt die Anpassung des Parameters &mgr;&lgr; bzw. &sgr;&lgr;.

Das Modul V6 aktualisiert ebenfalls jeden Parameter m, zumindest des Annahmemodells &lgr; sowie eventuell des Ablehnungsmodells &ohgr;, um den Grad an Unbefugten zu verringern, der durch die Wahrscheinlichkeit P(X|&ohgr;) dargestellt wird. Die Aktualisierung jedes Modellparameters m basiert auf einer inkrementierbaren Anpassung entsprechend der folgenden Rekursionsgleichung:

mAP und NAP bezeichnen den Durchschnitt der Gaußschen Verteilung, auch Normalverteilung genannt, der Wahrscheinlichkeitsdichte des Modellparameters m im Verlauf der Selbstlernphase, bzw. die Anzahl an Rahmen in den Sprachsegmenten, d.h. in den Passwörtern, die zur Ermittlung der durchschnittlichen Gaußschen Verteilung in Bezug auf die verborgenen Markowschen Modelle &lgr; und &ohgr; gedient haben. Der Parameter madapt bezeichnet die durchschnittliche Gaußsche Verteilung der Wahrscheinlichkeitsdichte des Modellparameters m, die bei der soeben durchgeführten Aktualisierung ermittelt wurde und die daher die Entwicklung des Parameters m im Verlauf der Aktualisierungen nach der Selbstlernphase reflektiert. Nadapt bezeichnet die Anzahl an Rahmen, die zur Ermittlung der durchschnittlichen Gaußschen Verteilung des Modellparameters m für die soeben durchgeführte Aktualisierung gedient haben. Die Anzahl an Rahmen T des zu prüfenden Sprachsignals variiert von einer Überprüfung zur darauf folgenden, insbesondere in Abhängigkeit von der Sprechgeschwindigkeit des Sprechers.

Nach der Aktualisierung speichert das Modul V6 die neuen Werte des Parameters m der Sprachmodelle &lgr; und &ohgr; und der Standardisierungsparameter &mgr;&lgr; und &sgr;&lgr;, die der Ermittlung der Ergebnisse SV und SN im Modul V3 bei der nächsten Stimmprüfung des Sprechers dienen.

In einer Ausführungsvariante, insbesondere zur Verkürzung der Dauer der einzelnen Sprecher-Überprüfungen, wird nur einer der Standardisierungsparameter &mgr;&lgr; und &sgr;&lgr; aktualisiert, vorzugsweise nur der Parameter des statistischen Durchschnittswertes &mgr;&lgr;, was vorgegeben ist, wenn dem Anpassungsfaktor &tgr;&sgr; der Wert Null zugeordnet wird. Des Gleichen werden nur bestimmte oder nur einer der Modellparameter m aktualisiert, was vorgegeben ist, wenn der Anzahl an Rahmen Nadapt für die anderen Modellparameter, die nicht aktualisiert werden müssen, der Wert Null zugeordnet wird.


Anspruch[de]
  1. Vorrichtung zur automatischen Erkennung der Stimme eines Sprechers, der berechtigt ist, auf eine Anwendung (AP) zuzugreifen, bestehend aus einem Mittel (A1, A2, A3) zur Erzeugung von Parametern (m) für ein Annahme-Stimmmodell (&lgr;) in Bezug auf ein Sprachsegment (MP), das von dem berechtigten Sprecher vorab während einer Selbstlernphase ausgesprochen wurde, und von Parametern (m) für ein Ablehnungs-Stimmmodell (&ohgr;), einem Mittel (V1, V2, V3) zur Standardisierung des Sprecher-Prüfergebnisses anhand von Standardisierungsparametern, die von dem Ähnlichkeitsverhältnis zwischen dem zu testenden Sprachsegment (X) und den Annahme- oder Ablehnungsstimmmodellen abhängig sind, und einem Mittel (V4) zum Vergleich des standardisierten Prüfergebnisses (SN) mit einem ersten Grenzwert (TH1), um den Zugriff durch den Sprecher, der das zu prüfende Sprachsegment für die Anwendung (AP) ausgesprochen hat, nur freizugeben, wenn das standardisierte Ergebnis mindestens so groß ist wie der erste Grenzwert, dadurch gekennzeichnet, dass sie ein Mittel (V6) umfasst, um mindestens einen (&mgr;&lgr;) der Standardisierungsparameter in Abhängigkeit von dem vorgehenden Wert des genannten Parameters und dem Sprecher-Prüfergebnis (SV) bei jedem Sprachsegmenttest nur dann zu aktualisieren, wenn das standardisierte Ergebnis (SN) mindestens gleich einem zweiten Grenzwert (TH2) ist, der mindestens gleich dem ersten Grenzwert (TH1) ist.
  2. Vorrichtung gemäß Anspruch 1, in der einer der aktualisierten Parameter repräsentativ für den statistischen Mittelwert (&mgr;&lgr;) des Sprecher-Prüfergebnisses (SV) ist.
  3. Vorrichtung gemäß Anspruch 2, in der der statistische Mittelwert (&mgr;&lgr;) des Prüfergebnisses SV entsprechend der folgenden Gleichung aktualisiert wird: (&mgr;&lgr;) = (1 – &tgr;&mgr;) &mgr;&lgr; + &tgr;&mgr;·SV wobei &tgr;&mgr; ein vordefinierte Anpassungsfaktor ist.
  4. Vorrichtung gemäß Anspruch 3, in der der vordefinierte Anpassungsfaktor &tgr;&mgr; in Abhängigkeit von der Anzahl an Aktualisierungen des Standardisierungsparameters variiert.
  5. Vorrichtung gemäß einem der Ansprüche 1 bis 4, in der einer der aktualisierten Parameter repräsentativ für die Standardabweichung (&sgr;&lgr;) des Sprecher-Prüfergebnisses (SV) ist.
  6. Vorrichtung gemäß Anspruch 5, in der die Standardabweichung (&sgr;&lgr;) des Prüfergebnisses SV entsprechend der folgenden Gleichung aktualisiert wird:
    wobei &tgr;&sgr; ein vordefinierter Anpassungsfaktor ist.
  7. Vorrichtung gemäß Anspruch 6, in der der vordefinierte Anpassungsfaktor &tgr;&sgr; in Abhängigkeit von der Anzahl an Aktualisierungen des Standardisierungsparameters variiert.
  8. Vorrichtung gemäß einem der Ansprüche 1 bis 7, bestehend aus einem Mittel (V6) zur Aktualisierung von mindestens einem der Parameter (m) des Annahmemodells (&lgr;) in Abhängigkeit von einem vorhergehenden Wert des genannten Modellparameters, jedoch nur wenn das standardisierte Ergebnis (SN) mindestens gleich einem zweiten Grenzwert (TH2) ist.
  9. Vorrichtung gemäß Anspruch 8, in der der Modellparameter m entsprechend der folgenden Gleichung aktualisiert wird:
    wobei mAP und NAP für den Mittelwert der Gaußschen Verteilung der Wahrscheinlichkeitsdichte des Modellparameters (m) im Verlauf der Selbstlernphase, bzw. für die Anzahl an Rastern in den Sprachsegmenten stehen, die zur Schätzung der Mittelwerte der Gaußschen Verteilung in Bezug auf die Annahme- (&lgr;) und Ablehnungsmodelle (&ohgr;) herangezogen wurden; madapt bezeichnet den Mittelwert der Gaußschen Verteilung der Wahrscheinlichkeitsdichte des Modellparameters (m), der bei der soeben erfolgten Aktualisierung ermittelt wurde, und Nadapt bezeichnet die Anzahl an Rastern, die zur Schätzung des Mittelwerts der Gaußschen Verteilung des Modellparameters (m) für die soeben durchgeführte Aktualisierung herangezogen wurden.
  10. Vorrichtung gemäß einem der Ansprüche 1 bis 9, in der das standardisierte Ergebnis SN in Abhängigkeit von dem Sprecher-Prüfergebnis SV und zwei aktualisierten Standardisierungsparametern &mgr;&lgr; und &sgr;&lgr; anhand der folgenden Gleichung ermittelt wird:
    wobei die Parameter &mgr;&lgr; und &sgr;&lgr; für den statistischen Mittelwert, bzw. für die Standardabweichung des Sprecher-Prüfergebnisses stehen.
Es folgen 2 Blatt Zeichnungen






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

  Patente PDF

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com