PatentDe  


Dokumentenidentifikation DE60303338T2 12.10.2006
EP-Veröffentlichungsnummer 0001349419
Titel Orthogonales und kreisförmiges Gruppensystem von Mikrofonen und Verfahren zur Erkennung der dreidimensionalen Richtung einer Schallquelle mit diesem System
Anmelder Samsung Electronics Co., Ltd., Suwon, Kyonggi, KR
Erfinder June, Sun-do, Yangcheon-gu, Seoul, KR;
Kim, Jay-woo, Yongin-city, Kyungki-do, KR;
Kim, Sang-ryong, Yongin-city, Kyungki-do, KR
Vertreter Patentanwälte Ruff, Wilhelm, Beier, Dauster & Partner, 70174 Stuttgart
DE-Aktenzeichen 60303338
Vertragsstaaten DE, FR, GB
Sprache des Dokument EN
EP-Anmeldetag 27.03.2003
EP-Aktenzeichen 032519597
EP-Offenlegungsdatum 01.10.2003
EP date of grant 25.01.2006
Veröffentlichungstag im Patentblatt 12.10.2006
IPC-Hauptklasse H04R 1/40(2006.01)A, F, I, 20051017, B, H, EP
IPC-Nebenklasse H04R 3/00(2006.01)A, L, I, 20051017, B, H, EP   

Beschreibung[de]

Die vorliegende Erfindung betrifft ein System und ein Verfahren zur Erkennung der dreidimensionalen Richtung einer Schallquelle.

Zum Verständnis der vorliegenden Erfindung wird eine Schallquelle, die Gegenstand der Richtungsabschätzung der vorliegenden Erfindung ist, als Sprecher bezeichnet und unten erläuternd beschrieben.

Mikrophone empfangen allgemein ein Sprachsignal in allen Richtungen. In einem herkömmlichen Mikrophon, das als omnidirektionales Mikrophon bezeichnet wird, werden Umgebungslärm und ein Echosignal ebenso wie ein zu empfangendes Sprachsignal empfangen und können ein gewünschtes Sprachsignal verzerren. Ein Richtmikrophon wird verwendet, um das Problem des herkömmlichen Mikrophons zu lösen.

Das Richtmikrophon empfängt ein Sprachsignal nur in einem bestimmten Winkel (Richtungswinkel) in Bezug auf eine Achse des Mikrophons. Wenn daher ein Sprecher am Mikrophon im Richtungswinkel des Richtmikrophons spricht, wird ein Sprachsignal des Sprechers lauter als der Umgebungslärm vom Mikrophon empfangen, während ein Geräusch außerhalb des Richtungswinkels des Mikrophons nicht empfangen wird.

In jüngster Zeit wird das Richtmikrophon oft in Telekonferenzen verwendet. Jedoch sollte wegen der Charakteristiken des Richtmikrophons, der Sprecher am Mikrophon nur im Richtungswinkel des Mikrophons sprechen. Das heißt, der Sprecher kann nicht sprechen, während er in einem Konferenzraum außerhalb des Richtungswinkels des Mikrophons sitzt oder sich bewegt.

Um das oben genannte und ähnliche Probleme zu lösen, wurde ein Mikrophonanordnungssystem vorgeschlagen, das ein Sprachsignal eines Sprechers empfängt, während sich der Sprecher in einem bestimmten Raum bewegt, indem Anordnen einer Mehrzahl von Mikrophonen in einem bestimmten Intervall vorgeschlagen wird.

Ein Mikrophonanordnungssystem vom planaren Typ wie es in 1A gezeigt ist, ist in einem bestimmten Raum installiert und empfängt ein Sprachsignal eines Sprechers, während der Sprecher sich zum System bewegt. Das heißt, das planare Mikrophonanordnungssystem empfängt ein Sprachsignal eines Sprechers, während sich der Sprecher in einem Bereich von ungefähr 180° vor dem System bewegt. Wenn sich daher der Sprecher hinter das Mikrophonanordnungssystem bewegt, kann das planare Mikrophonanordnungssystem ein Sprachsignal eines Sprechers nicht empfangen.

Ein Mikrophonanordnungssystem vom kreisförmigen Typ, das diese hauptsächlichen Einschränkungen des planaren Mikrophonanordnungssystem überwindet, ist in 1B gezeigt. Das kreisförmige Mikrophonanordnungssystem empfängt ein Sprachsignal eines Sprechers, während der Sprecher sich in einem Bereich von 360° von der Mitte einer Ebene bewegt, wo das Mikrophon installiert ist. Wenn jedoch die Mikrophonebene die XY-Ebene ist, berücksichtigt das kreisförmige Mikrophonanordnungssystem die Lage eines Sprechers nur in der XY-Ebene, während die Z-Achsenlage des Sprechers nicht berücksichtigt wird. Auf diese Weise empfängt des Mikrophon Signale von allen ebenen Richtungen und ein Geräusch und ein Echosignal, das entlang der Z-Achse erzeugt ist, und damit gibt es noch immer Verzerrung von Sprachsignalen.

WO 94/26075 verwendet eine Mehrzahl von beabstandeten Mikrophonen, um Schallsignale aus lokalisierten Schallquellen aufzunehmen. Gruppenverarbeitung erzeugt diskrete schmale Peaks, die Eingangssignale von jeder Quelle darstellen. Ein Steuersystem erfasst die Zeitdifferenz zwischen Peaks und Zielen ausgehend von der Zeitdifferenz.

WO 02/03754 beschreibt ein Mikrophonanordnungssystem mit einer ersten Anordnung von omnidirektionalen Mikrophonen und einer zweiten Anordnung von Richtmikrophonen. Die zweite Anordnung wird zum Standort eines gewünschten Sprechers gesteuert, der unter Verwendung von Signalen bestimmt wird, die von der ersten Anordnung und einem adaptiven Prozessor aufgefangen wurden.

JP 60/090499 beschreibt eine Mikrophonanordnung mit einem zentralen Mikrophon. Signale von den Mikrophonen werden unter Verwendung von verschiedenen Gewichtungen addiert, um Stimmen von Sprechern gleichmäßig aufzunehmen.

Gemäß einem Aspekt der vorliegenden Erfindung wird ein orthogonales kreisförmiges Gruppensystem von Mikrophonen zum Erfassen einer dreidimensionalen Richtung einer Schallquelle zur Verfügung gestellt. Das System weist ein Richtmikrophon auf, das ein Sprachsignal von einer Schallquelle empfängt, eine erste kreisförmige Mikrophongruppe, in der eine bestimmte Anzahl von Mikrophonen zum Empfangen des Sprachsignals von der Schallquelle um das Richtmikrophon angeordnet sind, eine zweite kreisförmige Mikrophongruppe, in der eine bestimmte Anzahl von Mikrophonen zum Empfangen des Sprachsignals von der Schallquelle um das Richtmikrophon angeordnet sind, so dass es zur ersten Mikrophongruppe orthogonal ist, eine Richtungserfassungseinheit, die Signale von der ersten und zweiten Mikrophongruppe empfängt, diskriminiert, ob die Signale Sprachsignale sind und die Lage der Schallquelle schätzt, einen Rotationsregler, so angeordnet, dass er die zweite Mikrophongruppe und das Richtmikrophon entsprechend der von der Richtungserfassungseinheit abgeschätzten Lage der Schallquelle unabhängig dreht, und eine Sprachsignalverarbeitungseinheit, die einen arithmetischen Vorgang am Sprachsignal ausführt, das vom Richtmikrophon empfangen wurde und dem Sprachsignal, das von der ersten und zweiten Mikrophongruppe empfangen wurde, und ein resultierendes Sprachsignal ausgibt.

Gemäß einem anderen Aspekt der vorliegenden Erfindung wird ein Verfahren zum Erfassen einer dreidimensionalen Richtung einer Schallquelle zur Verfügung gestellt unter Verwendung erster und zweiter kreisförmiger Mikrophongruppensysteme, in denen eine bestimmte Anzahl von Mikrophonen angeordnet sind und ein Richtmikrophon. Das Verfahren umfasst: (a) Diskriminieren eines Sprachsignals von Signalen, die von der ersten Mikrophongruppe eingegeben sind, (b) Abschätzen der Richtung der Schallquelle entsprechend einem Winkel, in dem ein Sprachsignal an einem in der ersten Mikrophongruppe installierten Mikrophon empfangen wurde und Drehen der zweiten Mikrophongruppe, so dass in der zweiten Mikrophongruppe orthogonal zur ersten Mikrophongruppe installierte Mikrophone der abgeschätzten Richtung zugewandt sind, (c) Abschätzen der Richtung der Schallquelle entsprechend einem Winkel, in dem ein Sprachsignal an den in der zweiten Mikrophongruppe installierten Mikrophonen eingegeben wird, (d) Empfangen des Sprachsignals durch Bewegen des Richtmikrophons in Richtung der in den Schritten (b) und (c) abgeschätzten Richtung der Schallquelle und Ausgeben des empfangenen Sprachsignals, und (e) Erfassen einer Lageveränderung der Schallquelle und ob Sprachäußerung der Schallquelle beendet ist. Die vorliegende Erfindung ist daher darauf gerichtet, ein Mikrophongruppensystem und ein Verfahren zum effizienten Empfangen eines Sprachsignals eines Sprechers in multipler Richtung, in der der Sprecher spricht, unter Berücksichtigung einer dreidimensionalen Bewegung eines Sprechers sowie der Lage eines Sprechers, der sich in einer Ebene bewegt, zur Verfügung zu stellen.

Die vorliegende Erfindung stellt auf diese Weise ein Mikrophongruppensystem und ein Verfahren zur Verbesserung der Spracherkennung zur Verfügung durch Maximieren eines empfangenen Sprachsignals eines Sprechers, Minimierung von Umgebungsgeräusch und Echosignal sowie eines Sprachsignals eines Sprechers und deutlicheres Erkennen der Sprache eines Sprechers.

Die obigen und weitere Aspekte und Vorteile der vorliegenden Erfindung werden besser ersichtlich durch ausführliche Beschreibung von bevorzugten Ausführungsformen mit Bezug zu den begleitenden Zeichnungen, in denen:

1A und 1B Strukturen herkömmlicher Mikrophongruppensysteme zeigen;

2A die Struktur eines orthogonalen kreisförmigen Gruppensystems von Mikrophonen gemäß der vorliegenden Erfindung zeigt;

2B ein Beispiel zeigt, in dem das orthogonale kreisförmige Gruppensystem von Mikrophonen von 2A an einem Roboter ausgeführt ist;

2C die Funktionsprinzipien eines Mikrophongruppensystems zeigt;

3 ein Blockdiagramm der Struktur des orthogonalen kreisförmigen Mikrophongruppensystems gemäß der vorliegenden Erfindung zeigt;

4 ein Fließbild zeigt, das ein Verfahren zum Erfassen einer dreidimensionalen Richtung einer Schallquelle gemäß der vorliegenden Erfindung erläutert;

5A ein Beispiel zeigt, in dem der Winkel einer Schallquelle analysiert wird, um die Richtung der Schallquelle gemäß der vorliegenden Erfindung abzuschätzen;

5B eine zuletzt bestimmte Lage eines Sprechers zeigt;

6 eine Umgebung zeigt, in der das Mikrophongruppensystem gemäß der vorliegenden Erfindung angewendet wird; und

7 eine Blindtrennschaltung zur Sprachverstärkung zeigt, die ein von einer Schallquelle empfangenes Sprachsignal trennt.

Nachfolgend werden bevorzugte Ausführungsformen der vorliegenden Erfindung ausführlich beschrieben, deren Beispiele in den begleitenden Zeichnungen dargestellt sind.

2A zeigt eine Struktur eines orthogonalen kreisförmigen Gruppensystems von Mikrophonen gemäß der vorliegenden Erfindung und 2B zeigt ein Beispiel, in dem die orthogonale kreisförmige Mikrophonanordnung von 2A an einem Roboter ausgeführt ist.

Gemäß der vorliegenden Erfindung sind eine seitliche kreisförmige Mikrophongruppe 201 und eine längliche kreisförmige Mikrophongruppe 202 so angeordnet, dass sie in einer dreidimensionalen Kugelstruktur physikalisch orthogonal zueinander sind, wie es in 2A gezeigt ist. Das Mikrophongruppensystem kann auf verschiedenen Strukturen implementiert sein, wie einem Roboter oder einer Puppe, wie es in 2B gezeigt ist.

Jede der seitlichen kreisförmigen Mikrophongruppe 201 und der länglichen kreisförmigen Mikrophongruppe 202 sind durch kreisförmiges Anordnen einer bestimmten Anzahl von Mikrophonen unter Berücksichtigung eines Richtungswinkels eines Richtmikrophons und der Größe eines Objekts, auf dem die Mikrophonanordnung implementiert werden soll, ausgebildet. Wie in 2C gezeigt ist wird, unter der Annahme, dass der Richtungswinkel &sgr;1 eines an einer kreisförmigen Mikrophonanordnungsstruktur angebrachten Richtmikrophons 90° beträgt und der Radius der kreisförmigen Mikrophonanordnungsstruktur R beträgt, wenn vier Richtmikrophone in der kreisförmigen Mikrophonanordnungsstruktur installiert sind, ein Sprachsignal eines Sprechers, der jenseits des Richtungswinkels des Mikrophons platziert ist, von keinem der Mikrophone empfangen, das an der Mikrophonanordnung angebracht ist.

Wenn jedoch der Richtungswinkel des Mikrophons größer ist als 90° (wenn der Richtungswinkel des Mikrophons &sgr;2) oder der Radius der Mikrophonanordnung kleiner ist als R (wenn der Radius der Mikrophonanordnung r ist) wird ein Sprachsignal des Sprechers an der selben Stelle von einem Mikrophon empfangen, das an der Mikrophonanordnung angebracht ist. Wie in 2C gezeigt ist, sollte die Mikrophonanordnung unter Berücksichtigung des Richtungswinkels der an der Mikrophonanordnung angebrachten Mikrophone, einem Abstand vom Sprecher und der Größe eines Objekts ausgebildet werden, auf dem die Mikrophonanordnung implementiert werden soll. Wenn die Mikrophonanordnung minimal (2&pgr;/&sgr; + 1) Mikrophone aufweist, gemäß dem Richtungswinkel &sgr; des Richtmikrophons, kann eine Lage des Sprechers in einem Bereich von 360° erfasst werden, aber ein bestimmter Abstand zwischen dem Objekt, auf dem die Mikrophonanordnung implementiert ist und dem Sprecher sollte eingehalten werden.

Die in 2A gezeigte seitliche kreisförmige Mikrophongruppe 201 empfängt ein Sprachsignal von einem Sprecher auf der XY-Ebene, so dass eine zweidimensionale Lage des Sprechers auf der XY-Ebene abgeschätzt werden kann. Wenn die zweidimensionale Lage des Sprechers auf der XY-Ebene abgeschätzt ist, dreht sich die längliche kreisförmige Mikrophongruppe 202 zur geschätzten zweidimensionalen Lage und empfängt ein Sprachsignal vom Sprecher, so dass eine dreidimensionale Lage eines Sprechers abgeschätzt werden kann.

Nachfolgend wird die Struktur eines Mikrophongruppensystems gemäß der vorliegenden Erfindung, die eine Lage eines Sprechers unter Verwendung zweier orthogonal angeordneter kreisförmiger Mikrophongruppen abschätzt und ein Sprachsignal eines Sprechers empfängt, mit Bezug zu 3 beschrieben.

Das Mikrophongruppensystem gemäß der vorliegenden Erfindung beinhaltet eine seitliche kreisförmige Mikrophongruppe 201, die ein Sprachsignal eines Sprechers in zweidimensionaler Richtung auf einer XY-Ebene empfängt, eine längliche kreisförmige Mikrophongruppe 202, die ein Sprachsignal eines Sprechers in dreidimensionaler Richtung auf einer YZ-Ebene zur abgeschätzten zweidimensionalen Lage eines Sprechers empfängt, eine Richtungserfassungseinheit 304, die die Lage eines Sprechers aus dem von der seitlichen kreisförmigen Mikrophongruppe 201 und der länglichen kreisförmigen Mikrophongruppe 202 empfangenen Signal abschätzt und ein Steuersignal daraus ausgibt, einen Schalter 303, der selektiv ein Sprachsignal überträgt, das zur Richtungserfassungseinheit 304 von der seitlichen kreisförmigen Mikrophongruppe 201 eingegeben ist und ein Sprachsignal, das von der länglichen kreisförmigen Mikrophongruppe 202 eingegeben ist, ein Superrichtmikrophon 308, das ein Sprachsignal von der abgeschätzten Lage des Sprechers empfängt, eine Sprachsignalverarbeitungseinheit 305, die ein vom Superrichtmikrophon 308 und der länglichen kreisförmigen Mikrophongruppe 202 empfangenes Sprachsignal verstärkt, einen ersten Rotationsregler 306, der eine Drehrichtung und einen Winkel der länglichen kreisförmigen Mikrophongruppe 202 regelt und einen zweiten Rotationsregler 307, der die Drehrichtung und den Winkel des Superrichtmikrophons 308 regelt.

Außerdem beinhaltet die Richtungserfassungseinheit 304 eine Sprachsignaldiskriminierungseinheit 3041, die ein Sprachsignal von durch die seitliche kreisförmige Mikrophongruppe 201 und die längliche kreisförmige Mikrophongruppe 202 empfangenes Signal diskriminiert, eine Schallquellenrichtungsabschätzeinheit 3042, die die Richtung einer Schallquelle aus dem Sprachsignal abschätzt, das von der Sprachsignaldiskriminierungseinheit 3041 und den seitlichen und länglichen kreisförmigen Mikrophongruppen 201 und 202 empfangen ist, und eine Steuersignalerzeugungseinheit 3043, die ein Steuersignal ausgibt zum Drehen der länglichen kreisförmigen Mikrophongruppe 202 von der durch die Schallquellenrichtungsabschätzeinheit 3042 geschätzten Richtung, ein Steuersignal ausgibt zum Bestimmen, wann das eingegebene Mikrophongruppensignal am Schalter 303 geschaltet werden soll, und ein Steuersignal ausgibt zum Bestimmen, wann das verstärkte Sprachsignal auf die Sprachsignalverarbeitungseinheit 305 aufgeben werden soll.

Nachfolgend wird ein Verfahren zum Abschätzen der Lage eines Sprechers gemäß der vorliegenden Erfindung mit Bezug zu den 3 und 4 beschrieben.

In Schritt 400 wird, wenn Energie auf das Mikrophongruppensystem gemäß der vorliegenden Erfindung aufgebracht wird, die seitliche kreisförmige Mikrophongruppe 201 zuerst betätigt und empfängt ein Signal von der Umgebung. Die Richtmikrophone, die in der seitlichen kreisförmigen Mikrophongruppe 201 installiert sind, empfangen Signale, die in einem Richtungswinkel eingegeben sind und die empfangenen analogen Signale werden von einem A/D-Konverter 309 in digitale Signale umgewandelt und auf den Schalter 303 aufgegeben. Bei einem ersten Vorgang überträgt der Schalter 303 Signale, die von der seitlichen kreisförmigen Mikrophongruppe 201 eingegeben sind, zur Richtungserfassungseinheit 304.

In Schritt 410 diskriminiert die in der Richtungserfassungseinheit 304 enthaltene Sprachsignaldiskriminierungseinheit 3041, ob ein Sprachsignal in den digitalen Signalen, die durch den Schalter 303 eingegeben sind, vorhanden ist. Unter Berücksichtigung des Gegenstandes der vorliegenden Erfindung ist es bei der Verbesserung der Spracherkennung durch deutliches Empfangen eines Sprachsignals von einem Menschen durch die Mikrophongruppe sehr von Bedeutung, dass die Sprachsignaldiskriminierungseinheit 3041 nur eine Sprachsignaldauer unter den Signalen präzise erfasst, die aktuell vom Mikrophon 301 eingegeben sind, und die Sprachsignaldauer in eine Spracherkennung 320 durch die Sprachsignalverarbeitungseinheit 305 eingibt.

Spracherkennung kann grob in zwei Funktionen klassifiziert werden: eine Funktion zum präzisen Prüfen eines Zeitpunkts, an dem ein Sprachsignal empfangen wird, nachdem eine Dauer ohne Sprache anhält, und präzise Information zu einem Startzeitpunkt des Sprachsignals, und eine Funktion zum präzise Prüfen eines Zeitpunkts, bei dem eine Dauer ohne Sprache beginnt, nachdem eine Sprachdauer anhält, und Information zu einem Endzeitpunkt des Sprachsignals; die folgenden Technologien zum Durchführen dieser Funktionen sind verbreitet bekannt.

Zunächst werden in einem Verfahren zum Durchführen einer Funktion zur Information eines Endzeitpunkts eines Sprachsignals durch ein Mikrophon eingegebene Signale gemäß einer bestimmten Rahmendauer (d. h. 30 ms) aufgeteilt und die Energie der Signale berechnet, und wenn der Energiewert viel kleiner wird als der vorherige Energiewert, wird bestimmt, dass kein Sprachsignal mehr erzeugt wird, und die bestimmte Zeit wird als Endzeitpunkt des Sprachsignals verarbeitet. In diesem Fall kann, wenn nur ein fester Wert als kritischer Wert verwendet wird zur Bestimmung, dass die Energie viel kleiner wird als der vorherige Energiewert, eine Differenz zwischen Sprache in lauter Stimme und Sprache in leiser Stimme ignoriert werden. Auf diese Weise wird ein Verfahren vorgeschlagen, bei dem die vorherige Sprachdauer beobachtet wird, ihr kritischer Wert adaptiv verändert wird und unter Verwendung des kritischen Werts erfasst wird, ob das derzeit empfangene Signal Sprache ist. Ein solches Verfahren wurde im Artikel „Robust End-of-Utterance Detection for Real-time Speech Recognition Applications" von Hariharan, R., Hakkinen, J., Laurila K in IEEE International Conference on Acoustics, Speech and Signal Processing Proceedings, 2001, Band 1, S. 249–252 vorgeschlagen.

Ein anderes bekanntes Verfahren zur Spracherkennung ist ein Verfahren, das im Voraus ein Störmodell in Bezug auf Vokabular (OOV, out-of-vocabulary) erstellt, betrachtet, wie ein durch ein Mikrophon eingegebenes Signal für das Störmodell geeignet ist und bestimmt, ob das Signal Störgeräusch oder ein Sprachsignal ist. Das Verfahren bildet das Störmodell, indem es zuvor andere Geräusche als Sprache lernt, betrachtet wie ein Signal, das zuvor empfangen wurde, für das Störmodell geeignet ist und bestimmt eine Dauer von Sprache/keine Sprache. Ein Verfahren, das eine Beziehung zwischen verrauschter Sprache und rauschfreier Sprache unter Verwendung eines neuronalen Netzwerks und linearer Rekursionsanalyse abschätzt und Rauschen durch Konversion eliminiert, wurde auch im Artikel „On-line Garbage Modeling with Discriminant Analysis for Utterance Verification" von Caminero, J., De La Torre, D., Villarrubia, L., Martin, C., Hernandez, L. in Fourth International Conference on Spoken Language ICSLP Proceedings, 1996, Band 4, S. 2111–2114 vorgeschlagen.

Unter Verwendung der oben genannten Verfahren wird, wenn kein Sprachsignalwert über einem bestimmten Wert durch die kreisförmige Mikrophongruppe 201 eingegeben wird, von der Sprachsignaldiskriminierungseinheit 3041 bestimmt, dass derzeit keine Sprache eingegeben wird. Wenn ein Sprachsignalwert über einem bestimmten Wert von einer Mehrzahl der Mikrophone 301 erfasst wird, die in der seitlichen kreisförmigen Mikrophongruppe 201 installiert sind, d. h. n Mikrophonen, und kein Signalwert von den übrigen Mikrophonen eingegeben wird, wird bestimmt, dass ein Sprachsignal erfasst ist und sich der Sprecher in einem Bereich von (n + 1) × &sgr; (Richtungswinkel) befindet, und das eingegebene Signal wird ausgegeben und auf die Schallquellenrichtungsabschätzeinheit 3042 aufgegeben.

Ein Verfahren zum Abschätzen der Richtung eines Sprechers wird mit Bezug zu den 5A und 5B beschrieben.

Wenn ein von einem Sprecher in die Mikrophongruppe gemäß der vorliegenden Erfindung eingegebenes Sprachsignal eines der Mikrophone 301 und 302 erreicht, die in den seitlich und längs gerichteten kreisförmigen Mikrophongruppen 201 und 202 installiert sind, wird das Sprachsignal mit bestimmten Zeitverzögerungen in Bezug auf das erste Empfangsmikrophon empfangen. Die Zeitverzögerungen werden gemäß einem Richtungswinkel &sgr; des Mikrophons und der Lage eines Sprechers bestimmt, das heißt, einem Winkel &thgr; in Bezug auf ein Mikrophon, an dem das Sprachsignal eingegeben ist.

In der vorliegenden Ausführungsform wird unter Berücksichtigung der Eigenschaften des Richtmikrophons im Falle eines Mikrophons, bei dem ein Sprachsignal mit weniger als einem bestimmten Signalwert empfangen wird, bestimmt, dass sich der Sprecher nicht in dem Richtungswinkel des entsprechenden Mikrophons befindet, und Winkel entsprechender Mikrophone werden vom Abschätzwinkel für die Lage des Sprechers ausgeschlossen.

Die Schallquellenrichtungsabschätzeinheit 3042 misst den Winkel &thgr;, an dem ein Sprachsignal eines Sprechers empfangen ist, aus einer imaginären Linie (Referenzlinie), die das auf den Mittelpunkt der Mikrophongruppe zentrierte Richtmikrophon auf Basis eines Richtmikrophons verbindet, wie es in 5A gezeigt ist, um die Lage eines Sprechers abzuschätzen. Für andere Mikrophone als Referenzmikrophone wird ein Winkel eines am Mikrophon empfangenen Sprachsignals von der imaginären Linie parallel zur Referenzlinie gemessen. Wenn ein Objekt, auf dem die Anordnung implementiert ist, kein Geräusch macht, das viel größer ist als die Schallquelle, kann ein Einfallswinkel &thgr; eines von jedem Mikrophon zum Empfangen eines Sprachsignals empfangenen Sprachsignals im Wesentlichen gleich sein.

Nachdem alle von einem Mikrophon empfangenen Geräusche über einem bestimmten Wert addiert sind, in einen Frequenzbereich durch eine schnelle Fourier-Transformations-Konversion (FFT) konvertiert sind, werden die empfangenen Geräusche in einen Bereich von &thgr; konvertiert, wobei &thgr; mit dem maximalen Energiewert die Richtung darstellt, entlang der der Sprecher platziert ist.

Wenn ein in ein n-tes Mikrophon eingegebenes empfangenes Sprachsignal mit einer bestimmten Zeitverzögerung in einem Zeitbereich xn(t) ist, und ein Ausgabesignal, zu dem ein Sprachsignalwert von jedem der Mikrophone addiert ist y(t) ist, wird y(t) durch Gleichung 1 erhalten.

Hier ist Y(f) erhalten durch Konvertieren von y(t) in einen Frequenzbereich wie folgt.

Hier stellt c die Schallgeschwindigkeit eines Mediums dar, in dem ein Sprachsignal von einer Schallquelle übertragen wird, &dgr; stellt ein Intervall zwischen den Mikrophonen dar, die in der Anordnung installiert sind, M stellt die Anzahl der Mikrophone dar, die in der Gruppe installiert sind, &thgr; stellt einen Einfallswinkel eines Sprachsignals dar, das vom Mikrophon empfangen ist und &dgr; = 2&pgr;/M wird gebildet.

Y(f) konvertiert in den Frequenzbereich wird durch eine Variable &thgr; ausgedrückt, das heißt Y(f) wird in einen Bereich von &thgr; konvertiert und dann die Energie eines im Bereich von &thgr; empfangenen Sprachsignals durch Gleichung 3 erhalten.

Hier liegt &thgr; zwischen 0 und &pgr; und wenn Y(f) in den Bereich von &thgr; konvertiert wird, wird der Frequenzbereich in den Bereich von &thgr; konvertiert, so dass der negative Maximalwert des Schalls im Frequenzbereich auf 0° im Bereich von &thgr; abgebildet wird, 0° im Frequenzbereich wird vom Bereich von &thgr; auf abgebildet, der positive Maximalwert im Frequenzbereich wird vom Bereich &thgr; auf (n + 1) × &dgr; abgebildet.

Die Ausgabeenergiefunktion von &thgr; ist durch P(&thgr;, k; m) bekannt, als Ausgabe der Mikrophongruppe und &thgr; bei der maximalen Ausgabe kann bestimmt werden. Auf diese Weise kann eine Intensität in einem direkten Weg eines empfangenen Sprachsignals erkannt werden. Wenn die obigen Gleichungen 1, 2 und 3 in Bezug auf alle Frequenzen k kombiniert werden, ist ein Energiespektrumwert P(&thgr;; m) wie folgt.

Daraus ist zu schließen, wenn in Schritt 420 die Richtung eines Sprechers mit der Maximalenergie in allen Frequenzbereichen durch &thgr;s gegeben ist, kann die Richtung des Sprechers als &thgr;s = arg max&thgr; P(&thgr;; m) bestimmt werden.

Wie oben beschrieben, wenn eine zweidimensionale Lage einer seitlichen Richtung eines Sprechers aus einem Sprachsignal abgeschätzt wird, das von der seitlichen kreisförmigen Mikrophongruppe 201 eingeben ist, gibt die Schallquellenrichtungsabschätzeinheit 3042 eine Richtung des Sprechers als &thgr;s aus, die von der Steuersignalerzeugungseinheit 3043 erfasst ist. Die Steuersignalerzeugungseinheit 3043 gibt ein Steuersignal an den ersten Rotationsregler 306, so dass die längsgerichtete kreisförmige Mikrophongruppe 202 in die Richtung des Sprechers &thgr;s gedreht wird. Der erste Rotationsregler 306 dreht die längsgerichtete kreisförmige Mikrophongruppe 202 in die durch &thgr;s gegebene Richtung, so dass die längsgerichtete Mikrophongruppe 202 direkt dem Sprecher in zweidimensionaler Richtung zugewandt ist. Bevorzugt drehen sich die seitliche kreisförmige Mikrophongruppe 201 und die längsgerichtete kreisförmige Mikrophongruppe 202 gemeinsam, wenn die längsgerichtete kreisförmige Mikrophongruppe 202 sich in Richtung des Sprechers dreht. In diesem Fall kann in Schritt 430, wenn ein Mikrophongruppensystem dem Sprecher zugewandt ist, das für die seitliche kreisförmige Mikrophongruppe 201 und die längsgerichtete kreisförmige Mikrophongruppe 202 gemeinsam benutzt wird, dieser Fall als richtige Drehung bestimmt werden.

Wenn indessen die Drehung der längsgerichteten kreisförmigen Mikrophongruppe 202 beendet ist, gibt die Steuersignalerzeugungseinheit 3043 ein Steuersignal an den Schalter 303 aus und überträgt ein von der längsgerichteten kreisförmigen Mikrophongruppe 202 eingegebenes Sprachsignal eines Sprechers an die Sprachsignaldiskriminierungseinheit 3041. Die Richtungserfassungseinheit 304 schätzt die dreidimensionale Lage eines Sprechers auf die selbe Weise wie in Schritt 420 unter Verwendung eines Sprachsignals, das von der längsgerichteten kreisförmigen Mikrophongruppe 202 eingegeben ist und damit wird die dreidimensionale Lage des Sprechers bestimmt, wie es in 5B gezeigt ist.

In Schritt 450 wird, wenn die dreidimensionale Lage des Sprechers bestimmt ist, von der Steuersignalerzeugungseinheit 3043 ein Steuersignal an den zweiten Rotationsregler 307 ausgegeben und das Superrichtmikrophon 308 gedreht, so dass es der dreidimensionalen Lage des Sprechers direkt zugewandt ist.

In Schritt 460 wird ein vom Superrichtmikrophon 308 empfangenes Sprachsignal eines Sprechers durch einen A/D-Konverter 309 in ein digitales Signal konvertiert und in die Sprachsignalverarbeitungseinheit 305 eingegeben. Das Eingabesignal vom Superrichtmikrophon kann in der Sprachsignalverarbeitungseinheit 305 in einem Sprachverstärkungsverfahren zusammen mit einem Sprachsignal eines Sprechers verwendet werden, das von der längsgerichteten kreisförmigen Mikrophongruppe 202 empfangen ist.

Ein in Schritt 460 durchgeführtes Sprachverstärkungsverfahren wird mit Bezug zu 6 beschrieben, die eine Umgebung zeigt, in der die vorliegende Erfindung angewendet ist, und 7 zeigt Details des Sprachverstärkungsverfahrens.

Wie in 6 gezeigt ist, empfängt das Gruppensystem von Mikrophonen gemäß der vorliegenden Erfindung ein Echosignal von einem Reflektor wie einer Wand und ein Rauschen von einer Rauschquelle wie einer Maschine sowie ein Sprachsignal eines Sprechers. Gemäß der vorliegenden Erfindung können das vom Superrichtmikrophon 308 aufgenommene Signal und von der Mikrophonanordnung empfangene Sprachsignale zusammen verarbeitet werden, wodurch ein Sprachverstärkungseffekt maximiert wird.

Wenn ferner die Richtung eines Sprechers bestimmt ist und das Sprachsignal eines Sprechers vom Superrichtmikrophon 308 durch Zuwenden des Superrichtmikrophons 308 in die Richtung des Sprechers empfangen wird, kann nur ein vom Superrichtmikrophon 308 empfangenes Signal verarbeitet werden, um zu verhindern, dass ein Rauschen oder ein Echosignal, das von der längsgerichteten kreisförmigen Mikrophongruppe 202 oder der seitlichen kreisförmigen Mikrophongruppe 201 empfangen ist, in die Sprachsignalverarbeitungseinheit 306 eingegeben wird. Wenn jedoch der Sprecher plötzlich seine Lage verändert, ist der selbe Umfang an Zeit erforderlich, um die oben genannten Schritte durchzuführen und die veränderte Lage des Sprechers zu bestimmen, und das Sprachsignal des Sprechers kann nicht rechtzeitig verarbeitet werden.

Um dieses Problem anzusprechen, gibt das Gruppensystem von Mikrophonen gemäß der vorliegenden Erfindung ein Sprachsignal eines Sprechers, das von der seitlichen kreisförmigen Mikrophongruppe 201oder der längsgerichteten kreisförmigen Mikrophongruppe 202 empfangen ist und ein vom Superrichtmikrophon 308 empfangenes Sprachsignal in die in 7 gezeigte Blindtrennschaltung ein, wodurch die Sprachqualität des empfangenen Sprachsignals durch Trennen des Sprachsignals des Sprechers, das durch jedes Mikrophon eingegeben ist, von einem Hintergrundrauschsignal verbessert wird.

Wie in 7 gezeigt ist, werden das vom Superrichtmikrophon 308 empfangene Sprachsignal und ein von Mikrophonanordnungen empfangenes Signal mit einer Zeitverzögerung des Gruppenmikrophons zum Empfangen des Sprachsignals eines Sprechers mit einer Zeitverzögerung verzögert, zusammen addiert und verarbeitet.

Bei der Funktion der in 7 gezeigten Schaltung gibt die Sprachsignalverarbeitungseinheit 305 ein Signal xarray(t) ein, das von der Mikrophonanordnung eingegeben ist und ein Signal xdirection(t) ein, das vom Superrichtmikrophon an die Blindtrennschaltung eingegeben ist. Es sind zwei Komponenten wie eine Sprachkomponente eines Sprechers und eine Hintergrundrauschkomponente in den beiden Eingabesignalen vorhanden. Wenn die beiden Eingabesignale in die Blindtrennschaltung von 7 eingegeben werden, werden die Rauschkomponente und die Sprachkomponente voneinander getrennt, und auf diese Weise y1(t) und y2(t) ausgegeben. Die ausgegebenen y1(t) und y2(t) sind durch Gleichung 5 erhalten.

Die obige Gleichung 5 ist bestimmt durch &Dgr;warray,j(k) = –&mgr; tanh(y1(t)) yj(t – k), &Dgr;wdirection,j(k) = –&mgr; tanh(y2(t)) yj(t – k).

Das Gewicht w beruht auf einer maximalen Wahrscheinlichkeitsabschätzmethode (ML, maximum likelihood) und einem gelernten Wert, so dass verschiedene Signalkomponenten eines Signals statistisch von einander getrennt, als Gewicht w verwendet werden. In diesem Fall stellt tanh( . ) eine nichtlineare Sigmoid-Funktion dar und &mgr; ist eine Konvergenzkonstante und bestimmt eine Grad, in dem das Gewicht w einen optimalen Wert abschätzt.

Während das Sprachsignal des Sprechers ausgegeben wird, prüft die Schallquellenrichtungsabschätzeinheit 3042 bei einem Sprachsignal eines Sprechers, das von der seitlichen kreisförmigen Mikrophongruppe 201 und der längsgerichteten kreisförmigen Mikrophongruppe 202 empfangen ist, ob sich die Lage eines Sprechers geändert hat. Wenn die Lage des Sprechers sich verändert hat, wird Schritt 420 durchgeführt, und auf diese Weise die Lage des Sprechers auf der XY-Ebene und der YZ-Ebene abgeschätzt. Wenn jedoch in Schritt 470 nur die Lage des Sprechers in der YZ-Ebene verändert ist, kann gemäß der Ausführungsform der vorliegenden Erfindung Schritt 440 direkt durchgeführt werden.

Wenn die Lage des Sprechers sich nicht verändert hat, erfasst die Sprachsignaldiskriminierungseinheit 3041, ob die Sprachäußerung des Sprechers beendet ist, wobei ein Verfahren ähnlich wie das in Schritt 410 durchgeführte Verfahren verwendet wird. Wenn die Sprachäußerung des Sprechers nicht beendet ist, erfasst in Schritt 480 die Sprachsignaldiskriminierungseinheit 3041, ob die Lage des Sprechers sich verändert hat.

Gemäß der vorliegenden Erfindung sind die seitliche kreisförmige Mikrophongruppe und die längsgerichtete kreisförmige Mikrophongruppe, in der Richtmikrophone kreisförmig in bestimmten Intervallen angeordnet sind, so angeordnet, dass sie orthogonal zueinander sind und daher kann das Sprachsignal eines Sprechers effektiv in mehrfachen Richtungen empfangen werden, in die der Sprecher spricht, wobei die dreidimensionale Bewegung eines Sprechers berücksichtigt wird sowie die Lage des Sprechers, die sich in einer Ebene verschiebt.

Wenn ferner die dreidimensionale Lage des Sprechers bestimmt ist, weist das Richtmikrophon in Richtung des Sprechers und empfängt das Sprachsignal des Sprechers derart, dass Spracherkennung durch Maximieren des empfangenen Sprachsignals des Sprechers, Minimieren von Umgebungsrauschen und Echosignal, die beim Sprechen des Sprechers erzeugt werden, und deutlicheres Erkennen der Sprache des Sprechers verbessert werden.

Außerdem wird das Signal, das von der seitlichen kreisförmigen Mikrophongruppe oder der längsgerichteten kreisförmigen Mikrophongruppe empfangen und mit einer bestimmten Zeitverzögerung für jedes Mikrophon verzögert ist sowie das Sprachsignal des Sprechers, das vom Superrichtmikrophon empfangen ist, zusammen mit dem vom Superrichtmikrophon empfangenen Signal ausgegeben, wodurch die Ausgabeeffizienz verbessert wird.

Während diese Erfindung insbesondere mit Bezug zu bevorzugten Ausführungsformen gezeigt und beschrieben wurde, versteht es sich für die Fachleute, dass verschiedene Veränderungen in Form und Details vorgenommen werden können, ohne vom Rahmen der Erfindung abzuweichen, wie sie in den beigefügten Ansprüchen definiert ist.


Anspruch[de]
Orthogonales kreisförmiges Gruppensystem von Mikrophonen zum Erfassen einer dreidimensionalen Richtung einer Schallquelle, wobei das System umfasst:

ein Richtmikrophon (308), das ein Sprachsignal von einer Schallquelle empfängt;

eine erste kreisförmige Mikrophongruppe (201), in der eine bestimmte Anzahl von Mikrophonen zum Empfangen des Sprachsignals von der Schallquelle um das Richtmikrophon angeordnet sind;

eine zweite kreisförmige Mikrophongruppe (202), in der eine bestimmte Anzahl von Mikrophonen zum Empfangen des Sprachsignals von der Schallquelle um das Richtmikrophon so angeordnet sind, dass sie zur ersten kreisförmigen Mikrophongruppe orthogonal sind;

eine Richtungserfassungseinheit (304), die Signale von der ersten und zweiten kreisförmigen Mikrophongruppe empfängt, diskriminiert, ob die Signale Sprachsignale sind und schätzt die Lage der Schallquelle;

einen Rotationsregler (306, 307), so angeordnet, dass er die zweite kreisförmige Mikrophongruppe und das Richtmikrophon entsprechend der von der Richtungserfassungseinheit abgeschätzten Lage der Schallquelle unabhängig dreht; und

eine Sprachsignalverarbeitungseinheit (305), die einen arithmetischen Vorgang am Sprachsignal ausführt, das vom Richtmikrophon empfangen wurde und dem Sprachsignal, das von der ersten und zweiten kreisförmigen Mikrophongruppe empfangen wurde, und ein resultierendes Sprachsignal ausgibt.
System nach Anspruch 1, worin die bestimmte Anzahl von Mikrophonen, die in der ersten und zweiten kreisförmigen Mikrophongruppe (201, 202) installiert sind, in bestimmten Intervallen gehalten sind. System nach einem der vorhergehenden Ansprüche, worin die bestimmte Anzahl von Mikrophonen, die in der ersten und zweiten kreisförmigen Mikrophongruppe (201, 202) installiert sind, Richtmikrophone sind. System nach einem der vorhergehenden Ansprüche, ferner umfassend einen Schalter (303), der ein empfangenes Signal, das von der ersten kreisförmigen Mikrophongruppe (201) eingegeben ist, oder ein empfangenes Signal, das von der zweiten kreisförmigen Mikrophongruppe (202) eingegeben ist, die Sprachsignale sind, die in die Richtungserfassungseinheit eingegeben sind, gemäß einem Steuersignal der Richtungserfassungseinheit auswählt. System nach einem der vorhergehenden Ansprüche, worin die Richtungserfassungseinheit umfasst:

eine Sprachsignaldiskriminierungseinheit (3041), die ein Sprachsignal von durch die erste und zweite kreisförmige Mikrophongruppe (201, 202) empfangenen Signalen diskriminiert,

eine Schallquellenrichtungsabschätzeinheit (3042), die die Richtung einer Schallquelle aus dem Sprachsignal abschätzt, das von der Sprachsignaldiskriminierungseinheit empfangen wurde, gemäß einem Empfangswinkel eines Sprachsignals, das von den Mikrophonen empfangen wurde, die in der ersten und zweiten kreisförmigen Mikrophongruppe (201, 202) installiert sind, und

eine Steuersignalerzeugungseinheit (3043), die ein Steuersignal ausgibt zum Drehen der ersten und zweiten kreisförmigen Mikrophongruppe (201, 202) in die Richtung, die von der Schallquellenrichtungsabschätzeinheit abgeschätzt ist.
System nach Anspruch 5, worin die Schallquellenrichtungsabschätzeinheit (3042) Ausgabewerte eines Sprachsignals über einen bestimmten Wert, die dem Mikrophon eingegeben sind, das in der ersten oder zweiten kreisförmigen Mikrophongruppe (201, 202) installiert ist, addiert, die Ausgabewerte in einen Frequenzbereich konvertiert, die Summe der Ausgabewerte des Sprachsignals, die in den Frequenzbereich konvertiert sind, unter Verwendung eines Empfangswinkels am Mikrophon des Sprachsignals als Variable konvertiert und die Richtung der Schallquelle ausgehend von dem Winkel abschätzt, der den maximalen Leistungswert darstellt. System nach Anspruch 6, worin die Summe y(t) der Ausgabewerte des Sprachsignals über einen bestimmten Wert gegeben ist durch wo M die Anzahl der Mikrophone in einer kreisförmigen Gruppe ist, c die Schallgeschwindigkeit in einem Medium, in dem Sprache von einer Schallquelle übertragen wird und r ein Abstand von der Mitte der kreisförmigen Gruppe zu ihren Mikrophonen ist. System nach einem der vorhergehenden Ansprüche, worin die Sprachsignalverarbeitungseinheit (305) Sprache eines gewünschten Sprachsignals verstärkt durch Summieren von Sprachsignalen, die von jedem der Mikrophone empfangen sind, die in der ersten und zweiten kreisförmigen Mikrophongruppe (201, 202) installiert sind, ausgegeben von der Richtungserfassungseinheit und verzögert mit der maximalen Verzögerungszeit, die durch eine Lagedifferenz zwischen den Mikrophonen erzeugt ist, Verzögern eines Sprachsignals, das vom Richtmikrophon (308) empfangen ist, durch die maximale Verzögerungszeit und Addieren des verzögerten Sprachsignals zu den summierten Sprachsignalen. Verfahren zum Erfassen einer dreidimensionalen Richtung einer Schallquelle unter Verwendung erster und zweiter kreisförmiger Mikrophongruppen (201, 202), in denen eine bestimmte Anzahl von Mikrophonen angeordnet sind und ein Richtmikrophon (308), wobei das Verfahren umfasst:

(a) Diskriminieren eines Sprachsignals von Signalen, die von der ersten kreisförmigen Mikrophongruppe (201) eingegeben sind;

(b) Abschätzen der Richtung der Schallquelle entsprechend einem Winkel, in dem ein Sprachsignal an einem in der ersten kreisförmigen Mikrophongruppe (201) installierten Mikrophon empfangen wurde und Drehen der zweiten Mikrophongruppe (202), so dass in der zweiten kreisförmigen Mikrophongruppe (202) orthogonal zur ersten kreisförmigen Mikrophongruppe (201) installierte Mikrophone der abgeschätzten Richtung zugewandt werden;

(c) Abschätzen der Richtung der Schallquelle entsprechend einem Winkel, in dem ein Sprachsignal an den in der zweiten kreisförmigen Mikrophongruppe (202) installierten Mikrophonen eingegeben wird;

(d) Empfangen des Sprachsignals durch Bewegen des Richtmikrophons (308) in Richtung der in den Schritten (b) und (c) abgeschätzten Richtung der Schallquelle und Ausgeben des empfangenen Sprachsignals; und

(e) Erfassen einer Lageveränderung der Schallquelle und ob Sprachäußerung der Schallquelle beendet ist.
Verfahren nach Anspruch 9, worin Mikrophone, die in der ersten und zweiten kreisförmigen Mikrophongruppe (201, 202) installiert sind, in bestimmten Intervallen gehalten werden. Verfahren nach Anspruch 9 oder 10, worin Mikrophone, die in der ersten und zweiten kreisförmigen Mikrophongruppe (201, 202) installiert sind, Richtmikrophone sind. Verfahren nach einem der Ansprüche 9 bis 11, worin in den Schritten (b) und (c) Ausgabewerte eines Sprachsignals über einen bestimmten Wert, das dem Mikrophon eingegeben ist, das in der ersten oder zweiten kreisförmigen Mikrophongruppe (201, 202) installiert ist, addiert und in einen Frequenzbereich konvertiert werden, die Summe der Ausgabewerte des in den Frequenzbereich konvertierten Sprachsignals unter Verwendung eines Empfangswinkels am Mikrophon des Sprachsignals als Variable konvertiert wird und die Richtung der Schallquelle ausgehend von einem Winkel, der den maximalen Leistungswert in Richtung der Schallquelle darstellt, abgeschätzt wird. Verfahren nach Anspruch 12, worin die Summe y(t) der Ausgabewerte des Sprachsignals über einen bestimmten Wert gegeben ist durch wo M die Anzahl der Mikrophone in einer kreisförmigen Gruppe ist, c die Schallgeschwindigkeit in einem Medium, in dem Sprache von einer Schallquelle übertragen wird und r ein Abstand von der Mitte der kreisförmigen Gruppe zu ihren Mikrophonen ist. Verfahren nach einem der Ansprüche 9 bis 13, worin in Schritt (d) Sprache eines gewünschten Sprachsignals verstärkt wird durch Summieren von Sprachsignalen, die von jedem der Mikrophone empfangen werden, die in der ersten und zweiten kreisförmigen Mikrophongruppe (201, 202) installiert sind und verzögert mit der maximalen Verzögerungszeit, die durch eine Lagedifferenz zwischen den Mikrophonen erzeugt ist, Verzögern eines Sprachsignals, das vom Richtmikrophon empfangen wird, um die maximale Verzögerungszeit und Addieren des verzögerten Sprachsignals zu den summierten Sprachsignalen.






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com