Die vorliegende Erfindung betrifft ein System und ein Verfahren zur
Erkennung der dreidimensionalen Richtung einer Schallquelle.
Zum Verständnis der vorliegenden Erfindung wird eine Schallquelle,
die Gegenstand der Richtungsabschätzung der vorliegenden Erfindung ist, als
Sprecher bezeichnet und unten erläuternd beschrieben.
Mikrophone empfangen allgemein ein Sprachsignal in allen Richtungen.
In einem herkömmlichen Mikrophon, das als omnidirektionales Mikrophon bezeichnet
wird, werden Umgebungslärm und ein Echosignal ebenso wie ein zu empfangendes
Sprachsignal empfangen und können ein gewünschtes Sprachsignal verzerren.
Ein Richtmikrophon wird verwendet, um das Problem des herkömmlichen Mikrophons
zu lösen.
Das Richtmikrophon empfängt ein Sprachsignal nur in einem bestimmten
Winkel (Richtungswinkel) in Bezug auf eine Achse des Mikrophons. Wenn daher ein
Sprecher am Mikrophon im Richtungswinkel des Richtmikrophons spricht, wird ein Sprachsignal
des Sprechers lauter als der Umgebungslärm vom Mikrophon empfangen, während
ein Geräusch außerhalb des Richtungswinkels des Mikrophons nicht empfangen
wird.
In jüngster Zeit wird das Richtmikrophon oft in Telekonferenzen
verwendet. Jedoch sollte wegen der Charakteristiken des Richtmikrophons, der Sprecher
am Mikrophon nur im Richtungswinkel des Mikrophons sprechen. Das heißt, der
Sprecher kann nicht sprechen, während er in einem Konferenzraum außerhalb
des Richtungswinkels des Mikrophons sitzt oder sich bewegt.
Um das oben genannte und ähnliche Probleme zu lösen, wurde
ein Mikrophonanordnungssystem vorgeschlagen, das ein Sprachsignal eines Sprechers
empfängt, während sich der Sprecher in einem bestimmten Raum bewegt, indem
Anordnen einer Mehrzahl von Mikrophonen in einem bestimmten Intervall vorgeschlagen
wird.
Ein Mikrophonanordnungssystem vom planaren Typ wie es in
1A gezeigt ist, ist in einem bestimmten Raum installiert
und empfängt ein Sprachsignal eines Sprechers, während der Sprecher sich
zum System bewegt. Das heißt, das planare Mikrophonanordnungssystem empfängt
ein Sprachsignal eines Sprechers, während sich der Sprecher in einem Bereich
von ungefähr 180° vor dem System bewegt. Wenn sich daher der Sprecher
hinter das Mikrophonanordnungssystem bewegt, kann das planare Mikrophonanordnungssystem
ein Sprachsignal eines Sprechers nicht empfangen.
Ein Mikrophonanordnungssystem vom kreisförmigen Typ, das diese
hauptsächlichen Einschränkungen des planaren Mikrophonanordnungssystem
überwindet, ist in 1B gezeigt. Das kreisförmige
Mikrophonanordnungssystem empfängt ein Sprachsignal eines Sprechers, während
der Sprecher sich in einem Bereich von 360° von der Mitte einer Ebene bewegt,
wo das Mikrophon installiert ist. Wenn jedoch die Mikrophonebene die XY-Ebene ist,
berücksichtigt das kreisförmige Mikrophonanordnungssystem die Lage eines
Sprechers nur in der XY-Ebene, während die Z-Achsenlage des Sprechers nicht
berücksichtigt wird. Auf diese Weise empfängt des Mikrophon Signale von
allen ebenen Richtungen und ein Geräusch und ein Echosignal, das entlang der
Z-Achse erzeugt ist, und damit gibt es noch immer Verzerrung von Sprachsignalen.
WO 94/26075 verwendet eine Mehrzahl von beabstandeten Mikrophonen,
um Schallsignale aus lokalisierten Schallquellen aufzunehmen. Gruppenverarbeitung
erzeugt diskrete schmale Peaks, die Eingangssignale von jeder Quelle darstellen.
Ein Steuersystem erfasst die Zeitdifferenz zwischen Peaks und Zielen ausgehend von
der Zeitdifferenz.
WO 02/03754 beschreibt ein Mikrophonanordnungssystem mit einer ersten
Anordnung von omnidirektionalen Mikrophonen und einer zweiten Anordnung von Richtmikrophonen.
Die zweite Anordnung wird zum Standort eines gewünschten Sprechers gesteuert,
der unter Verwendung von Signalen bestimmt wird, die von der ersten Anordnung und
einem adaptiven Prozessor aufgefangen wurden.
JP 60/090499 beschreibt eine Mikrophonanordnung mit einem zentralen
Mikrophon. Signale von den Mikrophonen werden unter Verwendung von verschiedenen
Gewichtungen addiert, um Stimmen von Sprechern gleichmäßig aufzunehmen.
Gemäß einem Aspekt der vorliegenden Erfindung wird ein orthogonales
kreisförmiges Gruppensystem von Mikrophonen zum Erfassen einer dreidimensionalen
Richtung einer Schallquelle zur Verfügung gestellt. Das System
weist ein Richtmikrophon auf, das ein Sprachsignal von einer Schallquelle empfängt,
eine erste kreisförmige Mikrophongruppe, in der eine bestimmte Anzahl von Mikrophonen
zum Empfangen des Sprachsignals von der Schallquelle um das Richtmikrophon angeordnet
sind, eine zweite kreisförmige Mikrophongruppe, in der eine bestimmte Anzahl
von Mikrophonen zum Empfangen des Sprachsignals von der Schallquelle um das Richtmikrophon
angeordnet sind, so dass es zur ersten Mikrophongruppe orthogonal ist, eine Richtungserfassungseinheit,
die Signale von der ersten und zweiten Mikrophongruppe empfängt, diskriminiert,
ob die Signale Sprachsignale sind und die Lage der Schallquelle schätzt, einen
Rotationsregler, so angeordnet, dass er die zweite Mikrophongruppe und das Richtmikrophon
entsprechend der von der Richtungserfassungseinheit abgeschätzten Lage der
Schallquelle unabhängig dreht, und eine Sprachsignalverarbeitungseinheit, die
einen arithmetischen Vorgang am Sprachsignal ausführt, das vom Richtmikrophon
empfangen wurde und dem Sprachsignal, das von der ersten und zweiten Mikrophongruppe
empfangen wurde, und ein resultierendes Sprachsignal ausgibt.
Gemäß einem anderen Aspekt der vorliegenden Erfindung wird
ein Verfahren zum Erfassen einer dreidimensionalen Richtung einer Schallquelle zur
Verfügung gestellt unter Verwendung erster und zweiter kreisförmiger Mikrophongruppensysteme,
in denen eine bestimmte Anzahl von Mikrophonen angeordnet sind und ein Richtmikrophon.
Das Verfahren umfasst: (a) Diskriminieren eines Sprachsignals von Signalen, die
von der ersten Mikrophongruppe eingegeben sind, (b) Abschätzen der Richtung
der Schallquelle entsprechend einem Winkel, in dem ein Sprachsignal an einem in
der ersten Mikrophongruppe installierten Mikrophon empfangen wurde und Drehen der
zweiten Mikrophongruppe, so dass in der zweiten Mikrophongruppe orthogonal zur ersten
Mikrophongruppe installierte Mikrophone der abgeschätzten Richtung zugewandt
sind, (c) Abschätzen der Richtung der Schallquelle entsprechend einem Winkel,
in dem ein Sprachsignal an den in der zweiten Mikrophongruppe installierten Mikrophonen
eingegeben wird, (d) Empfangen des Sprachsignals durch Bewegen des Richtmikrophons
in Richtung der in den Schritten (b) und (c) abgeschätzten Richtung der Schallquelle
und Ausgeben des empfangenen Sprachsignals, und (e) Erfassen einer Lageveränderung
der Schallquelle und ob Sprachäußerung der Schallquelle beendet ist. Die
vorliegende Erfindung ist daher darauf gerichtet, ein Mikrophongruppensystem und
ein Verfahren zum effizienten Empfangen eines Sprachsignals eines Sprechers in multipler
Richtung, in der der Sprecher spricht, unter Berücksichtigung einer dreidimensionalen
Bewegung eines Sprechers sowie der Lage eines Sprechers, der sich in einer Ebene
bewegt, zur Verfügung zu stellen.
Die vorliegende Erfindung stellt auf diese Weise ein Mikrophongruppensystem
und ein Verfahren zur Verbesserung der Spracherkennung zur Verfügung durch
Maximieren eines empfangenen Sprachsignals eines Sprechers, Minimierung von Umgebungsgeräusch
und Echosignal sowie eines Sprachsignals eines Sprechers und deutlicheres Erkennen
der Sprache eines Sprechers.
Die obigen und weitere Aspekte und Vorteile der vorliegenden Erfindung
werden besser ersichtlich durch ausführliche Beschreibung von bevorzugten Ausführungsformen
mit Bezug zu den begleitenden Zeichnungen, in denen:
1A und 1B Strukturen herkömmlicher
Mikrophongruppensysteme zeigen;
2A die Struktur eines orthogonalen kreisförmigen
Gruppensystems von Mikrophonen gemäß der vorliegenden Erfindung zeigt;
2B ein Beispiel zeigt, in dem das orthogonale kreisförmige
Gruppensystem von Mikrophonen von 2A an einem Roboter
ausgeführt ist;
2C die Funktionsprinzipien eines Mikrophongruppensystems
zeigt;
3 ein Blockdiagramm der Struktur des orthogonalen kreisförmigen
Mikrophongruppensystems gemäß der vorliegenden Erfindung zeigt;
4 ein Fließbild zeigt, das ein Verfahren zum Erfassen
einer dreidimensionalen Richtung einer Schallquelle gemäß der vorliegenden
Erfindung erläutert;
5A ein Beispiel zeigt, in dem der Winkel einer Schallquelle
analysiert wird, um die Richtung der Schallquelle gemäß der vorliegenden
Erfindung abzuschätzen;
5B eine zuletzt bestimmte Lage eines Sprechers zeigt;
6 eine Umgebung zeigt, in der das Mikrophongruppensystem
gemäß der vorliegenden Erfindung angewendet wird; und
7 eine Blindtrennschaltung zur Sprachverstärkung
zeigt, die ein von einer Schallquelle empfangenes Sprachsignal trennt.
Nachfolgend werden bevorzugte Ausführungsformen der vorliegenden
Erfindung ausführlich beschrieben, deren Beispiele in den begleitenden Zeichnungen
dargestellt sind.
2A zeigt eine Struktur eines orthogonalen kreisförmigen
Gruppensystems von Mikrophonen gemäß der vorliegenden Erfindung und
2B zeigt ein Beispiel, in dem die orthogonale kreisförmige
Mikrophonanordnung von 2A an einem Roboter ausgeführt
ist.
Gemäß der vorliegenden Erfindung sind eine seitliche kreisförmige
Mikrophongruppe 201 und eine längliche kreisförmige Mikrophongruppe
202 so angeordnet, dass sie in einer dreidimensionalen Kugelstruktur physikalisch
orthogonal zueinander sind, wie es in 2A gezeigt ist.
Das Mikrophongruppensystem kann auf verschiedenen Strukturen implementiert sein,
wie einem Roboter oder einer Puppe, wie es in 2B gezeigt
ist.
Jede der seitlichen kreisförmigen Mikrophongruppe 201
und der länglichen kreisförmigen Mikrophongruppe 202 sind durch
kreisförmiges Anordnen einer bestimmten Anzahl von Mikrophonen unter Berücksichtigung
eines Richtungswinkels eines Richtmikrophons und der Größe eines Objekts,
auf dem die Mikrophonanordnung implementiert werden soll, ausgebildet. Wie in
2C gezeigt ist wird, unter der Annahme, dass der Richtungswinkel
&sgr;1 eines an einer kreisförmigen Mikrophonanordnungsstruktur
angebrachten Richtmikrophons 90° beträgt und der Radius der kreisförmigen
Mikrophonanordnungsstruktur R beträgt, wenn vier Richtmikrophone in der kreisförmigen
Mikrophonanordnungsstruktur installiert sind, ein Sprachsignal eines Sprechers,
der jenseits des Richtungswinkels des Mikrophons platziert ist, von keinem der Mikrophone
empfangen, das an der Mikrophonanordnung angebracht ist.
Wenn jedoch der Richtungswinkel des Mikrophons größer ist
als 90° (wenn der Richtungswinkel des Mikrophons &sgr;2) oder
der Radius der Mikrophonanordnung kleiner ist als R (wenn der Radius der Mikrophonanordnung
r ist) wird ein Sprachsignal des Sprechers an der selben Stelle von einem Mikrophon
empfangen, das an der Mikrophonanordnung angebracht ist. Wie in 2C
gezeigt ist, sollte die Mikrophonanordnung unter Berücksichtigung des Richtungswinkels
der an der Mikrophonanordnung angebrachten Mikrophone, einem Abstand vom Sprecher
und der Größe eines Objekts ausgebildet werden, auf dem die Mikrophonanordnung
implementiert werden soll. Wenn die Mikrophonanordnung minimal (2&pgr;/&sgr;
+ 1) Mikrophone aufweist, gemäß dem Richtungswinkel &sgr; des Richtmikrophons,
kann eine Lage des Sprechers in einem Bereich von 360° erfasst werden, aber
ein bestimmter Abstand zwischen dem Objekt, auf dem die Mikrophonanordnung implementiert
ist und dem Sprecher sollte eingehalten werden.
Die in 2A gezeigte seitliche kreisförmige
Mikrophongruppe 201 empfängt ein Sprachsignal von einem Sprecher auf
der XY-Ebene, so dass eine zweidimensionale Lage des Sprechers auf der XY-Ebene
abgeschätzt werden kann. Wenn die zweidimensionale Lage des Sprechers auf der
XY-Ebene abgeschätzt ist, dreht sich die längliche kreisförmige Mikrophongruppe
202 zur geschätzten zweidimensionalen Lage und empfängt ein Sprachsignal
vom Sprecher, so dass eine dreidimensionale Lage eines Sprechers abgeschätzt
werden kann.
Nachfolgend wird die Struktur eines Mikrophongruppensystems gemäß
der vorliegenden Erfindung, die eine Lage eines Sprechers unter Verwendung zweier
orthogonal angeordneter kreisförmiger Mikrophongruppen abschätzt und ein
Sprachsignal eines Sprechers empfängt, mit Bezug zu 3
beschrieben.
Das Mikrophongruppensystem gemäß der vorliegenden Erfindung
beinhaltet eine seitliche kreisförmige Mikrophongruppe 201, die ein
Sprachsignal eines Sprechers in zweidimensionaler Richtung auf einer XY-Ebene empfängt,
eine längliche kreisförmige Mikrophongruppe 202, die ein Sprachsignal
eines Sprechers in dreidimensionaler Richtung auf einer YZ-Ebene zur abgeschätzten
zweidimensionalen Lage eines Sprechers empfängt, eine Richtungserfassungseinheit
304, die die Lage eines Sprechers aus dem von der seitlichen kreisförmigen
Mikrophongruppe 201 und der länglichen kreisförmigen Mikrophongruppe
202 empfangenen Signal abschätzt und ein Steuersignal daraus ausgibt,
einen Schalter 303, der selektiv ein Sprachsignal überträgt,
das zur Richtungserfassungseinheit 304 von der seitlichen kreisförmigen
Mikrophongruppe 201 eingegeben ist und ein Sprachsignal, das von der länglichen
kreisförmigen Mikrophongruppe 202 eingegeben ist, ein
Superrichtmikrophon 308, das ein Sprachsignal von der abgeschätzten
Lage des Sprechers empfängt, eine Sprachsignalverarbeitungseinheit
305, die ein vom Superrichtmikrophon 308 und der länglichen
kreisförmigen Mikrophongruppe 202 empfangenes Sprachsignal verstärkt,
einen ersten Rotationsregler 306, der eine Drehrichtung und einen Winkel
der länglichen kreisförmigen Mikrophongruppe 202 regelt und einen
zweiten Rotationsregler 307, der die Drehrichtung und den Winkel des Superrichtmikrophons
308 regelt.
Außerdem beinhaltet die Richtungserfassungseinheit
304 eine Sprachsignaldiskriminierungseinheit 3041, die ein Sprachsignal
von durch die seitliche kreisförmige Mikrophongruppe 201 und die längliche
kreisförmige Mikrophongruppe 202 empfangenes Signal diskriminiert,
eine Schallquellenrichtungsabschätzeinheit 3042, die die Richtung
einer Schallquelle aus dem Sprachsignal abschätzt, das von der Sprachsignaldiskriminierungseinheit
3041 und den seitlichen und länglichen kreisförmigen Mikrophongruppen
201 und 202 empfangen ist, und eine Steuersignalerzeugungseinheit
3043, die ein Steuersignal ausgibt zum Drehen der länglichen kreisförmigen
Mikrophongruppe 202 von der durch die Schallquellenrichtungsabschätzeinheit
3042 geschätzten Richtung, ein Steuersignal ausgibt zum Bestimmen,
wann das eingegebene Mikrophongruppensignal am Schalter 303 geschaltet
werden soll, und ein Steuersignal ausgibt zum Bestimmen, wann das verstärkte
Sprachsignal auf die Sprachsignalverarbeitungseinheit 305 aufgeben werden
soll.
Nachfolgend wird ein Verfahren zum Abschätzen der Lage eines
Sprechers gemäß der vorliegenden Erfindung mit Bezug zu den
3 und 4 beschrieben.
In Schritt 400 wird, wenn Energie auf das Mikrophongruppensystem
gemäß der vorliegenden Erfindung aufgebracht wird, die seitliche kreisförmige
Mikrophongruppe 201 zuerst betätigt und empfängt ein Signal von
der Umgebung. Die Richtmikrophone, die in der seitlichen kreisförmigen Mikrophongruppe
201 installiert sind, empfangen Signale, die in einem Richtungswinkel eingegeben
sind und die empfangenen analogen Signale werden von einem A/D-Konverter
309 in digitale Signale umgewandelt und auf den Schalter 303 aufgegeben.
Bei einem ersten Vorgang überträgt der Schalter 303 Signale,
die von der seitlichen kreisförmigen Mikrophongruppe 201 eingegeben
sind, zur Richtungserfassungseinheit 304.
In Schritt 410 diskriminiert die in der Richtungserfassungseinheit
304 enthaltene Sprachsignaldiskriminierungseinheit 3041, ob ein
Sprachsignal in den digitalen Signalen, die durch den Schalter 303 eingegeben
sind, vorhanden ist. Unter Berücksichtigung des Gegenstandes der vorliegenden
Erfindung ist es bei der Verbesserung der Spracherkennung durch deutliches Empfangen
eines Sprachsignals von einem Menschen durch die Mikrophongruppe sehr von Bedeutung,
dass die Sprachsignaldiskriminierungseinheit 3041 nur eine Sprachsignaldauer
unter den Signalen präzise erfasst, die aktuell vom Mikrophon 301
eingegeben sind, und die Sprachsignaldauer in eine Spracherkennung 320
durch die Sprachsignalverarbeitungseinheit 305 eingibt.
Spracherkennung kann grob in zwei Funktionen klassifiziert werden:
eine Funktion zum präzisen Prüfen eines Zeitpunkts, an dem ein Sprachsignal
empfangen wird, nachdem eine Dauer ohne Sprache anhält, und präzise Information
zu einem Startzeitpunkt des Sprachsignals, und eine Funktion zum präzise Prüfen
eines Zeitpunkts, bei dem eine Dauer ohne Sprache beginnt, nachdem eine Sprachdauer
anhält, und Information zu einem Endzeitpunkt des Sprachsignals; die folgenden
Technologien zum Durchführen dieser Funktionen sind verbreitet bekannt.
Zunächst werden in einem Verfahren zum Durchführen einer
Funktion zur Information eines Endzeitpunkts eines Sprachsignals durch ein Mikrophon
eingegebene Signale gemäß einer bestimmten Rahmendauer (d. h. 30 ms) aufgeteilt
und die Energie der Signale berechnet, und wenn der Energiewert viel kleiner wird
als der vorherige Energiewert, wird bestimmt, dass kein Sprachsignal mehr erzeugt
wird, und die bestimmte Zeit wird als Endzeitpunkt des Sprachsignals verarbeitet.
In diesem Fall kann, wenn nur ein fester Wert als kritischer Wert verwendet wird
zur Bestimmung, dass die Energie viel kleiner wird als der vorherige Energiewert,
eine Differenz zwischen Sprache in lauter Stimme und Sprache in leiser Stimme ignoriert
werden. Auf diese Weise wird ein Verfahren vorgeschlagen, bei dem die vorherige
Sprachdauer beobachtet wird, ihr kritischer Wert adaptiv verändert wird und
unter Verwendung des kritischen Werts erfasst wird, ob das derzeit empfangene Signal
Sprache ist. Ein solches Verfahren wurde im Artikel „Robust End-of-Utterance
Detection for Real-time Speech Recognition Applications" von Hariharan, R., Hakkinen,
J., Laurila K in IEEE International Conference on Acoustics, Speech and Signal Processing
Proceedings, 2001, Band 1, S. 249–252 vorgeschlagen.
Ein anderes bekanntes Verfahren zur Spracherkennung ist ein Verfahren,
das im Voraus ein Störmodell in Bezug auf Vokabular (OOV, out-of-vocabulary)
erstellt, betrachtet, wie ein durch ein Mikrophon eingegebenes Signal für das
Störmodell geeignet ist und bestimmt, ob das Signal Störgeräusch
oder ein Sprachsignal ist. Das Verfahren bildet das Störmodell, indem es zuvor
andere Geräusche als Sprache lernt, betrachtet wie ein Signal,
das zuvor empfangen wurde, für das Störmodell geeignet ist und bestimmt
eine Dauer von Sprache/keine Sprache. Ein Verfahren, das eine Beziehung zwischen
verrauschter Sprache und rauschfreier Sprache unter Verwendung eines neuronalen
Netzwerks und linearer Rekursionsanalyse abschätzt und Rauschen durch Konversion
eliminiert, wurde auch im Artikel „On-line Garbage Modeling with Discriminant
Analysis for Utterance Verification" von Caminero, J., De La Torre, D., Villarrubia,
L., Martin, C., Hernandez, L. in Fourth International Conference on Spoken Language
ICSLP Proceedings, 1996, Band 4, S. 2111–2114 vorgeschlagen.
Unter Verwendung der oben genannten Verfahren wird, wenn kein Sprachsignalwert
über einem bestimmten Wert durch die kreisförmige Mikrophongruppe
201 eingegeben wird, von der Sprachsignaldiskriminierungseinheit
3041 bestimmt, dass derzeit keine Sprache eingegeben wird. Wenn ein Sprachsignalwert
über einem bestimmten Wert von einer Mehrzahl der Mikrophone 301 erfasst
wird, die in der seitlichen kreisförmigen Mikrophongruppe 201 installiert
sind, d. h. n Mikrophonen, und kein Signalwert von den übrigen Mikrophonen
eingegeben wird, wird bestimmt, dass ein Sprachsignal erfasst ist und sich der Sprecher
in einem Bereich von (n + 1) × &sgr; (Richtungswinkel) befindet, und das
eingegebene Signal wird ausgegeben und auf die Schallquellenrichtungsabschätzeinheit
3042 aufgegeben.
Ein Verfahren zum Abschätzen der Richtung eines Sprechers wird
mit Bezug zu den 5A und 5B
beschrieben.
Wenn ein von einem Sprecher in die Mikrophongruppe gemäß
der vorliegenden Erfindung eingegebenes Sprachsignal eines der Mikrophone
301 und 302 erreicht, die in den seitlich und längs gerichteten
kreisförmigen Mikrophongruppen 201 und 202 installiert sind,
wird das Sprachsignal mit bestimmten Zeitverzögerungen in Bezug auf das erste
Empfangsmikrophon empfangen. Die Zeitverzögerungen werden gemäß einem
Richtungswinkel &sgr; des Mikrophons und der Lage eines Sprechers bestimmt, das
heißt, einem Winkel &thgr; in Bezug auf ein Mikrophon, an dem das Sprachsignal
eingegeben ist.
In der vorliegenden Ausführungsform wird unter Berücksichtigung
der Eigenschaften des Richtmikrophons im Falle eines Mikrophons, bei dem ein Sprachsignal
mit weniger als einem bestimmten Signalwert empfangen wird, bestimmt, dass sich
der Sprecher nicht in dem Richtungswinkel des entsprechenden Mikrophons befindet,
und Winkel entsprechender Mikrophone werden vom Abschätzwinkel für die
Lage des Sprechers ausgeschlossen.
Die Schallquellenrichtungsabschätzeinheit 3042 misst
den Winkel &thgr;, an dem ein Sprachsignal eines Sprechers empfangen ist, aus einer
imaginären Linie (Referenzlinie), die das auf den Mittelpunkt der Mikrophongruppe
zentrierte Richtmikrophon auf Basis eines Richtmikrophons verbindet, wie es in
5A gezeigt ist, um die Lage eines Sprechers abzuschätzen.
Für andere Mikrophone als Referenzmikrophone wird ein Winkel eines am Mikrophon
empfangenen Sprachsignals von der imaginären Linie parallel zur Referenzlinie
gemessen. Wenn ein Objekt, auf dem die Anordnung implementiert ist, kein Geräusch
macht, das viel größer ist als die Schallquelle, kann ein Einfallswinkel
&thgr; eines von jedem Mikrophon zum Empfangen eines Sprachsignals empfangenen
Sprachsignals im Wesentlichen gleich sein.
Nachdem alle von einem Mikrophon empfangenen Geräusche über
einem bestimmten Wert addiert sind, in einen Frequenzbereich durch eine schnelle
Fourier-Transformations-Konversion (FFT) konvertiert sind, werden die empfangenen
Geräusche in einen Bereich von &thgr; konvertiert, wobei &thgr; mit dem maximalen
Energiewert die Richtung darstellt, entlang der der Sprecher platziert ist.
Wenn ein in ein n-tes Mikrophon eingegebenes empfangenes Sprachsignal
mit einer bestimmten Zeitverzögerung in einem Zeitbereich xn(t)
ist, und ein Ausgabesignal, zu dem ein Sprachsignalwert von jedem der Mikrophone
addiert ist y(t) ist, wird y(t) durch Gleichung 1 erhalten.
Hier ist Y(f) erhalten durch Konvertieren von y(t) in einen Frequenzbereich
wie folgt.
Hier stellt c die Schallgeschwindigkeit eines Mediums dar, in dem
ein Sprachsignal von einer Schallquelle übertragen wird, &dgr; stellt ein
Intervall zwischen den Mikrophonen dar, die in der Anordnung installiert sind, M
stellt die Anzahl der Mikrophone dar, die in der Gruppe installiert sind, &thgr;
stellt einen Einfallswinkel eines Sprachsignals dar, das vom Mikrophon empfangen
ist und &dgr; = 2&pgr;/M wird gebildet.
Y(f) konvertiert in den Frequenzbereich wird durch eine Variable &thgr;
ausgedrückt, das heißt Y(f) wird in einen Bereich von &thgr; konvertiert
und dann die Energie eines im Bereich von &thgr; empfangenen Sprachsignals durch
Gleichung 3 erhalten.
Hier liegt &thgr; zwischen 0 und &pgr; und wenn Y(f) in den Bereich
von &thgr; konvertiert wird, wird der Frequenzbereich in den Bereich von &thgr;
konvertiert, so dass der negative Maximalwert des Schalls im Frequenzbereich auf
0° im Bereich von &thgr; abgebildet wird, 0° im Frequenzbereich wird
vom Bereich von &thgr; auf
abgebildet, der positive Maximalwert im Frequenzbereich wird vom Bereich &thgr;
auf (n + 1) × &dgr; abgebildet.
Die Ausgabeenergiefunktion von &thgr; ist durch P(&thgr;, k; m)
bekannt, als Ausgabe der Mikrophongruppe und &thgr; bei der maximalen Ausgabe kann
bestimmt werden. Auf diese Weise kann eine Intensität in einem direkten Weg
eines empfangenen Sprachsignals erkannt werden. Wenn die obigen Gleichungen 1, 2
und 3 in Bezug auf alle Frequenzen k kombiniert werden, ist ein Energiespektrumwert
P(&thgr;; m) wie folgt.
Daraus ist zu schließen, wenn in Schritt 420 die Richtung
eines Sprechers mit der Maximalenergie in allen Frequenzbereichen durch &thgr;s
gegeben ist, kann die Richtung des Sprechers als &thgr;s = arg max&thgr;
P(&thgr;; m) bestimmt werden.
Wie oben beschrieben, wenn eine zweidimensionale Lage einer seitlichen
Richtung eines Sprechers aus einem Sprachsignal abgeschätzt wird, das von der
seitlichen kreisförmigen Mikrophongruppe 201 eingeben ist, gibt die
Schallquellenrichtungsabschätzeinheit 3042 eine Richtung des Sprechers
als &thgr;s aus, die von der Steuersignalerzeugungseinheit
3043 erfasst ist. Die Steuersignalerzeugungseinheit 3043 gibt
ein Steuersignal an den ersten Rotationsregler 306, so dass die längsgerichtete
kreisförmige Mikrophongruppe 202 in die Richtung des Sprechers &thgr;s
gedreht wird. Der erste Rotationsregler 306 dreht die längsgerichtete
kreisförmige Mikrophongruppe 202 in die durch &thgr;s
gegebene Richtung, so dass die längsgerichtete Mikrophongruppe 202
direkt dem Sprecher in zweidimensionaler Richtung zugewandt ist. Bevorzugt drehen
sich die seitliche kreisförmige Mikrophongruppe 201 und die längsgerichtete
kreisförmige Mikrophongruppe 202 gemeinsam, wenn die längsgerichtete
kreisförmige Mikrophongruppe 202 sich in Richtung des Sprechers dreht.
In diesem Fall kann in Schritt 430, wenn ein Mikrophongruppensystem dem
Sprecher zugewandt ist, das für die seitliche kreisförmige Mikrophongruppe
201 und die längsgerichtete kreisförmige Mikrophongruppe
202 gemeinsam benutzt wird, dieser Fall als richtige Drehung bestimmt werden.
Wenn indessen die Drehung der längsgerichteten kreisförmigen
Mikrophongruppe 202 beendet ist, gibt die Steuersignalerzeugungseinheit
3043 ein Steuersignal an den Schalter 303 aus und überträgt
ein von der längsgerichteten kreisförmigen Mikrophongruppe 202
eingegebenes Sprachsignal eines Sprechers an die Sprachsignaldiskriminierungseinheit
3041. Die Richtungserfassungseinheit 304 schätzt die dreidimensionale
Lage eines Sprechers auf die selbe Weise wie in Schritt 420 unter Verwendung
eines Sprachsignals, das von der längsgerichteten kreisförmigen Mikrophongruppe
202 eingegeben ist und damit wird die dreidimensionale Lage des Sprechers
bestimmt, wie es in 5B gezeigt ist.
In Schritt 450 wird, wenn die dreidimensionale Lage des Sprechers
bestimmt ist, von der Steuersignalerzeugungseinheit 3043 ein Steuersignal
an den zweiten Rotationsregler 307 ausgegeben und das Superrichtmikrophon
308 gedreht, so dass es der dreidimensionalen Lage des Sprechers direkt
zugewandt ist.
In Schritt 460 wird ein vom Superrichtmikrophon
308 empfangenes Sprachsignal eines Sprechers durch einen A/D-Konverter
309 in ein digitales Signal konvertiert und in die Sprachsignalverarbeitungseinheit
305 eingegeben. Das Eingabesignal vom Superrichtmikrophon kann in der Sprachsignalverarbeitungseinheit
305 in einem Sprachverstärkungsverfahren zusammen mit einem Sprachsignal
eines Sprechers verwendet werden, das von der längsgerichteten kreisförmigen
Mikrophongruppe 202 empfangen ist.
Ein in Schritt 460 durchgeführtes Sprachverstärkungsverfahren
wird mit Bezug zu 6 beschrieben, die eine Umgebung
zeigt, in der die vorliegende Erfindung angewendet ist, und 7
zeigt Details des Sprachverstärkungsverfahrens.
Wie in 6 gezeigt ist, empfängt das
Gruppensystem von Mikrophonen gemäß der vorliegenden Erfindung ein Echosignal
von einem Reflektor wie einer Wand und ein Rauschen von einer Rauschquelle wie einer
Maschine sowie ein Sprachsignal eines Sprechers. Gemäß der vorliegenden
Erfindung können das vom Superrichtmikrophon 308 aufgenommene Signal
und von der Mikrophonanordnung empfangene Sprachsignale zusammen verarbeitet werden,
wodurch ein Sprachverstärkungseffekt maximiert wird.
Wenn ferner die Richtung eines Sprechers bestimmt ist und das Sprachsignal
eines Sprechers vom Superrichtmikrophon 308 durch Zuwenden des Superrichtmikrophons
308 in die Richtung des Sprechers empfangen wird, kann nur ein vom Superrichtmikrophon
308 empfangenes Signal verarbeitet werden, um zu verhindern, dass ein Rauschen
oder ein Echosignal, das von der längsgerichteten kreisförmigen Mikrophongruppe
202 oder der seitlichen kreisförmigen Mikrophongruppe 201
empfangen ist, in die Sprachsignalverarbeitungseinheit 306 eingegeben wird.
Wenn jedoch der Sprecher plötzlich seine Lage verändert, ist der selbe
Umfang an Zeit erforderlich, um die oben genannten Schritte durchzuführen und
die veränderte Lage des Sprechers zu bestimmen, und das Sprachsignal des Sprechers
kann nicht rechtzeitig verarbeitet werden.
Um dieses Problem anzusprechen, gibt das Gruppensystem von Mikrophonen
gemäß der vorliegenden Erfindung ein Sprachsignal eines Sprechers, das
von der seitlichen kreisförmigen Mikrophongruppe 201oder der längsgerichteten
kreisförmigen Mikrophongruppe 202 empfangen ist und ein vom Superrichtmikrophon
308 empfangenes Sprachsignal in die in 7 gezeigte
Blindtrennschaltung ein, wodurch die Sprachqualität des empfangenen Sprachsignals
durch Trennen des Sprachsignals des Sprechers, das durch jedes Mikrophon eingegeben
ist, von einem Hintergrundrauschsignal verbessert wird.
Wie in 7 gezeigt ist, werden das vom
Superrichtmikrophon 308 empfangene Sprachsignal und ein von Mikrophonanordnungen
empfangenes Signal mit einer Zeitverzögerung des Gruppenmikrophons zum Empfangen
des Sprachsignals eines Sprechers mit einer Zeitverzögerung verzögert,
zusammen addiert und verarbeitet.
Bei der Funktion der in 7 gezeigten Schaltung
gibt die Sprachsignalverarbeitungseinheit 305 ein Signal xarray(t)
ein, das von der Mikrophonanordnung eingegeben ist und ein Signal xdirection(t)
ein, das vom Superrichtmikrophon an die Blindtrennschaltung eingegeben ist. Es sind
zwei Komponenten wie eine Sprachkomponente eines Sprechers und eine Hintergrundrauschkomponente
in den beiden Eingabesignalen vorhanden. Wenn die beiden Eingabesignale in die Blindtrennschaltung
von 7 eingegeben werden, werden die Rauschkomponente
und die Sprachkomponente voneinander getrennt, und auf diese Weise y1(t)
und y2(t) ausgegeben. Die ausgegebenen y1(t) und y2(t)
sind durch Gleichung 5 erhalten.
Die obige Gleichung 5 ist bestimmt durch
&Dgr;warray,j(k) = –&mgr; tanh(y1(t)) yj(t
– k), &Dgr;wdirection,j(k) = –&mgr; tanh(y2(t))
yj(t – k).
Das Gewicht w beruht auf einer maximalen Wahrscheinlichkeitsabschätzmethode
(ML, maximum likelihood) und einem gelernten Wert, so dass verschiedene Signalkomponenten
eines Signals statistisch von einander getrennt, als Gewicht w verwendet werden.
In diesem Fall stellt tanh( . ) eine nichtlineare Sigmoid-Funktion dar und &mgr;
ist eine Konvergenzkonstante und bestimmt eine Grad, in dem das Gewicht w einen
optimalen Wert abschätzt.
Während das Sprachsignal des Sprechers ausgegeben wird, prüft
die Schallquellenrichtungsabschätzeinheit 3042 bei einem Sprachsignal
eines Sprechers, das von der seitlichen kreisförmigen Mikrophongruppe
201 und der längsgerichteten kreisförmigen Mikrophongruppe
202 empfangen ist, ob sich die Lage eines Sprechers geändert hat.
Wenn die Lage des Sprechers sich verändert hat, wird Schritt 420 durchgeführt,
und auf diese Weise die Lage des Sprechers auf der XY-Ebene und der YZ-Ebene abgeschätzt.
Wenn jedoch in Schritt 470 nur die Lage des Sprechers in der YZ-Ebene verändert
ist, kann gemäß der Ausführungsform der vorliegenden Erfindung Schritt
440 direkt durchgeführt werden.
Wenn die Lage des Sprechers sich nicht verändert hat, erfasst
die Sprachsignaldiskriminierungseinheit 3041, ob die Sprachäußerung
des Sprechers beendet ist, wobei ein Verfahren ähnlich wie das in Schritt
410 durchgeführte Verfahren verwendet wird. Wenn die Sprachäußerung
des Sprechers nicht beendet ist, erfasst in Schritt 480 die Sprachsignaldiskriminierungseinheit
3041, ob die Lage des Sprechers sich verändert hat.
Gemäß der vorliegenden Erfindung sind die seitliche kreisförmige
Mikrophongruppe und die längsgerichtete kreisförmige Mikrophongruppe,
in der Richtmikrophone kreisförmig in bestimmten Intervallen angeordnet sind,
so angeordnet, dass sie orthogonal zueinander sind und daher kann das Sprachsignal
eines Sprechers effektiv in mehrfachen Richtungen empfangen werden, in die der Sprecher
spricht, wobei die dreidimensionale Bewegung eines Sprechers berücksichtigt
wird sowie die Lage des Sprechers, die sich in einer Ebene verschiebt.
Wenn ferner die dreidimensionale Lage des Sprechers bestimmt ist,
weist das Richtmikrophon in Richtung des Sprechers und empfängt das Sprachsignal
des Sprechers derart, dass Spracherkennung durch Maximieren des empfangenen Sprachsignals
des Sprechers, Minimieren von Umgebungsrauschen und Echosignal, die beim Sprechen
des Sprechers erzeugt werden, und deutlicheres Erkennen der Sprache des Sprechers
verbessert werden.
Außerdem wird das Signal, das von der seitlichen kreisförmigen
Mikrophongruppe oder der längsgerichteten kreisförmigen Mikrophongruppe
empfangen und mit einer bestimmten Zeitverzögerung für jedes Mikrophon
verzögert ist sowie das Sprachsignal des Sprechers, das vom Superrichtmikrophon
empfangen ist, zusammen mit dem vom Superrichtmikrophon empfangenen
Signal ausgegeben, wodurch die Ausgabeeffizienz verbessert wird.
Während diese Erfindung insbesondere mit Bezug zu bevorzugten
Ausführungsformen gezeigt und beschrieben wurde, versteht es sich für
die Fachleute, dass verschiedene Veränderungen in Form und Details vorgenommen
werden können, ohne vom Rahmen der Erfindung abzuweichen, wie sie in den beigefügten
Ansprüchen definiert ist.