Diese Erfindung betrifft Tonaufzeichnungs- und Wiedergabesysteme,
und betrifft insbesondere Stereotonwiedergabesysteme, bei denen zumindest zwei Lautsprecher
eingesetzt werden.
Es ist möglich, einem Zuhörer den Eindruck zu vermitteln, daß es eine
Tonquelle, die als eine virtuelle Tonquelle bezeichnet wird, in einer bestimmten
Position im Raum gibt, vorausgesetzt, daß die Toneindrücke, die bei den Ohren des
Zuhörers reproduziert werden, die gleichen sind, wie die Toneindrücke, die bei den
Ohren des Zuhörers durch eine reale Quelle an der gewünschten Position der virtuellen
Quelle erzeugt worden wären. Dieser Versuch, dem menschlichen Hören etwas vorzumachen,
kann implementiert werden, indem entweder Kopfhörer oder Lautsprecher verwendet
werden. Beide Verfahren haben ihre Vorteile und Nachteile.
Bei Verwendung von Kopfhörern ist keine Verarbeitung der gewünschten
Signale notwendig, unabhängig von der akustischen Umgebung, in denen Sie eingesetzt
werden. Jedoch leidet die Kopfhörerwiedergabe binauralen Materials oft an der "in-den-Kopf"-Lokalisierung
bestimmter Tonquellen und einer schlechten Lokalisierung von vorderen und hinteren
Quellen. Es ist im großen und ganzen sehr schwierig, dem Zuhörer den Eindruck zu
vermitteln, daß die virtuelle Tonquelle wirklich extern ist, das heißt, "außerhalb
des Kopfes".
Bei Verwendung von Lautsprechern ist es nicht schwierig, die virtuelle
Tonquelle so erscheinen zu lassen, daß sie wirklich extern ist. Jedoch ist es notwendig,
relativ komplizierte digitale Signalverarbeitung einzusetzen, um den gewünschten
Effekt zu erhalten, und die wahrgenommene Qualität der virtuellen Quelle hängt sowohl
von den Eigenschaften (Charakteristiken) der Lautsprecher als auch zu einem gewissen
Maß von der akustischen Umgebung ab.
Bei Verwendung von zwei Lautsprechern können die gewünschten Signale
mit großer Genauigkeit an zwei Punkten im Raum reproduziert werden. Wenn diese beiden
Punkte so gewählt werden, daß sie mit den Positionen der Ohren eines Zuhörers zusammenfallen,
ist es möglich, sehr überzeugende Tonbilder für diesen Zuhörer zu schaffen. Dieses
Verfahren wurde von einer Anzahl verschiedener Systeme implementiert, die alle weit
beabstandete Lautsprecheranordnungen hatten, die typischerweise vom Zuhörer gesehen
60° aufspannen. Ein fundamentales Problem, dem man gegenübersteht, wenn man
eine derartige Lautsprecheranordnung verwendet, besteht darin, daß überzeugende
virtuelle Bilder nur innerhalb einer sehr begrenzten räumlichen Region oder "Blase"
erfahren werden, die den Kopf des Zuhörers umgibt. Wenn sich der Kopf mehr als ein
paar Zentimeter zur Seite bewegt, bricht die durch das virtuelle Quellenbild erzeugte
Illusion vollständig zusammen. Somit ist die virtuelle Quellenbildung unter Verwendung
von zwei weit beabstandeten Lautsprechern nicht sehr robust gegenüber der Kopfbewegung.
Wir haben etwas überraschend herausgefunden, daß eine virtuelle Tonquellenabbildungsform
eines Tonwiedergabesystems unter Verwendung von zwei dicht beabstandeten Lautsprechern
extrem robust gegenüber Kopfbewegungen sein kann. Die Größe der "Blase" um den Kopf
des Zuhörers nimmt erheblich zu, ohne irgendeine merkliche Reduktion in der Leistung.
Außerdem macht es die dichte Lautsprecheranordnung möglich, die beiden Lautsprecher
in einem einzigen Gehäuse aufzunehmen.
Von Zeit zu Zeit wird die vorliegende Erfindung hier bequemerweise
als ein "Stereo-Dipol" bezeichnet, obwohl das Tonfeld, das sie produziert, eine
Annäherung an das Tonfeld ist, das von einer Kombination von Punkt-Monopol- und
Punkt-Dipol-Quellen erzeugt werden würde.
Zusammenfassung der Erfindung
Gemäß einem Gesichtspunkt der vorliegenden Erfindung geben wir ein
Tonwiedergabesystem mit Lautsprechermitteln und Lautsprecher-Treibermitteln zum
Treiben der Lautsprechermittel in Reaktion auf Signale von zumindest einem Tonkanal
an, wobei die Lautsprechermittel ein dicht beabstandetes Paar von Lautsprechern
umfaßt, wobei die Lautsprecher-Treibermittel Filtermittel umfassen, wobei die Filtermittel
zumindest ein Paar von Filtern umfassen, wobei der Ausgang von einem Filter des
Paars von Filtern auf einen Lautsprecher des Paars von Lautsprechern angewendet
wird, wobei der Ausgang des anderen Filters des Paars von Filtern auf den anderen
Lautsprecher des Paars von Lautsprechern angewendet wird, wobei die Charakteristiken
der Filtermittel derart gewählt werden, daß sie virtuelle Bilder von Tonquellen
erzeugen, die mit dem Tonkanal/den Tonkanälen an virtuellen Quellenpositionen im
Zusammenhang stehen, die in einer bestimmten Zuhörerposition einen Winkel aufspannen,
der wesentlich größer als der Winkel ist, der von den Lautsprechern aufgespannt
wird, dadurch gekennzeichnet, daß die Lautsprecher mit der Zuhörerposition einen
spitzen Winkel zwischen einschließlich 6° und 20° definieren, und daß die
Ausgänge des Paars von Filtern zu einer Phasendifferenz zwischen den Vibrationen
der beiden Lautsprecher führen, wobei sich die Phasendifferenz mit der Frequenz
von niedrigen Frequenzen, wo die Vibrationen im wesentlichen außer Phase sind, zu
hohen Frequenzen verändert, wo die Vibrationen in Phase sind, wobei die niedrigste
Frequenz, bei der die Vibrationen in Phase sind, näherungsweise durch eine Abklingfrequenz
f0 festgelegt wird, die definiert ist durch f0 = 1/2&tgr;
wobei
wobei r2 und r1 die Weglängen von einem Lautsprecherzentrum
zu den jeweiligen Ohrpositionen eines Zuhörers in der Zuhörerposition sind, und
c0 die Schallgeschwindigkeit ist, wobei die Abklingfrequenz f0
zumindest 5,4 kHz beträgt.
Der spitze Winkel kann zwischen einschließlich 8° und 12°
betragen, aber beträgt vorzugsweise ungefähr 10°.
Die Filtermittel sind vorzugsweise derart angeordnet, daß die Reproduktion
gewünschter, mit einer virtuellen Quelle im Zusammenhang stehender Signale in dem
Bereich der Zuhörerohren bis zu ungefähr 4 kHz effizient ist, selbst wenn sich der
Zuhörerkopf von der vorbestimmten Zuhörerposition 10 cm zur Seite bewegt.
Die Filtermittel können eines oder mehreres aufweisen oder enthalten
von: Kreuzkopplungsauslöschmittel, Annäherung kleinster Quadrate, kopfbezogene Übertragungsmittel,
Frequenzregelungsmittel und Modellierverzögerungsmittel.
Vorzugsweise umfaßt der Außer-Phase-Frequenzbereich den Bereich von
100 Hz bis 4 kHz.
Vorzugsweise vibrieren die beiden Lautsprecher im wesentlichen miteinander
in Phase, wenn das gleiche Eingangssignal an jedem Lautsprecher angelegt wird.
Vorzugsweise sind die Eingangssignale zu den beiden Lautsprechern
über einen Frequenzbereich von 100 Hz bis 4 kHz niemals in Phase.
Das Lautsprecherpaar kann aneinandergrenzend angeordnet sein, aber
vorzugsweise beträgt der Abstand zwischen den Zentren der Lautsprecher nicht mehr
als ungefähr 45 cm.
Das System ist vorzugsweise derart ausgelegt, daß die optimale Position
zum Zuhören bei einer Kopfposition ist, die in einem Abstand von zwischen 0,2 m
bis 4 m von den Lautsprechern, und vorzugsweise bei ungefähr 2 m von den Lautsprechern
liegt. Alternativ liegt die Kopfposition in einem Abstand von zwischen 0,2 m und
1,0 m von den Lautsprechern.
Die Lautsprecherzentren können im wesentlichen parallel zueinander
angeordnet sein, oder derart angeordnet, daß die Achsen ihrer Zentren auf eine konvergente
Weise zueinander geneigt sind.
Die Lautsprecher können in einem einzigen Gehäuse aufgenommen sein.
Gemäß einem zweiten Gesichtspunkt der vorliegenden Erfindung geben
wir Filtermittel an, die derart ausgelegt sind, daß sie bei den Lautsprechertreibermitteln
eines Tonwiedergabesystems gemäß dem ersten Gesichtspunkt der Erfindung einsetzbar
sind.
Ein dritter Gesichtspunkt der vorliegenden Erfindung betrifft das
Erzeugen von Tonaufzeichnungen, die anschließend auf einem dicht beabstandeten Lautsprecherpaar
unter Verwendung "konventioneller" Stereoverstärker abgespielt werden können, wobei
Filtermittel beim Erzeugen der Tonaufzeichnungen eingesetzt werden, wodurch die
Notwendigkeit vermieden wird, Filtermittel bei den Eingängen der Lautsprecher vorzusehen.
Gemäß dem dritten Gesichtspunkt der Erfindung geben wir ein Verfahren
zum Erzeugen einer Tonaufzeichnung zum Abspielen über ein dicht beabstandetes Paar
von Lautsprechern an, die mit einer bestimmten Zuhörerposition einen spitzen Winkel
von zwischen einschließlich 6° und 20° definieren, unter Verwendung von
Stereoverstärkern, wobei Filtermittel beim Erzeugen der Tonaufzeichnung aus Tonsignalen
eingesetzt werden, die ansonsten zum Abspielen unter Verwendung von Stereoverstärkern
über ein Paar von Lautsprechern geeignet sind, die einen Winkel bei der beabsichtigten
Zuhörerposition aufspannen, der wesentlich größer als 20° ist, woduch die Notwendigkeit
vermieden wird, virtuelle Abbildungsfiltermittel bei den Eingängen in den Lautsprecher
vorzusehen, um virtuelle Tonquellen zu erzeugen, wobei die Filtermittel, die beim
Erzeugen der Tonaufzeichnungen eingesetzt werden, die gleichen Charakteristiken
wie die Filtermittel des zweiten Gesichtspunktes der Erfindung aufweisen.
Der dritte Gesichtspunkt der Erfindung ermöglicht die Erzeugung weiterer
Aufzeichnungen aus konventionellen Stereoaufzeichnungen unter Verwendung der vorher
erwähnten Filtermittel, wobei die weiteren Aufzeichnungen eingesetzt werden können,
um Lautsprechereingänge für ein Paar dicht beabstandeter Lautsprecher zu schaffen,
die vorzugsweise in einem einzigen Gehäuse angeordnet sind.
Somit ist es klar, daß die Filtermittel zum Erzeugen der weiteren
Aufzeichnungen eingesetzt werden, und der Benutzer ein im wesentlichen konventionelles
Verstärkungssystem einsetzen kann, ohne daß er sich selbst die Filtermittel beschaffen
muß.
Kurzbeschreibung der Zeichnungen
Beispiele der verschiedenen Gesichtspunkte der vorliegenden Erfindung
werden nun nur beispielsweise mit Bezug auf die beigefügten Zeichnungen beschrieben,
wobei:
1(a) eine Aufsicht zeigt, die das Hauptprinzip
der Erfindung darstellt,
1(b) das Lautsprecherposition-Kompensationsproblem
in groben Zügen; und 1(c) in Blockdiagrammform zeigt,
die 2(a), 2(b)
und 2(c) Vorderansichten zeigen, die darstellen,
wie verschiedene Formen von Lautsprechern in Einzelgehäusen aufgenommen werden können,
3 eine Aufsicht zeigt, die die elektroakkustischen
Übertragungsfunktionen zwischen einem Lautsprecherpaar, den Zuhörerohren und dem
spitzen Winkel &thgr; definiert,
die 4(a), 4(b)
und 4(d) die Größe der Frequenzantworten
der Filter darstellen, die die Kreuzkopplungslöschung des Systems von
3 für vier verschiedene Abstände eines Lautsprecherpaars
ausführen,
5 die Geometrie definiert, die eingesetzt
wird, um die Effektivität der Kreuzkopplungslöschung darzustellen, wenn sich der
Zuhörerkopf zu einer Seite bewegt,
die 6(a) bis 6(m)
Amplitudenspektren reproduzierter Signale bei Zuhörerohren für verschiedene Abstände
eines Lautsprecherpaares darstellen,
7 die Geometrie der Lautsprecher-Mikrofon-Anordnung
darstellt. Man beachte, daß &thgr; von dem Zentrum des Zuhörerkopfs gesehen der
von den Lautsprechern aufgespannte Winkel ist, und daß r0 der Abstand
von diesem Punkt zu dem Zentrum zwischen den Lautsprechern ist,
die 8a und 8b
Definitionen der Übertragungsfunktionen, -signale und -filter darstellen, die notwendig
sind für a) Kreuzkopplungslöschung und b) Abbildung virtueller Quellen,
die 9a, 9b
und 9c das Zeitantwortverhalten der beiden
Quelleneingangssignale (dicke Linie &ngr;1(t), dünne Linie &ngr;2(t))
darstellen, die erforderlich sind, um eine perfekte Kreuzkopplungslöschung bei dem
rechten Ohr des Zuhörers für die drei Lautsprecherspannen &thgr; von 60° (a),
20° (b) und 10° (c) zu erreichen. Man beachte, wie der Überlapp zunimmt,
wenn &thgr; abnimmt,
die 10a, 10b,
10c und 10d
die Tonfelder darstellen, die von vier verschiedenen Quellenkonfigurationen reproduziert
werden, die eingestellt werden, um eine perfekte Kreuzkopplungslöschung bei dem
rechten Ohr des Zuhörers bei (a) &thgr; = 60°, (b) &thgr; = 20°, (c) &thgr;
= 10° und (d) für eine Monopol-Dipol-Kombination zu erreichen,
die 11a und 11b
Tonfelder darstellen, die von einem Kreuzkopplungslöschungssystem reproduziert werden,
das auch den Einfluß des Zuhörerkopfs auf die ankommenden Tonwellen kompensiert.
Die Lautsprecherspanne beträgt 60°. Die Abbildungen von 11a
sind äquivalent zu denen in 10a gezeigten.
11b ist wie 11a, aber
für eine Lautsprecherspanne von 10°. In dem Fall von 11b
sind die dargestellten Zeichnungen äquivalent zu den von 10c
gezeigten,
die 12a, 12b
und 12c das Zeitantwortverhalten der beiden
Quelleneingangssignale (dicke Linie &ngr;1(t), dünne Linie &ngr;2(t))
darstellen, die erforderlich sind, um eine virtuelle Quelle an der Stelle (1 m,
0 m) für die drei Lautsprecherspannen &thgr; von 60° (12a),
20° (12b) und 10° (12c)
zu erzeugen. Man beachte, daß die effektive Dauer von sowohl &ngr;1(t)
als auch &ngr;2(t) abnimmt, wenn &thgr; abnimmt,
die 13a, 13b,
13c und 13d
die Tonfelder darstellen, die bei vier verschiedenen Quellenkonfigurationen reproduziert
werden, die eingestellt sind, um eine virtuelle Quelle an der Position (1 m, 0 m)
zu erzeugen. (a) &thgr; = 60°, (b) &thgr; = 20°, (c) &thgr; = 10°, (d)
Monopol-Dipol-Kombination,
die 14a, 14b,
14c, 14d,
14e und 14f
die Impulsantwortverhalten &ngr;1(n) und &ngr;2(n) darstellen,
die notwendig sind, um ein virtuelles Quellenbild zu generieren,
die 15a, 15b,
15c, 15d,
15e und 15f
die Größe der Frequenzantwortverhalten V1(f) und V2(f) der
Impulsantwortverhalten darstellen, die in 14 gezeigt
sind,
die 16a, 16b,
16c, 16d,
16e und 16f
den Unterschied zwischen den Größen der Frequenzantwortverhalten V1(f)
und V2(f) darstellen, die in 15 gezeigt
sind,
die 17a, 17b,
17c, 17d,
17e und 17f
das verzögerungskompensierte entfaltete Phasenantwortverhalten der Frequenzantwortverhalten
V1(f) und V2(f) darstellen, in 15
gezeigt sind,
die 18a, 18b,
18c, 18d,
18e und 18f
den Unterschied zwischen den in 17 gezeigen Phasenantwortverhalten
darstellen,
die 19a, 19b,
19c, 19d,
19e und 19f
das Hanning-Impuls-Antwortverhalten &ngr;1(n) und –&ngr;2(n)
darstellen, das dem Impulsantwortverhalten entspricht, das in 14
gezeigt ist. Man beachte, daß &ngr;2(n) in der Phase effektiv invertiert
ist, indem –&ngr;2(n) aufgetragen ist,
die 20a, 20b,
20c, 20d,
20e und 20f
die Summe der Hanning-Impuls-Antwortverhalten &ngr;1(n) und &ngr;2(n)
wie in 19 aufgetragen darstellen,
Die 21a, 21b,
21c und 21d
das Magnituden-Antwortverhalten und das entfaltete-Phasen-Antwortverhalten der Diagonalelemente
H1(f) von H(f) und des Außerdiagonalelements H2(f) von H(f)
darstellen, die eingesetzt werden, um ein Kreuzkopplungslöschungssystem zu implementieren,
die 22a und 22b
die Hanning-Impuls-Antwortverhalten h1(n) und –h2(n)
(a), und ihre Summen (b) darstellen, von den beiden Filtern, deren Frequenzantwortverhalten
in 21 gezeigt wird,
die 23a und 23b
die gewünschten Signale d1(n) und d2(n) für die Signale w1(n)
und w2(n) vergleichen, die bei den Ohren eines Zuhörers reproduziert
werden, dessen Kopf um 5 cm direkt nach links versetzt ist, (die gewünschte Wellenform
ist ein Hanning-Impuls), und
die 24a und 24b
die gewünschten Signale d1(n) und d2(n) mit den Signalen w1(n)
und w2(n) für eine Verschiebung um 5 cm direkt nach rechts vergleichen.
Die gewünschte Wellenform ist ein Hanning-Impuls.
Detaillierte Beschreibung der bevorzugten Ausführungen
Mit Bezug auf 1(a) umfaßt ein Tonwiedergabesystem
1, das Abbildungen virtueller Quellen schafft, Lautsprechermittel in der
Form eines Paars von Lautsprechern 2, und Lautsprechertreibermittel
3 zum Treiben der Lautsprecher 2 als Reaktion auf Ausgangssignale
von einer Vielzahl von Tonkanälen 4.
Die Lautsprecher 2 umfassen ein dicht beabstandetes Paar
von Lautsprechern, wobei die strahlenden Ausgänge 5 von ihnen in Richtung
eines Zuhörers 6 gerichtet sind. Die Lautsprecher 2 sind derart
angeordnet, daß sie mit dem Zuhörer 6 einen konvergenten spitzen Winkel
&thgr; von zwischen einschließlich 6° und 20° definieren.
Bei diesem Beispiel ist der eingeschlossene Winkel &thgr; im wesentlichen
oder ungefähr 10°.
Die Lautsprecher 2 sind Seite an Seite in einer aneinander
grenzenden Weise in einem einzigen Gehäuse 7 angeordnet. Die Ausgänge
5 der Lautsprecher 2 konvergieren an einem Punkt 8 zwischen
0,2 m und 4 m (Abstand r0) von dem Lautsprecher. Bei diesem Beispiel
liegt Punkt 8 ungefähr 2,0 m von den Lautsprechern 2 entfernt.
Der Abstand &Dgr;S (Spanne) zwischen den Zentren der beiden Lautsprechern
2 beträgt vorzugsweise 45,0 cm oder weniger. Dabei umfassen, wie in den
2(b) und 2(c)
die Lautsprechermittel verschiedene Lautsprechereinheiten, wobei der bevorzugte
Abstand insbesondere Lautsprechereinheiten betrifft, die niederfrequente Töne abstrahlen.
Die Lautsprechertreibermittel 3 umfassen zwei Paare Digitalfilter
mit Eingängen u1 und u2 und Ausgängen &ngr;1 and
&ngr;2. Zwei verschienene Digitalfiltersysteme werden im folgenden mit
Bezug auf die 7 und 8
beschrieben.
Die dargestellten Lautsprecher 2 sind in einem im wesentlichen
parallelen Feld angeordnet. Jedoch können bei einer alternativen Anordnung die Achsen
der Lautsprecherzentren auf eine konvergente Weise zueinander geneigt sein.
In 1 ist der von den beiden Lautsprechern
2, wie von dem Zuhörer 6 gesehen, aufgespannte Winkel &thgr; in
der Größenordnung von 10° im Gegensatz zu den 60°, die üblicherweise zum
Anhören und zum Mischen von konventionellen Stereoaufzeichnungen empfohlen werden.
Somit ist es möglich, ein einzelnes "Gehäuse" 7 zu machen, das die beiden Lautsprecher
enthält, die fähig sind, überzeugende Raumtonbilder für einen einzelnen Zuhörer
zu erzeugen, mittels von zwei verarbeiteten Signalen, &ngr;1 und &ngr;2,
die in die Lautsprecher 2 in einem Lautsprechergehäuse 7 gespeist
werden, das unmittelbar vor dem Zuhörer angeordnet ist.
Ansätze für die Konstruktion von Digitalfiltern, die gute Abbildungen
virtueller Quellen gewährleisten, wurden in dem Europäischen Patent Nr. 0 434 691,
der Patentspezifikation Nr. WO94/01981 und der Patentanmeldung Nr. PCT/GB95/02005
vorveröffentlicht.
Die der vorliegenden Erfindung zugrundeliegenden Prinzipien sind auch
mit Bezug auf 3 der Spezifikation PCT/GB95/02005 beschrieben.
Diese Prinzipien sind auch in den 1(b) und
9(c) der vorliegenden Anmeldung gezeigt.
Das Lautsprecherpositionskompensationsproblem wird von 1(b)
in groben Zügen und von 1(c) in Blockdiagrammform dargestellt.
Man beachte, daß die Signale u1 und u2 solche bezeichnen,
die bei einer konventionellen stereophonen Aufzeichnung erzeugt werden. Die digitalen
Filter A1 und A2 bezeichnen die Übertragungsfunktionen zwischen
den Eingängen für ideal angeordnete virtuelle Lautsprecher und den Ohren des Zuhörers.
Man beachte auch, daß, weil die Positionen von sowohl der realen Quellen als auch
den virtuellen Quellen als symmetrisch bezüglich des Zuhörers angenommen werden,
nur zwei verschiedene Filter in jeder 2-mal-2 Filtermatrix gilt.
Die Matrix C(Z) elektroakkustischer Übertragungsfunktionen definiert
die Beziehung zwischen dem Vektor von Lautsprechereingangssignalen [&ngr;1(n)&ngr;2(n)]
und dem Vektor von Signalen [w1(n)w2(n)], die bei den Ohren
eines Zuhörers reproduziert werden. Die Matrix inverser Filter H(Z) ist ausgelegt,
um zu gewährleisten, daß die Summe der zeitgemittelten quadratischen Werte der Fehlersignale
e1(n) und e2(n) minimiert ist. Diese Fehlersignale quantifizieren
den Unterschied zwischen den Signalen [w1(n)w2(n)], die bei
den Zuhörerohren reproduziert werden, und den Signalen [d1(n)d2(n)]
von denen gewünscht wird, daß sie reproduziert werden. Bei der vorliegenden Erfindung
werden die gewünschten Signale als solche definiert, die durch ein Paar virtueller
Quellen reproduziert werden würden, die weit weg von den Positionen der tatsächlichen
Lautsprecherquellen liegen, die für die Reproduktion verwendet
werden. Die Matrix von Filtern A(Z) wird verwendet, um diese gewünschten Signale
relativ zu den Eingangssignalen [u1(n)u2(n)] zu definieren,
die solche sind, die normalerweise mit einer konventionellen stereophonen Aufzeichnung
verbunden sind. Die Elemente der Matritzen A(Z) und C(Z) beschreiben die kopfbezogenen
Übertragungsfunktionen (HRTF) des Zuhörers. Diese HRTF's können auf eine Anzahl
von Weisen abgeleitet werden, wie in der PCT/GB95/02005 offenbart. Eine Technik,
die insbesondere bei dem Betrieb der vorliegenden Erfindung als brauchbar befunden
wurde, ist es, Verwendung von einer voraufgezeichneten Datenbank von HRTF's zu machen.
Auch wird, wie in der PCT/GB95/02005 offenbart, die inverse Filtermatrix H(Z) bequemerweise
abgeleitet, indem zuerst die Matrix Hx(Z) von "Kreuzkopplungslöschungs"-Filtern
berechnet wird, die zu einer guten Näherung gewährleisten, daß ein Signaleingang
für den linken Lautsprecher nur bei dem linken Ohr eines Zuhörers reproduziert wird,
und der Signaleingang für den rechten Lautsprecher nur bei dem rechten Ohr eines
Zuhörers reproduziert wird, d. h., daß zu einer guten Näherung C(Z)H(Z) = Z&Dgr;I
gilt, wobei &Dgr; eine Modellierverzögerung und I die Identitätsmatrix ist. Die
inverse Filtermatrix H(Z) wird dann aus H(Z) = Hx(Z)A(Z) berechnet. Man
beachte, daß es auch möglich ist, die vorliegende Erfindung für die Reproduktion
von binaural aufgezeichnetem Material zu verwenden, indem die Kreuzkopplungslöschungsmatrix
Hx(Z) berechnet wird, weil in diesem Fall die beiden Signale [u1(n)u2(n)]
solche sind, die bei den Ohren eines Dummy-Kopfs aufgezeichnet wurden. Diese Signale
können als Eingänge für die Matrix von Kreuzkopplungslöschungsfiltern verwendet
werden, deren Ausgänge dann in die Lautsprecher eingespeist werden, wodurch gewährleistet
wird, daß u1(n) und u2(n) in einer guten Annäherung bei den
Zuhörerohren reproduziert werden. Normalerweise sind die Signale u1(n)
und u2(n) jedoch solche, die mit einer konventionellen stereophonen Aufzeichnung
verbunden sind, und sie werden als Eingänge für die Matrix H(Z) inverser Filter
verwendet, die ausgelegt sind, um die Reproduktion von Signalen bei den Zuhörerohren
zu gewährleisten, die von den voneinander beabstandeten virtuellen Lautsprecherquellen
reproduziert werden würden.
2 zeigt drei Beispiele, wie verschiedene
Einheiten von zwei Lautsprechern in einem einzigen Gehäuse anzuordnen sind. Wenn
jeder Lautsprecher 2 aus nur einer Vollbereicheinheit besteht, sollten
die beiden Einheiten wie in 2(a) nebeneinander angeordnet
werden. Wenn jeder Lautsprecher aus zwei oder mehr Einheiten besteht, können diese
Einheiten auf verschiedene Weisen angeordnet werden, wie durch die 2(b)
und 2(c) dargestellt, wobei Niedrigfrequenzeinheiten
10, Mittelfrequenzeinheiten 11 und Hochfrequenzeinheiten
12 auch eingesetzt werden.
Unter Verwendung von zwei Lautsprechern 2, die symmetrisch
vor dem Zuhörerkopf angeordnet sind, können wir nun betrachten, wie die Leistungsfähigkeit
eines Abbilungssystems für virtuelle Quellen von dem Winkel &thgr; abhängt, der
von den beiden Lautsprechern aufgespannt wird. Die Geometrie des Problems ist in
3 gezeigt. Da das (2/15) Layout der Lautsprecher-Mikrofone
symmetrisch ist, gibt es nur zwei unterschiedliche elektroakkustische Übertragungsfunktionen
C1(Z) und C2(Z). Somit hat die Übertragungsfunktionsmatrix
C(Z) (betreffend den Vektor von Lautsprechereingangssignalen zu dem Vektor von Signalen,
die bei den Zuhörerohren erzeugt werden) die folgende Struktur:
Ebenso gibt es nur zwei verschiedene Elemente H1(Z) und
H2(Z) in der Kreuzkopplungslöschungsmatrix. Somit hat die Kreuzkopplungslöschungsmatrix
Hx(Z) die folgende Struktur:
Die Elemente von Hx(Z) können unter Verwendung der Techniken
berechnet werden, die im Detail in der Spezifikation der PCT/GB95/02005 beschrieben
sind, vorzugsweise unter Verwendung des darin beschriebenen Frequenzdomänansatzes.
Man beachte, daß es üblicherweise notwendig ist, eine Vergleichmäßigung zu verwenden,
um die ungewünschten Effekte von schlecht konditionierten Vorkommen in Hx(Z)
zu vermeiden.
Die Kreuzkopplungslöschungsmatrix Hx(Z) ist am leichtesten
zu berechnen, wenn C(Z) nur relativ wenig Detail enthält. Zum Beispiel ist es viel
schwieriger, eine Matrix von Übertragungsfunktionen zu invertieren, die in einem
hallenden Raum gemessen werden, als eine Matrix von Übertragungsfunktionen, die
in einem schalltoten Raum gemessen werden. Überdies ist es vernünftig, anzunehmen,
daß ein Satz inverser Filter, deren Frequenzantwortverhalten relativ glatt sind,
wahrscheinlicher "natürlicher" oder "weniger farbig" als ein Satz von Filtern klingt,
deren Frequenzantwortverhalten stark oszillieren, selbst wenn beide Inversionen
bei allen Frequenzen perfekt sind. Aus diesem Grund verwenden wir einen Satz von
HRTF's, die von der MIT Media Lab Datenbank genommen sind, die für Forscher über
das Internet verfügbar gemacht wurde. Jede HRTF ist das Ergebnis einer Messung,
die alle 5° in der Horizontalebene in einem schalltoten Raum unter Verwendung
einer Samplefreqzenz von 44,1 kHz gemacht wurde. Wir verwenden die "kompakte" Version
der Datenbank. Jede HRTF wurde für das Lautsprecherantwortverhalten
entzerrt, bevor es abgeschnitten wurde, um nur 128 Koeffizienten zu erhalten (wir
skalierten die HRTF's auch, um ihre Werte so zu machen, daß sie in einem Bereich
von –1 bis +1 liegen).
4 zeigt die Frequenzantwortverhalten
von Hx1(Z) und Hx2(Z) für die verschiedenen Lautsprecherspannen,
nämlich a) 60°, b) 20°, c) 10° und d) 5°. Die verwendeten Filter
enthalten jeweils 1024 Koeffizienten, und sie werden unter Verwendung des beschriebenen
Frequenzdomäninversionsverfahrens berechnet. Keine Normalisierung wird verwendet,
aber trotzdem ist der durch das Frequenzsampeln verursachte unerwünschte Umwicklungseffekt
kein ernsthaftes Problem, und die Inversion ist für alle praktischen Zwecke über
den gesamten Audiofrequenzbereich perfekt. Was nichtsdestoweniger wichtig ist, ist
die Tatsache, daß die Antwortverhalten von Hx1(Z) und Hx2(Z)
bei sehr niedrigen Frequenzen zunehmen, wenn der Winkel &thgr; reduziert wird, der
von den Lautsprechern aufgespannt wird. Das bedeutet, daß, wenn die Lautsprecher
dichter zusammengebracht werden, mehr niedrigfrequenter Ausgang benötigt wird, um
die Kreuzkopplungslöschung zu erreichen. Das bewirkt zwei erhebliche Probleme: eines
ist es, daß die niedrigfrequente Leistung, die von dem System ausgegeben werden
muß, gefährlich für das Wohlergehen von sowohl den Lautsprechern als auch dem zugehörigen
Verstärker sein kann; das andere ist es, daß, selbst wenn die Ausrüstung die Belastung
aushalten kann, der an einigen Stellen entfernt von der beabsichtigten Zubehörposition
reproduzierte Sound eine relativ hohe Amplitude aufweisen wird. Es ist klar, daß
es nicht wünschenswert ist, die Lautsprecher sehr hart arbeiten zu lassen, mit dem
Ergebnis, daß der Ton tatsächlich von der beabsichtigten Zuhörerposition "gestrahlt
"wird. Somit gibt es eine minimale Lautsprecherspanne &thgr;, unter der es nicht
möglich ist, in der Praxis hinreichenden niedrigfrequenten Sound bei der beabsichtigten
Zuhörerposition zu reproduzieren. Es ist dennoch wert, herauszustellen, daß es nur,
wenn die virtuellen Quellen nicht dicht zu den realen Quellen liegen, der Fall ist,
daß die Lautsprecher hart zu arbeiten haben. Wenn die virtuelle Quelle dicht zu
einem Lautsprecher liegt, wird das System automatisch fast den gesamten elektrischen
Eingang zu diesem Lautsprecher lenken.
Man beachte, daß nur die Moduli der Kreuzkopplungslöschungsfilter
durch 4 dargestellt wurden, und daß der Phasenunterschied
zwischen den Frequenzantwortverhalten bei niedrigen Frequenzen näher und näher zu
180° (pi Radian) kommt, wenn der Winkel &thgr; vermindert wird.
Es ist vernünftig, anzunehmen, daß die Leistungsfähigkeit des Abbildungssystems
für virtuelle Quellen hauptsächlich durch die Effektivität der Kreuzkopplungslöschung
bestimmt wird. Wenn es somit möglich ist, einen einzelnen Impuls an dem linken Ohr
eines Zuhörers zu erzeugen, während nichts an seinem rechten Ohr gehört wird, dann
kann jedes Signal an dem linken Ohr reproduziert werden. Das gleiche Argument gilt
für das rechte Ohr wegen der Symmetrie. Wenn der Zuhörerkopf sich bewegt, werden
die an dem linken und rechten Ohr reproduzierten Signale ausgetauscht. Allgemein
gesprochen, bewirkt eine Kopfrotation oder eine Kopfbewegung unmittelbar in Richtung
und weg von den Lautsprechern nicht eine signifikante Reduktion bei der Effektivität
der Kreuzkopplungslöschung. Jedoch ist die Effektivität der Kreuzkopplungslöschung
sehr empfindlich gegenüber Kopfbewegungen zu der Seite. Wenn sich zum Beispiel der
Zuhörerkopf 18 cm nach links bewegt, bewegt sich das "ruhige" rechte Ohr in die
"laute" Zone. Somit sollte man nicht normalerweise eine effiziente Kreuzkopplungslöschung
erwarten, wenn der Zuhörerkopf um mehr als 15 cm zu der Seite versetzt wird.
Wir schätzen jetzt quantitativ die Effektivität der Kreuzkopplungslöschung
ab, wenn sich der Zuhörerkopf um die Distanz dx zur Seite bewegt. Die Bedeutung
des Parameters dx wird in 5 dargestellt. Wenn das gewünschte
Signal als ein Einzelimpuls an dem linken Ohr und Ruhe an dem rechten Ohr angenommen
wird, ist das Amplitudenspektrum entsprechend dem an dem linken Ohr reproduzierten
Signal idealerweise 0 dB, und das Amplitudenspektrum, das dem an dem rechten Ohr
reproduzierten Signal entspricht, idealerweise so klein wie möglich. Somit können
wir die an den beiden Ohren reproduzierten Signale als ein Maß der Effektivität
der Kreuzkopplungslöschung verwenden, wenn der Zuhörerkopf von der beabsichtigten
Zuhörerposition wegbewegt wird.
Um die an den Ohren eines Zuhörers bei einer beliebigen Position reproduzierten
Signale berechnen zu können, ist es notwendig, eine Interpolation zu verwenden.
Wenn die Position des Zuhörers sich ändert, wird der Winkel &thgr; zwischen dem
Zentrum des Kopfes und den Lautsprechern geändert. Das wird durch eine lineare Interpolation
zwischen den beiden nächsten HRTF's in der gemessenen Datenbank kompensiert. Zum
Beispiel wird, wenn der exakte Winkel 91° beträgt, die resultierende HRTF aus
C91(k) = 0,8C90(k) + 0,2C95(k)
gefunden, wobei k die k'te Frequenzlinie in dem durch eine FFT berechneten Spektrum
ist. Es ist sogar noch schwieriger, die Änderung in dem Abstand r0 (1)
zwischen dem Lautsprecher und dem Zentrum des Zuhörerkopfs 6 zu kompensieren.
Das Problem besteht darin, daß die Änderung im Abstand üblicherweise nicht mit einer
Verzögerung (oder einem Voranschreiten) einer Integerzahl von Sampleintervallen
entsprechen wird, und es daher notwendig ist, die Impulsantwortverhalten der winkelkompensierten
HRTF durch eine gebrochene Anzahl von Samples zu verschieben. Es ist keine triviale
Aufgabe, eine gebrochene Verschiebung einer digitalen Sequenz zu implementieren.
In diesem besonderen Fall ist die Technik bis zu einem Abstand von weniger
als 1,0 mm genau. Somit nähert die fraktionale Verzögerungstechnik im Effekt wahre
Ohrposition an den nächsten Punkt auf einem räumlichen 1,0 mm × 1,0 mm Gitter
an.
6 zeigt die Amplitudenspektren der reproduzierten
Signale für die beiden Lautsprecherabstände, die sich bei &thgr;-Werten von 60°
(a, c, e,
g, i, k,
m) und 10° (b,
d, f, h,
j, l, n)
für die sieben verschiedenen Werte von dx –15 cm (a,
b), –10 cm (c,
d), –5 cm (e,
f), 0 cm (g, h),
5 cm (i, j), 10 cm (k,
l) und 15 cm (m,
n) ergeben. Man kann sehen, daß, wenn der Winkel &thgr;
60° beträgt, die Kreuzkopplungslöschung nur bis ungefähr 1 kHz effizient ist,
selbst wenn der Zuhörerkopf sich so wenig wie 5 cm zur Seite bewegt. Wenn dagegen
der Winkel &thgr; 10° beträgt, ist die Kreuzkopplungslöschung bis zu ungefähr
4 kHz wirksam, selbst wenn sich der Zuhörerkopf 10 cm zur Seite bewegt. Somit ist
die Leistungsfähigkeit des Systems bezüglich der Kopfbewegung desto robuster, je
dichter die Lautsprecher zusammen sind. Es sollte jedoch herausgestellt werden,
daß der in diesem Abstand betrachtete Kreuzkopplungslöschungsfall als ein "worst
case" betrachtet werden kann. Wenn zum Beispiel eine virtuelle Quelle der Position
eines Lautsprechers entspricht, ist das virtuelle Bild offensichtlich sehr robust.
Im allgemeinen wird das System immer besser in der Praxis arbeiten, wenn es versucht,
ein virtuelles Bild zu erzeugen, als wenn es versucht, eine perfekte Kreuzkopplungslöschung
zu erreichen.
Es ist besonders wichtig, überzeugende Mittelbilder erzeugen zu können.
In der Filmindustrie war es lange üblich, einen getrennten Mittellautsprecher zusätzlich
zu dem linken vorderen und rechten vorderen Lautsprecher (plus üblicherweise auch
eine Anzahl von Surround-Lautsprechern) zu verwenden. Der prominenteste Teil des
Programmaterials ist oft dieser Position zugeordnet. Das trifft insbesondere für
Dialog und andere Arten menschlicher Tonsignale zu, wie zum Beispiel Stimmen auf
Tonspuren. Der Grund, warum 60° von &thgr; die bevorzugte Lautsprecherspanne
für konventionelle Stereoreproduktionen ist, liegt darin, daß, wenn die Tonstufe
weiter aufgeweitet wird, die Mittelbilder dazu neigen, schlecht definiert zu sein.
Andererseits sind, je dichter die Lautsprecher zusammen sind, die Mittelbilder desto
klarer definiert, und die vorliegende Erfindung hat daher den Vorteil, daß sie exzellente
Mittelbilder erzeugt.
Das Filterdesignverfahren beruht auf der Annahme, daß die Lautsprecher
sich wie Monopole in einem freien Feld verhalten. Es ist klar unrealistisch optimistisch,
eine derartige Leistungsfähigkeit von einem realen Lautsprecher zu erwarten. Nichtsdestoweniger
scheint das Abbilden virtueller Quellen unter Verwendung der "Stereodipol-Anordnung"
der vorliegenden Erfindung in der Praxis gut zu funktionieren, selbst wenn die Lautsprecher
von sehr schlechter Qualität sind. Es ist insbesondere überraschend, daß das System
noch funktioniert, wenn die Lautsprecher nicht fähig sind, irgendeinen erheblichen
niederfrequenten Ausgang zu erzeugen, wie es für viele der kleinen Aktivlautsprecher
der Fall ist, die für Multimediaanwendungen eingesetzt werden. Der einzige wichtigste
Faktor scheint der Unterschied zwischen den Frequenzantwortverhalten der beiden
Lautsprecher zu sein. Das System funktioniert gut, solange die beiden Lautsprecher
ähnliche Charakteristiken aufweisen, das heißt, daß sie "gut abgestimmt" sind. Jedoch
neigen erhebliche Unterschiede zwischen ihrem Antwortverhalten dazu, zu verursachen,
daß die virtuellen Bilder ständig zu einer Seite unsymmetrisch sind, wodurch sich
eine "seitengewichtige" Reproduktion der gut ausgewogenen Tonstufe ergibt. Die Lösung
dafür ist es, sicherzustellen, daß die beiden Lautsprecher, die in das gleiche Gehäuse
kommen, "paarabgestimmt" sind.
Alternativ könnten die Lautsprecher ausgebildet werden, um im wesentlichen
auf die gleiche Weise zu antworten, wobei sie einen Abgleichfilter in dem Eingang
von einem der Lautsprecher aufweisen.
Ein Stereosystem gemäß der vorliegenden Erfindung ist im allgemeinen
sehr angenehm zu hören, obwohl Tests anzeigen, daß einige Anhörer mehr Zeit benötigen,
um sich daran zu gewöhnen. Die Verarbeitung fügt den Originalaufzeichnungen nur
unmerkliche Färbung zu. Der Hauptvorteil der dichten Lautsprecheranordnung ist ihre
Robustheit gegenüber der Kopfbewegung, was die "Blase", die den Zuhörerkopf umgibt,
komfortabel groß macht.
Wenn gewöhnliches Stereomaterial, wie zum Beispiel Popmusik oder Filmtonspuren
über zwei virtuelle Quellen abgespielt wird, die unter Verwendung der vorliegenden
Erfindung erzeugt sind, zeigen Tests, daß die Zuhörer oft die Gesamtqualität der
Reproduktion als noch besser empfinden, als wenn das Originalmaterial über zwei
Lautsprecher abgespielt wird, die einen Winkel &thgr; von 60° aufspannen. Ein
Grund dafür liegt darin, daß die Lautsprecherspanne von 10° exzellente Mittelbilder
schafft, und daß es daher möglich ist, den Winkel &thgr;, der von den virtuellen
Quellen aufgespannt wird, von 60° auf 90° zu vergrößern. Dieses Aufweiten
der Tonstufe wird als sehr angenehm empfunden.
Die Reproduktion binauralen Materials über das System der vorliegenden
Erfindung ist so überzeugend, daß Zuhörer häufig von den Lautsprechern wegschauen,
um zu versuchen, eine reale Quelle zu sehen, die für den empfundenen Ton verantwortlich
ist. Höheninformationen bei Dummy-Kopf-Aufzeichnungen können auch dem Zuhörer vorgeführt
werden; der Ton eines überfliegenden Flugzeugs ist zum Beispiel sehr realistisch.
Eine mögliche Grenze der vorliegenden Erfindung liegt darin, daß sie
nicht immer überzeugende virtuelle Bilder unmittelbar seitlich von oder hinter dem
Zuhörer erzeugen kann. Überzeugende Bilder können zuverlässig nur innerhalb eines
Bogens erzeugt werden, der ungefähr 140° in der Horizontalebene (plus und minus
70° relativ zu geradeaus) und ungefähr 90° in der Vertikalebene (plus 60°
und minus 30° relativ zu der Horizontalebene) aufspannt. Bilder
hinter dem Zuhörer werden oft nach vorne gespiegelt. Wenn man zum Beispiel versucht,
ein virtuelles Bild unmittelbar hinter dem Zuhörer zu erzeugen, wird es stattdessen
als unmittelbar vor dem Zuhörer empfunden. Es gibt wenig, was man dagegen machen
kann, weil die physikalisch von den Lautsprechern abgestrahlte Energie sich immer
dem Zuhörer von vorne nähern wird. Natürlich könnte man, wenn rückwärtige Bilder
erforderlich sind, ein weiteres System gemäß der vorliegenden Erfindung unmittelbar
hinter dem Zuhörerkopf plazieren.
In der Praxis variieren die Leistungsanforderungen stark zwischen
den Anwendungen. Zum Beispiel würde man erwarten, daß der Ton, der ein Computerspiel
begleitet, viel schlechter als der ist, der von einem guten Hi-Fi System wiedergegeben
wird. Andererseits kann sogar ein schlechtes Hi-Fi System wahrscheinlich für ein
Computerspiel akzeptabel sein. Es ist klar, daß ein Tonwiedergabesystem nicht als
"gut" oder "schlecht" klassifiziert werden kann, ohne die Anwendung zu berücksichtigen,
für die es gedacht ist. Aus diesem Grund werden wir drei Beispiele angeben, wie
ein Kreuzkopplungslöschungsnetzwerk zu implementieren ist.
Das denkbar einfachste Kreuzkopplungslöschungsnetzwerk ist das von
Atal und Shroeder im US Patent 3,236,949 vorgeschlagene, der "scheinbare Tonquellenübersetzer".
Obwohl deren Patent eine konventionelle Lautsprecheranordnung betrifft, die 60°
aufspannt, ist ihr Prinzip auf jede beliebige Lautsprecherspanne anwendbar. Man
nimmt an, daß die Lautsprecher sich wie Monopole in einem freien Feld verhalten,
und die Z-Transformation der vier Übergangsfunktionen in C(Z) sind daher durch
gegeben, wobei n1 die Anzahl von Sampleintervallen ist, die es für den
Ton dauert, von einem Lautsprecher zu dem "nächsten" Ohr zu gelangen, und n2
die Anzahl von Sampleintervallen ist, die es für den Ton dauert, von einem Lautsprecher
zum "gegenüberliegenden" Ohr zu gelangen. Sowohl n1 als auch n2
werden als Integer angenommen. Es ist einfach, C(Z) direkt zu invertieren. Da n1
< n2 gilt, ist das exakte Inverse stabil und kann mit einem IIR-Filter
(infinites Impulsantwortverhalten) implementiert werden, der einen einzigen Koeffizienten
enthält. Dementsprechend würde er sehr einfach in Hardware zu implementieren sein.
Die Qualität des von einem System reproduzierten Sounds, der auf diese Weise konstruierte
Filter verwendet, ist sehr "unnatürlich" und "gefärbt", wobei er aber dennoch gut
genug für Anwendungen, wie zum Beispiel Spiele sein kann.
Sehr überzeugende Leistungen können mit einem System erzielt werden,
das vier FIR-Filter einsetzt, die jeder nur eine relativ kleine Anzahl von Koeffizienten
enthält. Bei einer Samplefrequenz von 44,1 kHz sind 32 Koeffizienten genug, um beiden
eine genaue Lokalisierung und einen natürlichen ungefärbten Sound zu verleihen,
wenn man Übergangsfunktionen verwendet, die aus der kompaten MIT-Datenbank von HRTF's
entnommen sind. Da die Dauer solcher Übergangsfunktionen (128 Koeffizienten) erheblich
länger als die inversen Filter selber (32 Koeffizienten) sind, müssen die inversen
Filter durch eine direkte Matrixinversion des in der Zeitdomäne formulierten Problems
berechnet werden, wie es in dem Europäischen Patent Nr. 0 434 691 offenbart ist
(die darin beschriebene Technik wird als ein "deterministisches Inversionsverfahren
kleinster Quadrate" bezeichnet). Jedoch ist der Preis, den man für die Verwendung
kurzer Invertierfilter zu zahlen hat, eine verminderte Effizienz der Kreuzkopplungslöschung
bei niedrigen Frequenzen (f < 500 Hz). Nichtsdestoweniger sind für Anwendungen,
wie zum Beispiel Multimediacomputer, die meisten der Lautsprecher, die zur Zeit
auf dem Markt erhältlich sind, nicht fähig, irgendeinen erheblichen Ausgang bei
solchen Frequenzen überhaupt zu erzeugen, und so sollte ein Satz kurzer Filter für
solche Zwecke geeignet sein.
Um fähig zu sein, die gewünschten Signale bei den Ohren des Zuhörers
bei niedrigen Frequenzen sehr genau zu reproduzieren, ist es notwendig, Invertierfilter
zu verwenden, die viele Koeffizienten enthalten. Idealerweise sollte jeder Filter
zumindest 1024 Koeffizienten enthalten (alternativ könnte dies durch Verwendung
eines kurz IIR-Filters in Kombination mit einem FIR-Filter erreicht werden). Lange
Invertierfilter werden bequemerweise durch Verwendung eines Frequenzdomänverfahrens
berechnet, wie zum Beispiel dem in der PCT/GB95/02005 offenbarten. Gemäß unserem
besten Wissen gibt es zur Zeit kein dititales Signalverarbeitungssystem, das kommerziell
erhältlich ist, das ein derartiges System in Echtzeit implementieren kann. Ein derartiges
System könnte für ein hi-end "Hi-Fi"-Haussystem oder Hauskino verwendet werden,
oder es könnte als ein "Master"-System eingesetzt werden, das Rundfunksendungen
oder -aufzeichnungen encodiert, bevor sie weiter übertragen oder gespeichert werden.
Eine weitere Erläuterung des Problems und der Weise, durch die es
durch die vorliegende Erfindung gelöst wird, ist mit Bezug auf die 7
bis 13 wie folgt. Diese Figuren betreffen
das Problem beim Abbilden virtueller Quellen, wenn es vereinfacht wird, indem angenommen
wird, daß die Lautsprecher Punktmonopolquellen sind, und daß der Kopf des Zuhörers
die auftreffenden Tonwellen nicht modifiziert.
Die Geometrie des Problems ist in 7 gezeigt.
Zwei Lautsprecher (Quellen), die durch den Abstand &Dgr;S getrennt sind, sind auf
der x1-Achse symmetrisch um die x2-Achse angeordnet. Wir stellen
uns vor, daß ein Zuhörer r0 Meter entfernt von den Lautsprechern unmittelbar
vor ihnen positioniert ist. Die Ohren des Zuhörers werden durch zwei Mikrofone dargestellt,
die den Abstand &Dgr;M voneinander getrennt sind, die auch symmetrisch
um die x2-Achse angeordnet sind (man beachte, daß "rechtes Ohr" das linke
Mikrofon und "linkes Ohr" das rechte Mikrofon bezeichnet). Die Lautsprecher spannen
einen Winkel &thgr; auf, wie er von der Position des Zuhörers gesehen wird. Nur
zwei der vier Abstände von den Lautsprechern zu den Mikrofonen sind unterschiedlich;
r1 ist der kürzeste (der "direkte" Weg), r2 ist der weiteste
(der "Kreuzlöschungs"-Weg). Die Eingänge zu dem linken und rechten Lautsprecher
sind mit V1 bzw. V2 bezeichnet, und die Ausgänge von dem linken
und rechten Mikrofon sind mit W1 bzw. W2 bezeichnet. Es wird
sich später als praktisch erweisen, zwei Variablen einzuführen
was eine "Verstärkung" ist, die immer kleiner als 1 ist, und
was eine positive Verzögerung ist, die der Zeit entspricht, die der Ton braucht,
um sich die Weglängendifferenz r2 – r1 fortzubewegen.
Wenn das System bei einer einzelnen Frequenz betrieben wird, können
wir eine komplexe Notation verwenden, um die Eingänge zu den Lautsprechern und die
Ausgänge von den Mikrofonen zu beschreiben. Somit nehmen wir an, daß V1,
V2, W1 und W2 komplexe Skalare sind. Die Lautsprechereingänge
und die Mikrofonausgänge werden durch die zwei Übergangsfunktionen
und
beschrieben.
Unter Verwendung dieser beiden Übergangsfunktionen wird der Ausgang
der Mikrofone als eine Funktion der Eingänge der Lautsprecher praktisch als eine
Matrix-Vektor-Multiplikation ausgedrückt,
w = Cv,
wobei
Das von einem Monopol in einem freien Feld abgestrahlte Tonfeld pmo
wird ausgedrückt durch
wobei &ohgr; die Winkelfrequenz, &rgr;0 die Dichte des Mediums, q die
Quellenstärke, k die Wellenzahl &ohgr;/c0 ist, wobei c0 die
Schallgeschwindigkeit ist, und r der Abstand von der Quelle zu dem Feld. Wenn V
als
definiert ist, dann wird die Übergangsfunktion C angegeben durch
Das Ziel des in 7 gezeigten Systems ist
es, ein Paar gewünschter Signale D1 und D2 bei den Mikrofonen
zu reproduzieren. Demzufolge verlangen wir, daß W1 gleich D1
ist, und daß W2 gleich D2 ist. Das Paar gewünschter Signale
kann mit zwei fundamental verschiedenen Zielen im Hinterkopf spezifiziert werden:
Kreuzkopplungslöschung und Abbildung virtueller Quellen. In beiden Fällen arbeiten
zwei lineare Filter H1 und H2 als ein einziger Eingang D,
und so gilt v = Dh,
wobei
Das wird in den 8a und 8b
dargestellt. Eine perfekte Kreuzkopplungslöschung (8a)
erfordert, daß ein Signal an einem Ohr des Zuhörers perfekt reproduziert wird, während
an dem anderen Ohr nichts gehört wird. Wenn wir so ein gewünschtes Signal D2
bei dem linken Ohr des Zuhörers erzeugen wollen, dann muß D1 Null sein.
Das Abbilden virtueller Quellen (8b) erfordert andererseits,
daß die an den Ohren des Zuhörers reproduzierten Signale identisch sind (bis zu
einer gemeinsamen Verzögerung oder einem gemeinsamen Skalierungsfaktor) zu den Signalen,
die an solchen Positionen durch eine reale Quelle erzeugt werden würden.
Es ist vorteilhaft, D2 als das Produkt D mal C1
und nicht nur als D zu definieren, weil das garantiert, daß die Zeitantwortverhalten,
die den Frequenzantwortverhaltensfunktionen V1 und V2 entsprechen,
zufällig sind (in der Zeitdomäne, was bewirkt, daß das gewünschte Signal verzögert
und skaliert wird, aber nicht seine "Form" beeinflußt). Durch Lösen des linearen
Gleichungssystems
für v, finden wir
Um das Zeitantwortverhalten für v zu finden, schreiben wir den Ausdruck
1/(1 – g2exp(–j2&ohgr;&tgr;)) unter Verwendung der Leistungsreihenentwicklung
um.
Das Ergebnis ist
Nach einer inversen Fourier-Transformation von v können wir nun v
als eine Funktion der Zeit schreiben,
wobei * die Faltung bezeichnet und &dgr; die Dirac-Delta-Funktion ist. Die Summation
stellt eine abfallende Reihe von Deltafunktionen dar. Die erste Deltafunktion tritt
bei der Zeit t = 0 auf, und benachbarte Deltafunktionen sind 2&tgr; entfernt. Demzufolge,
wie es von Atal u. a. erkannt wurde, ist v(t) intrinsisch rekursiv, aber trotzdem
ist es so garantiert, daß beide zufällig und stabil sind, solange D(t) zufällig
und stabil ist. Die Lösung wird ohne weiteres physikalisch in dem Fall interpretiert,
wo D(t) einen Impuls einer sehr großen Dauer ist (genauer viel kürzer als &tgr;).
Zuerst sendet der rechte Lautsprecher einen Impuls aus, der bei dem linken Zuhörerohr
gehört wird. Bei einer Zeit &tgr; nach dem Erreichen des linken Ohrs erreicht dieser
Impuls das rechte Ohr des Zuhörers, wo er nicht gehört werden soll, und demzufolge
muß er durch einen negativen Impuls von dem linken Lautsprecher ausgelöscht werden.
Dieser negative Impuls erreicht das rechte Ohr des Zuhörers zur Zeit 2&tgr; nach
der Ankunft des ersten positiven Impulses, und so wird ein weiterer positiver Impuls
von dem rechten Lautsprecher notwendig, der wiederum noch einen weiteren ungewünschten
Negativimpuls bei dem linken Ohr des Zuhörers erzeugen wird, und so weiter. Das
Nettoergebnis ist es, daß der rechte Lautsprecher eine Reihe positiver Impulse aussenden
wird, wohingegen der linke Lautsprecher eine Reihe negativer Impulse aussenden wird.
In jeder Impulsfolge werden die einzelnen Impulse mit einer "Ring"-Frequenz f0
von 1/2&tgr; ausgesendet. Es ist intuitiv klar, daß die Dauer von D(t) verglichen
mit &tgr; nicht kurz ist, wobei die individuellen Impulse nicht länger perfekt
getrennt werden können, sondern sich etwas "überlappen" müssen. Das wird in den
9a, 9b und
9c dargestellt, die den Zeitverlauf der Quellenausgänge
zeigen, die als notwendig erachtet werden, um das gewünschte Ziel zu erreichen,
wenn der Winkel &thgr;, der den Lautsprecherabstand definiert 60°, 20° bzw.
10° beträgt. Man beachte, daß für &thgr; = 10° die Quellenausgänge nahezu
entgegengesetzt sind.
Die Quelleneingänge
Die 9a, 9b
und 9c zeigen den Eingang zu den beiden Quellen
für die drei verschiedenen Lautsprecherspannen 60° (9a),
20° (9b) und 10° (9c).
Der Abstand zu dem Zuhörer beträgt 0,5 m, und der Mikrofonabstand (Kopfdurchmesser)
beträgt 18 cm. Das gewünschte Signal ist ein Hanning-Impuls (eine Periode von einem
Cosinus), der durch
spezifiziert wird, wobei &ohgr;0 als 2&pgr; mal 3,2 kHz gewählt wird
(das Spektrum für diesen Impuls hat seinen ersten Nulldurchgang bei 6,4 kHz und
so ist das meiste seiner Energie unterhalb von 3 kHz konzentriert). Für die drei
Lautsprecherspannen 60°, 20° und 10° sind die entsprechenden Ringfrequenzen
f0 1,9 kHz, 5.5 kHz bzw. 11 kHz. Wenn der Zuhörer nicht zu dicht an den
Quellen sitzt, wird &tgr; gut genähert, indem man annimmt, daß der direkte Weg und
der Kreuzkopplungsweg parallele Linien sind,
Wenn wir außerdem annehmen, daß die Lautsprecherspanne klein ist,
dann kann sin(&thgr;/2) vereinfacht werden zu &thgr;/2, und so ist f0
gut angenähert durch
Für die drei Lautsprecherspannen 60°, 20° und 10° ergibt
diese Annäherung die drei Werte 1,8 kHz, 5,4 kHz und 10,8 kHz von f0
(Daumenregel: f0 ≈ 100 kHz geteilt durch Lautsprecherspanne in Grad),
die in guter Übereinstimmung mit den exakten Werten sind. Man kann sehen, daß f0
gegen Unendlich geht, wenn &thgr; gegen Null geht, und so ist es im Prinzip möglich,
f0 beliebig groß zu machen. In der Praxis legen physikalische Beschränkungen
unvermeidbar eine obere Grenze von f0 fest. Es kann gezeigt werden, daß
in dem beschränkten Fall, wenn &thgr; gegen Null geht, das durch die beiden Punktquellen
erzeugte Tonfeld äquivalent zu dem von einem Punktmonopol und einem Punktdipol ist,
die beide an dem Ursprung des Koordinatensystems angeordnet sind.
Es ist aus den 9a, 9b
und 9c klar, daß, wenn f0 zunimmt,
der Überlapp zwischen benachbarten Impulsen auch zunimmt. Das macht offensichtlich
v1(t) und v2(t) glatter und es ist intuitiv klar, daß, wenn
f0 sehr groß ist, die Ringfrequenz fast vollständig unterdrückt wird,
und sowohl v1(t) als auch v2(t) einfach abfallende Exponentialkurven
sein werden (abfallend in dem Sinne, daß sie beide für große t auf Null zurückkehren).
Jedoch ist es auch intuitiv klar, daß bei zunehmenden f0 der Niedrigfrequenzanteil
von v auch zunimmt. Um eine perfekte Kreuzkopplungslöschung mit einem Paar dicht
beabstandeter Lautsprecher zu erreichen, ist folglich ein sehr großer niedrigfrequenter
Ausgang notwendig. Das passiert, weil das Kreuzkopplungslöschungsproblem bei niedrigen
Frequenzen schlecht konditioniert ist. Diese unerwünschte Eigenschaft wird durch
die darunterliegende Physik des Problems verursacht und kann nicht ignoriert werden,
wenn es in der Praxis zum implementieren von Kreuzkopplungslöschungssystemen kommt.
Die 10a, 10b,
10c und 10d
zeigen das Tonfeld, das von vier verschiedenen Quellenkonfigurationen reproduziert
wird: Die drei Lautsprecherspannen 60° (10a), 20°
(10b), 10° (10c) und
auch das Tonfeld, das von einer Überlagerung einer Punktmonopolquelle und einer
Punktdipolquelle erzeugt wird (10d). Die in den
10a, 10b,
10c gezeichneten Tonfelder sind solche, die
durch die Quelleneingänge erzeugt werden, die in den 9a,
9b und 9c
abgebildet sind. Jede der vier Kurven von 10a und so
weiter enthält neun "Schnappschüsse" oder Rahmen des Tonfelds. Die Rahmen sind sequentiell
in einer "Lesefolge" von oben links nach unten rechts aufgeführt; oben links ist
die früheste Zeit (t = 0,2/c0), unten rechts ist die späteste Zeit (t
= 1,0/c0). Das Zeitinkrement zwischen jedem Rahmen beträgt 0,1/c0,
was äquivalent zu der Zeit ist, die der Ton braucht, um sich 10 cm fortzubewegen.
Die Normalisierung der gewünschten Signale gewährleistet, daß der rechte Lautsprecher
startet, Ton bei genau t = 0 auszusenden; der linke Lautsprecher startet, Ton eine
kurze Weile (&tgr;) später auszusenden. Jeder Rahmen wird bei 101 × 101 Punkten
über ein Gebiet von 1 m × 1 m (–0,5 m < x1 < 0,5 m, 0 < x2
< 1) berechnet. Die Positionen der Lautsprecher und der Mikrofone werden durch Kreise
angedeutet. Werte größer als 1 sind weiß dargestellt, Werte kleiner als –1
sind schwarz gezeichnet. Werte zwischen –1 und 1 sind entsprechend
schattiert gezeichnet.
10a stellt das Kreuzkopplungslöschungsprinzip
dar, wenn &thgr; 60° beträgt. Es ist leicht, eine Folge von positiven Impulsen
von dem rechten Lautsprecher zu identifizieren, und eine Folge negativer Impulse
von dem linken Lautsprecher. Beide Impulsreihen werden mit der Ringfrequenz 1,9
kHz ausgesendet. Nur der erste Impuls, der von dem rechten Lautsprecher ausgesendet
wird, wird tatsächlich von dem rechten Mikrofon "gesehen"; nachfolgende Impulse
werden sowohl bei dem linken als auch dem rechten Mikrofon ausgelöscht. Jedoch werden
viele "Kopien" des originalen Hanning-Impulses an anderen Stellen in dem Tonfeld
gesehen, sogar sehr dicht an den beiden Mikrofonen, und so ist diese Aufstellung
nicht sehr robust bezüglich der Kopfbewegung.
Wenn die Lautsprecherspanne auf 20° reduziert wird (10b),
wird das reproduzierte Tonfeld einfacher. Der gewünschte Hanning-Impuls wird nun
in Richtung des rechten Mikrofons "gestrahlt", und eine ähnliche "Linie von Kreuzkopplungslöschung"
erstreckt sich durch die Position des linken Mikrofons. Die Ringfrequenz ist nun
als eine Welligkeit hinter der Hauptwellenfront vorhanden.
Wenn die Lautsprecherspanne noch weiter auf 10° reduziert wird
(10c), ist der Effekt der Ringfrequenz fast vollständig
eliminiert, und so ist die einzige Störung, die an den meisten Stellen in dem Tonfeld
zu sehen ist, eine einzige abgeschwächte und verzögerte Kopie des ursprünglichen
Hanning-Impulses. Das deutet an, daß das Reduzieren der Lautsprecherspanne die Robustheit
des Systems bezüglich der Kopfbewegung verbessert. Man beachte jedoch, daß sehr
nahe zu den beiden Monopolquellen der große Niederfrequenzausgang beginnt, als ein
Nahfeldeffekt zu sehen zu sein.
10d zeigt das Tonfeld, das durch eine
Überlagerung einer Punktmonopol und Punktdipolquelle reproduziert wird. Diese Quellenkombination
vermeidet das Ringen vollständig, und somit ist das reproduzierte Feld sehr "rein".
In dem Fall von zwei Monopolen, die 10° aufspannen, enthält es auch eine Nahfeldkomponente,
wie erwartet. Man beachte die Ähnlichkeit zwischen den Darstellungen in
10c und 10d.
Das bedeutet, daß ein noch dichteres Zusammenbewegen der Lautsprecher keinen Unterschied
zu dem reproduzieren Tonfeld machen wird.
Abschließend wird das reproduzierte Tonfeld ähnlich zu dem sein, das
von einer Punktmonopol-Dipol-Kombination erzeugt wird, solange wie die höchste Frequenzkomponente
in dem gewünschten Signal erheblich kleiner als die Ringfrequenz f0 ist.
Die Ringfrequenz kann vergrößert werden, indem die Lautsprecherspanne &thgr; vermindert
wird, aber wenn &thgr; zu klein ist, wird ein sehr großer Ausgang von den Lautsprechern
notwendig, um eine genaue Kreuzkopplungslöschung bei niedrigen Frequenzen zu erreichen.
In der Praxis ist eine Lautsprecherspanne von 10° ein guter Kompromiß.
Man beachte, daß, wenn &thgr; gegen Null reduziert wird, es gezeigt
werden kann, daß die Lösung für das Tonfeld, das notwendig ist, um das gewünschte
Ziel zu erreichen, genau die aufgrund einer Kombination einer Punktmonopol- und
einer Punktdipolquelle ist.
In der Praxis wird der Kopf des Zuhörers das auftreffende Tonfeld
modifizieren, insbesondere bei hohen Frequenzen, aber trotzdem werden die räumlichen
Eigenschaften des reproduzierten Tonfelds bei niedrigen Frequenzen im wesentlichen
die gleichen bleiben, wie oben beschrieben. Das wird in den 11a
und 11b dargestellt, die äquivalent zu den
10a bzw. 10c
sind. Die 10a und 10b
zeigen das Tonfeld, das in der Nähe von einer festen Kugel durch ein Paar Lautsprecher
reproduziert wird, deren Eingänge eingestellt sind, um eine perfekte Kreuzkopplungslöschung
bei dem rechten Ohr "des Zuhörers" zu erreichen. Die Analyse, die eingesetzt wird,
um das gestreute Tonfeld zu berechnen, nimmt an, daß die auftreffenden Wellenfronten
eben sind. Das ist äquivalent dazu, anzunehmen, daß die beiden Lautsprecher sehr
weit weg sind. Der Durchmesser der Kugel beträgt 18 cm, und das reproduzierte Tonfeld
ist an 31 × 31 Punkten über einem 60 cm × 60 cm Quadrat berechnet. Das
gewünschte Singal ist das gleiche wie das, das für das Freifeldbeispiel verwendet
wurde; es ist ein Hanning-Impuls, dessen Hauptenergie unter 3 kHz konzentriert ist.
11a betrifft eine Lautsprecherspanne von 60°, wohingegen
11b eine Lautsprecherspanne von 10° betrifft. Um
diese Ergebnisse zu berechnen, wurde ein Digitalfilter-Konstruktionsverfahren der
unten beschriebenen Art eingesetzt.
Es ist im Prinzip eine einfache Aufgabe, eine virtuelle Quelle zu
erzeugen, sobald es bekannt ist, wie ein Kreuzkopplungslöschungssystem zu berechnen
ist. Das Kreuzkopplungslöschungsproblem für jedes Ohr wird gelöst, und dann werden
die beiden Lösungen zusammenaddiert. In der Praxis ist es viel einfacher für die
Lautsprecher, die Signale aufgrund einer virtuellen Quelle zu erzeugen, als eine
perfekte Kreuzkopplungslöschung an einem Punkt zu erzielen.
Das Problem, virtuelle Quellen abzubilden, ist in 8a
dargestellt. Wir stellen uns vor, daß eine Monopolquelle irgendwo in dem Zuhörerraum
angeordnet ist. Die Übergangsfunktionen von dieser Quelle zu den Zuhörerohren sind
von der selben Art wie C1 und C2, und sie werden mit A1
und A2 bezeichnet. Wie in dem Kreuzkopplungslöschungsfall ist es praktisch,
die gewünschten Signale zu normalisieren, um die Kausalität der Quelleneingänge
zu gewährleisten. Die gewünschten Signale werden daher als D1 = DC1A1/A2
und D2 = DC1 definiert. Man beachte, daß diese Definition
annimmt, daß die virtuelle Quelle in der rechten Halbebene liegt (bei einer Position,
für die x1 > 0 ist). Wie bei dem Kreuzkopplungslöschungsfall können die
Quelleneingänge berechnet werden, indem Cv = d für v gelöst wird, und die Zeitdomänantwortverhalten
können dann bestimmt werden, indem die inverse Fourier-Transformation
gemacht wird. Das Ergebnis ist, daß jeder Quelleneingang nun die Faltung von D mit
der Summe von zwei abfallenden Folgen von Deltafunktionen ist, einer positiven und
einer negativen. Das ist nicht überraschend, weil die Quellen zwei positive Impulse
und nicht nur einen zu reproduzieren haben. Somit erzeugt der "positive Teil" von
&ngr;1(t) kombiniert mit dem "negativen Teil" von v2(t) den
Impuls an dem linken Ohr des Zuhörers, wohingegen der "negative Teil" von v1(t)
kombiniert mit dem "positiven Teil" von v2(t) den Impuls an dem rechten
Ohr des Zuhörers erzeugt. Das wird in den 12a,
12b und 12c
dargestellt. Man beachte wieder, daß, wenn &thgr; = 10°, die beiden Quelleneingänge
nahezu gleich und entgegengesetzt sind.
Die Quelleneingänge
Die 11a usw. zeigen die Quelleneingänge,
die äquivalent zu denen in 9a usw. bezeichneten sind
(drei verschiedene Lautsprecherspannen &thgr;: 60°, 20° und 10°), aber
für ein Abbildungssystem für virtuelle Quellen und nicht ein Kreuzkopplungslöschungssystem.
Die virtuelle Quelle ist bei (1 m, 0 m) angeordnet, was bedeutet, daß sie in einem
Winkel von 45° nach links relativ zu gerade nach vorne, wie es von dem Zuhörer
gesehen ist, liegt. Wenn &thgr; 60° ist (12a),
können sowohl die positiven als auch die negativen Impulsfolgen klar bei v1(t)
und v2(t) gesehen werden. Wenn &thgr; auf 20° vermindert wird (12b),
beginnen sich die positiven und negativen Impulsketten auszulöschen. Das wird noch
klarer, wenn &thgr; 10° ist (12c). In diesem Fall
sehen die beiden Quelleneingänge nahezu wie Rechteckimpulse von relativ kurzer Dauer
aus (diese Dauer ist durch den Unterschied in der Ankunftszeit bei den Mikrofonen
eines von der virtuellen Quelle ausgesendeten Impulses gegeben. Der Vorteil des
Auslöschens der positiven und negativen Teile der Impulsfolgen besteht darin, daß
es stark den niederfrequenten Anteil der Quelleneingänge vermindert, und daß ist
der Grund, warum Abbildungssysteme für virtuelle Quellen in der Praxis viel leichter
zu implementieren sind, als Kreuzkopplungslöschungssysteme.
Das reproduzierte Tonfeld
Die 13a, 13b,
13c und 13d
zeigen weitere vier Sätze von neun "Schnappschüssen" des reproduzierten Tonfelds,
die äquivalent zu denen durch die 10a usw. gezeigten
sind, aber für eine virtuelle Quelle bei (1 m, 0 m) (angedeutet in der unteren rechten
Ecke in jedem Rahmen) und nicht für ein Kreuzkopplungslöschungssystem. Wie in den
10a usw. zeigen die Darstellungen, wie das reproduzierte
Tonfeld einfacher wird, wenn die Lautsprecherspanne reduziert wird. Bei der Grenze
(13d) gibt es kein Ringen und nur zwei Impulse, die
dem gewünschten Signal entsprechen, sind in dem Tonfeld zu sehen.
Die in den 13a usw. gezeigten Ergebnisse
werden wieder durch Verwendung von Hanning-Impulsen erhalten, die einen Frequenzgehalt
hauptsächlich unter 3 kHz aufweisen. Es ist aus diesen Simulationen klar, daß der
Unterschied zwischen der wahren Ankuftszeit des Impulses bei den Ohren korrekt die
Zeitdifferenz simuliert, die von der virtuellen Quelle erzeugt werden würde. Von
dem Lokalisierungsmechanismus binauralen Hörens ist es gut bekannt, daß er stark
von dem Unterschied in der Ankunftszeit von den Impulsen abhängig ist, die bei den
beiden Ohren von einer Quelle in einer bestimmte Richtung erzeugt wurden, wobei
das das dominante Hilfsmittel für die Lokalisierung niedrigfrequenter Quellen ist.
Es ist klar, daß die Verwendung von zwei dicht beabstandeten Lautsprechern ein extrem
effektiver Weg ist, zu gewährleisten, daß der Unterschied zwischen diesen Ankunftszeiten
gut reproduziert wird. Bei hohen Frequenzen ist es jedoch von dem Lokalisierungsmechanismus
bekannt, daß er mehr von dem Unterschied in der Intensität zwischen den beiden Ohren
abhängt (obwohl Hüllenverschiebungen in Hochfrequenzsignalen detektiert werden können).
Es ist somit wichtig, das Abschatten oder die Brechung des menschlichen Kopfes zu
berücksichtigen, wenn man Abbildungssysteme für virtuelle Quellen in der Praxis
implementiert.
Die Freifeld-Übergangsfunktionen, die durch die Gleichung (8) gegeben
sind, sind für eine Analyse der grundlegenden Physik der Tonreproduktion brauchbar,
aber sie sind natürlich nur Näherungen für die exakten Übergangsfunktionen von dem
Lautsprecher zu den Trommelfellen des Zuhörers. Diese Übergangsfunktionen werden
üblicherweise als HRTF's bezeichnet (kopfbezogene Übergangsfunktionen). Es gibt
viele Wege, die man beschreiten kann, um eine realistische HRTF zu modellieren oder
zu messen. Eine feste Kugel ist für diesen Zweck verwendbar, weil sie es ermöglicht,
das Tonfeld in der Nähe des Kopfes numerisch zu berechnen. Jedoch trägt die nicht
dem Einfluß der Ohren des Zuhörers und des Körpers auf die auftreffenden Tonwellen
Rechnung. Stattdessen kann man Messungen verwenden, die an einem Dummy-Kopf oder
einem menschlichen Subjekt gemacht wurden. Diese Messungen können oder können nicht
das Antwortverhalten des Raums und der Lautsprecher enthalten. Ein weiterer wichtiger
zu berücksichtigender Gesichtspunkt, wenn man versucht, eine realistische HRTF zu
erhalten, ist der Abstand von der Quelle zu dem Zuhörer. Oberhalb eines Abstands
von, sagen wir 1 m, wird sich die HRTF für eine bestimmte Richtung nicht wesentlich
ändern, wenn man die Quelle weiter weg von dem Zuhörer bewegt (ohne Berücksichtigung
der Skalierung und der Verzögerung). Somit würde man nur eine einzige HRTF oberhalb
eines bestimmten "Fernfeld"-Schwellwerts benötigen. Wenn jedoch
der Abstand von den Lautsprechern zu dem Zuhörer kurz ist (wie es der Fall ist,
wenn man vor einem Computer sitzt), erscheint es vernünftig, anzunehmen, daß es
besser sein würde, "abstandsabgeglichene" HRTF's als "Fernfeld"-HRTF's zu verwenden.
Es ist wichtig, zu realisieren, daß unabhängig davon, wie die HRTF's
erhalten werden, die Mehrkanalanlage in der Praxis immer sogenannte Nicht-Minimum-Phasenkomponenten
enthalten wird. Es ist gut bekannt, daß Nicht-Minimum-Phasenkomponenten nicht genau
kompensiert werden können. Ein naiver Versuch, das zu machen, führt zu Filtern,
deren Impulsantwortverhalten entweder nicht kausal oder instabil sind. Ein Weg,
dieses Problem anzugehen und zu lösen, war es, einen Satz von Minimumphasenfiltern
zu konstruieren, deren Magnitudenantwortverhalten die gleichen sind, wie solche
von den gewünschten Signalen (siehe Cooper, US Patent Nr. 5,333,200). Jedoch können
diese Minimumphasenfilter nicht das Phasenantwortverhalten der gewünschten Signale
abgleichen, und folglich werden sich die Zeitantwortverhalten der reproduzierten
Signale unausweichlich von den gewünschten Signalen unterscheiden. Das bedeutet,
daß die Form von der gewünschten Wellenform, wie zum Beispiel einem Hanning-Impuls,
durch die Minimumphasenfilter "verzerrt" sein wird.
Anstatt den Minimumpasen-Ansatz zu verwenden, setzt die vorliegende
Erfindung einen Mehrkanalfilter-Designverfahren ein, das die Prinzipien der Näherung
kleinster Quadrate und Vergleichmäßigung kombiniert (PCT/GB95/02005), wobei solche
kausalen und stabilen Digitalfilter berechnet werden, die die Minimierung des quadratischen
Fehlers gewährleisten, der in der Frequenzdomäne oder in der Zeitdomäne zwischen
den gewünschten Ohrsignalen und den reproduzierten Ohrsignalen definiert ist. Dieser
Filterdesign-Ansatz gewährleistet, daß die bei den Ohren des Zuhörers reproduzierten
Signale die Wellenformen der gewünschten Signale gut replizieren. Bei niedrigen
Frequenzen werden die Phasenunterschiede (Ankunftszeit), die für den Lokalisierungsmechanismus
so wichtig sind, in einem relativ großen Bereich richtig reproduziert, der den Kopf
des Zuhörers umgibt. Bei hohen Frequenzen werden die Unterschiede in der Intensität,
die bei den Ohren des Zuhörers reproduziert werden muß, auch richtig reproduziert.
Wie oben erwähnt, ist es, wenn man die Filter konstruieren will, besonders wichtig,
die HRTF des Zuhörers aufzunehmen, weil diese HRTF insbesondere für die Bestimmung
der Intensitätunterschiede zwischen den Ohren bei hohen Frequenzen wichtig ist.
Die Vergleichmäßigung wird verwendet, um das Problem der Schlecht-Konditionierung
zu überwinden. Die Schlecht-Konditionierung wird verwendet, um das Problem zu beschreiben,
das auftritt, wenn sehr große Ausgänge von den Lautsprechern notwendig sind, um
die gewünschten Signale zu reproduzieren (wie es der Fall ist, wenn man versucht,
eine perfekte Kreuzkopplungslöschung bei niedrigen Frequenzen unter Verwendung von
zwei dicht beabstandeten Lautsprechern zu erreichen). Die Vergleichmäßigung funktioniert,
indem man gewährleistet, daß bestimmte vorbestimmte Frequenzen nicht um ein übermäßiges
Maß verstärkt werden. Eine Modellierverzögerungsvorrichtung kann eingesetzt werden,
um es den Filtern zu ermöglichen, Nicht-Minimum-Phasenkomponenten der Multikanalanlage
zu kompensieren (PCT/GB95/02005). Die Modellierverzögerung bewirkt, daß der Ausgang
von den Filtern um eine kleine Menge verzögert wird, typischerweise um ein paar
Millisekunden.
Das Ziel des Filterkonstruktionsverfahrens ist es, eine Matrix realisierbarer
Digitalfilter zu bestimmen, die eingesetzt werden können, um entweder ein Kreuzkopplungslöschungssystem
oder ein Abbildungssystem für virtuelle Quellen zu implementieren. Das Filterkonstruktionsverfahren
kann entweder in der Zeitdomäne, der Frequenzdomäne oder als ein Zeit/Frequenzdomänen-Hybridverfahren
implementiert werden. Bei einer gegebenen passenden Wahl von Modellierverzögerung
und der Vergleichmäßigung können alle Implementierungen gemacht werden, um die gleichen
optimalen Filter wiederzugeben.
Zeitdomänfilterkonstruktion
Zeitdomänfilterkonstruktionsverfahren sind insbesondere nützlich,
wenn die Anzahl von Koeffizienten bei den optimalen Filtern relativ klein ist. Die
optimalen Filter können entweder unter Verwendung eines iterativen Verfahrens oder
durch ein direktes Verfahren gefunden werden. Das iterative Verfahren ist sehr effizient
im Sinne des Speichergebrauchs, und es ist auch geeignet für Echtzeitimplementierung
in der Hardware, aber es konvergiert relativ langsam. Das direkte Verfahren ermöglicht
es einem, die optimalen Filter zu finden, indem ein lineares Gleichungssystem im
Sinne der kleinsten Quadrate gelöst wird. Dieses Gleichungssystem ist von der Form
oder Cv = d, wobei C, v und d sind von der Form
Hier gilt
wobei c1(n) und c2(n) die Impulsantwortverhalten sind, die
jeweils Nc Koeffizienten der elektroakkustischen Übergangsfunktionen
von den Lautsprechern zu den Ohren des Zuhörers enthalten. Die Vektoren v1
und v2 stellen die Eingänge zu den Lautsprechern dar, folglich v1
= [&ngr;1(0) ... &ngr;1(Nv – 1)]T
und v2 = [&ngr;2(0) ... &ngr;2(N&ngr;
– 1)]T, wobei N&ngr; die Anzahl von Koeffizienten in
jedem der beiden Impulsantwortverhalten ist. Ähnlich stellen die Vektoren d1
und d2 die Singale dar, die bei den Ohren des Zuhörers reproduziert werden
müssen, folgich d1 = [d1(0) ... d1(Nc
+ N&ngr; – 2)]T und d2 = [d2(0)
... d2(Nc + N&ngr; – 2)]T. Der
Modellierabfall wird aufgenommen, indem jedes der beiden Impulsantwortverhalten
verzögert wird, die die rechte Seite von d um die selbe Menge von m Samples ausmachen.
Die optimalen Filter v werden dann angegeben durch
v = [CTC + &bgr;I]–1·CTd,
wobei &bgr; ein Vergleichmäßigungsparameter ist.
Da ein langer FIR-Filter notwendig ist, um eine effiziente Kreuzkupplungslöschung
bei niedrigen Frequenzen zu erreichen, ist dieses Verfahren eher zum Konstruieren
von Filtern für das Abbilden virtueller Quellen geeignet. Wenn jedoch ein Einzelpunkt
IIR-Filter aufgenommen wird, um die niedrigen Frequenzen zu verstärken, wird es
praktikabel, die Zeitdomänverfahren auch zu verwenden, um Kreuzkopplungslöschungssysteme
zu konstruieren. Ein IIR-Filter kann auch verwendet werden, um die gewünschten Signale
zu modifizieren, und das kann eingesetzt werden, um zu verhindern, daß die optimalen
Filter bestimmte Frequenzen übermäßig verstärken.
Frequenzdomänfilterdesign
Als eine Alternative zu dem Zeitdomänverfahren gibt es ein Frequenzdomänverfahren,
das als "Schnellentfalten" bezeichnet wird (offenbart in PCT/GB95/02005). Es ist
extrem schnell und sehr einfach zu implementieren, aber funktioniert nur gut, wenn
die Anzahl von Koeffizienten bei den optimalen Filtern groß ist. Das Implementieren
des Verfahrens ist in der Praxis einfach. Die Grundidee ist es, die Frequenzantwortverhalten
von V1 und V2 zu berechnen, indem die Gleichung CV = D bei
einer großen Anzahl von diskreten Frequenzen gelöst wird. Hier ist C eine Kompositmatrix,
die das Frequenzantwortverhalten der elektroakkustischen Übergangsfunktionen enthält,
und V und D sind Kompositvektoren der Formel V = [V1 V2]T
und D = [D1 D2]T, die die Frequenzantwortverhalten
der Lautsprechereingänge beziehungsweise der gewünschten Signale enthalten. FFT'en
werden eingesetzt, um in und aus der Frequenzdomäne zu kommen, und eine "zyklische
Verschiebung" der inversen FFT'en von V1 und V2 wird verwendet,
um eine Modellierverzögerung zu implementieren. Wenn eine FFT eingesetzt wird, um
die Frequenzantwortverhalten von V1 und V2 bei Nv
Punkten zu sampeln, sind ihre Werte bei solchen Frequenzen gegeben durch
V(k) = [CH(k)C(k) + &bgr;I]–1CH(k)D(k),
wobei &bgr; ein Vergleichmäßigungsparameter ist, H den hermitischen Operator bezeichnet,
der sein Argument transponiert und konjugiert, und k der k'ten-Frequenzlinie entspricht;
das ist die Frequenz, die der komplexen Zahl exp(j2&pgr;kINv) entspricht.
Um die Impulsantwortverhalten der optimalen Filter &ngr;1(n)
und &ngr;2(n) für einen bestimmten Wert von &bgr; zu
berechnen, sind die folgenden Schritte notwendig.
1. Berechne C(k) und D(k), indem Nv-Punkt-FFT'en der Impulsantwortverhalten
c1(n), c2(n), d1(n) und d2(n) gemacht
werden.
2. Berechne für jeden der Nv-Werte von k V(k) aus der gerade oben
gezeigten Gleichung.
3. Berechne v(n), indem die Nv-Punkt-Invers-FFT'en der Elemente von
V(k) gemacht werden.
4. Implementiere die Modellierverschiebung durch eine zyklische Verschiebung
von m von jedem Element von v(n). Zum Beispiel, wenn die inverse FFT von V1(k)
{3, 2, 1, 0, 0, 0, 0, 1} ist, dann ist v1(n) nach einer zyklischen Verschiebung
von drei nach rechts {0, 0, 1, 3, 2, 1, 0, 0}.
Der exakte Wert von m ist nicht entscheidend; ein Wert von Nv/2
funktioniert wahrscheinlich bei allen außer ein paar Fällen gut. Es ist notwendig,
den Verleichmäßigungsparameter &bgr; auf einen geeigneten Wert einzustellen, aber
der genaue Wert von &bgr; ist überlicherweise nicht entscheidend und kann durch
ein paar "try and error"-Versuche bestimmt werden.
Eine verwandte Filterkonstruktionstechnik verwendet das Einzelwertdekompositionsverfahren
(SVD). Von SVD ist gut bekannt, daß es bei der Lösung von schlecht konditionierten
Inversionsproblemen brauchbar ist, und es kann bei jeder Frequenz widerum angewendet
werden.
Da der Schnellentfaltungs-Algorythmus die Vergleichmäßigung bei jeder
Frequenz anwendet, ist es einfach, die Vergleichmäßigungsparameter als eine Funktion
der Frequenz zu spezifizieren.
Hybrid-Zeit/Frequenz-Domänfilterkonstruktion
Da der schnelle Entfaltungsalgorythmus es praktikabel macht, die Frequenzantwortverhalten
der optimalen Filter bei einer zufälligen großen Anzahl diskreter Frequenzen zu
berechnen, ist es auch möglich, das Frequenzantwortverhalten der optimalen Filter
als eine kontinuierliche Funktion der Frequenz zu spezifizieren. Ein Zeitdomänverfahren
könnte dann eingesetzt werden, um die Frequenzantwortverhalten anzunähern. Das hat
den Vorteil, daß ein frequenzabhängiges Leck in eine Matrix kurzer optimaler Filter
aufgenommen werden könnte.
Charakteristiken der Filter
Um ein überzeugendes virtuelles Bild zu erzeugen, wenn die Lautsprecher
dicht zusammen sind, müssen die Lautsprechereingänge sehr sorgfältig abgestimmt
werden. Wie in 12 gezeigt, sind die beiden Eingänge
fast gleich und entgegengesetzt; es ist hauptsächlich die sehr kleine Zeitdifferenz
zwischen ihnen, die garantiert, daß die Ankunftszeiten des Tons bei den Ohren des
Zuhörers korrekt sind. Im folgenden wird demonstriert, daß es für einen Bereich
von virtuellen Quellenbilderpositionen weiterhin der Fall ist, selbst wenn der Zuhörerkopf
unter Verwendung realistischer HRTF's modelliert wird.
Die 14 bis 20
vergleichen die beiden Eingänge &ngr;1 und &ngr;2 mit den
Lautsprechern für sechs verschiedene Kombinationen von Lautsprecherspannen &thgr;
und Positionen virtueller Quellen. Solche Kombinationen sind wie folgt. Für eine
Lautsprecherspanne von 10°, a) ein Bild bei 15°, b) bei 30°, c) bei
45° und d) bei 60°. Für das Bild bei 45° e) eine Lautsprecherspanne
von 20° und f) eine Spanne von 60°. Diese Information wird auch auf den
individuellen Darstellungen angegeben. Die Bildposition wird gegen den Uhrzeigersinn
relativ zu gerade nach vorne gemessen, was bedeutet, daß alle Bilder vorne links
von dem Zuhörer sind, und daß sie alle außerhalb des Winkels liegen, der von den
Lautsprechern aufgespannt wird. Das Bild von 15° ist das dichteste an der Vorderseite,
das Bild bei 60° ist das am weitesten nach links liegende. Alle in den
14 bis 20 gezeigten
Ergebnisse werden unter Verwendung kopfbezogener Übergangsfunktionen berechnet,
die aus der an einem KEMAR-Dummy-Kopf von dem Medialab beim MIT gemessenen Datenbank
entnommen wurden. Alle Zeitdomänsequenzen sind für eine Samplefrequenz von 44,1
kHz aufgezeichnet, und alle Frequenzantwortverhalten sind unter Verwendung einer
linearen X-Achse aufgezeichnet, die den Frequenzbereich von 0 Hz bis 10 kHz abdeckt.
14 zeigt die Impulsantwortverhalten von v1(n)
und v2(n). Jedes Impulsantwortverhalten enthält 128 Koeffizienten, und
sie werden unter Verwendung eines Echtzeitdomänverfahrens berechnet. Da die Bandbreite
sehr hoch ist, machen es die hohen Frequenzen schwierig, die Struktur der Antwortverhalten
zu sehen, aber trotzdem ist es noch möglich, anzunehmen, daß v1(n) hauptsächlich
positiv ist, wohingegen v2(n) hauptsächlich negativ ist.
15 zeigt die Magnitude auf einer linearen
Skala der Frequenzantwortverhalten V1(f) und V2(f) der Impulsantwortverhalten,
die in 14 gezeigt sind. Man kann sehen, daß die Magnitudenantwortverhalten
für die 10° Lautsprecherspanne relativ ähnlich sind, und auch für die 20°
Lautsprecherspanne. Ein relativ großer Ausgang ist von beiden Lautsprechern bei
niedrigen Frequenzen erforderlich, aber die Antwortverhalten nehmen mit der Frequenzzunahme
bis zu einer Frequenz von ungefähr 2 kHz glatt ab. Zwischen 2 kHz und 4 kHz sind
die Antwortverhalten relativ glatt und relativ flach. Für die 60° Lautsprecherspanne
dominiert Lautsprecher Nr. 1 über den gesamten Frequenzbereich.
16 zeigt das Verhältnis auf einer linearen
Skala zwischen den Magnituden der Frequenzantwortverhalten, die in 15
gezeigt sind. Man kann sehen, daß für die 10° Lautsprecherspanne die beiden
Magnituden um weniger als einen Faktor 2 bei fast allen Frequenzen unter 10 kHz
differieren. Das Verhältnis zwischen den beiden Antwortverhalten ist insbesondere
bei Frequenzen unter 2 kHz glatt, obwohl die beiden Lautsprechereingänge bei niedrigen
Frequenzen moderat verstärkt sind.
17 zeigt die entfaltete Phasenantwort
der Frequenzantwortverhalten, die in 15 gezeigt sind.
Der Phasenbeitrag entspricht einer gemeinsamen Verzögerung, die von jedem der sechs
Paare entfernt wurde (die sechs Verzögerungen sind bei Sampleintervallen a) 31,
b) 29, c) 28, d) 27, e) 29 und f) 33). Der Zweck davon ist es, die sich ergebenden
Antworten so flach wie möglich zu machen, wobei andernfalls jede Phasenantwort eine
große negative Neigung haben würde, die es unmöglich macht, irgendein Detail in
den Darstellungen zu sehen. Man kann sehen, daß die beiden Phasenantworten für die
10° Lautsprecherspanne fast flach sind, wohingegen die Phasenantworten, die
den Lautsprecherspannen von 20° und 60° entsprechen (man beachte den Bereich
der Y-Achse bei Darstellung f) deutlich unterschiedliche Neigungen aufweisen.
18 zeigt den Unterschied zwischen den
in 17 gezeigten Phasenantworten. Man kann sehen, daß
für die 10° Lautsprecherspanne der Unterschied innerhalb –pi und 0 liegt.
Das bedeutet, daß die beiden Lautsprechereingänge bei keiner Frequenz unter 10 kHz
bei einer Lautsprecherspanne &thgr; von 10° in Phase sind. Bei Frequenzen unter
8 kHz ist die Phasendifferenz zwischen den beiden Lautsprechereingängen wesentlich
und ihr absoluter Wert ist immer größer als pi/4 (äquivalent zu 45°). Bei Frequenzen
unter 100 Hz sind die beiden Lautsprechereingänge sehr nahe, um exakt außer Phase
zu sein. Bei Frequenzen unter 2 kHz ist die Phasendifferenz zwischen –pi Radian
und –pi + 1 Radian (äquivalent zu –180° und –120°), und
bei Frequenzen unter 4 kHz ist die Phasendifferenz zwischen –pi und –pi
+ pi/2 (äquivalent zu –180° und –90°). Das ist nicht der Fall
für die Lautsprecherspannen von 20° und 60°. Das bestätigt, daß die Eingänge
zu dem Stereodipol fast aber nicht völlig über einen erheblichen Frequenzbereich
außer Phase sein müssen, um virtuelle Quellenbilder außerhalb des von den Lautsprechern
aufgespannten Winkels zu erzeugen. Wie oben erwähnt, wird, wenn die Frequenzantwortverhalten
der beiden Lautsprecher im wesentlichen die gleichen sind, dann die Phasendifferenz
zwischen den Vibrationen der Lautsprecher im wesentlichen die gleichen sein, wie
die Phasendifferenz zwischen den Eingängen an den Lautsprechern.
Man beachte auch, daß die beiden Lautsprecher im wesentlichen in Phase
miteinander vibrieren, wenn das gleiche Eingangssignal an jeden Lautsprecher angelegt
wird.
Die Freifeldanalyse deutet darauf hin, daß die niedrigste Frequenz,
bei der die beiden Lautsprechereingänge in Phase sind, die "Ring"-Frequenz ist.
Wie oben für die drei Lautsprecherspannen 60°, 20° und 10° gezeigt,
betragen die Ringfrequenzen 1,8 kHz, 5,4 kHz bzw. 10,8 kHz, und das ist in guter
Übereinstimmung mit den Frequenzen, bei denen der erste Nulldurchgang in
18 passiert. Man beachte, daß die beiden Lautsprechereingänge
immer bei der Frequenz 0 Hz exakt außer Phase sind. Man beachte auch, daß eine exakte
Übereinstimmung der Phasenantworten weiterhin bei hohen Frequenzen wichtig ist,
obwohl der menschliche Lokalisierungsmechanismus nicht für Zeitunterschiede bei
hohen Frequenzen empfindlich ist. Das ist der Fall, weil es die Interferenz des
von jedem der beiden Lautsprecher emittierten Tons ist, der garantiert, daß die
Amplituden, die bei den Ohren des Zuhörers reproduziert werden, korrekt sind. Für
einige Anwendungen kann es wünschenswert sein, die beiden Lautsprechereingänge innerhalb
eines begrenzten Frequenzbereichs in Phase zu zwingen. Dieses könnte zum Beispiel
implementiert werden, um die moderate Verstärkung bei niedrigen Frequenzen zu vermeiden
(eine ähnliche Technik wurde eingesetzt, um sehr niedrige Frequenzen in Phase zu
zwingen, wenn man Master für Vinylaufzeichnungen schneidet), oder, um eine Färbung
des reproduzierten Tons bei sehr hohen Frequenzen zu verhindern, wobei der "süße
Punkt" sowieso gebunden ist, sehr klein zu sein. Wenn die Phasenantwort nicht richtig
in einem bestimmten Frequenzbereich abgestimmt ist, wird die Illusion des virtuellen
Quellenbilds für Signale zusammenbrechen, deren Hauptenergie in diesem Frequenzbereich
konzentriert ist, wie zum Beispiel ein Tonsignal des dritten Oktavenbands. Jedoch
kann für Signale des Übergangscharakters die Illusion weiterhin funktionieren, solange
die Phasenantwort über einen wesentlichen Frequenzbereich richtig abgestimmt ist.
Es ist klar, daß der Unterschied in den Phasenantworten, der hier
erwähnt wird, zu ähnlichen Unterschieden in den Vibrationen der Lautsprecher führen
wird. Somit werden zum Beispiel die Lautsprechervibrationen nahezu 180° außer
Phase bei niedrigen Frequenzen sein (zum Beispiel weniger als 2 kHz, wenn eine Lautsprecherspanne
von ungefähr 10° verwendet wird).
19 zeigt v1(n) und –v2(n)
in dem Fall, wenn die gewünschte Wellenform ein Hanning-Impuls ist, dessen Bandbreite
ungefähr 3 kHz beträgt (der gleiche wie der, der für die Freifeldanalyse verwendet
wurde, siehe 12 und 13).
v2(n) wird invertiert, um zu zeigen, wie ähnlich es zu v1(n)
ist. Es ist der kleine Unterschied zwischen den beiden Impulsen, der gewährleistet,
daß die Ankunftszeiten des Tons bei dem Ohr des Zuhörers richtig sind. Man beachte,
wie gut die in 19 gezeigten Ergebnisse mit den Ergebnissen
übereinstimmen, die in 12 gezeigt sind (19c
entspricht 12c, 19e12b und 19f12a).
20 zeigt den Unterschied zwischen den
Impulsantwortverhalten, die in 19 dargestellt sind.
Da &ngr;2(n) in 19 invertiert ist, ist dieser
Unterschied die Summe von &ngr;1(n) und &ngr;2(n). Man kann
sehen, daß es für die 10° Lautsprecherspanne die kleine Zeitdifferenz
zwischen dem Anfang der beiden Impulse ist, der am meisten zu dem Summensignal beiträgt.
Um ein Kreuzkopplungslöschungssystem zu implementieren, das zwei dicht
beabstandete Lautsprecher verwendet, ist es wichtig, daß die eingesetzten Filter
gut abgeglichen sind, sowohl in der Phase als auch in der Amplitude. Da der direkte
Weg mehr und mehr ähnlich zu dem Kreuzkopplungsweg wird, wenn die Lautsprecher dichter
und dichter zusammenbewegt werden, gibt es mehr Kreuzkopplung, die auszulöschen
ist, wenn die Lautsprecher dichter zusammen sind, als wenn sie relativ weit entfernt
sind.
Die Wichtigkeit, die Kreuzkopplungslöschungsfilter sehr genau zu spezifizieren,
wird nun durch Betrachten der Eigenschaften eines Satzes von Filtern demonstriert,
die unter Verwendung eines Frequenzdomänverfahrens berechnet wurden. Jeder Filter
enthält 1024 Koeffizienten, und die kopfbezogenen Übergangsfunktionen werden aus
der MIT-Datenbank entnommen. Das Diagonalelement von H ist mit h1 bezeichnet,
und das Außerdiagonalelement ist mit h2 bezeichnet.
21 zeigt die Magnituden- und Phasenantwort
der beiden Filter H1(f) und H2(f). 21a
zeigt ihre Magnitudenantworten, und 21b zeigt
den Unterschied zwischen den beiden. 21c zeigt ihre
entfalteten Phasenantworten (nach dem Entfernen einer gemeinsamen Verzögerung, die
224 Samples entspricht), und 21d zeigt den Unterschied
zwischen den beiden. Man kann sehen, daß der dynamische Bereich von H1(f)
und H2(f) ungefähr 35 dB beträgt, aber trotzdem ist der Unterschied zwischen
den beiden relativ klein (innerhalb 5 dB bei Frequenzen unter 8 kHz). Wie beim Abbilden
virtueller Quellen unter Verwendung der 10° Lautsprecherspanne sind die beiden
Filter nicht bei jeder Frequenz unter 10 kHz in Phase, und für Frequenzen unter
8 kHz ist der absolute Wert der Phasendifferenz immer größer als pi/4 Radian (äquivalent
zu 45°).
22 zeigt das Hanning-Impuls-Antwortverhalten
der beiden Filter (a) und ihre Summe (b). Es ist klar, daß die beiden Impulsantwortverhalten
extrem nahe daran sind, exakt gleich und entgegengesetzt zu sein. Wenn somit H1(f)
und H2(f) nicht exakt gemäß ihrer Spezifikation implementiert werden,
ist es wahrscheinlich, daß die Leistungsfähigkeit des Systems in der Praxis erheblich
leidet.
Wie es wichtig ist, daß die beiden Eingänge zu dem Stereodipol genau
abgeglichen sind, ist es bemerkenswert, wie robust den Stereodipol bezüglich der
Kopfbewegung ist. Das wird in den 23 und
24 dargestellt. Die an dem linken Ohr (w1(n),
durchgezogene Linie, linke Spalte) und dem rechten Ohr (w2(n), durchgezogene
Linie, rechte Spalte) reproduzierten Signale werden mit den gewünschten Signalen
d1(n) und d2(n) (gestrichelte Linien) verglichen, wenn der
Zuhörerkopf 5 cm nach links verschoben ist (23) und
5 cm nach rechts (24). Die gewünschte Wellenform ist
ein Hanning-Impuls, dessen Hauptenergie unter 3 kHz konzentriert ist, und das Bild
der virtuellen Quelle ist bei 45° relativ zu geradeaus. Die kopfbezogenen Übergangsfunktionen
werden aus der MIT-Datenbank entnommen, und die Lautsprechereingänge sind daher
identisch zu den in 19c dargestellten (man beachte,
daß v2(n) in dieser Figur invertiert ist).
23 zeigt die bei den Ohren des Zuhörers
reproduzierten Signale, wenn der Kopf um 5 cm unmittelbar nach links verschoben
ist (in Richtung der virtuellen Quelle, siehe 5). Man
kann sehen, daß die Leistungsfähigkeit der 10° Lautsprecherspanne nicht merklich
beeinflußt wird, wohingegen die bei den Ohren des Zuhörers reproduzierten Signale
von einer Lautsprecheranordnung, die 60° aufspannt, nicht ganz die gleichen
wie die gewünschten Signale sind.
24 zeigt die bei den Ohren des Zuhörers
reproduzierten Signale, wenn der Kopf um 5 cm unmittelbar nach rechts verschoben
ist (weg von der virtuellen Quelle). Das bewirkt eine erheblich Verschlechterung
der Leistungsfähigkeit einer Lautsprecheranordnung, die 60° aufspannt, obwohl
die virtuelle Quelle ziemlich dicht an dem linken Lautsprecher ist. Das von der
10° Lautsprecherspanne erzeugte Bild wird jedoch nicht merklich von der Verschiebung
des Kopfes beeinflußt.
Der Stereodipol kann auch verwendet werden, um Fünfkanalaufzeichnungen
zu übertragen. Somit können geeignet konstruierte Filter verwendet werden, um virtuelle
Lautsprecherpositionen sowohl vor als auch hinter dem Zuhörer anzuordnen. Derartige
virtuelle Lautsprecher würden äquivalent zu solchen sein, die normalerweise verwendet
werden, um die fünf Kanäle der Aufzeichnung auszusenden.
Wenn es wichtig ist, überzeugende virtuelle Bilder hinter dem Zuhörer
zu erzeugen, kann ein zweiter Stereodipol unmittelbar hinter dem Zuhörer angeordnet
werden. Ein zweiter hinterer Dipol könnte zum Beispiel verwendet werden, um zwei
hintere Surround-Lautsprecher zu implementieren. Es ist auch denkbar, daß zwei dicht
beabstandete Lautsprecher, wobei einer auf dem anderen angeordnet ist, die empfundene
Qualität virtueller Bilder außerhalb der horizontalen Ebene stark verbessern könnten.
Eine Kombination von mehreren Stereodipolen könnte auch verwendet werden, um einen
vollständigen 3D-Surround-Ton zu erzielen.
Wenn verschiedene Stereodipole verwendet werden, um für verschiedene
Zuhörer zu sorgen, kann die Kreuzkopplung zwischen den Stereodipolen für das Verwenden
digitaler Filterkonstruktionstechniken der oben beschriebenen Art kompensiert werden.
Derartige Systeme können eingesetzt werden, zum Beispiel in Unterhaltungssystem
im Fahrzeug und von Telekonferenzsystemen.
Eine Tonaufzeichnung zum anschließenden Abspielen über ein dicht beabstandetes
Paar von Lautsprechern kann hergestellt werden, indem die Ausgangssignale von den
Filtern eines Systems gemäß der vorliegenden Erfindung aufgezeichnet werden. Mit
Bezug auf 1(a) würden zum Beispiel Ausgangssignale
v1und v2 aufgezeichnet werden, und die
Aufzeichnungen anschließend auf einem dicht beabstandeten Paar von Lautsprechern
abgespielt werden, das zum Beispiel in einem persönlichen Abspieler eingebaut ist.
Wie hier verwendet, wird der Ausdruck "Stereodipol" verwendet, um
die vorliegende Erfindung zu beschreiben, "Monopol" wird verwendet, um eine idealisierte
akkustische Quelle einer fluktuierenden Volumengeschwindigkeit in einem Punkt im
Raum zu beschreiben, und "Dipol" wird verwendet, um eine idealisierte akkustische
Quelle fluktuierender Kraft zu beschreiben, die an dem Medium an einem Punkt im
Raum anliegt.
Die Verwendung digitaler Filter durch die vorliegende Erfindung bevorzugt
man, weil sie eine viel genauere Wiedergabe von Tonsignalen ergibt, obwohl es für
den Fachmann auf dem Gebiet möglich sein sollte, analoge Filter mit ungefähr den
Charakteristiken der digitalen Filter zu implementieren, die hier offenbart sind.
Obwohl es hier nicht offenbart ist, wird die Verwendung analoger Filter
anstelle digitaler Filter als möglich erachtet, aber von einem derartigen Ersatz
erwartet man, daß er zu einer schlechteren Wiedergabe führt.
Mehr als zwei Lautsprecher können verwendet werden, wie es ein einziger
Tonkanaleingang sein kann (wie in 8(a) und
8(b)).
Obwohl es hier nicht offenbart ist, ist es auch möglich, Transducer-Vorrichtungen
als Ersatz für herkömmliche sich bewegende Spulenlautsprecher zu verwenden. Zum
Beispiel könnten piezoelektrische oder piezokeramische Aktoren bei Ausführungen
der Erfindung verwendet werden, insbesondere wenn kleine Transducer wegen der Kompaktheit
erforderlich sind.
Wo es wünschenswert und wo es möglich ist, können irgendwelche der
Merkmale oder Anordnungen, die hier offenbart sind, zu anderen Merkmalen oder Anordnungen
zugefügt oder dagegen ersetzt werden.
Anspruch[de]
Tonwiedergabesystem (1) mit Lautsprechermitteln (2)
und Lautsprecher-Treibermitteln (3) zum Treiben der Lautsprechermittel
in Reaktion auf Signale von zumindest einem Tonkanal, wobei die Lautsprechermittel
ein dicht beabstandetes Paar von Lautsprechern umfaßt, wobei die Lautsprecher-Treibermittel
Filtermittel (H1(z), H2(z)) umfassen, wobei die Filtermittel
zumindest ein Paar von Filtern umfassen, wobei der Ausgang von einem Filter (H1(z))
des Paars von Filtern auf einen Lautsprecher (2) des Paars von Lautsprechern
angewendet wird, wobei der Ausgang des anderen Filters (H2(z)) des Paars
von Filtern auf den anderen Lautsprecher des Paars von Lautsprechern angewendet
wird, wobei die Charakteristiken der Filtermittel derart gewählt werden, daß sie
virtuelle Bilder von Tonquellen erzeugen, die mit dem Tonkanal/den Tonkanälen (4)
an virtuellen Quellenpositionen im Zusammenhang stehen, die in einer bestimmten
Zuhörerposition (8) einen Winkel aufspannen, der wesentlich größer als
der Winkel (&thgr;) ist, der von den Lautsprechern aufgespannt wird, dadurch
gekennzeichnet, daß die Lautsprecher mit der Zuhörerposition (8) einen
spitzen Winkel (&thgr;) zwischen einschließlich 6° und 20° definieren, und
daß die Ausgänge (V1, V2) des Paars von Filtern zu einer Phasendifferenz
zwischen den Vibrationen der beiden Lautsprecher (2) führen, wobei sich
die Phasendifferenz mit der Frequenz von niedrigen Frequenzen, wo die Vibrationen
im wesentlichen außer Phase sind, zu hohen Frequenzen verändert, wo die Vibrationen
in Phase sind, wobei die niedrigste Frequenz, bei der die Vibrationen in Phase sind,
näherungsweise durch eine Abklingfrequenz f0 festgelegt wird, die definiert
ist durch
f0 = 1/2&tgr;
wobei
wobei r2 und r1 die Weglängen von einem Lautsprecherzentrum
zu den jeweiligen Ohrpositionen eines Zuhörers in der Zuhörerposition sind, und
c0 die Schallgeschwindigkeit ist, wobei die Abklingfrequenz f0
zumindest 5,4 kHz beträgt.
Tonwiedergabesystem nach Anspruch 1, bei dem der spitze Winkel (&thgr;)
zwischen einschließlich 8° und 12° beträgt.
Tonwiedergabesystem nach Anspruch 2, bei dem der spitze Winkel (&thgr;)
ungefähr 10° beträgt.
Tonwiedergabesystem nach Anspruch 3, bei dem die Filtermittel derart
angeordnet sind, daß die Reproduktion gewünschter, mit einer virtuellen Quelle im
Zusammenhang stehender Signale in dem Bereich der Zuhörerohren bis zu ungefähr 4
kHz effizient ist, selbst wenn sich der Zuhörerkopf (6) von der vorbestimmten
Zuhörerposition (8) 10 cm zur Seite bewegt.
Tonwiedergabesystem nach Anspruch 1, bei dem der Außer-Phase-Frequenzbereich
den Bereich von 100 Hz bis 4 kHz umfaßt.
Tonwiedergabesystem nach einem der vorhergehenden Ansprüche, bei dem
die beiden Lautsprecher im wesentlichen miteinander in Phase vibrieren, wenn das
gleiche Eingangssignal (V1, V2) an jeden Lautsprecher angelegt
wird.
Tonwiedergabesystem nach Anspruch 6, bei dem die Eingangssignale zu
den beiden Lautsprechern über einen Frequenzbereich von 100 Hz bis 4 kHz niemals
in Phase sind.
Tonwiedergabesystem nach einem der vorhergehenden Ansprüche, bei dem
die Filtermittel durch Einsatz einer Annäherung kleinster Quadrate entworfen werden.
Tonwiedergabesystem nach Anspruch 8, bei dem eine wesentliche Minimierung
des quadratischen Fehlers zwischen gewünschten Ohrsignalen und reproduzierten Ohrsignalen
derart geschieht, daß die bei den Zuhörerohren reproduzierten Signale im wesentlichen
die Wellenformen der gewünschten Signale nachbilden.
Tonwiedergabesystem nach einem der vorhergehenden Ansprüche, bei dem
die Filtermittel mit kopfbezogenen Übergangsfunktionsmitteln (HRTF) ausgestattet
sind.
Tonwiedergabesystem nach Anspruch 10, bei dem die kopfbezogenen Übergangsfunktionen
durch die Verwendung einer Matrix von Filtern nachgebildet werden.
Tonwiedergabesystem nach einem der vorhergehenden Ansprüche, ausgestattet
mit Reguliermitteln, die betriebsfähig sind, um das Verstärken bestimmter Signalfrequenzen
zu begrenzen.
Tonwiedergabesystem nach einem der vorhergehenden Ansprüche, ausgestattet
mit Modellierverzögerungsmitteln.
Tonwiedergabesystem nach einem der vorhergehenden Ansprüche, bei dem
der Abstand &Dgr;S zwischen den Zentren der Lautsprecher nicht mehr als ungefähr
45 cm beträgt.
Tonwiedergabesystem nach einem der vorhergehenden Ansprüche, bei dem
die optimale Position zum Zuhören bei einer Kopfposition (8) ist, die in
einem Abstand (r0) von zwischen 0,2 m und 4,0 m von den Lautsprechern
liegt.
Tonwiedergabesystem nach Anspruch 15, bei dem die Kopfposition in
einem Abstand (r0) von zwischen 0,2 m und 1,0 m von den Lautsprechern
liegt.
Tonwiedergabesystem nach Anspruch 15, bei dem die Kopfposition ungefähr
2,0 m von den Lautsprechern entfernt liegt.
Tonwiedergabesystem nach einem der vorhergehenden Ansprüche, bei dem
die Lautsprecherzentren im wesentlichen parallel zueinander angeordnet sind.
Tonwiedergabesystem nach einem der Ansprüche 1 bis 17, bei dem die
Achsen der Lautsprecherzentren auf eine konvergente Weise zueinander geneigt sind.
Tonwiedergabesystem nach einem der vorhergehenden Ansprüche, bei dem
die Lautsprecher (2) in einem einzigen Gehäuse (7) aufgenommen
sind.
Tonwiedergabesystem nach einem der vorhergehenden Ansprüche, bei dem
die Filtermittel zwei Paare von Filtern umfassen, wobei jeder von ihnen auf einem
Kanal einer Zweikanalstereoaufzeichnung betrieben wird.
Tonwiedergabesystem nach einem der vorhergehenden Ansprüche, bei dem
die Lautsprecher-Treibermittel für die Kanäle einer konventionellen Tonaufzeichnung
ansprechempfindlich sind.
Filtermittel (H), ausgelegt, um bei den Lautsprecher-Treibermitteln
eines Tonwiedergabesystems nach einem der vorhergehenden Ansprüche einsetzbar zu
sein.
Verfahren zum Erzeugen einer Tonaufzeichnung zum Abspielen über ein
dicht beabstandetes Paar von Lautsprechern (2), die mit einer bestimmten
Zuhörerposition (8) einen spitzen Winkel (&thgr;) von zwischen einschließlich
6° und 20° definieren, unter Verwendung von Stereoverstärkern, wobei Filtermittel
(H) beim Erzeugen der Tonaufzeichnung von Tonsignalen eingesetzt werden, die ansonsten
zum Abspielen unter Verwendung von Stereoverstärkern über ein Paar von Lautsprechern
geeignet sind, die einen Winkel bei der beabsichtigten Zuhörerposition (8)
aufspannen, der wesentlich größer als 20° ist, wodurch die Notwendigkeit vermieden
wird, virtuelle Abbildungsfiltermittel bei den Eingängen der Lautsprecher vorzusehen,
um virtuelle Tonquellen zu erzeugen, wobei die Filtermittel (H), die beim Erzeugen
der Tonaufzeichnungen eingesetzt werden, die gleichen Charakteristiken wie die Filtermittel
von Anspruch 23 aufweisen.