PatentDe  


Dokumentenidentifikation DE69726262T2 09.09.2004
EP-Veröffentlichungsnummer 0000880871
Titel TONAUFNAHME- UND -WIEDERGABESYSTEME
Anmelder Adaptive Audio Ltd., Southampton, Hampshire, GB
Erfinder NELSON, Philip Arthur, Southampton, Hampshire SO2 3NY, GB;
KIRKEBY, Ole, Chiyoda-ku, Tokyo 101, JP;
HAMADA, Hareo, Chiyoda-ku, Tokyo 101, JP
Vertreter Andrae Flach Haug, 81541 München
DE-Aktenzeichen 69726262
Vertragsstaaten DE, FR, GB, NL
Sprache des Dokument EN
EP-Anmeldetag 14.02.1997
EP-Aktenzeichen 979034667
WO-Anmeldetag 14.02.1997
PCT-Aktenzeichen PCT/GB97/00415
WO-Veröffentlichungsnummer 0097030566
WO-Veröffentlichungsdatum 21.08.1997
EP-Offenlegungsdatum 02.12.1998
EP date of grant 19.11.2003
Veröffentlichungstag im Patentblatt 09.09.2004
IPC-Hauptklasse H04S 1/00

Beschreibung[de]
Hintergrund der Erfindung

Diese Erfindung betrifft Tonaufzeichnungs- und Wiedergabesysteme, und betrifft insbesondere Stereotonwiedergabesysteme, bei denen zumindest zwei Lautsprecher eingesetzt werden.

Es ist möglich, einem Zuhörer den Eindruck zu vermitteln, daß es eine Tonquelle, die als eine virtuelle Tonquelle bezeichnet wird, in einer bestimmten Position im Raum gibt, vorausgesetzt, daß die Toneindrücke, die bei den Ohren des Zuhörers reproduziert werden, die gleichen sind, wie die Toneindrücke, die bei den Ohren des Zuhörers durch eine reale Quelle an der gewünschten Position der virtuellen Quelle erzeugt worden wären. Dieser Versuch, dem menschlichen Hören etwas vorzumachen, kann implementiert werden, indem entweder Kopfhörer oder Lautsprecher verwendet werden. Beide Verfahren haben ihre Vorteile und Nachteile.

Bei Verwendung von Kopfhörern ist keine Verarbeitung der gewünschten Signale notwendig, unabhängig von der akustischen Umgebung, in denen Sie eingesetzt werden. Jedoch leidet die Kopfhörerwiedergabe binauralen Materials oft an der "in-den-Kopf"-Lokalisierung bestimmter Tonquellen und einer schlechten Lokalisierung von vorderen und hinteren Quellen. Es ist im großen und ganzen sehr schwierig, dem Zuhörer den Eindruck zu vermitteln, daß die virtuelle Tonquelle wirklich extern ist, das heißt, "außerhalb des Kopfes".

Bei Verwendung von Lautsprechern ist es nicht schwierig, die virtuelle Tonquelle so erscheinen zu lassen, daß sie wirklich extern ist. Jedoch ist es notwendig, relativ komplizierte digitale Signalverarbeitung einzusetzen, um den gewünschten Effekt zu erhalten, und die wahrgenommene Qualität der virtuellen Quelle hängt sowohl von den Eigenschaften (Charakteristiken) der Lautsprecher als auch zu einem gewissen Maß von der akustischen Umgebung ab.

Bei Verwendung von zwei Lautsprechern können die gewünschten Signale mit großer Genauigkeit an zwei Punkten im Raum reproduziert werden. Wenn diese beiden Punkte so gewählt werden, daß sie mit den Positionen der Ohren eines Zuhörers zusammenfallen, ist es möglich, sehr überzeugende Tonbilder für diesen Zuhörer zu schaffen. Dieses Verfahren wurde von einer Anzahl verschiedener Systeme implementiert, die alle weit beabstandete Lautsprecheranordnungen hatten, die typischerweise vom Zuhörer gesehen 60° aufspannen. Ein fundamentales Problem, dem man gegenübersteht, wenn man eine derartige Lautsprecheranordnung verwendet, besteht darin, daß überzeugende virtuelle Bilder nur innerhalb einer sehr begrenzten räumlichen Region oder "Blase" erfahren werden, die den Kopf des Zuhörers umgibt. Wenn sich der Kopf mehr als ein paar Zentimeter zur Seite bewegt, bricht die durch das virtuelle Quellenbild erzeugte Illusion vollständig zusammen. Somit ist die virtuelle Quellenbildung unter Verwendung von zwei weit beabstandeten Lautsprechern nicht sehr robust gegenüber der Kopfbewegung.

Wir haben etwas überraschend herausgefunden, daß eine virtuelle Tonquellenabbildungsform eines Tonwiedergabesystems unter Verwendung von zwei dicht beabstandeten Lautsprechern extrem robust gegenüber Kopfbewegungen sein kann. Die Größe der "Blase" um den Kopf des Zuhörers nimmt erheblich zu, ohne irgendeine merkliche Reduktion in der Leistung. Außerdem macht es die dichte Lautsprecheranordnung möglich, die beiden Lautsprecher in einem einzigen Gehäuse aufzunehmen.

Von Zeit zu Zeit wird die vorliegende Erfindung hier bequemerweise als ein "Stereo-Dipol" bezeichnet, obwohl das Tonfeld, das sie produziert, eine Annäherung an das Tonfeld ist, das von einer Kombination von Punkt-Monopol- und Punkt-Dipol-Quellen erzeugt werden würde.

Zusammenfassung der Erfindung

Gemäß einem Gesichtspunkt der vorliegenden Erfindung geben wir ein Tonwiedergabesystem mit Lautsprechermitteln und Lautsprecher-Treibermitteln zum Treiben der Lautsprechermittel in Reaktion auf Signale von zumindest einem Tonkanal an, wobei die Lautsprechermittel ein dicht beabstandetes Paar von Lautsprechern umfaßt, wobei die Lautsprecher-Treibermittel Filtermittel umfassen, wobei die Filtermittel zumindest ein Paar von Filtern umfassen, wobei der Ausgang von einem Filter des Paars von Filtern auf einen Lautsprecher des Paars von Lautsprechern angewendet wird, wobei der Ausgang des anderen Filters des Paars von Filtern auf den anderen Lautsprecher des Paars von Lautsprechern angewendet wird, wobei die Charakteristiken der Filtermittel derart gewählt werden, daß sie virtuelle Bilder von Tonquellen erzeugen, die mit dem Tonkanal/den Tonkanälen an virtuellen Quellenpositionen im Zusammenhang stehen, die in einer bestimmten Zuhörerposition einen Winkel aufspannen, der wesentlich größer als der Winkel ist, der von den Lautsprechern aufgespannt wird, dadurch gekennzeichnet, daß die Lautsprecher mit der Zuhörerposition einen spitzen Winkel zwischen einschließlich 6° und 20° definieren, und daß die Ausgänge des Paars von Filtern zu einer Phasendifferenz zwischen den Vibrationen der beiden Lautsprecher führen, wobei sich die Phasendifferenz mit der Frequenz von niedrigen Frequenzen, wo die Vibrationen im wesentlichen außer Phase sind, zu hohen Frequenzen verändert, wo die Vibrationen in Phase sind, wobei die niedrigste Frequenz, bei der die Vibrationen in Phase sind, näherungsweise durch eine Abklingfrequenz f0 festgelegt wird, die definiert ist durch f0 = 1/2&tgr; wobei

wobei r2 und r1 die Weglängen von einem Lautsprecherzentrum zu den jeweiligen Ohrpositionen eines Zuhörers in der Zuhörerposition sind, und c0 die Schallgeschwindigkeit ist, wobei die Abklingfrequenz f0 zumindest 5,4 kHz beträgt.

Der spitze Winkel kann zwischen einschließlich 8° und 12° betragen, aber beträgt vorzugsweise ungefähr 10°.

Die Filtermittel sind vorzugsweise derart angeordnet, daß die Reproduktion gewünschter, mit einer virtuellen Quelle im Zusammenhang stehender Signale in dem Bereich der Zuhörerohren bis zu ungefähr 4 kHz effizient ist, selbst wenn sich der Zuhörerkopf von der vorbestimmten Zuhörerposition 10 cm zur Seite bewegt.

Die Filtermittel können eines oder mehreres aufweisen oder enthalten von: Kreuzkopplungsauslöschmittel, Annäherung kleinster Quadrate, kopfbezogene Übertragungsmittel, Frequenzregelungsmittel und Modellierverzögerungsmittel.

Vorzugsweise umfaßt der Außer-Phase-Frequenzbereich den Bereich von 100 Hz bis 4 kHz.

Vorzugsweise vibrieren die beiden Lautsprecher im wesentlichen miteinander in Phase, wenn das gleiche Eingangssignal an jedem Lautsprecher angelegt wird.

Vorzugsweise sind die Eingangssignale zu den beiden Lautsprechern über einen Frequenzbereich von 100 Hz bis 4 kHz niemals in Phase.

Das Lautsprecherpaar kann aneinandergrenzend angeordnet sein, aber vorzugsweise beträgt der Abstand zwischen den Zentren der Lautsprecher nicht mehr als ungefähr 45 cm.

Das System ist vorzugsweise derart ausgelegt, daß die optimale Position zum Zuhören bei einer Kopfposition ist, die in einem Abstand von zwischen 0,2 m bis 4 m von den Lautsprechern, und vorzugsweise bei ungefähr 2 m von den Lautsprechern liegt. Alternativ liegt die Kopfposition in einem Abstand von zwischen 0,2 m und 1,0 m von den Lautsprechern.

Die Lautsprecherzentren können im wesentlichen parallel zueinander angeordnet sein, oder derart angeordnet, daß die Achsen ihrer Zentren auf eine konvergente Weise zueinander geneigt sind.

Die Lautsprecher können in einem einzigen Gehäuse aufgenommen sein.

Gemäß einem zweiten Gesichtspunkt der vorliegenden Erfindung geben wir Filtermittel an, die derart ausgelegt sind, daß sie bei den Lautsprechertreibermitteln eines Tonwiedergabesystems gemäß dem ersten Gesichtspunkt der Erfindung einsetzbar sind.

Ein dritter Gesichtspunkt der vorliegenden Erfindung betrifft das Erzeugen von Tonaufzeichnungen, die anschließend auf einem dicht beabstandeten Lautsprecherpaar unter Verwendung "konventioneller" Stereoverstärker abgespielt werden können, wobei Filtermittel beim Erzeugen der Tonaufzeichnungen eingesetzt werden, wodurch die Notwendigkeit vermieden wird, Filtermittel bei den Eingängen der Lautsprecher vorzusehen.

Gemäß dem dritten Gesichtspunkt der Erfindung geben wir ein Verfahren zum Erzeugen einer Tonaufzeichnung zum Abspielen über ein dicht beabstandetes Paar von Lautsprechern an, die mit einer bestimmten Zuhörerposition einen spitzen Winkel von zwischen einschließlich 6° und 20° definieren, unter Verwendung von Stereoverstärkern, wobei Filtermittel beim Erzeugen der Tonaufzeichnung aus Tonsignalen eingesetzt werden, die ansonsten zum Abspielen unter Verwendung von Stereoverstärkern über ein Paar von Lautsprechern geeignet sind, die einen Winkel bei der beabsichtigten Zuhörerposition aufspannen, der wesentlich größer als 20° ist, woduch die Notwendigkeit vermieden wird, virtuelle Abbildungsfiltermittel bei den Eingängen in den Lautsprecher vorzusehen, um virtuelle Tonquellen zu erzeugen, wobei die Filtermittel, die beim Erzeugen der Tonaufzeichnungen eingesetzt werden, die gleichen Charakteristiken wie die Filtermittel des zweiten Gesichtspunktes der Erfindung aufweisen.

Der dritte Gesichtspunkt der Erfindung ermöglicht die Erzeugung weiterer Aufzeichnungen aus konventionellen Stereoaufzeichnungen unter Verwendung der vorher erwähnten Filtermittel, wobei die weiteren Aufzeichnungen eingesetzt werden können, um Lautsprechereingänge für ein Paar dicht beabstandeter Lautsprecher zu schaffen, die vorzugsweise in einem einzigen Gehäuse angeordnet sind.

Somit ist es klar, daß die Filtermittel zum Erzeugen der weiteren Aufzeichnungen eingesetzt werden, und der Benutzer ein im wesentlichen konventionelles Verstärkungssystem einsetzen kann, ohne daß er sich selbst die Filtermittel beschaffen muß.

Kurzbeschreibung der Zeichnungen

Beispiele der verschiedenen Gesichtspunkte der vorliegenden Erfindung werden nun nur beispielsweise mit Bezug auf die beigefügten Zeichnungen beschrieben, wobei:

1(a) eine Aufsicht zeigt, die das Hauptprinzip der Erfindung darstellt,

1(b) das Lautsprecherposition-Kompensationsproblem in groben Zügen; und 1(c) in Blockdiagrammform zeigt,

die 2(a), 2(b) und 2(c) Vorderansichten zeigen, die darstellen, wie verschiedene Formen von Lautsprechern in Einzelgehäusen aufgenommen werden können,

3 eine Aufsicht zeigt, die die elektroakkustischen Übertragungsfunktionen zwischen einem Lautsprecherpaar, den Zuhörerohren und dem spitzen Winkel &thgr; definiert,

die 4(a), 4(b) und 4(d) die Größe der Frequenzantworten der Filter darstellen, die die Kreuzkopplungslöschung des Systems von 3 für vier verschiedene Abstände eines Lautsprecherpaars ausführen,

5 die Geometrie definiert, die eingesetzt wird, um die Effektivität der Kreuzkopplungslöschung darzustellen, wenn sich der Zuhörerkopf zu einer Seite bewegt,

die 6(a) bis 6(m) Amplitudenspektren reproduzierter Signale bei Zuhörerohren für verschiedene Abstände eines Lautsprecherpaares darstellen,

7 die Geometrie der Lautsprecher-Mikrofon-Anordnung darstellt. Man beachte, daß &thgr; von dem Zentrum des Zuhörerkopfs gesehen der von den Lautsprechern aufgespannte Winkel ist, und daß r0 der Abstand von diesem Punkt zu dem Zentrum zwischen den Lautsprechern ist,

die 8a und 8b Definitionen der Übertragungsfunktionen, -signale und -filter darstellen, die notwendig sind für a) Kreuzkopplungslöschung und b) Abbildung virtueller Quellen,

die 9a, 9b und 9c das Zeitantwortverhalten der beiden Quelleneingangssignale (dicke Linie &ngr;1(t), dünne Linie &ngr;2(t)) darstellen, die erforderlich sind, um eine perfekte Kreuzkopplungslöschung bei dem rechten Ohr des Zuhörers für die drei Lautsprecherspannen &thgr; von 60° (a), 20° (b) und 10° (c) zu erreichen. Man beachte, wie der Überlapp zunimmt, wenn &thgr; abnimmt,

die 10a, 10b, 10c und 10d die Tonfelder darstellen, die von vier verschiedenen Quellenkonfigurationen reproduziert werden, die eingestellt werden, um eine perfekte Kreuzkopplungslöschung bei dem rechten Ohr des Zuhörers bei (a) &thgr; = 60°, (b) &thgr; = 20°, (c) &thgr; = 10° und (d) für eine Monopol-Dipol-Kombination zu erreichen,

die 11a und 11b Tonfelder darstellen, die von einem Kreuzkopplungslöschungssystem reproduziert werden, das auch den Einfluß des Zuhörerkopfs auf die ankommenden Tonwellen kompensiert. Die Lautsprecherspanne beträgt 60°. Die Abbildungen von 11a sind äquivalent zu denen in 10a gezeigten. 11b ist wie 11a, aber für eine Lautsprecherspanne von 10°. In dem Fall von 11b sind die dargestellten Zeichnungen äquivalent zu den von 10c gezeigten,

die 12a, 12b und 12c das Zeitantwortverhalten der beiden Quelleneingangssignale (dicke Linie &ngr;1(t), dünne Linie &ngr;2(t)) darstellen, die erforderlich sind, um eine virtuelle Quelle an der Stelle (1 m, 0 m) für die drei Lautsprecherspannen &thgr; von 60° (12a), 20° (12b) und 10° (12c) zu erzeugen. Man beachte, daß die effektive Dauer von sowohl &ngr;1(t) als auch &ngr;2(t) abnimmt, wenn &thgr; abnimmt,

die 13a, 13b, 13c und 13d die Tonfelder darstellen, die bei vier verschiedenen Quellenkonfigurationen reproduziert werden, die eingestellt sind, um eine virtuelle Quelle an der Position (1 m, 0 m) zu erzeugen. (a) &thgr; = 60°, (b) &thgr; = 20°, (c) &thgr; = 10°, (d) Monopol-Dipol-Kombination,

die 14a, 14b, 14c, 14d, 14e und 14f die Impulsantwortverhalten &ngr;1(n) und &ngr;2(n) darstellen, die notwendig sind, um ein virtuelles Quellenbild zu generieren,

die 15a, 15b, 15c, 15d, 15e und 15f die Größe der Frequenzantwortverhalten V1(f) und V2(f) der Impulsantwortverhalten darstellen, die in 14 gezeigt sind,

die 16a, 16b, 16c, 16d, 16e und 16f den Unterschied zwischen den Größen der Frequenzantwortverhalten V1(f) und V2(f) darstellen, die in 15 gezeigt sind,

die 17a, 17b, 17c, 17d, 17e und 17f das verzögerungskompensierte entfaltete Phasenantwortverhalten der Frequenzantwortverhalten V1(f) und V2(f) darstellen, in 15 gezeigt sind,

die 18a, 18b, 18c, 18d, 18e und 18f den Unterschied zwischen den in 17 gezeigen Phasenantwortverhalten darstellen,

die 19a, 19b, 19c, 19d, 19e und 19f das Hanning-Impuls-Antwortverhalten &ngr;1(n) und –&ngr;2(n) darstellen, das dem Impulsantwortverhalten entspricht, das in 14 gezeigt ist. Man beachte, daß &ngr;2(n) in der Phase effektiv invertiert ist, indem –&ngr;2(n) aufgetragen ist,

die 20a, 20b, 20c, 20d, 20e und 20f die Summe der Hanning-Impuls-Antwortverhalten &ngr;1(n) und &ngr;2(n) wie in 19 aufgetragen darstellen,

Die 21a, 21b, 21c und 21d das Magnituden-Antwortverhalten und das entfaltete-Phasen-Antwortverhalten der Diagonalelemente H1(f) von H(f) und des Außerdiagonalelements H2(f) von H(f) darstellen, die eingesetzt werden, um ein Kreuzkopplungslöschungssystem zu implementieren,

die 22a und 22b die Hanning-Impuls-Antwortverhalten h1(n) und –h2(n) (a), und ihre Summen (b) darstellen, von den beiden Filtern, deren Frequenzantwortverhalten in 21 gezeigt wird,

die 23a und 23b die gewünschten Signale d1(n) und d2(n) für die Signale w1(n) und w2(n) vergleichen, die bei den Ohren eines Zuhörers reproduziert werden, dessen Kopf um 5 cm direkt nach links versetzt ist, (die gewünschte Wellenform ist ein Hanning-Impuls), und

die 24a und 24b die gewünschten Signale d1(n) und d2(n) mit den Signalen w1(n) und w2(n) für eine Verschiebung um 5 cm direkt nach rechts vergleichen. Die gewünschte Wellenform ist ein Hanning-Impuls.

Detaillierte Beschreibung der bevorzugten Ausführungen

Mit Bezug auf 1(a) umfaßt ein Tonwiedergabesystem 1, das Abbildungen virtueller Quellen schafft, Lautsprechermittel in der Form eines Paars von Lautsprechern 2, und Lautsprechertreibermittel 3 zum Treiben der Lautsprecher 2 als Reaktion auf Ausgangssignale von einer Vielzahl von Tonkanälen 4.

Die Lautsprecher 2 umfassen ein dicht beabstandetes Paar von Lautsprechern, wobei die strahlenden Ausgänge 5 von ihnen in Richtung eines Zuhörers 6 gerichtet sind. Die Lautsprecher 2 sind derart angeordnet, daß sie mit dem Zuhörer 6 einen konvergenten spitzen Winkel &thgr; von zwischen einschließlich 6° und 20° definieren.

Bei diesem Beispiel ist der eingeschlossene Winkel &thgr; im wesentlichen oder ungefähr 10°.

Die Lautsprecher 2 sind Seite an Seite in einer aneinander grenzenden Weise in einem einzigen Gehäuse 7 angeordnet. Die Ausgänge 5 der Lautsprecher 2 konvergieren an einem Punkt 8 zwischen 0,2 m und 4 m (Abstand r0) von dem Lautsprecher. Bei diesem Beispiel liegt Punkt 8 ungefähr 2,0 m von den Lautsprechern 2 entfernt.

Der Abstand &Dgr;S (Spanne) zwischen den Zentren der beiden Lautsprechern 2 beträgt vorzugsweise 45,0 cm oder weniger. Dabei umfassen, wie in den 2(b) und 2(c) die Lautsprechermittel verschiedene Lautsprechereinheiten, wobei der bevorzugte Abstand insbesondere Lautsprechereinheiten betrifft, die niederfrequente Töne abstrahlen.

Die Lautsprechertreibermittel 3 umfassen zwei Paare Digitalfilter mit Eingängen u1 und u2 und Ausgängen &ngr;1 and &ngr;2. Zwei verschienene Digitalfiltersysteme werden im folgenden mit Bezug auf die 7 und 8 beschrieben.

Die dargestellten Lautsprecher 2 sind in einem im wesentlichen parallelen Feld angeordnet. Jedoch können bei einer alternativen Anordnung die Achsen der Lautsprecherzentren auf eine konvergente Weise zueinander geneigt sein.

In 1 ist der von den beiden Lautsprechern 2, wie von dem Zuhörer 6 gesehen, aufgespannte Winkel &thgr; in der Größenordnung von 10° im Gegensatz zu den 60°, die üblicherweise zum Anhören und zum Mischen von konventionellen Stereoaufzeichnungen empfohlen werden. Somit ist es möglich, ein einzelnes "Gehäuse" 7 zu machen, das die beiden Lautsprecher enthält, die fähig sind, überzeugende Raumtonbilder für einen einzelnen Zuhörer zu erzeugen, mittels von zwei verarbeiteten Signalen, &ngr;1 und &ngr;2, die in die Lautsprecher 2 in einem Lautsprechergehäuse 7 gespeist werden, das unmittelbar vor dem Zuhörer angeordnet ist.

Ansätze für die Konstruktion von Digitalfiltern, die gute Abbildungen virtueller Quellen gewährleisten, wurden in dem Europäischen Patent Nr. 0 434 691, der Patentspezifikation Nr. WO94/01981 und der Patentanmeldung Nr. PCT/GB95/02005 vorveröffentlicht.

Die der vorliegenden Erfindung zugrundeliegenden Prinzipien sind auch mit Bezug auf 3 der Spezifikation PCT/GB95/02005 beschrieben. Diese Prinzipien sind auch in den 1(b) und 9(c) der vorliegenden Anmeldung gezeigt.

Das Lautsprecherpositionskompensationsproblem wird von 1(b) in groben Zügen und von 1(c) in Blockdiagrammform dargestellt. Man beachte, daß die Signale u1 und u2 solche bezeichnen, die bei einer konventionellen stereophonen Aufzeichnung erzeugt werden. Die digitalen Filter A1 und A2 bezeichnen die Übertragungsfunktionen zwischen den Eingängen für ideal angeordnete virtuelle Lautsprecher und den Ohren des Zuhörers. Man beachte auch, daß, weil die Positionen von sowohl der realen Quellen als auch den virtuellen Quellen als symmetrisch bezüglich des Zuhörers angenommen werden, nur zwei verschiedene Filter in jeder 2-mal-2 Filtermatrix gilt.

Die Matrix C(Z) elektroakkustischer Übertragungsfunktionen definiert die Beziehung zwischen dem Vektor von Lautsprechereingangssignalen [&ngr;1(n)&ngr;2(n)] und dem Vektor von Signalen [w1(n)w2(n)], die bei den Ohren eines Zuhörers reproduziert werden. Die Matrix inverser Filter H(Z) ist ausgelegt, um zu gewährleisten, daß die Summe der zeitgemittelten quadratischen Werte der Fehlersignale e1(n) und e2(n) minimiert ist. Diese Fehlersignale quantifizieren den Unterschied zwischen den Signalen [w1(n)w2(n)], die bei den Zuhörerohren reproduziert werden, und den Signalen [d1(n)d2(n)] von denen gewünscht wird, daß sie reproduziert werden. Bei der vorliegenden Erfindung werden die gewünschten Signale als solche definiert, die durch ein Paar virtueller Quellen reproduziert werden würden, die weit weg von den Positionen der tatsächlichen Lautsprecherquellen liegen, die für die Reproduktion verwendet werden. Die Matrix von Filtern A(Z) wird verwendet, um diese gewünschten Signale relativ zu den Eingangssignalen [u1(n)u2(n)] zu definieren, die solche sind, die normalerweise mit einer konventionellen stereophonen Aufzeichnung verbunden sind. Die Elemente der Matritzen A(Z) und C(Z) beschreiben die kopfbezogenen Übertragungsfunktionen (HRTF) des Zuhörers. Diese HRTF's können auf eine Anzahl von Weisen abgeleitet werden, wie in der PCT/GB95/02005 offenbart. Eine Technik, die insbesondere bei dem Betrieb der vorliegenden Erfindung als brauchbar befunden wurde, ist es, Verwendung von einer voraufgezeichneten Datenbank von HRTF's zu machen. Auch wird, wie in der PCT/GB95/02005 offenbart, die inverse Filtermatrix H(Z) bequemerweise abgeleitet, indem zuerst die Matrix Hx(Z) von "Kreuzkopplungslöschungs"-Filtern berechnet wird, die zu einer guten Näherung gewährleisten, daß ein Signaleingang für den linken Lautsprecher nur bei dem linken Ohr eines Zuhörers reproduziert wird, und der Signaleingang für den rechten Lautsprecher nur bei dem rechten Ohr eines Zuhörers reproduziert wird, d. h., daß zu einer guten Näherung C(Z)H(Z) = Z&Dgr;I gilt, wobei &Dgr; eine Modellierverzögerung und I die Identitätsmatrix ist. Die inverse Filtermatrix H(Z) wird dann aus H(Z) = Hx(Z)A(Z) berechnet. Man beachte, daß es auch möglich ist, die vorliegende Erfindung für die Reproduktion von binaural aufgezeichnetem Material zu verwenden, indem die Kreuzkopplungslöschungsmatrix Hx(Z) berechnet wird, weil in diesem Fall die beiden Signale [u1(n)u2(n)] solche sind, die bei den Ohren eines Dummy-Kopfs aufgezeichnet wurden. Diese Signale können als Eingänge für die Matrix von Kreuzkopplungslöschungsfiltern verwendet werden, deren Ausgänge dann in die Lautsprecher eingespeist werden, wodurch gewährleistet wird, daß u1(n) und u2(n) in einer guten Annäherung bei den Zuhörerohren reproduziert werden. Normalerweise sind die Signale u1(n) und u2(n) jedoch solche, die mit einer konventionellen stereophonen Aufzeichnung verbunden sind, und sie werden als Eingänge für die Matrix H(Z) inverser Filter verwendet, die ausgelegt sind, um die Reproduktion von Signalen bei den Zuhörerohren zu gewährleisten, die von den voneinander beabstandeten virtuellen Lautsprecherquellen reproduziert werden würden.

2 zeigt drei Beispiele, wie verschiedene Einheiten von zwei Lautsprechern in einem einzigen Gehäuse anzuordnen sind. Wenn jeder Lautsprecher 2 aus nur einer Vollbereicheinheit besteht, sollten die beiden Einheiten wie in 2(a) nebeneinander angeordnet werden. Wenn jeder Lautsprecher aus zwei oder mehr Einheiten besteht, können diese Einheiten auf verschiedene Weisen angeordnet werden, wie durch die 2(b) und 2(c) dargestellt, wobei Niedrigfrequenzeinheiten 10, Mittelfrequenzeinheiten 11 und Hochfrequenzeinheiten 12 auch eingesetzt werden.

Unter Verwendung von zwei Lautsprechern 2, die symmetrisch vor dem Zuhörerkopf angeordnet sind, können wir nun betrachten, wie die Leistungsfähigkeit eines Abbilungssystems für virtuelle Quellen von dem Winkel &thgr; abhängt, der von den beiden Lautsprechern aufgespannt wird. Die Geometrie des Problems ist in 3 gezeigt. Da das (2/15) Layout der Lautsprecher-Mikrofone symmetrisch ist, gibt es nur zwei unterschiedliche elektroakkustische Übertragungsfunktionen C1(Z) und C2(Z). Somit hat die Übertragungsfunktionsmatrix C(Z) (betreffend den Vektor von Lautsprechereingangssignalen zu dem Vektor von Signalen, die bei den Zuhörerohren erzeugt werden) die folgende Struktur:

Ebenso gibt es nur zwei verschiedene Elemente H1(Z) und H2(Z) in der Kreuzkopplungslöschungsmatrix. Somit hat die Kreuzkopplungslöschungsmatrix Hx(Z) die folgende Struktur:

Die Elemente von Hx(Z) können unter Verwendung der Techniken berechnet werden, die im Detail in der Spezifikation der PCT/GB95/02005 beschrieben sind, vorzugsweise unter Verwendung des darin beschriebenen Frequenzdomänansatzes. Man beachte, daß es üblicherweise notwendig ist, eine Vergleichmäßigung zu verwenden, um die ungewünschten Effekte von schlecht konditionierten Vorkommen in Hx(Z) zu vermeiden.

Die Kreuzkopplungslöschungsmatrix Hx(Z) ist am leichtesten zu berechnen, wenn C(Z) nur relativ wenig Detail enthält. Zum Beispiel ist es viel schwieriger, eine Matrix von Übertragungsfunktionen zu invertieren, die in einem hallenden Raum gemessen werden, als eine Matrix von Übertragungsfunktionen, die in einem schalltoten Raum gemessen werden. Überdies ist es vernünftig, anzunehmen, daß ein Satz inverser Filter, deren Frequenzantwortverhalten relativ glatt sind, wahrscheinlicher "natürlicher" oder "weniger farbig" als ein Satz von Filtern klingt, deren Frequenzantwortverhalten stark oszillieren, selbst wenn beide Inversionen bei allen Frequenzen perfekt sind. Aus diesem Grund verwenden wir einen Satz von HRTF's, die von der MIT Media Lab Datenbank genommen sind, die für Forscher über das Internet verfügbar gemacht wurde. Jede HRTF ist das Ergebnis einer Messung, die alle 5° in der Horizontalebene in einem schalltoten Raum unter Verwendung einer Samplefreqzenz von 44,1 kHz gemacht wurde. Wir verwenden die "kompakte" Version der Datenbank. Jede HRTF wurde für das Lautsprecherantwortverhalten entzerrt, bevor es abgeschnitten wurde, um nur 128 Koeffizienten zu erhalten (wir skalierten die HRTF's auch, um ihre Werte so zu machen, daß sie in einem Bereich von –1 bis +1 liegen).

4 zeigt die Frequenzantwortverhalten von Hx1(Z) und Hx2(Z) für die verschiedenen Lautsprecherspannen, nämlich a) 60°, b) 20°, c) 10° und d) 5°. Die verwendeten Filter enthalten jeweils 1024 Koeffizienten, und sie werden unter Verwendung des beschriebenen Frequenzdomäninversionsverfahrens berechnet. Keine Normalisierung wird verwendet, aber trotzdem ist der durch das Frequenzsampeln verursachte unerwünschte Umwicklungseffekt kein ernsthaftes Problem, und die Inversion ist für alle praktischen Zwecke über den gesamten Audiofrequenzbereich perfekt. Was nichtsdestoweniger wichtig ist, ist die Tatsache, daß die Antwortverhalten von Hx1(Z) und Hx2(Z) bei sehr niedrigen Frequenzen zunehmen, wenn der Winkel &thgr; reduziert wird, der von den Lautsprechern aufgespannt wird. Das bedeutet, daß, wenn die Lautsprecher dichter zusammengebracht werden, mehr niedrigfrequenter Ausgang benötigt wird, um die Kreuzkopplungslöschung zu erreichen. Das bewirkt zwei erhebliche Probleme: eines ist es, daß die niedrigfrequente Leistung, die von dem System ausgegeben werden muß, gefährlich für das Wohlergehen von sowohl den Lautsprechern als auch dem zugehörigen Verstärker sein kann; das andere ist es, daß, selbst wenn die Ausrüstung die Belastung aushalten kann, der an einigen Stellen entfernt von der beabsichtigten Zubehörposition reproduzierte Sound eine relativ hohe Amplitude aufweisen wird. Es ist klar, daß es nicht wünschenswert ist, die Lautsprecher sehr hart arbeiten zu lassen, mit dem Ergebnis, daß der Ton tatsächlich von der beabsichtigten Zuhörerposition "gestrahlt "wird. Somit gibt es eine minimale Lautsprecherspanne &thgr;, unter der es nicht möglich ist, in der Praxis hinreichenden niedrigfrequenten Sound bei der beabsichtigten Zuhörerposition zu reproduzieren. Es ist dennoch wert, herauszustellen, daß es nur, wenn die virtuellen Quellen nicht dicht zu den realen Quellen liegen, der Fall ist, daß die Lautsprecher hart zu arbeiten haben. Wenn die virtuelle Quelle dicht zu einem Lautsprecher liegt, wird das System automatisch fast den gesamten elektrischen Eingang zu diesem Lautsprecher lenken.

Man beachte, daß nur die Moduli der Kreuzkopplungslöschungsfilter durch 4 dargestellt wurden, und daß der Phasenunterschied zwischen den Frequenzantwortverhalten bei niedrigen Frequenzen näher und näher zu 180° (pi Radian) kommt, wenn der Winkel &thgr; vermindert wird.

Es ist vernünftig, anzunehmen, daß die Leistungsfähigkeit des Abbildungssystems für virtuelle Quellen hauptsächlich durch die Effektivität der Kreuzkopplungslöschung bestimmt wird. Wenn es somit möglich ist, einen einzelnen Impuls an dem linken Ohr eines Zuhörers zu erzeugen, während nichts an seinem rechten Ohr gehört wird, dann kann jedes Signal an dem linken Ohr reproduziert werden. Das gleiche Argument gilt für das rechte Ohr wegen der Symmetrie. Wenn der Zuhörerkopf sich bewegt, werden die an dem linken und rechten Ohr reproduzierten Signale ausgetauscht. Allgemein gesprochen, bewirkt eine Kopfrotation oder eine Kopfbewegung unmittelbar in Richtung und weg von den Lautsprechern nicht eine signifikante Reduktion bei der Effektivität der Kreuzkopplungslöschung. Jedoch ist die Effektivität der Kreuzkopplungslöschung sehr empfindlich gegenüber Kopfbewegungen zu der Seite. Wenn sich zum Beispiel der Zuhörerkopf 18 cm nach links bewegt, bewegt sich das "ruhige" rechte Ohr in die "laute" Zone. Somit sollte man nicht normalerweise eine effiziente Kreuzkopplungslöschung erwarten, wenn der Zuhörerkopf um mehr als 15 cm zu der Seite versetzt wird.

Wir schätzen jetzt quantitativ die Effektivität der Kreuzkopplungslöschung ab, wenn sich der Zuhörerkopf um die Distanz dx zur Seite bewegt. Die Bedeutung des Parameters dx wird in 5 dargestellt. Wenn das gewünschte Signal als ein Einzelimpuls an dem linken Ohr und Ruhe an dem rechten Ohr angenommen wird, ist das Amplitudenspektrum entsprechend dem an dem linken Ohr reproduzierten Signal idealerweise 0 dB, und das Amplitudenspektrum, das dem an dem rechten Ohr reproduzierten Signal entspricht, idealerweise so klein wie möglich. Somit können wir die an den beiden Ohren reproduzierten Signale als ein Maß der Effektivität der Kreuzkopplungslöschung verwenden, wenn der Zuhörerkopf von der beabsichtigten Zuhörerposition wegbewegt wird.

Um die an den Ohren eines Zuhörers bei einer beliebigen Position reproduzierten Signale berechnen zu können, ist es notwendig, eine Interpolation zu verwenden. Wenn die Position des Zuhörers sich ändert, wird der Winkel &thgr; zwischen dem Zentrum des Kopfes und den Lautsprechern geändert. Das wird durch eine lineare Interpolation zwischen den beiden nächsten HRTF's in der gemessenen Datenbank kompensiert. Zum Beispiel wird, wenn der exakte Winkel 91° beträgt, die resultierende HRTF aus C91(k) = 0,8C90(k) + 0,2C95(k) gefunden, wobei k die k'te Frequenzlinie in dem durch eine FFT berechneten Spektrum ist. Es ist sogar noch schwieriger, die Änderung in dem Abstand r0 (1) zwischen dem Lautsprecher und dem Zentrum des Zuhörerkopfs 6 zu kompensieren. Das Problem besteht darin, daß die Änderung im Abstand üblicherweise nicht mit einer Verzögerung (oder einem Voranschreiten) einer Integerzahl von Sampleintervallen entsprechen wird, und es daher notwendig ist, die Impulsantwortverhalten der winkelkompensierten HRTF durch eine gebrochene Anzahl von Samples zu verschieben. Es ist keine triviale Aufgabe, eine gebrochene Verschiebung einer digitalen Sequenz zu implementieren. In diesem besonderen Fall ist die Technik bis zu einem Abstand von weniger als 1,0 mm genau. Somit nähert die fraktionale Verzögerungstechnik im Effekt wahre Ohrposition an den nächsten Punkt auf einem räumlichen 1,0 mm × 1,0 mm Gitter an.

6 zeigt die Amplitudenspektren der reproduzierten Signale für die beiden Lautsprecherabstände, die sich bei &thgr;-Werten von 60° (a, c, e, g, i, k, m) und 10° (b, d, f, h, j, l, n) für die sieben verschiedenen Werte von dx –15 cm (a, b), –10 cm (c, d), –5 cm (e, f), 0 cm (g, h), 5 cm (i, j), 10 cm (k, l) und 15 cm (m, n) ergeben. Man kann sehen, daß, wenn der Winkel &thgr; 60° beträgt, die Kreuzkopplungslöschung nur bis ungefähr 1 kHz effizient ist, selbst wenn der Zuhörerkopf sich so wenig wie 5 cm zur Seite bewegt. Wenn dagegen der Winkel &thgr; 10° beträgt, ist die Kreuzkopplungslöschung bis zu ungefähr 4 kHz wirksam, selbst wenn sich der Zuhörerkopf 10 cm zur Seite bewegt. Somit ist die Leistungsfähigkeit des Systems bezüglich der Kopfbewegung desto robuster, je dichter die Lautsprecher zusammen sind. Es sollte jedoch herausgestellt werden, daß der in diesem Abstand betrachtete Kreuzkopplungslöschungsfall als ein "worst case" betrachtet werden kann. Wenn zum Beispiel eine virtuelle Quelle der Position eines Lautsprechers entspricht, ist das virtuelle Bild offensichtlich sehr robust. Im allgemeinen wird das System immer besser in der Praxis arbeiten, wenn es versucht, ein virtuelles Bild zu erzeugen, als wenn es versucht, eine perfekte Kreuzkopplungslöschung zu erreichen.

Es ist besonders wichtig, überzeugende Mittelbilder erzeugen zu können. In der Filmindustrie war es lange üblich, einen getrennten Mittellautsprecher zusätzlich zu dem linken vorderen und rechten vorderen Lautsprecher (plus üblicherweise auch eine Anzahl von Surround-Lautsprechern) zu verwenden. Der prominenteste Teil des Programmaterials ist oft dieser Position zugeordnet. Das trifft insbesondere für Dialog und andere Arten menschlicher Tonsignale zu, wie zum Beispiel Stimmen auf Tonspuren. Der Grund, warum 60° von &thgr; die bevorzugte Lautsprecherspanne für konventionelle Stereoreproduktionen ist, liegt darin, daß, wenn die Tonstufe weiter aufgeweitet wird, die Mittelbilder dazu neigen, schlecht definiert zu sein. Andererseits sind, je dichter die Lautsprecher zusammen sind, die Mittelbilder desto klarer definiert, und die vorliegende Erfindung hat daher den Vorteil, daß sie exzellente Mittelbilder erzeugt.

Das Filterdesignverfahren beruht auf der Annahme, daß die Lautsprecher sich wie Monopole in einem freien Feld verhalten. Es ist klar unrealistisch optimistisch, eine derartige Leistungsfähigkeit von einem realen Lautsprecher zu erwarten. Nichtsdestoweniger scheint das Abbilden virtueller Quellen unter Verwendung der "Stereodipol-Anordnung" der vorliegenden Erfindung in der Praxis gut zu funktionieren, selbst wenn die Lautsprecher von sehr schlechter Qualität sind. Es ist insbesondere überraschend, daß das System noch funktioniert, wenn die Lautsprecher nicht fähig sind, irgendeinen erheblichen niederfrequenten Ausgang zu erzeugen, wie es für viele der kleinen Aktivlautsprecher der Fall ist, die für Multimediaanwendungen eingesetzt werden. Der einzige wichtigste Faktor scheint der Unterschied zwischen den Frequenzantwortverhalten der beiden Lautsprecher zu sein. Das System funktioniert gut, solange die beiden Lautsprecher ähnliche Charakteristiken aufweisen, das heißt, daß sie "gut abgestimmt" sind. Jedoch neigen erhebliche Unterschiede zwischen ihrem Antwortverhalten dazu, zu verursachen, daß die virtuellen Bilder ständig zu einer Seite unsymmetrisch sind, wodurch sich eine "seitengewichtige" Reproduktion der gut ausgewogenen Tonstufe ergibt. Die Lösung dafür ist es, sicherzustellen, daß die beiden Lautsprecher, die in das gleiche Gehäuse kommen, "paarabgestimmt" sind.

Alternativ könnten die Lautsprecher ausgebildet werden, um im wesentlichen auf die gleiche Weise zu antworten, wobei sie einen Abgleichfilter in dem Eingang von einem der Lautsprecher aufweisen.

Ein Stereosystem gemäß der vorliegenden Erfindung ist im allgemeinen sehr angenehm zu hören, obwohl Tests anzeigen, daß einige Anhörer mehr Zeit benötigen, um sich daran zu gewöhnen. Die Verarbeitung fügt den Originalaufzeichnungen nur unmerkliche Färbung zu. Der Hauptvorteil der dichten Lautsprecheranordnung ist ihre Robustheit gegenüber der Kopfbewegung, was die "Blase", die den Zuhörerkopf umgibt, komfortabel groß macht.

Wenn gewöhnliches Stereomaterial, wie zum Beispiel Popmusik oder Filmtonspuren über zwei virtuelle Quellen abgespielt wird, die unter Verwendung der vorliegenden Erfindung erzeugt sind, zeigen Tests, daß die Zuhörer oft die Gesamtqualität der Reproduktion als noch besser empfinden, als wenn das Originalmaterial über zwei Lautsprecher abgespielt wird, die einen Winkel &thgr; von 60° aufspannen. Ein Grund dafür liegt darin, daß die Lautsprecherspanne von 10° exzellente Mittelbilder schafft, und daß es daher möglich ist, den Winkel &thgr;, der von den virtuellen Quellen aufgespannt wird, von 60° auf 90° zu vergrößern. Dieses Aufweiten der Tonstufe wird als sehr angenehm empfunden.

Die Reproduktion binauralen Materials über das System der vorliegenden Erfindung ist so überzeugend, daß Zuhörer häufig von den Lautsprechern wegschauen, um zu versuchen, eine reale Quelle zu sehen, die für den empfundenen Ton verantwortlich ist. Höheninformationen bei Dummy-Kopf-Aufzeichnungen können auch dem Zuhörer vorgeführt werden; der Ton eines überfliegenden Flugzeugs ist zum Beispiel sehr realistisch.

Eine mögliche Grenze der vorliegenden Erfindung liegt darin, daß sie nicht immer überzeugende virtuelle Bilder unmittelbar seitlich von oder hinter dem Zuhörer erzeugen kann. Überzeugende Bilder können zuverlässig nur innerhalb eines Bogens erzeugt werden, der ungefähr 140° in der Horizontalebene (plus und minus 70° relativ zu geradeaus) und ungefähr 90° in der Vertikalebene (plus 60° und minus 30° relativ zu der Horizontalebene) aufspannt. Bilder hinter dem Zuhörer werden oft nach vorne gespiegelt. Wenn man zum Beispiel versucht, ein virtuelles Bild unmittelbar hinter dem Zuhörer zu erzeugen, wird es stattdessen als unmittelbar vor dem Zuhörer empfunden. Es gibt wenig, was man dagegen machen kann, weil die physikalisch von den Lautsprechern abgestrahlte Energie sich immer dem Zuhörer von vorne nähern wird. Natürlich könnte man, wenn rückwärtige Bilder erforderlich sind, ein weiteres System gemäß der vorliegenden Erfindung unmittelbar hinter dem Zuhörerkopf plazieren.

In der Praxis variieren die Leistungsanforderungen stark zwischen den Anwendungen. Zum Beispiel würde man erwarten, daß der Ton, der ein Computerspiel begleitet, viel schlechter als der ist, der von einem guten Hi-Fi System wiedergegeben wird. Andererseits kann sogar ein schlechtes Hi-Fi System wahrscheinlich für ein Computerspiel akzeptabel sein. Es ist klar, daß ein Tonwiedergabesystem nicht als "gut" oder "schlecht" klassifiziert werden kann, ohne die Anwendung zu berücksichtigen, für die es gedacht ist. Aus diesem Grund werden wir drei Beispiele angeben, wie ein Kreuzkopplungslöschungsnetzwerk zu implementieren ist.

Das denkbar einfachste Kreuzkopplungslöschungsnetzwerk ist das von Atal und Shroeder im US Patent 3,236,949 vorgeschlagene, der "scheinbare Tonquellenübersetzer". Obwohl deren Patent eine konventionelle Lautsprecheranordnung betrifft, die 60° aufspannt, ist ihr Prinzip auf jede beliebige Lautsprecherspanne anwendbar. Man nimmt an, daß die Lautsprecher sich wie Monopole in einem freien Feld verhalten, und die Z-Transformation der vier Übergangsfunktionen in C(Z) sind daher durch

gegeben, wobei n1 die Anzahl von Sampleintervallen ist, die es für den Ton dauert, von einem Lautsprecher zu dem "nächsten" Ohr zu gelangen, und n2 die Anzahl von Sampleintervallen ist, die es für den Ton dauert, von einem Lautsprecher zum "gegenüberliegenden" Ohr zu gelangen. Sowohl n1 als auch n2 werden als Integer angenommen. Es ist einfach, C(Z) direkt zu invertieren. Da n1 < n2 gilt, ist das exakte Inverse stabil und kann mit einem IIR-Filter (infinites Impulsantwortverhalten) implementiert werden, der einen einzigen Koeffizienten enthält. Dementsprechend würde er sehr einfach in Hardware zu implementieren sein. Die Qualität des von einem System reproduzierten Sounds, der auf diese Weise konstruierte Filter verwendet, ist sehr "unnatürlich" und "gefärbt", wobei er aber dennoch gut genug für Anwendungen, wie zum Beispiel Spiele sein kann.

Sehr überzeugende Leistungen können mit einem System erzielt werden, das vier FIR-Filter einsetzt, die jeder nur eine relativ kleine Anzahl von Koeffizienten enthält. Bei einer Samplefrequenz von 44,1 kHz sind 32 Koeffizienten genug, um beiden eine genaue Lokalisierung und einen natürlichen ungefärbten Sound zu verleihen, wenn man Übergangsfunktionen verwendet, die aus der kompaten MIT-Datenbank von HRTF's entnommen sind. Da die Dauer solcher Übergangsfunktionen (128 Koeffizienten) erheblich länger als die inversen Filter selber (32 Koeffizienten) sind, müssen die inversen Filter durch eine direkte Matrixinversion des in der Zeitdomäne formulierten Problems berechnet werden, wie es in dem Europäischen Patent Nr. 0 434 691 offenbart ist (die darin beschriebene Technik wird als ein "deterministisches Inversionsverfahren kleinster Quadrate" bezeichnet). Jedoch ist der Preis, den man für die Verwendung kurzer Invertierfilter zu zahlen hat, eine verminderte Effizienz der Kreuzkopplungslöschung bei niedrigen Frequenzen (f < 500 Hz). Nichtsdestoweniger sind für Anwendungen, wie zum Beispiel Multimediacomputer, die meisten der Lautsprecher, die zur Zeit auf dem Markt erhältlich sind, nicht fähig, irgendeinen erheblichen Ausgang bei solchen Frequenzen überhaupt zu erzeugen, und so sollte ein Satz kurzer Filter für solche Zwecke geeignet sein.

Um fähig zu sein, die gewünschten Signale bei den Ohren des Zuhörers bei niedrigen Frequenzen sehr genau zu reproduzieren, ist es notwendig, Invertierfilter zu verwenden, die viele Koeffizienten enthalten. Idealerweise sollte jeder Filter zumindest 1024 Koeffizienten enthalten (alternativ könnte dies durch Verwendung eines kurz IIR-Filters in Kombination mit einem FIR-Filter erreicht werden). Lange Invertierfilter werden bequemerweise durch Verwendung eines Frequenzdomänverfahrens berechnet, wie zum Beispiel dem in der PCT/GB95/02005 offenbarten. Gemäß unserem besten Wissen gibt es zur Zeit kein dititales Signalverarbeitungssystem, das kommerziell erhältlich ist, das ein derartiges System in Echtzeit implementieren kann. Ein derartiges System könnte für ein hi-end "Hi-Fi"-Haussystem oder Hauskino verwendet werden, oder es könnte als ein "Master"-System eingesetzt werden, das Rundfunksendungen oder -aufzeichnungen encodiert, bevor sie weiter übertragen oder gespeichert werden.

Eine weitere Erläuterung des Problems und der Weise, durch die es durch die vorliegende Erfindung gelöst wird, ist mit Bezug auf die 7 bis 13 wie folgt. Diese Figuren betreffen das Problem beim Abbilden virtueller Quellen, wenn es vereinfacht wird, indem angenommen wird, daß die Lautsprecher Punktmonopolquellen sind, und daß der Kopf des Zuhörers die auftreffenden Tonwellen nicht modifiziert.

Die Geometrie des Problems ist in 7 gezeigt. Zwei Lautsprecher (Quellen), die durch den Abstand &Dgr;S getrennt sind, sind auf der x1-Achse symmetrisch um die x2-Achse angeordnet. Wir stellen uns vor, daß ein Zuhörer r0 Meter entfernt von den Lautsprechern unmittelbar vor ihnen positioniert ist. Die Ohren des Zuhörers werden durch zwei Mikrofone dargestellt, die den Abstand &Dgr;M voneinander getrennt sind, die auch symmetrisch um die x2-Achse angeordnet sind (man beachte, daß "rechtes Ohr" das linke Mikrofon und "linkes Ohr" das rechte Mikrofon bezeichnet). Die Lautsprecher spannen einen Winkel &thgr; auf, wie er von der Position des Zuhörers gesehen wird. Nur zwei der vier Abstände von den Lautsprechern zu den Mikrofonen sind unterschiedlich; r1 ist der kürzeste (der "direkte" Weg), r2 ist der weiteste (der "Kreuzlöschungs"-Weg). Die Eingänge zu dem linken und rechten Lautsprecher sind mit V1 bzw. V2 bezeichnet, und die Ausgänge von dem linken und rechten Mikrofon sind mit W1 bzw. W2 bezeichnet. Es wird sich später als praktisch erweisen, zwei Variablen einzuführen

was eine "Verstärkung" ist, die immer kleiner als 1 ist, und
was eine positive Verzögerung ist, die der Zeit entspricht, die der Ton braucht, um sich die Weglängendifferenz r2 – r1 fortzubewegen.

Wenn das System bei einer einzelnen Frequenz betrieben wird, können wir eine komplexe Notation verwenden, um die Eingänge zu den Lautsprechern und die Ausgänge von den Mikrofonen zu beschreiben. Somit nehmen wir an, daß V1, V2, W1 und W2 komplexe Skalare sind. Die Lautsprechereingänge und die Mikrofonausgänge werden durch die zwei Übergangsfunktionen

und
beschrieben.

Unter Verwendung dieser beiden Übergangsfunktionen wird der Ausgang der Mikrofone als eine Funktion der Eingänge der Lautsprecher praktisch als eine Matrix-Vektor-Multiplikation ausgedrückt, w = Cv, wobei

Das von einem Monopol in einem freien Feld abgestrahlte Tonfeld pmo wird ausgedrückt durch

wobei &ohgr; die Winkelfrequenz, &rgr;0 die Dichte des Mediums, q die Quellenstärke, k die Wellenzahl &ohgr;/c0 ist, wobei c0 die Schallgeschwindigkeit ist, und r der Abstand von der Quelle zu dem Feld. Wenn V als
definiert ist, dann wird die Übergangsfunktion C angegeben durch

Das Ziel des in 7 gezeigten Systems ist es, ein Paar gewünschter Signale D1 und D2 bei den Mikrofonen zu reproduzieren. Demzufolge verlangen wir, daß W1 gleich D1 ist, und daß W2 gleich D2 ist. Das Paar gewünschter Signale kann mit zwei fundamental verschiedenen Zielen im Hinterkopf spezifiziert werden: Kreuzkopplungslöschung und Abbildung virtueller Quellen. In beiden Fällen arbeiten zwei lineare Filter H1 und H2 als ein einziger Eingang D, und so gilt v = Dh, wobei

Das wird in den 8a und 8b dargestellt. Eine perfekte Kreuzkopplungslöschung (8a) erfordert, daß ein Signal an einem Ohr des Zuhörers perfekt reproduziert wird, während an dem anderen Ohr nichts gehört wird. Wenn wir so ein gewünschtes Signal D2 bei dem linken Ohr des Zuhörers erzeugen wollen, dann muß D1 Null sein. Das Abbilden virtueller Quellen (8b) erfordert andererseits, daß die an den Ohren des Zuhörers reproduzierten Signale identisch sind (bis zu einer gemeinsamen Verzögerung oder einem gemeinsamen Skalierungsfaktor) zu den Signalen, die an solchen Positionen durch eine reale Quelle erzeugt werden würden.

Es ist vorteilhaft, D2 als das Produkt D mal C1 und nicht nur als D zu definieren, weil das garantiert, daß die Zeitantwortverhalten, die den Frequenzantwortverhaltensfunktionen V1 und V2 entsprechen, zufällig sind (in der Zeitdomäne, was bewirkt, daß das gewünschte Signal verzögert und skaliert wird, aber nicht seine "Form" beeinflußt). Durch Lösen des linearen Gleichungssystems

für v, finden wir

Um das Zeitantwortverhalten für v zu finden, schreiben wir den Ausdruck 1/(1 – g2exp(–j2&ohgr;&tgr;)) unter Verwendung der Leistungsreihenentwicklung um.

Das Ergebnis ist

Nach einer inversen Fourier-Transformation von v können wir nun v als eine Funktion der Zeit schreiben,

wobei * die Faltung bezeichnet und &dgr; die Dirac-Delta-Funktion ist. Die Summation stellt eine abfallende Reihe von Deltafunktionen dar. Die erste Deltafunktion tritt bei der Zeit t = 0 auf, und benachbarte Deltafunktionen sind 2&tgr; entfernt. Demzufolge, wie es von Atal u. a. erkannt wurde, ist v(t) intrinsisch rekursiv, aber trotzdem ist es so garantiert, daß beide zufällig und stabil sind, solange D(t) zufällig und stabil ist. Die Lösung wird ohne weiteres physikalisch in dem Fall interpretiert, wo D(t) einen Impuls einer sehr großen Dauer ist (genauer viel kürzer als &tgr;). Zuerst sendet der rechte Lautsprecher einen Impuls aus, der bei dem linken Zuhörerohr gehört wird. Bei einer Zeit &tgr; nach dem Erreichen des linken Ohrs erreicht dieser Impuls das rechte Ohr des Zuhörers, wo er nicht gehört werden soll, und demzufolge muß er durch einen negativen Impuls von dem linken Lautsprecher ausgelöscht werden. Dieser negative Impuls erreicht das rechte Ohr des Zuhörers zur Zeit 2&tgr; nach der Ankunft des ersten positiven Impulses, und so wird ein weiterer positiver Impuls von dem rechten Lautsprecher notwendig, der wiederum noch einen weiteren ungewünschten Negativimpuls bei dem linken Ohr des Zuhörers erzeugen wird, und so weiter. Das Nettoergebnis ist es, daß der rechte Lautsprecher eine Reihe positiver Impulse aussenden wird, wohingegen der linke Lautsprecher eine Reihe negativer Impulse aussenden wird. In jeder Impulsfolge werden die einzelnen Impulse mit einer "Ring"-Frequenz f0 von 1/2&tgr; ausgesendet. Es ist intuitiv klar, daß die Dauer von D(t) verglichen mit &tgr; nicht kurz ist, wobei die individuellen Impulse nicht länger perfekt getrennt werden können, sondern sich etwas "überlappen" müssen. Das wird in den 9a, 9b und 9c dargestellt, die den Zeitverlauf der Quellenausgänge zeigen, die als notwendig erachtet werden, um das gewünschte Ziel zu erreichen, wenn der Winkel &thgr;, der den Lautsprecherabstand definiert 60°, 20° bzw. 10° beträgt. Man beachte, daß für &thgr; = 10° die Quellenausgänge nahezu entgegengesetzt sind.

Die Quelleneingänge

Die 9a, 9b und 9c zeigen den Eingang zu den beiden Quellen für die drei verschiedenen Lautsprecherspannen 60° (9a), 20° (9b) und 10° (9c). Der Abstand zu dem Zuhörer beträgt 0,5 m, und der Mikrofonabstand (Kopfdurchmesser) beträgt 18 cm. Das gewünschte Signal ist ein Hanning-Impuls (eine Periode von einem Cosinus), der durch

spezifiziert wird, wobei &ohgr;0 als 2&pgr; mal 3,2 kHz gewählt wird (das Spektrum für diesen Impuls hat seinen ersten Nulldurchgang bei 6,4 kHz und so ist das meiste seiner Energie unterhalb von 3 kHz konzentriert). Für die drei Lautsprecherspannen 60°, 20° und 10° sind die entsprechenden Ringfrequenzen f0 1,9 kHz, 5.5 kHz bzw. 11 kHz. Wenn der Zuhörer nicht zu dicht an den Quellen sitzt, wird &tgr; gut genähert, indem man annimmt, daß der direkte Weg und der Kreuzkopplungsweg parallele Linien sind,

Wenn wir außerdem annehmen, daß die Lautsprecherspanne klein ist, dann kann sin(&thgr;/2) vereinfacht werden zu &thgr;/2, und so ist f0 gut angenähert durch

Für die drei Lautsprecherspannen 60°, 20° und 10° ergibt diese Annäherung die drei Werte 1,8 kHz, 5,4 kHz und 10,8 kHz von f0 (Daumenregel: f0 ≈ 100 kHz geteilt durch Lautsprecherspanne in Grad), die in guter Übereinstimmung mit den exakten Werten sind. Man kann sehen, daß f0 gegen Unendlich geht, wenn &thgr; gegen Null geht, und so ist es im Prinzip möglich, f0 beliebig groß zu machen. In der Praxis legen physikalische Beschränkungen unvermeidbar eine obere Grenze von f0 fest. Es kann gezeigt werden, daß in dem beschränkten Fall, wenn &thgr; gegen Null geht, das durch die beiden Punktquellen erzeugte Tonfeld äquivalent zu dem von einem Punktmonopol und einem Punktdipol ist, die beide an dem Ursprung des Koordinatensystems angeordnet sind.

Es ist aus den 9a, 9b und 9c klar, daß, wenn f0 zunimmt, der Überlapp zwischen benachbarten Impulsen auch zunimmt. Das macht offensichtlich v1(t) und v2(t) glatter und es ist intuitiv klar, daß, wenn f0 sehr groß ist, die Ringfrequenz fast vollständig unterdrückt wird, und sowohl v1(t) als auch v2(t) einfach abfallende Exponentialkurven sein werden (abfallend in dem Sinne, daß sie beide für große t auf Null zurückkehren). Jedoch ist es auch intuitiv klar, daß bei zunehmenden f0 der Niedrigfrequenzanteil von v auch zunimmt. Um eine perfekte Kreuzkopplungslöschung mit einem Paar dicht beabstandeter Lautsprecher zu erreichen, ist folglich ein sehr großer niedrigfrequenter Ausgang notwendig. Das passiert, weil das Kreuzkopplungslöschungsproblem bei niedrigen Frequenzen schlecht konditioniert ist. Diese unerwünschte Eigenschaft wird durch die darunterliegende Physik des Problems verursacht und kann nicht ignoriert werden, wenn es in der Praxis zum implementieren von Kreuzkopplungslöschungssystemen kommt.

Die 10a, 10b, 10c und 10d zeigen das Tonfeld, das von vier verschiedenen Quellenkonfigurationen reproduziert wird: Die drei Lautsprecherspannen 60° (10a), 20° (10b), 10° (10c) und auch das Tonfeld, das von einer Überlagerung einer Punktmonopolquelle und einer Punktdipolquelle erzeugt wird (10d). Die in den 10a, 10b, 10c gezeichneten Tonfelder sind solche, die durch die Quelleneingänge erzeugt werden, die in den 9a, 9b und 9c abgebildet sind. Jede der vier Kurven von 10a und so weiter enthält neun "Schnappschüsse" oder Rahmen des Tonfelds. Die Rahmen sind sequentiell in einer "Lesefolge" von oben links nach unten rechts aufgeführt; oben links ist die früheste Zeit (t = 0,2/c0), unten rechts ist die späteste Zeit (t = 1,0/c0). Das Zeitinkrement zwischen jedem Rahmen beträgt 0,1/c0, was äquivalent zu der Zeit ist, die der Ton braucht, um sich 10 cm fortzubewegen. Die Normalisierung der gewünschten Signale gewährleistet, daß der rechte Lautsprecher startet, Ton bei genau t = 0 auszusenden; der linke Lautsprecher startet, Ton eine kurze Weile (&tgr;) später auszusenden. Jeder Rahmen wird bei 101 × 101 Punkten über ein Gebiet von 1 m × 1 m (–0,5 m < x1 < 0,5 m, 0 < x2 < 1) berechnet. Die Positionen der Lautsprecher und der Mikrofone werden durch Kreise angedeutet. Werte größer als 1 sind weiß dargestellt, Werte kleiner als –1 sind schwarz gezeichnet. Werte zwischen –1 und 1 sind entsprechend schattiert gezeichnet.

10a stellt das Kreuzkopplungslöschungsprinzip dar, wenn &thgr; 60° beträgt. Es ist leicht, eine Folge von positiven Impulsen von dem rechten Lautsprecher zu identifizieren, und eine Folge negativer Impulse von dem linken Lautsprecher. Beide Impulsreihen werden mit der Ringfrequenz 1,9 kHz ausgesendet. Nur der erste Impuls, der von dem rechten Lautsprecher ausgesendet wird, wird tatsächlich von dem rechten Mikrofon "gesehen"; nachfolgende Impulse werden sowohl bei dem linken als auch dem rechten Mikrofon ausgelöscht. Jedoch werden viele "Kopien" des originalen Hanning-Impulses an anderen Stellen in dem Tonfeld gesehen, sogar sehr dicht an den beiden Mikrofonen, und so ist diese Aufstellung nicht sehr robust bezüglich der Kopfbewegung.

Wenn die Lautsprecherspanne auf 20° reduziert wird (10b), wird das reproduzierte Tonfeld einfacher. Der gewünschte Hanning-Impuls wird nun in Richtung des rechten Mikrofons "gestrahlt", und eine ähnliche "Linie von Kreuzkopplungslöschung" erstreckt sich durch die Position des linken Mikrofons. Die Ringfrequenz ist nun als eine Welligkeit hinter der Hauptwellenfront vorhanden.

Wenn die Lautsprecherspanne noch weiter auf 10° reduziert wird (10c), ist der Effekt der Ringfrequenz fast vollständig eliminiert, und so ist die einzige Störung, die an den meisten Stellen in dem Tonfeld zu sehen ist, eine einzige abgeschwächte und verzögerte Kopie des ursprünglichen Hanning-Impulses. Das deutet an, daß das Reduzieren der Lautsprecherspanne die Robustheit des Systems bezüglich der Kopfbewegung verbessert. Man beachte jedoch, daß sehr nahe zu den beiden Monopolquellen der große Niederfrequenzausgang beginnt, als ein Nahfeldeffekt zu sehen zu sein.

10d zeigt das Tonfeld, das durch eine Überlagerung einer Punktmonopol und Punktdipolquelle reproduziert wird. Diese Quellenkombination vermeidet das Ringen vollständig, und somit ist das reproduzierte Feld sehr "rein". In dem Fall von zwei Monopolen, die 10° aufspannen, enthält es auch eine Nahfeldkomponente, wie erwartet. Man beachte die Ähnlichkeit zwischen den Darstellungen in 10c und 10d. Das bedeutet, daß ein noch dichteres Zusammenbewegen der Lautsprecher keinen Unterschied zu dem reproduzieren Tonfeld machen wird.

Abschließend wird das reproduzierte Tonfeld ähnlich zu dem sein, das von einer Punktmonopol-Dipol-Kombination erzeugt wird, solange wie die höchste Frequenzkomponente in dem gewünschten Signal erheblich kleiner als die Ringfrequenz f0 ist. Die Ringfrequenz kann vergrößert werden, indem die Lautsprecherspanne &thgr; vermindert wird, aber wenn &thgr; zu klein ist, wird ein sehr großer Ausgang von den Lautsprechern notwendig, um eine genaue Kreuzkopplungslöschung bei niedrigen Frequenzen zu erreichen. In der Praxis ist eine Lautsprecherspanne von 10° ein guter Kompromiß.

Man beachte, daß, wenn &thgr; gegen Null reduziert wird, es gezeigt werden kann, daß die Lösung für das Tonfeld, das notwendig ist, um das gewünschte Ziel zu erreichen, genau die aufgrund einer Kombination einer Punktmonopol- und einer Punktdipolquelle ist.

In der Praxis wird der Kopf des Zuhörers das auftreffende Tonfeld modifizieren, insbesondere bei hohen Frequenzen, aber trotzdem werden die räumlichen Eigenschaften des reproduzierten Tonfelds bei niedrigen Frequenzen im wesentlichen die gleichen bleiben, wie oben beschrieben. Das wird in den 11a und 11b dargestellt, die äquivalent zu den 10a bzw. 10c sind. Die 10a und 10b zeigen das Tonfeld, das in der Nähe von einer festen Kugel durch ein Paar Lautsprecher reproduziert wird, deren Eingänge eingestellt sind, um eine perfekte Kreuzkopplungslöschung bei dem rechten Ohr "des Zuhörers" zu erreichen. Die Analyse, die eingesetzt wird, um das gestreute Tonfeld zu berechnen, nimmt an, daß die auftreffenden Wellenfronten eben sind. Das ist äquivalent dazu, anzunehmen, daß die beiden Lautsprecher sehr weit weg sind. Der Durchmesser der Kugel beträgt 18 cm, und das reproduzierte Tonfeld ist an 31 × 31 Punkten über einem 60 cm × 60 cm Quadrat berechnet. Das gewünschte Singal ist das gleiche wie das, das für das Freifeldbeispiel verwendet wurde; es ist ein Hanning-Impuls, dessen Hauptenergie unter 3 kHz konzentriert ist. 11a betrifft eine Lautsprecherspanne von 60°, wohingegen 11b eine Lautsprecherspanne von 10° betrifft. Um diese Ergebnisse zu berechnen, wurde ein Digitalfilter-Konstruktionsverfahren der unten beschriebenen Art eingesetzt.

Es ist im Prinzip eine einfache Aufgabe, eine virtuelle Quelle zu erzeugen, sobald es bekannt ist, wie ein Kreuzkopplungslöschungssystem zu berechnen ist. Das Kreuzkopplungslöschungsproblem für jedes Ohr wird gelöst, und dann werden die beiden Lösungen zusammenaddiert. In der Praxis ist es viel einfacher für die Lautsprecher, die Signale aufgrund einer virtuellen Quelle zu erzeugen, als eine perfekte Kreuzkopplungslöschung an einem Punkt zu erzielen.

Das Problem, virtuelle Quellen abzubilden, ist in 8a dargestellt. Wir stellen uns vor, daß eine Monopolquelle irgendwo in dem Zuhörerraum angeordnet ist. Die Übergangsfunktionen von dieser Quelle zu den Zuhörerohren sind von der selben Art wie C1 und C2, und sie werden mit A1 und A2 bezeichnet. Wie in dem Kreuzkopplungslöschungsfall ist es praktisch, die gewünschten Signale zu normalisieren, um die Kausalität der Quelleneingänge zu gewährleisten. Die gewünschten Signale werden daher als D1 = DC1A1/A2 und D2 = DC1 definiert. Man beachte, daß diese Definition annimmt, daß die virtuelle Quelle in der rechten Halbebene liegt (bei einer Position, für die x1 > 0 ist). Wie bei dem Kreuzkopplungslöschungsfall können die Quelleneingänge berechnet werden, indem Cv = d für v gelöst wird, und die Zeitdomänantwortverhalten können dann bestimmt werden, indem die inverse Fourier-Transformation gemacht wird. Das Ergebnis ist, daß jeder Quelleneingang nun die Faltung von D mit der Summe von zwei abfallenden Folgen von Deltafunktionen ist, einer positiven und einer negativen. Das ist nicht überraschend, weil die Quellen zwei positive Impulse und nicht nur einen zu reproduzieren haben. Somit erzeugt der "positive Teil" von &ngr;1(t) kombiniert mit dem "negativen Teil" von v2(t) den Impuls an dem linken Ohr des Zuhörers, wohingegen der "negative Teil" von v1(t) kombiniert mit dem "positiven Teil" von v2(t) den Impuls an dem rechten Ohr des Zuhörers erzeugt. Das wird in den 12a, 12b und 12c dargestellt. Man beachte wieder, daß, wenn &thgr; = 10°, die beiden Quelleneingänge nahezu gleich und entgegengesetzt sind.

Die Quelleneingänge

Die 11a usw. zeigen die Quelleneingänge, die äquivalent zu denen in 9a usw. bezeichneten sind (drei verschiedene Lautsprecherspannen &thgr;: 60°, 20° und 10°), aber für ein Abbildungssystem für virtuelle Quellen und nicht ein Kreuzkopplungslöschungssystem. Die virtuelle Quelle ist bei (1 m, 0 m) angeordnet, was bedeutet, daß sie in einem Winkel von 45° nach links relativ zu gerade nach vorne, wie es von dem Zuhörer gesehen ist, liegt. Wenn &thgr; 60° ist (12a), können sowohl die positiven als auch die negativen Impulsfolgen klar bei v1(t) und v2(t) gesehen werden. Wenn &thgr; auf 20° vermindert wird (12b), beginnen sich die positiven und negativen Impulsketten auszulöschen. Das wird noch klarer, wenn &thgr; 10° ist (12c). In diesem Fall sehen die beiden Quelleneingänge nahezu wie Rechteckimpulse von relativ kurzer Dauer aus (diese Dauer ist durch den Unterschied in der Ankunftszeit bei den Mikrofonen eines von der virtuellen Quelle ausgesendeten Impulses gegeben. Der Vorteil des Auslöschens der positiven und negativen Teile der Impulsfolgen besteht darin, daß es stark den niederfrequenten Anteil der Quelleneingänge vermindert, und daß ist der Grund, warum Abbildungssysteme für virtuelle Quellen in der Praxis viel leichter zu implementieren sind, als Kreuzkopplungslöschungssysteme.

Das reproduzierte Tonfeld

Die 13a, 13b, 13c und 13d zeigen weitere vier Sätze von neun "Schnappschüssen" des reproduzierten Tonfelds, die äquivalent zu denen durch die 10a usw. gezeigten sind, aber für eine virtuelle Quelle bei (1 m, 0 m) (angedeutet in der unteren rechten Ecke in jedem Rahmen) und nicht für ein Kreuzkopplungslöschungssystem. Wie in den 10a usw. zeigen die Darstellungen, wie das reproduzierte Tonfeld einfacher wird, wenn die Lautsprecherspanne reduziert wird. Bei der Grenze (13d) gibt es kein Ringen und nur zwei Impulse, die dem gewünschten Signal entsprechen, sind in dem Tonfeld zu sehen.

Die in den 13a usw. gezeigten Ergebnisse werden wieder durch Verwendung von Hanning-Impulsen erhalten, die einen Frequenzgehalt hauptsächlich unter 3 kHz aufweisen. Es ist aus diesen Simulationen klar, daß der Unterschied zwischen der wahren Ankuftszeit des Impulses bei den Ohren korrekt die Zeitdifferenz simuliert, die von der virtuellen Quelle erzeugt werden würde. Von dem Lokalisierungsmechanismus binauralen Hörens ist es gut bekannt, daß er stark von dem Unterschied in der Ankunftszeit von den Impulsen abhängig ist, die bei den beiden Ohren von einer Quelle in einer bestimmte Richtung erzeugt wurden, wobei das das dominante Hilfsmittel für die Lokalisierung niedrigfrequenter Quellen ist. Es ist klar, daß die Verwendung von zwei dicht beabstandeten Lautsprechern ein extrem effektiver Weg ist, zu gewährleisten, daß der Unterschied zwischen diesen Ankunftszeiten gut reproduziert wird. Bei hohen Frequenzen ist es jedoch von dem Lokalisierungsmechanismus bekannt, daß er mehr von dem Unterschied in der Intensität zwischen den beiden Ohren abhängt (obwohl Hüllenverschiebungen in Hochfrequenzsignalen detektiert werden können). Es ist somit wichtig, das Abschatten oder die Brechung des menschlichen Kopfes zu berücksichtigen, wenn man Abbildungssysteme für virtuelle Quellen in der Praxis implementiert.

Die Freifeld-Übergangsfunktionen, die durch die Gleichung (8) gegeben sind, sind für eine Analyse der grundlegenden Physik der Tonreproduktion brauchbar, aber sie sind natürlich nur Näherungen für die exakten Übergangsfunktionen von dem Lautsprecher zu den Trommelfellen des Zuhörers. Diese Übergangsfunktionen werden üblicherweise als HRTF's bezeichnet (kopfbezogene Übergangsfunktionen). Es gibt viele Wege, die man beschreiten kann, um eine realistische HRTF zu modellieren oder zu messen. Eine feste Kugel ist für diesen Zweck verwendbar, weil sie es ermöglicht, das Tonfeld in der Nähe des Kopfes numerisch zu berechnen. Jedoch trägt die nicht dem Einfluß der Ohren des Zuhörers und des Körpers auf die auftreffenden Tonwellen Rechnung. Stattdessen kann man Messungen verwenden, die an einem Dummy-Kopf oder einem menschlichen Subjekt gemacht wurden. Diese Messungen können oder können nicht das Antwortverhalten des Raums und der Lautsprecher enthalten. Ein weiterer wichtiger zu berücksichtigender Gesichtspunkt, wenn man versucht, eine realistische HRTF zu erhalten, ist der Abstand von der Quelle zu dem Zuhörer. Oberhalb eines Abstands von, sagen wir 1 m, wird sich die HRTF für eine bestimmte Richtung nicht wesentlich ändern, wenn man die Quelle weiter weg von dem Zuhörer bewegt (ohne Berücksichtigung der Skalierung und der Verzögerung). Somit würde man nur eine einzige HRTF oberhalb eines bestimmten "Fernfeld"-Schwellwerts benötigen. Wenn jedoch der Abstand von den Lautsprechern zu dem Zuhörer kurz ist (wie es der Fall ist, wenn man vor einem Computer sitzt), erscheint es vernünftig, anzunehmen, daß es besser sein würde, "abstandsabgeglichene" HRTF's als "Fernfeld"-HRTF's zu verwenden.

Es ist wichtig, zu realisieren, daß unabhängig davon, wie die HRTF's erhalten werden, die Mehrkanalanlage in der Praxis immer sogenannte Nicht-Minimum-Phasenkomponenten enthalten wird. Es ist gut bekannt, daß Nicht-Minimum-Phasenkomponenten nicht genau kompensiert werden können. Ein naiver Versuch, das zu machen, führt zu Filtern, deren Impulsantwortverhalten entweder nicht kausal oder instabil sind. Ein Weg, dieses Problem anzugehen und zu lösen, war es, einen Satz von Minimumphasenfiltern zu konstruieren, deren Magnitudenantwortverhalten die gleichen sind, wie solche von den gewünschten Signalen (siehe Cooper, US Patent Nr. 5,333,200). Jedoch können diese Minimumphasenfilter nicht das Phasenantwortverhalten der gewünschten Signale abgleichen, und folglich werden sich die Zeitantwortverhalten der reproduzierten Signale unausweichlich von den gewünschten Signalen unterscheiden. Das bedeutet, daß die Form von der gewünschten Wellenform, wie zum Beispiel einem Hanning-Impuls, durch die Minimumphasenfilter "verzerrt" sein wird.

Anstatt den Minimumpasen-Ansatz zu verwenden, setzt die vorliegende Erfindung einen Mehrkanalfilter-Designverfahren ein, das die Prinzipien der Näherung kleinster Quadrate und Vergleichmäßigung kombiniert (PCT/GB95/02005), wobei solche kausalen und stabilen Digitalfilter berechnet werden, die die Minimierung des quadratischen Fehlers gewährleisten, der in der Frequenzdomäne oder in der Zeitdomäne zwischen den gewünschten Ohrsignalen und den reproduzierten Ohrsignalen definiert ist. Dieser Filterdesign-Ansatz gewährleistet, daß die bei den Ohren des Zuhörers reproduzierten Signale die Wellenformen der gewünschten Signale gut replizieren. Bei niedrigen Frequenzen werden die Phasenunterschiede (Ankunftszeit), die für den Lokalisierungsmechanismus so wichtig sind, in einem relativ großen Bereich richtig reproduziert, der den Kopf des Zuhörers umgibt. Bei hohen Frequenzen werden die Unterschiede in der Intensität, die bei den Ohren des Zuhörers reproduziert werden muß, auch richtig reproduziert. Wie oben erwähnt, ist es, wenn man die Filter konstruieren will, besonders wichtig, die HRTF des Zuhörers aufzunehmen, weil diese HRTF insbesondere für die Bestimmung der Intensitätunterschiede zwischen den Ohren bei hohen Frequenzen wichtig ist.

Die Vergleichmäßigung wird verwendet, um das Problem der Schlecht-Konditionierung zu überwinden. Die Schlecht-Konditionierung wird verwendet, um das Problem zu beschreiben, das auftritt, wenn sehr große Ausgänge von den Lautsprechern notwendig sind, um die gewünschten Signale zu reproduzieren (wie es der Fall ist, wenn man versucht, eine perfekte Kreuzkopplungslöschung bei niedrigen Frequenzen unter Verwendung von zwei dicht beabstandeten Lautsprechern zu erreichen). Die Vergleichmäßigung funktioniert, indem man gewährleistet, daß bestimmte vorbestimmte Frequenzen nicht um ein übermäßiges Maß verstärkt werden. Eine Modellierverzögerungsvorrichtung kann eingesetzt werden, um es den Filtern zu ermöglichen, Nicht-Minimum-Phasenkomponenten der Multikanalanlage zu kompensieren (PCT/GB95/02005). Die Modellierverzögerung bewirkt, daß der Ausgang von den Filtern um eine kleine Menge verzögert wird, typischerweise um ein paar Millisekunden.

Das Ziel des Filterkonstruktionsverfahrens ist es, eine Matrix realisierbarer Digitalfilter zu bestimmen, die eingesetzt werden können, um entweder ein Kreuzkopplungslöschungssystem oder ein Abbildungssystem für virtuelle Quellen zu implementieren. Das Filterkonstruktionsverfahren kann entweder in der Zeitdomäne, der Frequenzdomäne oder als ein Zeit/Frequenzdomänen-Hybridverfahren implementiert werden. Bei einer gegebenen passenden Wahl von Modellierverzögerung und der Vergleichmäßigung können alle Implementierungen gemacht werden, um die gleichen optimalen Filter wiederzugeben.

Zeitdomänfilterkonstruktion

Zeitdomänfilterkonstruktionsverfahren sind insbesondere nützlich, wenn die Anzahl von Koeffizienten bei den optimalen Filtern relativ klein ist. Die optimalen Filter können entweder unter Verwendung eines iterativen Verfahrens oder durch ein direktes Verfahren gefunden werden. Das iterative Verfahren ist sehr effizient im Sinne des Speichergebrauchs, und es ist auch geeignet für Echtzeitimplementierung in der Hardware, aber es konvergiert relativ langsam. Das direkte Verfahren ermöglicht es einem, die optimalen Filter zu finden, indem ein lineares Gleichungssystem im Sinne der kleinsten Quadrate gelöst wird. Dieses Gleichungssystem ist von der Form

oder Cv = d, wobei C, v und d sind von der Form

Hier gilt

wobei c1(n) und c2(n) die Impulsantwortverhalten sind, die jeweils Nc Koeffizienten der elektroakkustischen Übergangsfunktionen von den Lautsprechern zu den Ohren des Zuhörers enthalten. Die Vektoren v1 und v2 stellen die Eingänge zu den Lautsprechern dar, folglich v1 = [&ngr;1(0) ... &ngr;1(Nv – 1)]T und v2 = [&ngr;2(0) ... &ngr;2(N&ngr; – 1)]T, wobei N&ngr; die Anzahl von Koeffizienten in jedem der beiden Impulsantwortverhalten ist. Ähnlich stellen die Vektoren d1 und d2 die Singale dar, die bei den Ohren des Zuhörers reproduziert werden müssen, folgich d1 = [d1(0) ... d1(Nc + N&ngr; – 2)]T und d2 = [d2(0) ... d2(Nc + N&ngr; – 2)]T. Der Modellierabfall wird aufgenommen, indem jedes der beiden Impulsantwortverhalten verzögert wird, die die rechte Seite von d um die selbe Menge von m Samples ausmachen. Die optimalen Filter v werden dann angegeben durch v = [CTC + &bgr;I]–1·CTd, wobei &bgr; ein Vergleichmäßigungsparameter ist.

Da ein langer FIR-Filter notwendig ist, um eine effiziente Kreuzkupplungslöschung bei niedrigen Frequenzen zu erreichen, ist dieses Verfahren eher zum Konstruieren von Filtern für das Abbilden virtueller Quellen geeignet. Wenn jedoch ein Einzelpunkt IIR-Filter aufgenommen wird, um die niedrigen Frequenzen zu verstärken, wird es praktikabel, die Zeitdomänverfahren auch zu verwenden, um Kreuzkopplungslöschungssysteme zu konstruieren. Ein IIR-Filter kann auch verwendet werden, um die gewünschten Signale zu modifizieren, und das kann eingesetzt werden, um zu verhindern, daß die optimalen Filter bestimmte Frequenzen übermäßig verstärken.

Frequenzdomänfilterdesign

Als eine Alternative zu dem Zeitdomänverfahren gibt es ein Frequenzdomänverfahren, das als "Schnellentfalten" bezeichnet wird (offenbart in PCT/GB95/02005). Es ist extrem schnell und sehr einfach zu implementieren, aber funktioniert nur gut, wenn die Anzahl von Koeffizienten bei den optimalen Filtern groß ist. Das Implementieren des Verfahrens ist in der Praxis einfach. Die Grundidee ist es, die Frequenzantwortverhalten von V1 und V2 zu berechnen, indem die Gleichung CV = D bei einer großen Anzahl von diskreten Frequenzen gelöst wird. Hier ist C eine Kompositmatrix, die das Frequenzantwortverhalten der elektroakkustischen Übergangsfunktionen enthält,

und V und D sind Kompositvektoren der Formel V = [V1 V2]T und D = [D1 D2]T, die die Frequenzantwortverhalten der Lautsprechereingänge beziehungsweise der gewünschten Signale enthalten. FFT'en werden eingesetzt, um in und aus der Frequenzdomäne zu kommen, und eine "zyklische Verschiebung" der inversen FFT'en von V1 und V2 wird verwendet, um eine Modellierverzögerung zu implementieren. Wenn eine FFT eingesetzt wird, um die Frequenzantwortverhalten von V1 und V2 bei Nv Punkten zu sampeln, sind ihre Werte bei solchen Frequenzen gegeben durch V(k) = [CH(k)C(k) + &bgr;I]–1CH(k)D(k), wobei &bgr; ein Vergleichmäßigungsparameter ist, H den hermitischen Operator bezeichnet, der sein Argument transponiert und konjugiert, und k der k'ten-Frequenzlinie entspricht; das ist die Frequenz, die der komplexen Zahl exp(j2&pgr;kINv) entspricht.

Um die Impulsantwortverhalten der optimalen Filter &ngr;1(n) und &ngr;2(n) für einen bestimmten Wert von &bgr; zu berechnen, sind die folgenden Schritte notwendig.

  • 1. Berechne C(k) und D(k), indem Nv-Punkt-FFT'en der Impulsantwortverhalten c1(n), c2(n), d1(n) und d2(n) gemacht werden.
  • 2. Berechne für jeden der Nv-Werte von k V(k) aus der gerade oben gezeigten Gleichung.
  • 3. Berechne v(n), indem die Nv-Punkt-Invers-FFT'en der Elemente von V(k) gemacht werden.
  • 4. Implementiere die Modellierverschiebung durch eine zyklische Verschiebung von m von jedem Element von v(n). Zum Beispiel, wenn die inverse FFT von V1(k) {3, 2, 1, 0, 0, 0, 0, 1} ist, dann ist v1(n) nach einer zyklischen Verschiebung von drei nach rechts {0, 0, 1, 3, 2, 1, 0, 0}.

Der exakte Wert von m ist nicht entscheidend; ein Wert von Nv/2 funktioniert wahrscheinlich bei allen außer ein paar Fällen gut. Es ist notwendig, den Verleichmäßigungsparameter &bgr; auf einen geeigneten Wert einzustellen, aber der genaue Wert von &bgr; ist überlicherweise nicht entscheidend und kann durch ein paar "try and error"-Versuche bestimmt werden.

Eine verwandte Filterkonstruktionstechnik verwendet das Einzelwertdekompositionsverfahren (SVD). Von SVD ist gut bekannt, daß es bei der Lösung von schlecht konditionierten Inversionsproblemen brauchbar ist, und es kann bei jeder Frequenz widerum angewendet werden.

Da der Schnellentfaltungs-Algorythmus die Vergleichmäßigung bei jeder Frequenz anwendet, ist es einfach, die Vergleichmäßigungsparameter als eine Funktion der Frequenz zu spezifizieren.

Hybrid-Zeit/Frequenz-Domänfilterkonstruktion

Da der schnelle Entfaltungsalgorythmus es praktikabel macht, die Frequenzantwortverhalten der optimalen Filter bei einer zufälligen großen Anzahl diskreter Frequenzen zu berechnen, ist es auch möglich, das Frequenzantwortverhalten der optimalen Filter als eine kontinuierliche Funktion der Frequenz zu spezifizieren. Ein Zeitdomänverfahren könnte dann eingesetzt werden, um die Frequenzantwortverhalten anzunähern. Das hat den Vorteil, daß ein frequenzabhängiges Leck in eine Matrix kurzer optimaler Filter aufgenommen werden könnte.

Charakteristiken der Filter

Um ein überzeugendes virtuelles Bild zu erzeugen, wenn die Lautsprecher dicht zusammen sind, müssen die Lautsprechereingänge sehr sorgfältig abgestimmt werden. Wie in 12 gezeigt, sind die beiden Eingänge fast gleich und entgegengesetzt; es ist hauptsächlich die sehr kleine Zeitdifferenz zwischen ihnen, die garantiert, daß die Ankunftszeiten des Tons bei den Ohren des Zuhörers korrekt sind. Im folgenden wird demonstriert, daß es für einen Bereich von virtuellen Quellenbilderpositionen weiterhin der Fall ist, selbst wenn der Zuhörerkopf unter Verwendung realistischer HRTF's modelliert wird.

Die 14 bis 20 vergleichen die beiden Eingänge &ngr;1 und &ngr;2 mit den Lautsprechern für sechs verschiedene Kombinationen von Lautsprecherspannen &thgr; und Positionen virtueller Quellen. Solche Kombinationen sind wie folgt. Für eine Lautsprecherspanne von 10°, a) ein Bild bei 15°, b) bei 30°, c) bei 45° und d) bei 60°. Für das Bild bei 45° e) eine Lautsprecherspanne von 20° und f) eine Spanne von 60°. Diese Information wird auch auf den individuellen Darstellungen angegeben. Die Bildposition wird gegen den Uhrzeigersinn relativ zu gerade nach vorne gemessen, was bedeutet, daß alle Bilder vorne links von dem Zuhörer sind, und daß sie alle außerhalb des Winkels liegen, der von den Lautsprechern aufgespannt wird. Das Bild von 15° ist das dichteste an der Vorderseite, das Bild bei 60° ist das am weitesten nach links liegende. Alle in den 14 bis 20 gezeigten Ergebnisse werden unter Verwendung kopfbezogener Übergangsfunktionen berechnet, die aus der an einem KEMAR-Dummy-Kopf von dem Medialab beim MIT gemessenen Datenbank entnommen wurden. Alle Zeitdomänsequenzen sind für eine Samplefrequenz von 44,1 kHz aufgezeichnet, und alle Frequenzantwortverhalten sind unter Verwendung einer linearen X-Achse aufgezeichnet, die den Frequenzbereich von 0 Hz bis 10 kHz abdeckt. 14 zeigt die Impulsantwortverhalten von v1(n) und v2(n). Jedes Impulsantwortverhalten enthält 128 Koeffizienten, und sie werden unter Verwendung eines Echtzeitdomänverfahrens berechnet. Da die Bandbreite sehr hoch ist, machen es die hohen Frequenzen schwierig, die Struktur der Antwortverhalten zu sehen, aber trotzdem ist es noch möglich, anzunehmen, daß v1(n) hauptsächlich positiv ist, wohingegen v2(n) hauptsächlich negativ ist.

15 zeigt die Magnitude auf einer linearen Skala der Frequenzantwortverhalten V1(f) und V2(f) der Impulsantwortverhalten, die in 14 gezeigt sind. Man kann sehen, daß die Magnitudenantwortverhalten für die 10° Lautsprecherspanne relativ ähnlich sind, und auch für die 20° Lautsprecherspanne. Ein relativ großer Ausgang ist von beiden Lautsprechern bei niedrigen Frequenzen erforderlich, aber die Antwortverhalten nehmen mit der Frequenzzunahme bis zu einer Frequenz von ungefähr 2 kHz glatt ab. Zwischen 2 kHz und 4 kHz sind die Antwortverhalten relativ glatt und relativ flach. Für die 60° Lautsprecherspanne dominiert Lautsprecher Nr. 1 über den gesamten Frequenzbereich.

16 zeigt das Verhältnis auf einer linearen Skala zwischen den Magnituden der Frequenzantwortverhalten, die in 15 gezeigt sind. Man kann sehen, daß für die 10° Lautsprecherspanne die beiden Magnituden um weniger als einen Faktor 2 bei fast allen Frequenzen unter 10 kHz differieren. Das Verhältnis zwischen den beiden Antwortverhalten ist insbesondere bei Frequenzen unter 2 kHz glatt, obwohl die beiden Lautsprechereingänge bei niedrigen Frequenzen moderat verstärkt sind.

17 zeigt die entfaltete Phasenantwort der Frequenzantwortverhalten, die in 15 gezeigt sind. Der Phasenbeitrag entspricht einer gemeinsamen Verzögerung, die von jedem der sechs Paare entfernt wurde (die sechs Verzögerungen sind bei Sampleintervallen a) 31, b) 29, c) 28, d) 27, e) 29 und f) 33). Der Zweck davon ist es, die sich ergebenden Antworten so flach wie möglich zu machen, wobei andernfalls jede Phasenantwort eine große negative Neigung haben würde, die es unmöglich macht, irgendein Detail in den Darstellungen zu sehen. Man kann sehen, daß die beiden Phasenantworten für die 10° Lautsprecherspanne fast flach sind, wohingegen die Phasenantworten, die den Lautsprecherspannen von 20° und 60° entsprechen (man beachte den Bereich der Y-Achse bei Darstellung f) deutlich unterschiedliche Neigungen aufweisen.

18 zeigt den Unterschied zwischen den in 17 gezeigten Phasenantworten. Man kann sehen, daß für die 10° Lautsprecherspanne der Unterschied innerhalb –pi und 0 liegt. Das bedeutet, daß die beiden Lautsprechereingänge bei keiner Frequenz unter 10 kHz bei einer Lautsprecherspanne &thgr; von 10° in Phase sind. Bei Frequenzen unter 8 kHz ist die Phasendifferenz zwischen den beiden Lautsprechereingängen wesentlich und ihr absoluter Wert ist immer größer als pi/4 (äquivalent zu 45°). Bei Frequenzen unter 100 Hz sind die beiden Lautsprechereingänge sehr nahe, um exakt außer Phase zu sein. Bei Frequenzen unter 2 kHz ist die Phasendifferenz zwischen –pi Radian und –pi + 1 Radian (äquivalent zu –180° und –120°), und bei Frequenzen unter 4 kHz ist die Phasendifferenz zwischen –pi und –pi + pi/2 (äquivalent zu –180° und –90°). Das ist nicht der Fall für die Lautsprecherspannen von 20° und 60°. Das bestätigt, daß die Eingänge zu dem Stereodipol fast aber nicht völlig über einen erheblichen Frequenzbereich außer Phase sein müssen, um virtuelle Quellenbilder außerhalb des von den Lautsprechern aufgespannten Winkels zu erzeugen. Wie oben erwähnt, wird, wenn die Frequenzantwortverhalten der beiden Lautsprecher im wesentlichen die gleichen sind, dann die Phasendifferenz zwischen den Vibrationen der Lautsprecher im wesentlichen die gleichen sein, wie die Phasendifferenz zwischen den Eingängen an den Lautsprechern.

Man beachte auch, daß die beiden Lautsprecher im wesentlichen in Phase miteinander vibrieren, wenn das gleiche Eingangssignal an jeden Lautsprecher angelegt wird.

Die Freifeldanalyse deutet darauf hin, daß die niedrigste Frequenz, bei der die beiden Lautsprechereingänge in Phase sind, die "Ring"-Frequenz ist. Wie oben für die drei Lautsprecherspannen 60°, 20° und 10° gezeigt, betragen die Ringfrequenzen 1,8 kHz, 5,4 kHz bzw. 10,8 kHz, und das ist in guter Übereinstimmung mit den Frequenzen, bei denen der erste Nulldurchgang in 18 passiert. Man beachte, daß die beiden Lautsprechereingänge immer bei der Frequenz 0 Hz exakt außer Phase sind. Man beachte auch, daß eine exakte Übereinstimmung der Phasenantworten weiterhin bei hohen Frequenzen wichtig ist, obwohl der menschliche Lokalisierungsmechanismus nicht für Zeitunterschiede bei hohen Frequenzen empfindlich ist. Das ist der Fall, weil es die Interferenz des von jedem der beiden Lautsprecher emittierten Tons ist, der garantiert, daß die Amplituden, die bei den Ohren des Zuhörers reproduziert werden, korrekt sind. Für einige Anwendungen kann es wünschenswert sein, die beiden Lautsprechereingänge innerhalb eines begrenzten Frequenzbereichs in Phase zu zwingen. Dieses könnte zum Beispiel implementiert werden, um die moderate Verstärkung bei niedrigen Frequenzen zu vermeiden (eine ähnliche Technik wurde eingesetzt, um sehr niedrige Frequenzen in Phase zu zwingen, wenn man Master für Vinylaufzeichnungen schneidet), oder, um eine Färbung des reproduzierten Tons bei sehr hohen Frequenzen zu verhindern, wobei der "süße Punkt" sowieso gebunden ist, sehr klein zu sein. Wenn die Phasenantwort nicht richtig in einem bestimmten Frequenzbereich abgestimmt ist, wird die Illusion des virtuellen Quellenbilds für Signale zusammenbrechen, deren Hauptenergie in diesem Frequenzbereich konzentriert ist, wie zum Beispiel ein Tonsignal des dritten Oktavenbands. Jedoch kann für Signale des Übergangscharakters die Illusion weiterhin funktionieren, solange die Phasenantwort über einen wesentlichen Frequenzbereich richtig abgestimmt ist.

Es ist klar, daß der Unterschied in den Phasenantworten, der hier erwähnt wird, zu ähnlichen Unterschieden in den Vibrationen der Lautsprecher führen wird. Somit werden zum Beispiel die Lautsprechervibrationen nahezu 180° außer Phase bei niedrigen Frequenzen sein (zum Beispiel weniger als 2 kHz, wenn eine Lautsprecherspanne von ungefähr 10° verwendet wird).

19 zeigt v1(n) und –v2(n) in dem Fall, wenn die gewünschte Wellenform ein Hanning-Impuls ist, dessen Bandbreite ungefähr 3 kHz beträgt (der gleiche wie der, der für die Freifeldanalyse verwendet wurde, siehe 12 und 13). v2(n) wird invertiert, um zu zeigen, wie ähnlich es zu v1(n) ist. Es ist der kleine Unterschied zwischen den beiden Impulsen, der gewährleistet, daß die Ankunftszeiten des Tons bei dem Ohr des Zuhörers richtig sind. Man beachte, wie gut die in 19 gezeigten Ergebnisse mit den Ergebnissen übereinstimmen, die in 12 gezeigt sind (19c entspricht 12c, 19e 12b und 19f 12a).

20 zeigt den Unterschied zwischen den Impulsantwortverhalten, die in 19 dargestellt sind. Da &ngr;2(n) in 19 invertiert ist, ist dieser Unterschied die Summe von &ngr;1(n) und &ngr;2(n). Man kann sehen, daß es für die 10° Lautsprecherspanne die kleine Zeitdifferenz zwischen dem Anfang der beiden Impulse ist, der am meisten zu dem Summensignal beiträgt.

Um ein Kreuzkopplungslöschungssystem zu implementieren, das zwei dicht beabstandete Lautsprecher verwendet, ist es wichtig, daß die eingesetzten Filter gut abgeglichen sind, sowohl in der Phase als auch in der Amplitude. Da der direkte Weg mehr und mehr ähnlich zu dem Kreuzkopplungsweg wird, wenn die Lautsprecher dichter und dichter zusammenbewegt werden, gibt es mehr Kreuzkopplung, die auszulöschen ist, wenn die Lautsprecher dichter zusammen sind, als wenn sie relativ weit entfernt sind.

Die Wichtigkeit, die Kreuzkopplungslöschungsfilter sehr genau zu spezifizieren, wird nun durch Betrachten der Eigenschaften eines Satzes von Filtern demonstriert, die unter Verwendung eines Frequenzdomänverfahrens berechnet wurden. Jeder Filter enthält 1024 Koeffizienten, und die kopfbezogenen Übergangsfunktionen werden aus der MIT-Datenbank entnommen. Das Diagonalelement von H ist mit h1 bezeichnet, und das Außerdiagonalelement ist mit h2 bezeichnet.

21 zeigt die Magnituden- und Phasenantwort der beiden Filter H1(f) und H2(f). 21a zeigt ihre Magnitudenantworten, und 21b zeigt den Unterschied zwischen den beiden. 21c zeigt ihre entfalteten Phasenantworten (nach dem Entfernen einer gemeinsamen Verzögerung, die 224 Samples entspricht), und 21d zeigt den Unterschied zwischen den beiden. Man kann sehen, daß der dynamische Bereich von H1(f) und H2(f) ungefähr 35 dB beträgt, aber trotzdem ist der Unterschied zwischen den beiden relativ klein (innerhalb 5 dB bei Frequenzen unter 8 kHz). Wie beim Abbilden virtueller Quellen unter Verwendung der 10° Lautsprecherspanne sind die beiden Filter nicht bei jeder Frequenz unter 10 kHz in Phase, und für Frequenzen unter 8 kHz ist der absolute Wert der Phasendifferenz immer größer als pi/4 Radian (äquivalent zu 45°).

22 zeigt das Hanning-Impuls-Antwortverhalten der beiden Filter (a) und ihre Summe (b). Es ist klar, daß die beiden Impulsantwortverhalten extrem nahe daran sind, exakt gleich und entgegengesetzt zu sein. Wenn somit H1(f) und H2(f) nicht exakt gemäß ihrer Spezifikation implementiert werden, ist es wahrscheinlich, daß die Leistungsfähigkeit des Systems in der Praxis erheblich leidet.

Wie es wichtig ist, daß die beiden Eingänge zu dem Stereodipol genau abgeglichen sind, ist es bemerkenswert, wie robust den Stereodipol bezüglich der Kopfbewegung ist. Das wird in den 23 und 24 dargestellt. Die an dem linken Ohr (w1(n), durchgezogene Linie, linke Spalte) und dem rechten Ohr (w2(n), durchgezogene Linie, rechte Spalte) reproduzierten Signale werden mit den gewünschten Signalen d1(n) und d2(n) (gestrichelte Linien) verglichen, wenn der Zuhörerkopf 5 cm nach links verschoben ist (23) und 5 cm nach rechts (24). Die gewünschte Wellenform ist ein Hanning-Impuls, dessen Hauptenergie unter 3 kHz konzentriert ist, und das Bild der virtuellen Quelle ist bei 45° relativ zu geradeaus. Die kopfbezogenen Übergangsfunktionen werden aus der MIT-Datenbank entnommen, und die Lautsprechereingänge sind daher identisch zu den in 19c dargestellten (man beachte, daß v2(n) in dieser Figur invertiert ist).

23 zeigt die bei den Ohren des Zuhörers reproduzierten Signale, wenn der Kopf um 5 cm unmittelbar nach links verschoben ist (in Richtung der virtuellen Quelle, siehe 5). Man kann sehen, daß die Leistungsfähigkeit der 10° Lautsprecherspanne nicht merklich beeinflußt wird, wohingegen die bei den Ohren des Zuhörers reproduzierten Signale von einer Lautsprecheranordnung, die 60° aufspannt, nicht ganz die gleichen wie die gewünschten Signale sind.

24 zeigt die bei den Ohren des Zuhörers reproduzierten Signale, wenn der Kopf um 5 cm unmittelbar nach rechts verschoben ist (weg von der virtuellen Quelle). Das bewirkt eine erheblich Verschlechterung der Leistungsfähigkeit einer Lautsprecheranordnung, die 60° aufspannt, obwohl die virtuelle Quelle ziemlich dicht an dem linken Lautsprecher ist. Das von der 10° Lautsprecherspanne erzeugte Bild wird jedoch nicht merklich von der Verschiebung des Kopfes beeinflußt.

Der Stereodipol kann auch verwendet werden, um Fünfkanalaufzeichnungen zu übertragen. Somit können geeignet konstruierte Filter verwendet werden, um virtuelle Lautsprecherpositionen sowohl vor als auch hinter dem Zuhörer anzuordnen. Derartige virtuelle Lautsprecher würden äquivalent zu solchen sein, die normalerweise verwendet werden, um die fünf Kanäle der Aufzeichnung auszusenden.

Wenn es wichtig ist, überzeugende virtuelle Bilder hinter dem Zuhörer zu erzeugen, kann ein zweiter Stereodipol unmittelbar hinter dem Zuhörer angeordnet werden. Ein zweiter hinterer Dipol könnte zum Beispiel verwendet werden, um zwei hintere Surround-Lautsprecher zu implementieren. Es ist auch denkbar, daß zwei dicht beabstandete Lautsprecher, wobei einer auf dem anderen angeordnet ist, die empfundene Qualität virtueller Bilder außerhalb der horizontalen Ebene stark verbessern könnten. Eine Kombination von mehreren Stereodipolen könnte auch verwendet werden, um einen vollständigen 3D-Surround-Ton zu erzielen.

Wenn verschiedene Stereodipole verwendet werden, um für verschiedene Zuhörer zu sorgen, kann die Kreuzkopplung zwischen den Stereodipolen für das Verwenden digitaler Filterkonstruktionstechniken der oben beschriebenen Art kompensiert werden. Derartige Systeme können eingesetzt werden, zum Beispiel in Unterhaltungssystem im Fahrzeug und von Telekonferenzsystemen.

Eine Tonaufzeichnung zum anschließenden Abspielen über ein dicht beabstandetes Paar von Lautsprechern kann hergestellt werden, indem die Ausgangssignale von den Filtern eines Systems gemäß der vorliegenden Erfindung aufgezeichnet werden. Mit Bezug auf 1(a) würden zum Beispiel Ausgangssignale v1 und v2 aufgezeichnet werden, und die Aufzeichnungen anschließend auf einem dicht beabstandeten Paar von Lautsprechern abgespielt werden, das zum Beispiel in einem persönlichen Abspieler eingebaut ist.

Wie hier verwendet, wird der Ausdruck "Stereodipol" verwendet, um die vorliegende Erfindung zu beschreiben, "Monopol" wird verwendet, um eine idealisierte akkustische Quelle einer fluktuierenden Volumengeschwindigkeit in einem Punkt im Raum zu beschreiben, und "Dipol" wird verwendet, um eine idealisierte akkustische Quelle fluktuierender Kraft zu beschreiben, die an dem Medium an einem Punkt im Raum anliegt.

Die Verwendung digitaler Filter durch die vorliegende Erfindung bevorzugt man, weil sie eine viel genauere Wiedergabe von Tonsignalen ergibt, obwohl es für den Fachmann auf dem Gebiet möglich sein sollte, analoge Filter mit ungefähr den Charakteristiken der digitalen Filter zu implementieren, die hier offenbart sind.

Obwohl es hier nicht offenbart ist, wird die Verwendung analoger Filter anstelle digitaler Filter als möglich erachtet, aber von einem derartigen Ersatz erwartet man, daß er zu einer schlechteren Wiedergabe führt.

Mehr als zwei Lautsprecher können verwendet werden, wie es ein einziger Tonkanaleingang sein kann (wie in 8(a) und 8(b)).

Obwohl es hier nicht offenbart ist, ist es auch möglich, Transducer-Vorrichtungen als Ersatz für herkömmliche sich bewegende Spulenlautsprecher zu verwenden. Zum Beispiel könnten piezoelektrische oder piezokeramische Aktoren bei Ausführungen der Erfindung verwendet werden, insbesondere wenn kleine Transducer wegen der Kompaktheit erforderlich sind.

Wo es wünschenswert und wo es möglich ist, können irgendwelche der Merkmale oder Anordnungen, die hier offenbart sind, zu anderen Merkmalen oder Anordnungen zugefügt oder dagegen ersetzt werden.


Anspruch[de]
  1. Tonwiedergabesystem (1) mit Lautsprechermitteln (2) und Lautsprecher-Treibermitteln (3) zum Treiben der Lautsprechermittel in Reaktion auf Signale von zumindest einem Tonkanal, wobei die Lautsprechermittel ein dicht beabstandetes Paar von Lautsprechern umfaßt, wobei die Lautsprecher-Treibermittel Filtermittel (H1(z), H2(z)) umfassen, wobei die Filtermittel zumindest ein Paar von Filtern umfassen, wobei der Ausgang von einem Filter (H1(z)) des Paars von Filtern auf einen Lautsprecher (2) des Paars von Lautsprechern angewendet wird, wobei der Ausgang des anderen Filters (H2(z)) des Paars von Filtern auf den anderen Lautsprecher des Paars von Lautsprechern angewendet wird, wobei die Charakteristiken der Filtermittel derart gewählt werden, daß sie virtuelle Bilder von Tonquellen erzeugen, die mit dem Tonkanal/den Tonkanälen (4) an virtuellen Quellenpositionen im Zusammenhang stehen, die in einer bestimmten Zuhörerposition (8) einen Winkel aufspannen, der wesentlich größer als der Winkel (&thgr;) ist, der von den Lautsprechern aufgespannt wird, dadurch gekennzeichnet, daß die Lautsprecher mit der Zuhörerposition (8) einen spitzen Winkel (&thgr;) zwischen einschließlich 6° und 20° definieren, und daß die Ausgänge (V1, V2) des Paars von Filtern zu einer Phasendifferenz zwischen den Vibrationen der beiden Lautsprecher (2) führen, wobei sich die Phasendifferenz mit der Frequenz von niedrigen Frequenzen, wo die Vibrationen im wesentlichen außer Phase sind, zu hohen Frequenzen verändert, wo die Vibrationen in Phase sind, wobei die niedrigste Frequenz, bei der die Vibrationen in Phase sind, näherungsweise durch eine Abklingfrequenz f0 festgelegt wird, die definiert ist durch f0 = 1/2&tgr; wobei
    wobei r2 und r1 die Weglängen von einem Lautsprecherzentrum zu den jeweiligen Ohrpositionen eines Zuhörers in der Zuhörerposition sind, und c0 die Schallgeschwindigkeit ist, wobei die Abklingfrequenz f0 zumindest 5,4 kHz beträgt.
  2. Tonwiedergabesystem nach Anspruch 1, bei dem der spitze Winkel (&thgr;) zwischen einschließlich 8° und 12° beträgt.
  3. Tonwiedergabesystem nach Anspruch 2, bei dem der spitze Winkel (&thgr;) ungefähr 10° beträgt.
  4. Tonwiedergabesystem nach Anspruch 3, bei dem die Filtermittel derart angeordnet sind, daß die Reproduktion gewünschter, mit einer virtuellen Quelle im Zusammenhang stehender Signale in dem Bereich der Zuhörerohren bis zu ungefähr 4 kHz effizient ist, selbst wenn sich der Zuhörerkopf (6) von der vorbestimmten Zuhörerposition (8) 10 cm zur Seite bewegt.
  5. Tonwiedergabesystem nach Anspruch 1, bei dem der Außer-Phase-Frequenzbereich den Bereich von 100 Hz bis 4 kHz umfaßt.
  6. Tonwiedergabesystem nach einem der vorhergehenden Ansprüche, bei dem die beiden Lautsprecher im wesentlichen miteinander in Phase vibrieren, wenn das gleiche Eingangssignal (V1, V2) an jeden Lautsprecher angelegt wird.
  7. Tonwiedergabesystem nach Anspruch 6, bei dem die Eingangssignale zu den beiden Lautsprechern über einen Frequenzbereich von 100 Hz bis 4 kHz niemals in Phase sind.
  8. Tonwiedergabesystem nach einem der vorhergehenden Ansprüche, bei dem die Filtermittel durch Einsatz einer Annäherung kleinster Quadrate entworfen werden.
  9. Tonwiedergabesystem nach Anspruch 8, bei dem eine wesentliche Minimierung des quadratischen Fehlers zwischen gewünschten Ohrsignalen und reproduzierten Ohrsignalen derart geschieht, daß die bei den Zuhörerohren reproduzierten Signale im wesentlichen die Wellenformen der gewünschten Signale nachbilden.
  10. Tonwiedergabesystem nach einem der vorhergehenden Ansprüche, bei dem die Filtermittel mit kopfbezogenen Übergangsfunktionsmitteln (HRTF) ausgestattet sind.
  11. Tonwiedergabesystem nach Anspruch 10, bei dem die kopfbezogenen Übergangsfunktionen durch die Verwendung einer Matrix von Filtern nachgebildet werden.
  12. Tonwiedergabesystem nach einem der vorhergehenden Ansprüche, ausgestattet mit Reguliermitteln, die betriebsfähig sind, um das Verstärken bestimmter Signalfrequenzen zu begrenzen.
  13. Tonwiedergabesystem nach einem der vorhergehenden Ansprüche, ausgestattet mit Modellierverzögerungsmitteln.
  14. Tonwiedergabesystem nach einem der vorhergehenden Ansprüche, bei dem der Abstand &Dgr;S zwischen den Zentren der Lautsprecher nicht mehr als ungefähr 45 cm beträgt.
  15. Tonwiedergabesystem nach einem der vorhergehenden Ansprüche, bei dem die optimale Position zum Zuhören bei einer Kopfposition (8) ist, die in einem Abstand (r0) von zwischen 0,2 m und 4,0 m von den Lautsprechern liegt.
  16. Tonwiedergabesystem nach Anspruch 15, bei dem die Kopfposition in einem Abstand (r0) von zwischen 0,2 m und 1,0 m von den Lautsprechern liegt.
  17. Tonwiedergabesystem nach Anspruch 15, bei dem die Kopfposition ungefähr 2,0 m von den Lautsprechern entfernt liegt.
  18. Tonwiedergabesystem nach einem der vorhergehenden Ansprüche, bei dem die Lautsprecherzentren im wesentlichen parallel zueinander angeordnet sind.
  19. Tonwiedergabesystem nach einem der Ansprüche 1 bis 17, bei dem die Achsen der Lautsprecherzentren auf eine konvergente Weise zueinander geneigt sind.
  20. Tonwiedergabesystem nach einem der vorhergehenden Ansprüche, bei dem die Lautsprecher (2) in einem einzigen Gehäuse (7) aufgenommen sind.
  21. Tonwiedergabesystem nach einem der vorhergehenden Ansprüche, bei dem die Filtermittel zwei Paare von Filtern umfassen, wobei jeder von ihnen auf einem Kanal einer Zweikanalstereoaufzeichnung betrieben wird.
  22. Tonwiedergabesystem nach einem der vorhergehenden Ansprüche, bei dem die Lautsprecher-Treibermittel für die Kanäle einer konventionellen Tonaufzeichnung ansprechempfindlich sind.
  23. Filtermittel (H), ausgelegt, um bei den Lautsprecher-Treibermitteln eines Tonwiedergabesystems nach einem der vorhergehenden Ansprüche einsetzbar zu sein.
  24. Verfahren zum Erzeugen einer Tonaufzeichnung zum Abspielen über ein dicht beabstandetes Paar von Lautsprechern (2), die mit einer bestimmten Zuhörerposition (8) einen spitzen Winkel (&thgr;) von zwischen einschließlich 6° und 20° definieren, unter Verwendung von Stereoverstärkern, wobei Filtermittel (H) beim Erzeugen der Tonaufzeichnung von Tonsignalen eingesetzt werden, die ansonsten zum Abspielen unter Verwendung von Stereoverstärkern über ein Paar von Lautsprechern geeignet sind, die einen Winkel bei der beabsichtigten Zuhörerposition (8) aufspannen, der wesentlich größer als 20° ist, wodurch die Notwendigkeit vermieden wird, virtuelle Abbildungsfiltermittel bei den Eingängen der Lautsprecher vorzusehen, um virtuelle Tonquellen zu erzeugen, wobei die Filtermittel (H), die beim Erzeugen der Tonaufzeichnungen eingesetzt werden, die gleichen Charakteristiken wie die Filtermittel von Anspruch 23 aufweisen.
Es folgen 32 Blatt Zeichnungen






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche


Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com