PatentDe  


Dokumentenidentifikation DE10321980B4 06.10.2005
Titel Vorrichtung und Verfahren zum Berechnen eines diskreten Werts einer Komponente in einem Lautsprechersignal
Anmelder Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V., 80686 München, DE
Erfinder Röder, Thomas, Dipl.-Ing., 99102 Rockhausen, DE;
Sporer, Thomas, Dr.-Ing., 90766 Fürth, DE;
Brix, Sandra, Dr.-Ing., 98693 Ilmenau, DE
Vertreter Schoppe, Zimmermann, Stöckeler & Zinkler, 82049 Pullach
DE-Anmeldedatum 15.05.2003
DE-Aktenzeichen 10321980
Offenlegungstag 09.12.2004
Veröffentlichungstag der Patenterteilung 06.10.2005
Veröffentlichungstag im Patentblatt 06.10.2005
IPC-Hauptklasse H04S 1/00

Beschreibung[de]

Die vorliegende Erfindung bezieht sich auf Wellenfeldsynthesesysteme und insbesondere auf Wellenfeldsynthesesysteme, die bewegte virtuelle Quellen erlauben.

Es besteht ein steigender Bedarf an neuen Technologien und innovativen Produkten im Bereich der Unterhaltungselektronik. Dabei ist es eine wichtige Voraussetzung für den Erfolg neuer multimedialer Systeme, optimale Funktionalitäten bzw. Fähigkeiten anzubieten. Erreicht wird das durch den Einsatz digitaler Technologien und insbesondere der Computertechnik. Beispiele hierfür sind die Applikationen, die einen verbesserten realitätsnahen audiovisuellen Eindruck bieten. Bei bisherigen Audiosystemen liegt ein wesentlicher Schwachpunkt in der Qualität der räumlichen Schallwiedergabe von natürlichen, aber auch von virtuellen Umgebungen.

Verfahren zur mehrkanaligen Lautsprecherwiedergabe von Audiosignalen sind seit vielen Jahren bekannt und standardisiert. Alle üblichen Techniken besitzen den Nachteil, dass sowohl der Aufstellungsort der Lautsprecher als auch die Position des Hörers dem Übertragungsformat bereits eingeprägt sind. Bei falscher Anordnung der Lautsprecher im Bezug auf den Hörer leidet die Audioqualität deutlich. Ein optimaler Klang ist nur in einem kleinen Bereich des Wiedergaberaums, dem so genannten Sweet Spot, möglich.

Ein besserer natürlicher Raumeindruck sowie eine stärkere Einhüllung bei der Audiowiedergabe kann mit Hilfe einer neuen Technologie erreicht werden. Die Grundlagen dieser Technologie, die so genannte Wellenfeldsynthese (WFS; WFS = Wave-Field Synthesis), wurden an der TU Delft erforscht und erstmals in den späten 80er-Jahren vorgestellt (Berkhout, A.J.; de Vries, D.; Vogel, P.: Acoustic control by Wavefield Synthesis. JASA 93, 1993).

Infolge der enormen Anforderungen dieser Methode an Rechnerleistung und Übertragungsraten wurde die Wellenfeldsynthese bis jetzt nur selten in der Praxis angewendet. Erst die Fortschritte in den Bereichen der Mikroprozessortechnik und der Audiocodierung gestatten heute den Einsatz dieser Technologie in konkreten Anwendungen. Erste Produkte im professionellen Bereich werden nächstes Jahr erwartet. In wenigen Jahren sollen auch erste Wellenfeldsynthese-Anwendungen für den Konsumerbereich auf den Markt kommen.

Die Grundidee von WFS basiert auf der Anwendung des Huygens'schen Prinzips der Wellentheorie:

Jeder Punkt, der von einer Welle erfasst wird, ist Ausgangspunkt einer Elementarwelle, die sich kugelförmig bzw. kreisförmig ausbreitet.

Angewandt auf die Akustik kann durch eine große Anzahl von Lautsprechern, die nebeneinander angeordnet sind (einem so genannten Lautsprecherarray), jede beliebige Form einer einlaufenden Wellenfront nachgebildet werden. Im einfachsten Fall, einer einzelnen wiederzugebenden Punktquelle und einer linearen Anordnung der Lautsprecher, müssen die Audiosignale eines jeden Lautsprechers mit einer Zeitverzögerung und Amplitudenskalierung so gespeist werden, dass sich die abgestrahlten Klangfelder der einzelnen Lautsprecher richtig überlagern. Bei mehreren Schallquellen wird für jede Quelle der Beitrag zu jedem Lautsprecher getrennt berechnet und die resultierenden Signale addiert. In einem virtuellen Raum mit reflektierenden Wänden können auch Reflexionen als zusätzliche Quellen über das Lautsprecherarray wiedergegeben werden. Der Aufwand bei der Berechnung hängt daher stark von der Anzahl der Schallquellen, den Reflexionseigenschaften des Aufnahmeraums und der Anzahl der Lautsprecher ab.

Der Vorteil dieser Technik liegt im Besonderen darin, dass ein natürlicher räumlicher Klangeindruck über einen großen Bereich des Wiedergaberaums möglich ist. Im Gegensatz zu den bekannten Techniken werden Richtung und Entfernung von Schallquellen sehr exakt wiedergegeben. In beschränktem Maße können virtuelle Schallquellen sogar zwischen dem realen Lautsprecherarray und dem Hörer positioniert werden.

Obgleich die Wellenfeldsynthese für Umgebungen gut funktioniert, deren Beschaffenheiten bekannt sind, treten doch Unregelmäßigkeiten auf, wenn sich die Beschaffenheit ändert bzw. wenn die Wellenfeldsynthese auf der Basis einer Umgebungsbeschaffenheit ausgeführt wird, die nicht mit der tatsächlichen Beschaffenheit der Umgebung übereinstimmt.

Die Technik der Wellenfeldsynthese kann jedoch ebenfalls vorteilhaft eingesetzt werden, um eine visuelle Wahrnehmung um eine entsprechende räumliche Audiowahrnehmung zu ergänzen. Bisher stand bei der Produktion in virtuellen Studios die Vermittlung eines authentischen visuellen Eindrucks der virtuellen Szene im Vordergrund. Der zum Bild passende akustische Eindruck wird in der Regel durch manuelle Arbeitsschritte in der sogenannten Postproduktion nachträglich dem Audiosignal aufgeprägt oder als zu aufwendig und zeitintensiv in der Realisierung eingestuft und daher vernachlässigt. Dadurch kommt es üblicherweise zu einem Widerspruch der einzelnen Sinnesempfindungen, der dazu führt, daß der entworfene Raum, d. h. die entworfene Szene, als weniger authentisch empfunden wird.

In der Fachveröffentlichung „Subjective experiments on the effects of combining spatialized audio and 2D video projection in audio-visual systems", W. de Bruijn und M. Boone, AES convention paper 5582, 10. bis 13. Mai 2002, München, werden subjektive Experimente bezüglich der Auswirkungen des Kombinierens von räumlichem Audio und einer zweidimensionalen Videoprojektion in audiovisuellen Systemen dargestellt. Insbesondere wird hervorgehoben, daß zwei in einer unterschiedlichen Entfernung zu einer Kamera stehende Sprecher, die nahezu hintereinander stehen, von einem Betrachter besser verstanden werden können, wenn mit Hilfe der Wellenfeldsynthese die zwei hintereinander stehenden Personen als unterschiedliche virtuelle Schallquellen aufgefaßt und rekonstruiert werden. In diesem Fall hat sich durch subjektive Tests herausgestellt, daß ein Zuhörer die beiden gleichzeitig sprechenden Sprecher getrennt voneinander besser verstehen und unterscheiden kann.

In einem Tagungsbeitrag zum 46. internationalen wissenschaftlichen Kolloquium in Ilmenau vom 24. bis 27. September 2001 mit dem Titel „Automatisierte Anpassung der Akustik an virtuelle Räume", U. Reiter, F. Melchior und C. Seidel, wird ein Ansatz vorgestellt, Tonnachbearbeitungsprozesse zu automatisieren. Hierzu werden die für die Visualisierung notwendigen Parameter eines Film-Sets, wie z. B. Raumgröße, Textur der Oberflächen oder Kameraposition und Position der Akteure auf ihre akustische Relevanz hin überprüft, woraufhin entsprechende Steuerdaten generiert werden. Diese beeinflussen dann automatisiert die zur Postproduktion eingesetzten Effekt- und Nachbearbeitungsprozesse, wie z. B. die Anpassung der Sprecherlautstärkenabhängigkeit von der Entfernung zur Kamera oder die Nachhallzeit in Abhängigkeit von Raumgröße und Wandbeschaffenheit. Hierbei besteht das Ziel darin, den visuellen Eindruck einer virtuellen Szene für eine gesteigerte Realitätsempfindung zu verstärken.

Es soll ein „Hören mit den Ohren der Kamera" ermöglicht werden, um eine Szene echter erscheinen zu lassen. Hierbei wird eine möglichst hohe Korrelation zwischen Schallereignisort im Bild und Hörereignisort im Surroundfeld angestrebt. Das bedeutet, daß Schallquellenpositionen ständig einem Bild angepaßt sein sollen. Kameraparameter, wie z. B.

Zoom, sollen in die Tongestaltung ebenso mit einbezogen werden wie eine Position von zwei Lautsprechern L und R. Hierzu werden Trackingdaten eines virtuellen Studios zusammen mit einem zugehörigen Timecode vom System in eine Datei geschrieben. Gleichzeitig werden Bild, Ton und Timecode auf einer MAZ aufgezeichnet. Das Camdump-File wird zu einem Computer übertragen, der daraus Steuerdaten für eine Audioworkstation geniert und synchron zum von der MAZ stammenden Bild über eine MIDI-Schnittstelle ausgibt. Die eigentliche Audiobearbeitung wie Positionierung der Schallquelle im Surroundfeld und Einfügen von frühen Reflexionen und Nachhall findet innerhalb der Audioworkstation statt. Das Signal wird für ein 5.1-Surround-Lautsprechersystem aufbereitet.

Kamera-Tracking-Parameter genauso wie Positionen von Schallquellen im Aufnahme-Setting können bei realen Film-Sets aufgezeichnet werden. Solche Daten können auch in virtuellen Studios erzeugt werden.

In einem virtuellen Studio steht ein Schauspieler oder Moderator allein in einem Aufnahmeraum. Insbesondere steht er vor einer blauen Wand, die auch als Blue-Box oder Blue-Panel bezeichnet wird. Auf diese Blauwand ist ein Muster aus blauen und hellblauen Streifen aufgebracht. Das besondere an diesem Muster ist, daß die Streifen unterschiedlich breit sind und sich somit eine Vielzahl von Streifen-Kombinationen ergeben. Aufgrund der einmaligen Streifen-Kombinationen auf der Blauwand ist es bei der Nachbearbeitung, wenn die Blauwand durch einen virtuellen Hintergrund ersetzt wird, möglich, genau zu bestimmen, in welche Richtung die Kamera blickt. Mit Hilfe dieser Informationen kann der Rechner den Hintergrund für den aktuellen Kamerablickwinkel ermitteln. Ferner werden Sensoren an der Kamera ausgewertet, die zusätzliche Kameraparameter erfassen und ausgeben. Typische Parameter einer Kamera, die mittels Sensorik erfaßt werden, sind die drei Translationsgrade x, y, z, die drei Rotationsgrade, die auch als Roll, Tilt, Pan bezeichnet werden, und die Brennweite bzw. der Zoom, der gleichbedeutend mit der Information über den Öffnungswinkel der Kamera ist.

Damit die genaue Position der Kamera auch ohne Bilderkennung und ohne aufwendige Sensortechnik bestimmt werden kann, kann man auch ein Tracking-System einsetzen, das aus mehreren Infrarot-Kameras besteht, die die Position eines an der Kamera befestigten Infrarot-Sensors ermitteln. Somit ist auch die Position der Kamera bestimmt. Mit den von der Sensorik gelieferten Kameraparametern und den von der Bilderkennung ausgewerteten Streifen-Informationen kann ein Echtzeitrechner nun den Hintergrund für das aktuelle Bild berechnen. Hierauf wird der Blau-Farbton, den der blaue Hintergrund hatte, aus dem Bild entfernt, so daß statt dem blauen Hintergrund der virtuelle Hintergrund eingespielt wird.

In der Mehrzahl der Fälle wird ein Konzept verfolgt, bei dem es darum geht, einen akustischen Gesamteindruck der visuell abgebildeten Szenerie zu bekommen. Dieses lässt sich gut mit dem aus der Bildgestaltung stammenden Begriff der „Totalen" umschreiben. Dieser „totale" Klangeindruck bleibt meist über alle Einstellungen in einer Szene konstant, obwohl sich der optische Blickwinkel auf die Dinge meist stark ändert. So werden optische Details durch entsprechende Einstellungen herausgehoben oder in den Hintergrund gestellt. Auch Gegenschüsse bei der filmischen Dialoggestaltung werden vom Ton nicht nachvollzogen.

Daher besteht der Bedarf, den Zuschauer akustisch in eine audiovisuelle Szene einzubetten. Hierbei bildet die Leinwand oder Bildfläche die Blickrichtung und den Blickwinkel des Zuschauers. Dies bedeutet, daß der Ton dem Bild in der Form nachgeführt werden soll, daß er stets mit dem gesehenen Bild übereinstimmt. Dies wird insbesondere für virtuelle Studios noch wichtiger, da es typischerweise keine Korrelation zwischen dem Ton der Moderation beispielsweise und der Umgebung gibt, in der sich der Moderator gerade befindet. Um einen audiovisuellen Gesamteindruck der Szene zu bekommen, muß ein zum gerenderten Bild passender Raumeindruck simuliert werden. Eine wesentliche subjektive Eigenschaft bei einem solchen klanglichen Konzept ist in diesem Zusammenhang der Ort einer Schallquelle, wie ihn ein Betrachter beispielsweise einer Kinoleinwand empfindet.

Im Audiobereich läßt sich also durch die Technik der Wellenfeldsynthese (WFS) ein guter räumlicher Klang für eine großen Hörerbereich erzielen. Wie es ausgeführt worden ist, basiert die Wellenfeldsynthese auf dem Prinzip von Huygens, nach welchem sich Wellenfronten durch Überlagerung von Elementarwellen formen und aufbauen lassen. Nach mathematisch exakter theoretischer Beschreibung müßten unendlich viele Quellen in unendlich kleinem Abstand für die Erzeugung der Elementarwellen genutzt werden. Praktisch werden jedoch endlich viele Lautsprecher in einem endlich kleinen Abstand zueinander genutzt. Jeder dieser Lautsprecher wird gemäß dem WFS-Prinzip mit einem Audiosignal von einer virtuellen Quelle, das ein bestimmtes Delay und einen bestimmten Pegel hat, angesteuert. Pegel und Delays sind in der Regel für alle Lautsprecher unterschiedlich.

Im Audiobereich existiert ein sogenannter natürlicher Dopplereffekt. Dieser Dopplereffekt entsteht daraus, daß eine Quelle ein Audiosignal mit bestimmter Frequenz sendet, ein Empfänger dieses Signal empfängt, und eine Bewegung der Quelle relativ zum Empfänger stattfindet. Dies führt aufgrund einer „Dehnung" oder „Stauchung" der akustischen Wellenformen dazu, daß sich die Frequenz des Audiosignals beim Empfänger entsprechend der Bewegung ändert. Üblicherweise ist der Mensch der Empfänger, und er hört diese Frequenzänderung direkt, beispielsweise dann, wenn sich ein Krankenwagen mit Martinshorn auf einen Mensch zu bewegt und dann an dem Mensch vorbeifährt. Der Mensch wird zum Zeitpunkt, zu dem der Krankenwagen vor ihm ist, das Martinshorn mit einer anderen Tonlage hören als dann, wenn sich der Krankenwagen hinter dem Menschen befindet.

Auch bei der Wellenfeldsynthese bzw. Klangfeldsynthese existiert ein Dopplereffekt. Er basiert physikalisch auf dem gleichen Hintergrund wie der vorstehend beschriebene natürliche Dopplereffekt. Im Gegensatz zum natürlichen Dopplereffekt existiert jedoch bei der Klangfeldsynthese kein direkter Weg zwischen dem Sender und dem Empfänger. Statt dessen wird eine Unterscheidung dahingehend vorgenommen, daß es einen Primärsender und einen Primärempfänger gibt. Darüber hinaus existiert ein Sekundärsender und ein Sekundärempfänger. Dieses Szenario wird nachfolgend anhand von 7 dargestellt.

7 zeigt eine virtuelle Quelle 700, die sich von einer ersten Position, die mit einer eingekreisten „1" in 7 bezeichnet ist, über der Zeit entlang einer Bewegungsbahn 702 zu einer zweiten Position bewegt, die in 7 mit einer eingekreisten „2" dargestellt ist. Ferner sind schematisch drei Lautsprecher 704 gezeigt, die ein Wellenfeldsynthese-Lautsprecherarray symbolisieren sollen. In dem Szenario befindet sich ferner ein Hörer 706, der bei dem in 7 gezeigten Beispiel derart angeordnet ist, daß die Bewegungsbahn der virtuellen Quelle eine Kreisbahn ist, die sich um den Hörer herum, der den Mittelpunkt dieser Kreisbahn bildet, erstreckt. Dagegen sind die Lautsprecher 704 nicht im Mittelpunkt angeordnet, dahingehend, daß zu dem Zeitpunkt, zu dem sich die virtuelle Quelle 700 an der ersten Position befindet, dieselbe einen ersten Abstand r1 von einem Lautsprecher hat, und daß die Quelle dann in ihrer zweiten Position einen zweiten Abstand r2 zu der Quelle hat. Bei dem in 7 gezeigten Szenario ist r1 ungleich r2, während R1, also die Entfernung der virtuellen Quelle vom Hörer 706 gleich der Entfernung des Hörers 706 zur virtuellen Quelle zum Zeitpunkt 2 ist. Dies bedeutet, daß für den Hörer 706 keine Abstandsänderung der virtuellen Quelle 700 stattfindet. Dagegen findet jedoch sehr wohl eine Abstandsänderung der virtuellen Quelle 700 relativ zu den Lautsprechern 704 statt, da r1 ungleich r2 ist. Die virtuelle Quelle stellt den Primärsender dar, während die Lautsprecher 704 den Primärempfänger darstellen. Gleichzeitig stellen die Lautsprecher 704 den Sekundärsender dar, während der Hörer 706 schließlich den Sekundärempfänger darstellt.

Bei der Wellenfeldsynthese erfolgt die Übertragung zwischen dem Primärsender und dem Primärempfänger „virtuell". Dies bedeutet, daß die Wellenfeldsynthese-Algorithmen verantwortlich sind für die Dehnung und Stauchung der Wellenfront der Wellenformen. Zu dem Zeitpunkt, zu dem ein Lautsprecher 704 ein Signal vom Wellenfeldsynthesemodul empfängt, existiert zunächst noch kein hörbares Signal. Hörbar wird das Signal erst nach Ausgabe über den Lautsprecher. Damit können an verschiedenen Stellen Dopplereffekte entstehen.

Falls sich die virtuelle Quelle relativ zu den Lautsprechern bewegt, gibt jeder Lautsprecher ein Signal mit unterschiedlichem Dopplereffekt wieder, je nach seiner speziellen Position bezüglich der sich bewegenden virtuellen Quelle, da die Lautsprecher auf unterschiedlichen Positionen stehen und die relativen Bewegungen somit für jeden Lautsprecher unterschiedlich sind.

Andererseits kann sich auch der Hörer relativ zu den Lautsprechern bewegen. Dies ist jedoch insbesondere in einem Kinosetting ein für die Praxis unbedeutender Fall, da die Bewegung des Hörers bezüglich der Lautsprecher immer eine relativ langsame Bewegung mit einem entsprechend kleinen Dopplereffekt sein wird, da die Dopplerverschiebung, wie es in der Technik bekannt ist, proportional zur Relativbewegung zwischen Sender und Empfänger ist.

Der erstgenannte Dopplereffekt, also wenn sich die virtuelle Quelle relativ zu den Lautsprechern bewegt, kann sich relativ natürlich, aber auch sehr unnatürlich anhören. Dies hängt davon ab, in welcher Richtung die Bewegung stattfindet. Bewegt sich die Quelle nämlich gerade vom Mittelpunkt des Systems weg oder hin, ergibt sich ein eher natürlicher Effekt. Bezug nehmend auf 7 würde dies bedeuten, daß sich die virtuelle Quelle 700 z. B. entlang des Pfeils R1 von dem Hörer weg bewegen würde.

„Umkreist" jedoch die virtuelle Quelle 700 den Hörer 706, wie es Bezug nehmend auf 7 dargestellt ist, ergibt sich ein sehr unnatürlicher Effekt, da die Relativbewegungen zwischen Primärquelle und Primärempfänger (Lautsprecher) sehr stark und innerhalb der unterschiedlichen Primärempfänger auch sehr unterschiedlich sind, was in krassem Gegensatz zur Natur steht, wo im Fall der Umkreisung der Quelle zum Hörer kein Dopplereffekt entsteht, da dann keine Abstandsänderung zwischen Quelle und Hörer auftritt.

Die Fachveröffentlichung von Horbach U.u.a. „Real-time rendering of dynamic scenes using wave field synthesis", in IEEE International Conference on Multimedia and Expo, 2002, Proceedings, Vol. 1, 2002, S. 517 – 520 und die Fachveröffentlichung von Pellegrini, R.S. u. Horbach, U., „Perceptual encoding of acoustic environments", in, IEEE International Conference on Multimedia and Expo, 2002, Proceedings Vol. 1, 2002, S. 501 – 503, beziehen sich auf Wellenfeldsyntheseverfahren in Kombination mit dem MPEG-4-Muldimediastandard, um zeitlich variierende akustische Szenen zu erfassen, zu übertragen und zu reproduzieren bzw. auf Konzepte zur Messung/Analyse und Bestimmung von Raumeigenschaften auf der Basis einer binauralen Impulsantwort.

Die Aufgabe der vorliegenden Erfindung besteht darin, ein verbessertes Konzept zum Berechnen eines diskreten Werts zu einem aktuellen Zeitpunkt einer Komponente in einem Lautsprechersignal zu schaffen, bei dem Artefakte aufgrund von Dopplereffekten reduziert sind.

Diese Aufgabe wird durch eine Vorrichtung gemäß Patentanspruch 1 oder ein Verfahren gemäß Patentanspruch 17 gelöst.

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß Dopplereffekte berücksichtigt werden können, da sie ein Bestandteil der für die Positionsidentifizierung einer Quelle erforderlichen Informationen sind. Müßte vollständig auf solche Dopplereffekte verzichtet werden, so könnte dies dazu führen, daß ein nicht optimales Klangerlebnis entsteht, da der Doppler-Effekt naturgegeben ist und es somit zu einem nicht optimalen Eindruck führen würde, wenn sich beispielsweise eine virtuelle Quelle auf einen Hörer zu bewegt, jedoch keine Doppler-Verschiebung der Audiofrequenz stattfindet.

Andererseits wird erfindungsgemäß jedoch zur „Verschleifung" des Dopplereffekts, dahingehend, daß er zwar vorhanden ist, daß jedoch seine Auswirkungen zu keinen oder nur reduzierten Artefakten führen, ein „Überblenden" von einer Position zu einer anderen Position durchgeführt. Beim Stand der Technik werden dann, wenn eine Delayänderung auftritt, also wenn eine Positionsänderung der virtuellen. Quelle stattfindet, bei einer verringerten Delay Abtastwerte einfach künstlich eingefügt, oder bei einer vergrößerten Delay Abtastwerte einfach weggelassen. Dies führt zu scharfen Sprüngen im Signal. Erfindungsgemäß werden dagegen diese scharfen Sprünge dadurch reduziert, daß ein kontinuierlicher Übergang von einer Position der virtuellen Quelle zu einer anderen Position der virtuellen Quelle erreicht wird. Hierzu wird in einem Überblendungsbereich ein diskreter Wert für einen aktuellen Zeitpunkt in dem Überblendungsbereich unter Verwendung eines für den aktuellen Zeitpunkt gültigen Abtastwerts des Audiosignals an der ersten Position, also zu einem ersten Zeitpunkt, und unter Verwendung eines zu einem aktuellen Zeitpunkt gehörigen Abtastwerts eines Audiosignals der virtuellen Quelle an der zweiten Position, also zu dem zweiten Zeitpunkt, berechnet.

Vorzugsweise findet ein Überblenden dahingehend statt, daß zum ersten Zeitpunkt, zu dem also die ersten Positionsänderungen und damit die ersten Delayinformationen gültig sind, ein Gewichtungsfaktor für das Audiosignal, das mit der ersten Verzögerung verzögert ist, 100% beträgt, während ein Gewichtungsfaktor für das um die zweite Verzögerung verzögerte Audiosignal 0% beträgt, und daß dann, von dem ersten Zeitpunkt zu dem zweiten Zeitpunkt eine gegenläufige Änderung der beiden Gewichtungsfaktoren durchgeführt wird, um gewissermaßen „glatt" von der einen Position zu der anderen Position „überzublenden".

Das erfindungsgemäße Konzept stellt einen Kompromiß dar zwischen einerseits einem gewissen Verlust an Positionsinformationen, da nicht mehr mit jedem neuen aktuellen Zeitpunkt neue Positionsinformationen der Quelle berücksichtigt werden, sondern da nur eine Positionsaktualisierung der virtuellen Quelle in eher groben Schritten durchgeführt wird, wobei zwischen der einen Position der Quelle und der um einige Zeit später stattfindenden zweiten Position der Quelle übergeblendet wird. Dies erfolgt dadurch, daß das Delay zunächst für relativ grobe räumliche Schrittweiten, d. h. zeitlich relativ weit entfernte Positionsinformationen (natürlich unter Berücksichtigung der Geschwindigkeit der Quelle), durchgeführt wird. Damit wird die Delayänderung, die zu dem oben genannten virtuellen Dopplereffekt zwischen dem Primärsender und dem Primärempfänger führt, verschliffen, d. h. kontinuierlich von einer Delayänderung zur anderen übergeführt. Das Überblenden oder „Panning" erfolgt erfindungsgemäß mittels einer Lautstärkeskalierung von einer Position zur nächsten, um räumliche Sprünge, und damit hörbare „Knackser" zu vermeiden. Damit wird das „harte" Weglassen oder Hinzufügen von Abtastwerten aufgrund einer Delayänderung durch eine an die harte Signalform angepaßte Signalform mit abgerundeten Ecken ersetzt, so daß den Delayänderungen zwar Rechnung getragen wird, daß jedoch die zu Artefakten führende harte Einflußnahme auf ein Lautsprechersignal aufgrund einer Positionsänderung der virtuellen Quelle vermieden wird.

Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:

1 ein Blockschaltbild einer erfindungsgemäßen Vorrichtung;

2 ein Prinzipschaltbild einer Wellenfeldsyntheseumgebung, wie sie für die vorliegende Erfindung einsetzbar ist;

3 eine detailliertere Darstellung des in 2 gezeigten Wellenfeldsynthesemoduls;

4a einen Zeitverlauf eines diskreten Audiosignals einer virtuellen Quelle zu einem ersten Zeitpunkt mit einer ersten Delay D = 0;

4b eine Darstellung desselben Audiosignals wie in 4a, jedoch mit einer Delay D = 2;

4c eine erste überblendete Version aufgrund der in 4a und 4b gezeigten Audiosignale in einem Zeitraum zwischen dem ersten Zeitpunkt, zu dem 4a gültig ist, und einem zweiten Zeitpunkt, zu dem 4b gültig ist;

4d eine weitere Überblendungsdarstellung zu einem bezüglich zu 4c späteren Zeitpunkt, zu dem das in 4b dargestellte Signal gültig ist;

5 einen Zeitverlauf der Komponente Kij in einem Lautsprechersignal aufgrund einer virtuellen Quelle i, das aus den Zeitverläufen der 4a bis 4d zusammengesetzt ist;

6 eine detaillierte Darstellung der Gewichtungsfaktoren m, n, die bei der Berechnung der in den 4a bis 4d gezeigten Audiosignale eingesetzt worden sind;

7 ein Szenario zur Verdeutlichung eines virtuellen Dopplereffekts; und

8 einen Zeitverlauf der Komponente Kij ohne Überblenden.

Bevor detailliert auf 1 zur Darstellung der erfindungsgemäßen Vorrichtung eingegangen wird, sei zunächst anhand von 2 eine klassische Wellenfeldsyntheseumgebung dargestellt. Zentrum einer Wellenfeldsyntheseumgebung ist ein Wellenfeldsynthesemodul 200, das diverse Eingänge 202, 204, 206 und 208 sowie diverse Ausgänge 210, 212, 214, 216 umfaßt. Über Eingänge 202 bis 204 werden dem Wellenfeldsynthesemodul verschieden Audiosignale für virtuelle Quellen zugeführt. So empfängt der Eingang 202 z. B. ein Audiosignal der virtuellen Quelle 1 sowie zugeordnete Positionsinformationen der virtuellen Quelle. In einem Kinosetting beispielsweise wäre das Audiosignal 1 z. B. die Sprache eines Schauspielers, der sich von einer linken Seite der Leinwand zu einer rechten Seite der Leinwand und möglicherweise zusätzlich noch vom Zuschauer weg bzw. zum Zuschauer hin bewegt. Das Audiosignal 1 wäre dann die tatsächliche Sprache dieses Schauspielers, während die Positionsinformationen als Funktion der Zeit die zu einem bestimmten Zeitpunkt aktuelle Position des ersten Schauspielers im Aufnahmesetting darstellt. Dagegen wäre das Audiosignal n die Sprache beispielsweise eines weiteren Schauspielers, der sich gleich oder anders als der erste Schauspieler bewegt. Die aktuelle Position des anderen Schauspielers, dem das Audiosignal n zugeordnet ist, wird durch mit dem Audiosignal n synchronisierte Positionsinformationen dem Wellenfeldsynthesemodul 200 mitgeteilt. In der Praxis existieren verschiedene virtuelle Quellen je nach Aufnahmesetting bzw. Studio, wobei das Audiosignal jeder virtuellen Quelle als eigener Audiotrack dem Wellenfeldsynthesemodul 200 zugeführt wird.

Wie es vorstehend dargelegt worden ist, speist ein Wellenfeldsynthesemodul eine Vielzahl von Lautsprechern LS1, LS2, LS3, LSm durch Ausgabe von Lautsprechersignalen über die Ausgänge 210 bis 216 zu den einzelnen Lautsprechern. Dem Wellenfeldsynthesemodul 200 werden über den Eingang 206 die Positionen der einzelnen Lautsprecher in einem Wiedergabesetting, wie beispielsweise einem Kinosaal mitgeteilt. Im Kinosaal befinden sich um den Kinozuschauer herum gruppiert viele einzelne Lautsprecher, die in Arrays vorzugsweise derart angeordnet sind, daß sich sowohl vor dem Zuschauer, also beispielsweise hinter der Leinwand, als auch hinter dem Zuschauer sowie rechts und links des Zuschauers Lautsprecher befinden. Ferner können dem Wellenfeldsynthesemodul 200 noch sonstige Eingaben mitgeteilt werden, wie beispielsweise Informationen über die Raumakustik etc., um in einem Kinosaal die tatsächliche während des Aufnahmesettings herrschende Raumakustik simulieren zu können.

Allgemein gesagt wird das Lautsprechersignal, das beispielsweise dem Lautsprecher LS1 über den Ausgang 210 zugeführt wird, eine Überlagerung von Komponentensignalen der virtuellen Quellen sein, dahingehend, daß das Lautsprechersignal für den Lautsprecher LS1 eine erste Komponente, die auf die virtuelle Quelle 1 zurückgeht, eine zweite Komponente, die auf die virtuelle Quelle 2 zurückgeht, sowie eine n-te Komponente, die auf die virtuelle Quelle n zurückgeht, umfassen. Die einzelnen Komponentensignale werden linear superponiert, also nach ihrer Berechnung addiert, um die linerare Superposition am Ohr des Zuhörers nachzubilden, der in einem realen Setting eine lineare Überlagerung der von ihm wahrnehmbaren Schallquellen hören wird.

Nachfolgend wird Bezug nehmend auf 3 eine detailliertere Ausgestaltung des Wellenfeldsynthesemoduls 200 dargelegt. Das Wellenfeldsynthesemodul 200 hat einen stark parallelen Aufbau dahingehend, daß ausgehend von dem Audiosignal für jede virtuelle Quelle und ausgehend von den Positionsinformationen für die entsprechende virtuelle Quelle zunächst Verzögerungsinformationen Vi sowie Skalierungsfaktoren SFi berechnet werden, die von den Positionsinformationen und der Position des gerade betrachteten Lautsprechers, z. B. dem Lautsprecher mit der Ordnungsnummer j, also LSj, abhängen. Die Berechnung einer Verzögerungsinformation Vi sowie eines Skalierungsfaktors SFi aufgrund der Positionsinformationen einer virtuellen Quelle und der Lage des betrachteten Lautsprechers j geschieht durch bekannte Algorithmen, die in Einrichtungen 300, 302, 304, 306 implementiert sind. Auf der Basis der Verzögerungsinformationen Vi(t) und SFi(t) sowie auf der Basis des der einzelnen virtuellen Quelle zugeordneten Audiosignals ASi(t) wird für einen aktuellen Zeitpunkt tA ein diskreter Wert AWi(tA) für das Komponentensignal Kij in einem letztendlich erhaltenen Lautsprechersignal berechnet. Dies erfolgt durch Einrichtungen, 310, 312, 314, 316, wie sie in 3 schematisch dargestellt sind. 3 zeigt ferner gewissermaßen eine „Blitzlichtaufnahme" zum Zeitpunkt tA für die einzelnen Komponentensignale. Die einzelnen Komponentensignale werden dann durch einen Summierer 320 summiert, um den diskreten Wert für den aktuellen Zeitpunkt tA des Lautsprechersignals für den Lautsprecher j zu ermitteln, der dann für den Ausgang (beispielsweise der Ausgang 214, wenn der Lautsprecher j der Lautsprecher LS3 ist), dem Lautsprecher zugeführt werden kann.

Wie es aus 3 ersichtlich ist, wird zunächst für jede virtuelle Quelle einzeln ein aufgrund einer Verzögerung und einer Skalierung mit einem Skalierungsfaktor zu einem aktuellen Zeitpunkt gültiger Wert berechnet, wonach sämtliche Komponentensignale für einen Lautsprecher aufgrund der verschiedenen virtuellen Quellen summiert werden. Wäre beispielsweise nur eine virtuelle Quelle vorhanden, so würde der Summierer entfallen, und das am Ausgang des Summierers in 3 anliegende Signal würde z. B. dem Signal entsprechen, das von der Einrichtung 310 ausgegeben wird, wenn die virtuelle Quelle 1 die einzige virtuelle Quelle ist.

Nachfolgend wird Bezug nehmend auf die 4a, 4b und 8 die Arbeitsweise der in 3 dargestellten Vorrichtung erläutert. 4a zeigt ein beispielhaftes Audiosignal der virtuellen Quelle über der Zeit t', das diskrete Werte hat, die sich von einem Zeitpunkt t' = 0 bis zu einem Zeitpunkt t' = 13 erstrecken. Als Skalierungsfaktor zum Zeitpunkt t' = 0 wird ein Skalierungsfaktor von 1 angenommen. Ferner wird ohne Einschränkung der Allgemeinheit angenommen, daß zum Zeitpunkt t' = 0 eine Verzögerung bzw. Delay von 0 Abtastwerten durch das Wellenfeldsynthesemodul berechnet worden ist.

Zu dem ersten Zeitpunkt t' = 0, der in 4a ferner mit 401 markiert ist, soll somit das in 4a dargestellte Audiosignal einer virtuellen Quelle gespielt werden, während zu einem zweiten Zeitpunkt 402, der in 4a gekennzeichnet ist, von dem Audiosignal mit einer Delay D = 0 zu demselben Audiosignal, nun jedoch mit einer Delay D = 2 umgeschaltet werden soll. Der Umschaltzeitpunkt ist ferner durch einen Pfeil 404 in 4a gekennzeichnet.

Das um D = 2 verschobene Audiosignal von der virtuellen Quelle ist in 4b als Funktion der Zeit für aktuelle Zeitpunkte von t' = –2 bis t' = 12 dargestellt. Die Komponente für das Lautsprechersignal auf der Basis der in den 4a und 4b dargestellten virtuellen Quelle besteht somit vom Zeitpunkt 0 bis zum Zeitpunkt 8 aus den in 4a gezeigten Werten und vom Zeitpunkt 9 bis zu einem späteren Zeitpunkt, zu dem wieder eine Positionsänderung signalisiert wird, aus den Abtastwerten zu den aktuellen Zeitpunkten 9 bis 12, die in 4b gezeigt sind. Dieses Signal ist in 8 dargestellt. Es ist zu sehen, daß zum Zeitpunkt des Umschaltens, also zum Zeitpunkt des Umschaltens von der einen Position zur anderen Position, wobei das Umschalten in 8 wieder durch 404 bezeichnet ist, zwei Samples weggelassen wurden. Gemäß dem in 4a gezeigten Audiosignal hätte nämlich zum Zeitpunkt 9 zwar ein Abtastwert mit einer Amplitude von 1 kommen müssen, jedoch zum Zeitpunkt 10 ein Abtastwert mit einer Amplitude von 0, während jedoch das in 8 gezeigte Signal zum Zeitpunkt 10 bereits einen Abtastwert mit einer Amplitude von 2 hat, was aufgrund der Delay D = 2 der Fall ist. Dieses Weglassen der zwei Samples führt zu dem eingangs erwähnten virtuellen Dopplereffekt.

Zur Unterdrückung der unerwünschten Eigenschaften bzw. zur Unterdrückung der aufgrund dieses Umschaltens von einer Delay zu einer anderen Delay bewirkten Artefakte wird die in 1 gezeigte erfindungsgemäße Vorrichtung eingesetzt. 1 zeigt insbesondere eine Vorrichtung zum Berechnen eines diskreten Werts für einen aktuellen Zeitpunkt einer Komponente Kij in einem Lautsprechersignal für einen Lautsprecher j aufgrund einer virtuellen Quelle i in einem Wellenfeldsynthesesystem mit einem Wellenfeldsynthesemodul und einer Mehrzahl von Lautsprechern. Insbesondere ist das Wellenfeldsynthesemodul ausgebildet, um unter Verwendung eines Audiosignals, das der virtuellen Quelle zugeordnet ist, und unter Verwendung einer Positionsinformation, die auf eine Position der virtuellen Quelle hinweist, eine Verzögerungsinformation zu ermitteln, die anzeigt, um wie viele Abtastwerte verzögert das Audiosignal bezüglich einer Zeitreferenz in der Komponente auftreten soll. Die in 1 gezeigte Vorrichtung umfaßt zunächst eine Einrichtung 10 zum Bereitstellen einer ersten Verzögerung, die einer ersten Position der virtuellen Quelle zugeordnet ist, und zum Bereitstellen einer zweiten Verzögerung, die einer zweiten Position der virtuellen Quelle zugeordnet ist. Insbesondere bezieht sich die erste Position der virtuellen Quelle auf einen ersten Zeitpunkt, und bezieht sich die zweite Position der virtuellen Quelle auf einen zweiten Zeitpunkt, der später als der erste Zeitpunkt ist. Ferner unterscheidet sich die zweite Position von der ersten Position. Die zweite Position ist beispielsweise die in 7 mit der umkreisten „2" dargestellte Position der virtuellen Quelle, während die erste Position die in 7 mit einer umkreisten „1" dargestellte Position der virtuellen Quelle 700 ist.

Die Einrichtung 10 zum Bereitstellen liefert ausgangsseitig somit eine erste Verzögerung 12a für den ersten Zeitpunkt sowie eine zweite Verzögerung 12b für den zweiten Zeitpunkt. Optional ist die Einrichtung 10 ferner ausgebildet, um neben den Verzögerungen auch Skalierungsfaktoren für die zwei Zeitpunkt auszugeben, wie später noch erläutert wird.

Die beiden Verzögerungen an den Ausgängen 12a, 12b der Einrichtung 10 werden einer Einrichtung 14 zum Ermitteln eines Werts des um die erste Verzögerung verzögerten Audiosignals, das über einen Eingang 16 der Einrichtung 14 zugeführt wird, für den aktuellen Zeitpunkt (der über einen Eingang 18 signalisierbar ist) und zum Ermittelns eines zweiten Werts des um die zweite Verzögerung verzögerten Audiosignals für den aktuellen Zeitpunkt zugeführt. Ausgangsseitig liefert die Einrichtung 14 zum Ermitteln somit zunächst einen ersten Wert A1(ti') zum Zeitpunk ti' = tA des mit der ersten Verzögerung verzögerten Audiosignals, der in 1 mit 20a bezeichnet ist, sowie einen zweiten Wert 20b zum aktuellen Zeitpunkt ti' = tA des mit der zweiten Verzögerung 12b verzögerten Audiosignals, wobei A1 auf jeden Fall zum ersten Zeitpunkt gültig sein soll, und wobei der A4 auf jeden Fall zum zweiten Zeitpunkt gültig sein soll.

Die erfindungsgemäße Vorrichtung umfaßt ferner eine Einrichtung 22 zum Gewichten des ersten Werts aus A1 mit einem ersten Gewichtungsfaktor, um einen gewichteten ersten Wert 24a zu erhalten. Die Einrichtung 22 ist ferner wirksam, um den zweiten Wert 20b aus A4 mit einem zweiten Gewichtungsfaktor n zu gewichten, um einen zweiten gewichteten Wert 24b zu erhalten. Die beiden gewichteten Werte 24a und 24b werden einer Einrichtung 26 zum Summieren der beiden Werte zugeführt, um tatsächlich einen „überblendeten" diskreten Wert 28 für den aktuellen Zeitpunkt der Komponente Kij in einem Lautsprechersignal für einen Lautsprecher j aufgrund der virtuellen Quelle i zu erhalten.

Nachfolgend wird die Funktionalität der in 1 gezeigten Vorrichtung beispielhaft anhand der 4c, 4d, 5 und 6 dargestellt. Bei dem in den 4a und 4b erläuterten Szenario wird ein Umschalten von einer Delay zu einer anderen Delay nach 10 Abtastwerten gefordert. Der erste Zeitpunkt 401 ist der aktuelle Zeitpunkt tA = 0, während der zweite Zeitpunkt 402 der aktuelle Zeitpunkt tA = 9 ist.

Erfindungsgemäß wird weder der Wert aus A1 zum ersten Zeitpunkt 401 noch der Wert aus A4 zum zweiten Zeitpunkt 402 modifiziert. Erfindungsgemäß modifiziert werden jedoch sämtliche Werte zwischen t1 401 und t2 402, also Werte, die einem aktuellen Zeitpunkt tA zugeordnet sind, der zwischen dem ersten Zeitpunkt 401 und dem zweiten Zeitpunkt 402 liegt. Der aktuelle Zeitpunkt erstreckt sich somit von den Zeitpunkten t' = 1 bis t' = 8 für die nachfolgende beispielhafte Erläuterung.

Mathematisch ausgedrückt ist dies in der Graphik in 6 dargestellt, die den ersten Gewichtungsfaktor m als Funktion der aktuellen Zeitpunkte zwischen dem ersten Zeitpunkt 401 und dem zweiten Zeitpunkt 402 darstellt. So ist der erste Gewichtungsfaktor m monoton fallend, während der zweite Gewichtungsfaktor n monoton steigend ist. Zum ersten Zeitpunkt 401, als t' = 0, beträgt m = 1 und n = 0. Dagegen betragen zum zweiten Zeitpunkt 402 der erste Gewichtungsfaktor m = 0 und der zweite Gewichtungsfaktor n = 1. Zwischen dem ersten Zeitpunkt 401 und dem zweiten Zeitpunkt 402 werden die beiden Gewichtungsfaktoren einen treppenartigen Verlauf haben, da nur für jeden Abtastwert, also nicht kontinuierlich gerechnet werden kann. Der treppenförmige Verlauf wird ein in 6 gestrichelt bzw. gepunktet dargestellter Verlauf sein, der je nach Anzahl der Überblendereignisse bzw. der vorgegebenen Rechenkapazitätsressourcen zwischen dem ersten Zeitpunkt 401 und dem zweiten Zeitpunkt 402 entsprechend oft an die kontinuierliche Linie angelehnt sein wird.

Lediglich beispielhaft wurde bei dem in 6 dargestellten Ausführungsbeispiel, das sich in den 4c und 4d wiederspiegelt, zu zwei Überblendereignissen zwischen dem ersten Zeitpunkt 401 und dem zweiten Zeitpunkt 402 gegriffen. Das erste Überblendereignis findet zum aktuellen Zeitpunkt tA = 3 statt, während das zweite Überblendereignis zum aktuellen Zeitpunkt tA = 6 stattfindet. Das Signal mit den zum ersten Überblendzeitpunkt zugehörigen Gewichtungsfaktoren m und n, die in einer Zeile 600 in 6 gezeigt sind, ist mit A2 in 4c dargestellt. Ferner ist das zum zweiten Überblendzeitpunkt 602 zugehörige Signal mit A3 in 4d gezeigt. Der tatsächliche Zeitverlauf der Komponente Kij, der letztendlich berechnet wird (die 4a bis 4d dienen lediglich der Veranschaulichung) ist in 5 dargestellt. Bei dem in 4a bis 4d, 5 und 6 gezeigten Ausführungsbeispiel wird nicht zu jedem neuen Abtastwert, also mit einer Periodendauer TA ein neuer Gewichtungsfaktor berechnet, sondern lediglich alle drei Abtastzeitdauern. Daher wird für die aktuellen Zeitpunkt 0, 1 und 2 die diesen Zeitpunkten entsprechenden Abtastwerte von 4a genommen. Für die aktuellen Zeitpunkte 3, 4 und 5 werden die zu 4c gehörenden Abtastwerte für die Zeitpunkte 3, 4 und 5 genommen. Ferner werden für die Zeitpunkte 6, 7 und 8 die zu 4d gehörigen Abtastwerte genommen, während schließlich für die Zeitpunkte 9, 10 und 11 sowie weitere Zeitpunkte bis zu einer nächsten Positionsänderung bzw. bis zu einer nächsten Überblendaktion die Abtastwerte von 4b genommen werden, die den aktuellen Zeitpunkten 9, 10 bzw. 11 entsprechen. Ein Vergleich von 5 mit 8 offenbart, daß die scharfe Symmetrie um den Abtastwert zum aktuellen Zeitpunkt tA = 9 entspannt ist, dahingehend, daß das „Weglassen" von zwei Samples, das zu diesem Artefakt in 8 führte, in 5 entsprechend „verschliffen" ist.

Eine „feinere" Verschleifung könnte dann erreicht werden, wenn das in 5 gezeigte Positionsaktualisierungsintervall PAI nicht nur wie in 5 gezeigt alle drei Abtastwerte durchgeführt wird, sondern zu jedem Abtastwert, so daß der Parameter N in 5 zu 1 werden würde. In diesem Fall würde die den ersten Gewichtungsfaktor m symbolisierende Treppenkurve entsprechend enger an die kontinuierliche Kurve angenähert sein. Alternativ könnte jedoch auch das Positionsaktualisierungsintervall noch größer als 3 gemacht werden, beispielsweise daß nur eine Aktualisierung in der Mitte des Intervalls zwischen dem zweiten Zeitpunkt 402 und dem erstem Zeitpunkt 401 durchgeführt wird, so daß in der ersten Hälfte des Intervalls, also für die aktuellen Zeitpunkte tA = 1 bis 4 m = 1 und n = 0 ist, während für die zweite Hälfte des entsprechenden Intervalls, also für die aktuellen Zeitpunkte 5, 6, 7 und 8 m und n gleich 0, 5 sein würden, derart, daß dann zum zweiten Zeitpunkt 402, also zum aktuellen Zeitpunkt tA = 9, n zu 1 wird und m zu 0 wird. Die Auswahl, ob zu jedem Abtastwert eine Überblendung durchgeführt wird, oder ob nur alle N Abtastwerte eine Überblendung, also eine Positionsaktualisierung durchgeführt wird, kann von Fall zu Fall unterschiedlich sein. Sie kann insbesondere davon abhängen, wie schnell sich eine virtuelle Quelle bewegt. Bewegt sie sich sehr langsam, so genügt es, einen relativ hohen Parameter N zu verwenden, also nur nach einer relativ hohen Anzahl von Abtastwerten eine neue Positionsaktualisierung durchzuführen, also eine neue „Stufe" in 6 zu erzeugen, während im entgegengesetzten Fall, also dann, wenn sich die Quelle schnell bewegt, eine eher häufigere Positionsaktualisierung bevorzug wird.

Bei dem in den 4a bis 4d dargestellten Ausführungsbeispiel wurde davon ausgegangen, daß die ersten Positionsinformationen für die virtuelle Quelle, die betrachtet wird, zum ersten Zeitpunkt 401 vorlagen, während die zweiten Positionsinformationen für die virtuelle Quelle zum zweiten Zeitpunkt 402 vorlagen, der sich um neun Abtastwerte hinter dem ersten Zeitpunkt befindet. Je nach Implementierung kann es jedoch sein, daß für jeden Abtastwert eine eigene Positionsinformation vorliegt, bzw. daß eine solche Positionsinformation ohne weiteres zur Interpolation gewonnen werden kann. So wurde bisher die Bewegung der Quelle für jede Zwischenposition in sehr kleinen räumlichen und damit zeitlichen Schritten berechnet, um ein hörbares Knacksen im Audiosignal von dem Umschalten von einer Delay zu einer anderen Delay zu unterbinden, wobei dieses Umschalten nur dann unterbunden werden kann, wenn die Abtastwerte vor und nach dem Umschalten nicht zu stark auseinanderfielen.

Für das erfindungsgemäße Überblenden muß jedoch der aktuelle Zeitpunkt tA zwischen dem ersten Zeitpunkt 401 und dem zweiten Zeitpunkt 402 liegen. Die minimale „Schrittweite", also der minimale Abstand zwischen dem ersten Zeitpunkt 401 und dem zweiten Zeitpunkt 402 wird erfindungsgemäß zwei Abtastperioden betragen, so daß der aktuelle Zeitpunkt zwischen dem ersten Zeitpunkt 401 und dem zweiten Zeitpunkt 402 mit beispielsweise jeweiligen Gewichtungsfaktoren von 0,5 bearbeitet werden kann. Für die Praxis wird jedoch eine eher größere Schrittweite vorgezogen, zum einen aus Rechenzeitgründen und zum anderen um einen Überblendeffekt zu erzeugen, der dann nicht mehr auftreten würde, wenn zum nächsten Zeitpunkt schon die Folgeposition erreicht ist, was wiederum zum unnatürlichen Dopplereffekt bei der herkömmlichen Wellenfeldsynthese führen würde. Eine obere Grenze für die Schrittweite, also für den Abstand vom ersten Zeitpunkt 401 zum zweiten Zeitpunkt 402 wird darin bestehen, daß natürlich mit größer werdendem Abstand immer mehr Positionsinformationen, die eigentlich bereitstehen würden, aufgrund der Überblendung ignoriert werden, was im Extremfall zu einem Verlust der Lokalisierbarkeit der virtuellen Quelle für den Zuhörer führen wird. Daher werden Schrittweiten im mittleren Bereich bevorzugt, die zusätzlich je nach Ausführungsform von der Geschwindigkeit der virtuellen Quelle abhängen können, um eine adaptive Schrittweitensteuerung zu realisieren.

Bei dem in 6 gezeigten Ausführungsbeispiel wurde als „Basis" für die Treppenkurve für den ersten und den zweiten Gewichtungsfaktor ein linearer Verlauf gewählt. Alternativ könnte jedoch auch ein sinusförmiger, quadratischer, kubischer etc. Verlauf verwendet werden. In diesem Fall müßte der entsprechende Verlauf des anderen Gewichtungsfaktors komplementär dahingehend sein, daß die Summe des ersten und des zweiten Gewichtungsfaktors immer gleich 1 ist bzw. innerhalb eines vorbestimmten Toleranzbereichs, der sich beispielsweise um plus oder minus 10% um 1 herum erstreckt, liegt. Eine Option wäre beispielsweise für den ersten Gewichtungsfaktor einen Verlauf gemäß dem Quadrat der Sinusfunktion zu nehmen und für den zweiten Gewichtungsfaktor einen Verlauf gemäß dem Quadrat der Cosinusfunktion zu nehmen, da die Quadrate von Sinus und Cosinus für jedes Argument, also für jeden aktuellen Zeitpunkt tA, gleich 1 ist.

In den 4a bis 4d wurde bisher angenommen, daß die Skalierungsfaktoren zum ersten Zeitpunkt 401 und zum zweiten Zeitpunkt 402 beide gleich 1 sind. Dies muß jedoch nicht unbedingt so sein. So wird jeder Abtastwert des Audiosignals, das einer virtuellen Quelle zugeordnet ist, einen bestimmten Betrag Bi haben. Das Wellenfeldsynthesemodul wäre dann wirksam, einen ersten Skalierungsfaktor SF1 für den ersten Zeitpunkt 401 und einen zweiten Skalierungsfaktor SF2 für den zweiten Zeitpunkt 402 zu berechnen. Der tatsächliche Abtastwert zu einem aktuellen Zeitpunkt tA zwischen dem ersten Zeitpunkt 401 und dem zweiten Zeitpunkt 402 würde dann folgendermaßen lauten: AWi = B(tA)·m·SF1 + B(tA)·n + SF2.

Aus der vorstehenden Gleichung kann aus Vereinfachungsgründen nunmehr die Multiplikation eines Werts des Audiosignals mit zwei Gewichtungsfaktoren durch eine Multiplikation des Werts mit dem Produkt aus den beiden Gewichtungsfaktoren ersetzt werden.


Anspruch[de]
  1. Vorrichtung zum Berechnen eines diskreten Werts (28), für einen aktuellen Zeitpunkt (tA), einer Komponente (Kij) in einem Lautsprechersignal (322) für einen Lautsprecher (j) aufgrund einer virtuellen Quelle (i) in einem Wellenfeldsynthesesystem mit einem Wellenfeldsynthesemodul und einer Mehrzahl von Lautsprechern (LS1, LS2, LS3, LSm), wobei das Wellenfeldsynthesemodul ausgebildet ist, um unter Verwendung eines Audiosignals (16), das der virtuellen Quelle zugeordnet ist, und unter Verwendung einer Positionsinformation, die auf eine Position der virtuellen Quelle hinweist, eine Verzögerungsinformation zu ermitteln, die anzeigt, um viele Abtastwerte verzögert das Audiosignal bezüglich einer Zeitreferenz in der Komponente auftreten soll, mit folgenden Merkmalen:

    einer Einrichtung (10) zum Bereitstellen einer ersten Verzögerung (12a), die einer ersten Position der virtuellen Quelle zu einem ersten Zeitpunkt zugeordnet ist, und zum Bereitstellen einer zweiten Verzögerung (12b), die einer zweiten Position der virtuellen Quelle zu einem zweiten späteren Zeitpunkt zugeordnet ist, wobei sich die zweite Position von der ersten Position unterscheidet, und wobei der aktuelle Zeitpunkt (tA) zwischen dem ersten Zeitpunkt (400) und dem zweiten Zeitpunkt (402) liegt;

    einer Einrichtung (14) zum Ermitteln eines ersten Werts des um die erste Verzögerung verzögerten Audiosignals (A1) für den aktuellen Zeitpunkt (tA) und zum Ermitteln eines zweiten Werts des um die zweite Verzögerung verzögerten Audiosignals (A4) für den aktuellen Zeitpunkt (tA);

    einer Einrichtung (22) zum Gewichten des ersten Werts mit einem ersten Gewichtungsfaktor (m), um einen ersten gewichteten Wert (24a) zu erhalten, und des zweiten Werts mit einem zweiten Gewichtungsfaktor (n), um einen zweiten gewichteten Wert (24b) zu erhalten; und

    einer Einrichtung zum Summieren (26) des ersten gewichteten Werts (24a) und des zweiten gewichteten Werts (24b), um den diskreten Wert (28) für den aktuellen Zeitpunkt (tA) zu erhalten,

    wobei der erste Gewichtungsfaktor (m) und der zweite Gewichtungsfaktor (n) für Werte zwischen dem ersten und dem zweiten Zeitpunkt (400, 402) so eingestellt sind, daß eine Überblendung von dem um die erste Verzögerung verzögerten Audiosignal in das um die zweite Verzögerung verzögerte Audiosignal stattfindet.
  2. Vorrichtung nach Anspruch 1, bei der der erste Gewichtungsfaktor (m) zwischen dem ersten Zeitpunkt (400) und dem zweiten Zeitpunkt (402) abnimmt, und bei dem der zweite Gewichtungsfaktor zwischen dem ersten Zeitpunkt (400) und dem zweiten Zeitpunkt (402) ansteigt.
  3. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der erste Gewichtungsfaktor zu dem ersten Zeitpunkt gleich 1 ist und zu dem zweiten Zeitpunkt gleich 0 ist, und bei der der zweite Gewichtungsfaktor (n) zu dem ersten Zeitpunkt gleich 0 und zu dem zweiten Zeitpunkt gleich 1 ist.
  4. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der erste und der zweite Gewichtungsfaktor von einer Differenz zwischen dem aktuellen Zeitpunkt und dem ersten Zeitpunkt (400) oder von einer Differenz zwischen dem aktuellen Zeitpunkt und dem zweiten Zeitpunkt (402) abhängen.
  5. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der erste Gewichtungsfaktor von dem ersten Zeitpunkt zu dem zweiten Zeitpunkt monoton fällt, und der zweite Gewichtungsfaktor von dem ersten Zeitpunkt zu dem zweiten Zeitpunkt monoton steigt.
  6. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der eine Summe aus dem ersten Gewichtungsfaktor und dem zweiten Gewichtungsfaktor innerhalb eines vorbestimmten Toleranzbereichs liegt, der sich um einen definierten Wert erstreckt.
  7. Vorrichtung nach Anspruch 6, bei der der vorbestimmte Toleranzbereich plus oder minus 10% beträgt.
  8. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der das Audiosignal eine Folge von zeitdiskreten Werten ist, die jeweils um eine Abtastperiode (TA) beabstandet sind, bei der der erste Zeitpunkt und der zweite Zeitpunkt um mehr als eine Abtastperiode voneinander beabstandet sind.
  9. Vorrichtung nach Anspruch 8, bei der der erste Zeitpunkt und der zweite Zeitpunkt fest eingestellt sind.
  10. Vorrichtung nach Anspruch 8, bei der die Einrichtung (10) zum Bereitstellen der ersten und der zweiten Verzögerung den zeitlichen Abstand zwischen dem ersten Zeitpunkt und dem zweiten Zeitpunkt abhängig von den Positionsinformationen so einstellt, daß der zeitliche Abstand größer ist, wenn sich die virtuelle Quelle mit einer kleineren Geschwindigkeit bewegt, und daß der zeitliche Abstand kleiner ist, wenn sich die virtuellen Quelle mit einer größeren Geschwindigkeit bewegt.
  11. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der ein zeitlicher Abstand zwischen dem ersten Zeitpunkt und dem zweiten Zeitpunkt N Abtastperioden beträgt, und bei der die Einrichtung (22) zum Gewichten ausgebildet ist, um für eine Anzahl von M aufeinanderfolgenden aktuellen Abtastwerten denselben ersten Gewichtungsfaktor und denselben zweiten Gewichtungsfaktor zu verwenden, wobei M kleiner als N und größer oder gleich 2 ist.
  12. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung (22) zum Gewichten für jeden aktuellen Abtastwert einen aktuellen ersten Gewichtungsfaktor und einen aktuellen zweiten Gewichtungsfaktor berechnet, so daß der erste und der zweite Gewichtungsfaktor für jeden aktuellen Abtastwert unterschiedlich zu einem ersten und einem zweiten Gewichtungsfaktor sind, die für einen ermittelten vorhergehenden Abtastwert bestimmt worden sind.
  13. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung (10) zum Bereitstellen ausgebildet ist, um die zweite Verzögerung für den zweiten Zeitpunkt basierend auf einer oder mehrerer Verzögerungen für vorausgehende Zeitpunkte zu schätzen.
  14. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Positionsinformationen der virtuellen Quelle gemäß einem Zeitraster dem Audiosignal für die virtuelle Quelle zugeordnet sind, wobei der erste und der zweite Zeitpunkt um eine Dauer voneinander beabstandet sind, die länger als ein zeitlicher Abstand zwischen zwei Rasterpunkten des Zeitrasters ist.
  15. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der mehrere Audiosignale für mehrere virtuelle Quellen vorhanden sind, bei der für jede virtuelle Quelle ein Komponentensignal berechnet wird, und bei der alle Komponentensignale für einen Lautsprecher addiert werden, um das Lautsprechersignal für den Lautsprecher zu erhalten.
  16. Vorrichtung nach einem der vorhergehenden Ansprüche,

    bei der das Wellenfeldsynthesemodul ausgebildet ist, um neben den Verzögerungsinformationen auch Skalierungsinformationen zu berechnen, die anzeigen, mit welchem Skalierungsfaktor das der virtuellen Quelle zugeordnete Audiosignal zu skalieren ist, und

    bei der die Einrichtung (22) zum Gewichten ausgebildet ist, um den ersten gewichteten Wert (24a) als Produkt aus dem Wert des Audiosignals für den aktuellen Zeitpunkt und einem ersten Skalierungsfaktor für den aktuellen Zeitpunkt und dem ersten Gewichtungsfaktor zu berechnen, und

    bei der die Einrichtung (22) zum Gewichten ferner ausgebildet ist, um den zweiten gewichteten Wert als Produkt aus dem Wert des Audiosignals für den aktuellen Zeitpunkt, aus dem zweiten Skalierungsfaktor für den zweiten Zeitpunkt und den zweiten Gewichtungsfaktor zu berechnen.
  17. Verfahren zum Berechnen eines diskreten Werts (28), für einen aktuellen Zeitpunkt (tA), einer Komponente (Kij) in einem Lautsprechersignal (322) für einen Lautsprecher (j) aufgrund einer virtuellen Quelle (i) in einem Wellenfeldsynthesesystem mit einem Wellenfeldsynthesemodul und einer Mehrzahl von Lautsprechern (LS1, LS2, LS3, LSm), wobei das Wellenfeldsynthesemodul ausgebildet ist, um unter Verwendung eines Audiosignals (16), das der virtuellen Quelle zugeordnet ist, und unter Verwendung einer Positionsinformation, die auf eine Position der virtuellen Quelle hinweist, eine Verzögerungsinformation zu ermitteln, die anzeigt, um viele Abtastwerte verzögert das Audiosignal bezüglich einer Zeitreferenz in der Komponente auftreten soll, mit folgenden Schritten:

    Bereitstellen (10) einer ersten Verzögerung (12a), die einer ersten Position der virtuellen Quelle zu einem ersten Zeitpunkt zugeordnet ist, und zum Bereitstellen einer zweiten Verzögerung (12b), die einer zweiten Position der virtuellen Quelle zu einem zweiten späteren Zeitpunkt zugeordnet ist, wobei sich die zweite Position von der ersten Position unterscheidet, und wobei der aktuelle Zeitpunkt (tA) zwischen dem ersten Zeitpunkt (400) und dem zweiten Zeitpunkt (402) liegt;

    Ermitteln (14) eines ersten Werts des um die erste Verzögerung verzögerten Audiosignals (A1) für den aktuellen Zeitpunkt (tA) und Ermitteln eines zweiten Werts des um die zweite Verzögerung verzögerten Audiosignals (A4) für den aktuellen Zeitpunkt (tA);

    Gewichten (22) des ersten Werts mit einem ersten Gewichtungsfaktor (m), um einen ersten gewichteten Wert (24a) zu erhalten, und des zweiten Werts mit einem zweiten Gewichtungsfaktor (n), um einen zweiten gewichteten Wert (24b) zu erhalten; und

    Summieren (26) des ersten gewichteten Werts (24a) und des zweiten gewichteten Werts (24b), um den diskreten Wert (28) für den aktuellen Zeitpunkt (tA) zu erhalten,

    wobei der erste Gewichtungsfaktor (m) und der zweite Gewichtungsfaktor (n) für Werte zwischen dem ersten und dem zweiten Zeitpunkt (400, 402) so eingestellt sind, daß eine Überblendung von dem um die erste Verzögerung verzögerten Audiosignal in das um die zweite Verzögerung verzögerte Audiosignal stattfindet.
Es folgen 8 Blatt Zeichnungen






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche


Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com