| Dokumentenidentifikation |
DE10321980B4 06.10.2005 |
| Titel |
Vorrichtung und Verfahren zum Berechnen eines diskreten Werts einer Komponente in einem Lautsprechersignal |
| Anmelder |
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V., 80686 München, DE |
| Erfinder |
Röder, Thomas, Dipl.-Ing., 99102 Rockhausen, DE; Sporer, Thomas, Dr.-Ing., 90766 Fürth, DE; Brix, Sandra, Dr.-Ing., 98693 Ilmenau, DE |
| Vertreter |
Schoppe, Zimmermann, Stöckeler & Zinkler, 82049 Pullach |
| DE-Anmeldedatum |
15.05.2003 |
| DE-Aktenzeichen |
10321980 |
| Offenlegungstag |
09.12.2004 |
| Veröffentlichungstag der Patenterteilung |
06.10.2005 |
| Veröffentlichungstag im Patentblatt |
06.10.2005 |
| IPC-Hauptklasse |
H04S 1/00
|
| Beschreibung[de] |
|
Die vorliegende Erfindung bezieht sich auf Wellenfeldsynthesesysteme
und insbesondere auf Wellenfeldsynthesesysteme, die bewegte virtuelle Quellen erlauben.
Es besteht ein steigender Bedarf an neuen Technologien und innovativen
Produkten im Bereich der Unterhaltungselektronik. Dabei ist es eine wichtige Voraussetzung
für den Erfolg neuer multimedialer Systeme, optimale Funktionalitäten bzw. Fähigkeiten
anzubieten. Erreicht wird das durch den Einsatz digitaler Technologien und insbesondere
der Computertechnik. Beispiele hierfür sind die Applikationen, die einen verbesserten
realitätsnahen audiovisuellen Eindruck bieten. Bei bisherigen Audiosystemen liegt
ein wesentlicher Schwachpunkt in der Qualität der räumlichen Schallwiedergabe von
natürlichen, aber auch von virtuellen Umgebungen.
Verfahren zur mehrkanaligen Lautsprecherwiedergabe von Audiosignalen
sind seit vielen Jahren bekannt und standardisiert. Alle üblichen Techniken besitzen
den Nachteil, dass sowohl der Aufstellungsort der Lautsprecher als auch die Position
des Hörers dem Übertragungsformat bereits eingeprägt sind. Bei falscher Anordnung
der Lautsprecher im Bezug auf den Hörer leidet die Audioqualität deutlich. Ein optimaler
Klang ist nur in einem kleinen Bereich des Wiedergaberaums, dem so genannten Sweet
Spot, möglich.
Ein besserer natürlicher Raumeindruck sowie eine stärkere Einhüllung
bei der Audiowiedergabe kann mit Hilfe einer neuen Technologie erreicht werden.
Die Grundlagen dieser Technologie, die so genannte Wellenfeldsynthese (WFS; WFS
= Wave-Field Synthesis), wurden an der TU Delft erforscht und erstmals in den späten
80er-Jahren vorgestellt (Berkhout, A.J.; de Vries, D.; Vogel, P.: Acoustic control
by Wavefield Synthesis. JASA 93, 1993).
Infolge der enormen Anforderungen dieser Methode an Rechnerleistung
und Übertragungsraten wurde die Wellenfeldsynthese bis jetzt nur selten in der Praxis
angewendet. Erst die Fortschritte in den Bereichen der Mikroprozessortechnik und
der Audiocodierung gestatten heute den Einsatz dieser Technologie in konkreten Anwendungen.
Erste Produkte im professionellen Bereich werden nächstes Jahr erwartet. In wenigen
Jahren sollen auch erste Wellenfeldsynthese-Anwendungen für den Konsumerbereich
auf den Markt kommen.
Die Grundidee von WFS basiert auf der Anwendung des Huygens'schen
Prinzips der Wellentheorie:
Jeder Punkt, der von einer Welle erfasst wird, ist Ausgangspunkt einer Elementarwelle,
die sich kugelförmig bzw. kreisförmig ausbreitet.
Angewandt auf die Akustik kann durch eine große Anzahl von Lautsprechern,
die nebeneinander angeordnet sind (einem so genannten Lautsprecherarray), jede beliebige
Form einer einlaufenden Wellenfront nachgebildet werden. Im einfachsten Fall, einer
einzelnen wiederzugebenden Punktquelle und einer linearen Anordnung der Lautsprecher,
müssen die Audiosignale eines jeden Lautsprechers mit einer Zeitverzögerung und
Amplitudenskalierung so gespeist werden, dass sich die abgestrahlten Klangfelder
der einzelnen Lautsprecher richtig überlagern. Bei mehreren Schallquellen wird für
jede Quelle der Beitrag zu jedem Lautsprecher getrennt berechnet und die resultierenden
Signale addiert. In einem virtuellen Raum mit reflektierenden Wänden können auch
Reflexionen als zusätzliche Quellen über das Lautsprecherarray wiedergegeben werden.
Der Aufwand bei der Berechnung hängt daher stark von der Anzahl der Schallquellen,
den Reflexionseigenschaften des Aufnahmeraums und der Anzahl der Lautsprecher ab.
Der Vorteil dieser Technik liegt im Besonderen darin, dass ein natürlicher
räumlicher Klangeindruck über einen großen Bereich des Wiedergaberaums möglich ist.
Im Gegensatz zu den bekannten Techniken werden Richtung und Entfernung von Schallquellen
sehr exakt wiedergegeben. In beschränktem Maße können virtuelle Schallquellen sogar
zwischen dem realen Lautsprecherarray und dem Hörer positioniert werden.
Obgleich die Wellenfeldsynthese für Umgebungen gut funktioniert, deren
Beschaffenheiten bekannt sind, treten doch Unregelmäßigkeiten auf, wenn sich die
Beschaffenheit ändert bzw. wenn die Wellenfeldsynthese auf der Basis einer Umgebungsbeschaffenheit
ausgeführt wird, die nicht mit der tatsächlichen Beschaffenheit der Umgebung übereinstimmt.
Die Technik der Wellenfeldsynthese kann jedoch ebenfalls vorteilhaft
eingesetzt werden, um eine visuelle Wahrnehmung um eine entsprechende räumliche
Audiowahrnehmung zu ergänzen. Bisher stand bei der Produktion in virtuellen Studios
die Vermittlung eines authentischen visuellen Eindrucks der virtuellen Szene im
Vordergrund. Der zum Bild passende akustische Eindruck wird in der Regel durch manuelle
Arbeitsschritte in der sogenannten Postproduktion nachträglich dem Audiosignal aufgeprägt
oder als zu aufwendig und zeitintensiv in der Realisierung eingestuft und daher
vernachlässigt. Dadurch kommt es üblicherweise zu einem Widerspruch der einzelnen
Sinnesempfindungen, der dazu führt, daß der entworfene Raum, d.
h. die entworfene Szene, als weniger authentisch empfunden wird.
In der Fachveröffentlichung „Subjective experiments on the
effects of combining spatialized audio and 2D video projection in audio-visual systems",
W. de Bruijn und M. Boone, AES convention paper 5582, 10. bis 13. Mai 2002, München,
werden subjektive Experimente bezüglich der Auswirkungen des Kombinierens von räumlichem
Audio und einer zweidimensionalen Videoprojektion in audiovisuellen Systemen dargestellt.
Insbesondere wird hervorgehoben, daß zwei in einer unterschiedlichen Entfernung
zu einer Kamera stehende Sprecher, die nahezu hintereinander stehen, von einem Betrachter
besser verstanden werden können, wenn mit Hilfe der Wellenfeldsynthese die zwei
hintereinander stehenden Personen als unterschiedliche virtuelle Schallquellen aufgefaßt
und rekonstruiert werden. In diesem Fall hat sich durch subjektive Tests herausgestellt,
daß ein Zuhörer die beiden gleichzeitig sprechenden Sprecher getrennt voneinander
besser verstehen und unterscheiden kann.
In einem Tagungsbeitrag zum 46. internationalen wissenschaftlichen
Kolloquium in Ilmenau vom 24. bis 27. September 2001 mit dem Titel „Automatisierte
Anpassung der Akustik an virtuelle Räume", U. Reiter, F. Melchior und C. Seidel,
wird ein Ansatz vorgestellt, Tonnachbearbeitungsprozesse zu automatisieren. Hierzu
werden die für die Visualisierung notwendigen Parameter eines Film-Sets, wie z.
B. Raumgröße, Textur der Oberflächen oder Kameraposition und Position der Akteure
auf ihre akustische Relevanz hin überprüft, woraufhin entsprechende Steuerdaten
generiert werden. Diese beeinflussen dann automatisiert die zur Postproduktion eingesetzten
Effekt- und Nachbearbeitungsprozesse, wie z. B. die Anpassung der Sprecherlautstärkenabhängigkeit
von der Entfernung zur Kamera oder die Nachhallzeit in Abhängigkeit von Raumgröße
und Wandbeschaffenheit. Hierbei besteht das Ziel darin, den visuellen Eindruck einer
virtuellen Szene für eine gesteigerte Realitätsempfindung zu verstärken.
Es soll ein „Hören mit den Ohren der Kamera" ermöglicht werden,
um eine Szene echter erscheinen zu lassen. Hierbei wird eine möglichst hohe Korrelation
zwischen Schallereignisort im Bild und Hörereignisort im Surroundfeld angestrebt.
Das bedeutet, daß Schallquellenpositionen ständig einem Bild angepaßt sein sollen.
Kameraparameter, wie z. B.
Zoom, sollen in die Tongestaltung ebenso mit einbezogen werden wie
eine Position von zwei Lautsprechern L und R. Hierzu werden Trackingdaten eines
virtuellen Studios zusammen mit einem zugehörigen Timecode vom System in eine Datei
geschrieben. Gleichzeitig werden Bild, Ton und Timecode auf einer MAZ aufgezeichnet.
Das Camdump-File wird zu einem Computer übertragen, der daraus Steuerdaten für eine
Audioworkstation geniert und synchron zum von der MAZ stammenden Bild über eine
MIDI-Schnittstelle ausgibt. Die eigentliche Audiobearbeitung wie Positionierung
der Schallquelle im Surroundfeld und Einfügen von frühen Reflexionen und Nachhall
findet innerhalb der Audioworkstation statt. Das Signal wird für ein 5.1-Surround-Lautsprechersystem
aufbereitet.
Kamera-Tracking-Parameter genauso wie Positionen von Schallquellen
im Aufnahme-Setting können bei realen Film-Sets aufgezeichnet werden. Solche Daten
können auch in virtuellen Studios erzeugt werden.
In einem virtuellen Studio steht ein Schauspieler oder Moderator allein
in einem Aufnahmeraum. Insbesondere steht er vor einer blauen Wand, die auch als
Blue-Box oder Blue-Panel bezeichnet wird. Auf diese Blauwand ist ein Muster aus
blauen und hellblauen Streifen aufgebracht. Das besondere an diesem Muster ist,
daß die Streifen unterschiedlich breit sind und sich somit eine Vielzahl von Streifen-Kombinationen
ergeben. Aufgrund der einmaligen Streifen-Kombinationen auf der Blauwand ist es
bei der Nachbearbeitung, wenn die Blauwand durch einen virtuellen Hintergrund ersetzt
wird, möglich, genau zu bestimmen, in welche Richtung die Kamera blickt. Mit Hilfe
dieser Informationen kann der Rechner den Hintergrund für den aktuellen Kamerablickwinkel
ermitteln. Ferner werden Sensoren an der Kamera ausgewertet, die zusätzliche Kameraparameter
erfassen und ausgeben. Typische Parameter einer Kamera, die mittels Sensorik erfaßt
werden, sind die drei Translationsgrade x, y, z, die drei Rotationsgrade, die auch
als Roll, Tilt, Pan bezeichnet werden, und die Brennweite bzw. der Zoom, der gleichbedeutend
mit der Information über den Öffnungswinkel der Kamera ist.
Damit die genaue Position der Kamera auch ohne Bilderkennung und ohne
aufwendige Sensortechnik bestimmt werden kann, kann man auch ein Tracking-System
einsetzen, das aus mehreren Infrarot-Kameras besteht, die die Position eines an
der Kamera befestigten Infrarot-Sensors ermitteln. Somit ist auch die Position der
Kamera bestimmt. Mit den von der Sensorik gelieferten Kameraparametern und den von
der Bilderkennung ausgewerteten Streifen-Informationen kann ein Echtzeitrechner
nun den Hintergrund für das aktuelle Bild berechnen. Hierauf wird der Blau-Farbton,
den der blaue Hintergrund hatte, aus dem Bild entfernt, so daß statt dem blauen
Hintergrund der virtuelle Hintergrund eingespielt wird.
In der Mehrzahl der Fälle wird ein Konzept verfolgt, bei dem es darum
geht, einen akustischen Gesamteindruck der visuell abgebildeten
Szenerie zu bekommen. Dieses lässt sich gut mit dem aus der Bildgestaltung stammenden
Begriff der „Totalen" umschreiben. Dieser „totale" Klangeindruck bleibt
meist über alle Einstellungen in einer Szene konstant, obwohl sich der optische
Blickwinkel auf die Dinge meist stark ändert. So werden optische Details durch entsprechende
Einstellungen herausgehoben oder in den Hintergrund gestellt. Auch Gegenschüsse
bei der filmischen Dialoggestaltung werden vom Ton nicht nachvollzogen.
Daher besteht der Bedarf, den Zuschauer akustisch in eine audiovisuelle
Szene einzubetten. Hierbei bildet die Leinwand oder Bildfläche die Blickrichtung
und den Blickwinkel des Zuschauers. Dies bedeutet, daß der Ton dem Bild in der Form
nachgeführt werden soll, daß er stets mit dem gesehenen Bild übereinstimmt. Dies
wird insbesondere für virtuelle Studios noch wichtiger, da es typischerweise keine
Korrelation zwischen dem Ton der Moderation beispielsweise und der Umgebung gibt,
in der sich der Moderator gerade befindet. Um einen audiovisuellen Gesamteindruck
der Szene zu bekommen, muß ein zum gerenderten Bild passender Raumeindruck simuliert
werden. Eine wesentliche subjektive Eigenschaft bei einem solchen klanglichen Konzept
ist in diesem Zusammenhang der Ort einer Schallquelle, wie ihn ein Betrachter beispielsweise
einer Kinoleinwand empfindet.
Im Audiobereich läßt sich also durch die Technik der Wellenfeldsynthese
(WFS) ein guter räumlicher Klang für eine großen Hörerbereich erzielen. Wie es ausgeführt
worden ist, basiert die Wellenfeldsynthese auf dem Prinzip von Huygens, nach welchem
sich Wellenfronten durch Überlagerung von Elementarwellen formen und aufbauen lassen.
Nach mathematisch exakter theoretischer Beschreibung müßten unendlich viele Quellen
in unendlich kleinem Abstand für die Erzeugung der Elementarwellen genutzt werden.
Praktisch werden jedoch endlich viele Lautsprecher in einem endlich kleinen Abstand
zueinander genutzt. Jeder dieser Lautsprecher wird gemäß dem WFS-Prinzip mit einem
Audiosignal von einer virtuellen Quelle, das ein bestimmtes Delay und einen bestimmten
Pegel hat, angesteuert. Pegel und Delays sind in der Regel für alle Lautsprecher
unterschiedlich.
Im Audiobereich existiert ein sogenannter natürlicher Dopplereffekt.
Dieser Dopplereffekt entsteht daraus, daß eine Quelle ein Audiosignal mit bestimmter
Frequenz sendet, ein Empfänger dieses Signal empfängt, und eine Bewegung der Quelle
relativ zum Empfänger stattfindet. Dies führt aufgrund einer „Dehnung" oder
„Stauchung" der akustischen Wellenformen dazu, daß sich die Frequenz des
Audiosignals beim Empfänger entsprechend der Bewegung ändert. Üblicherweise ist
der Mensch der Empfänger, und er hört diese Frequenzänderung direkt, beispielsweise
dann, wenn sich ein Krankenwagen mit Martinshorn auf einen Mensch zu bewegt und
dann an dem Mensch vorbeifährt. Der Mensch wird zum Zeitpunkt, zu dem der Krankenwagen
vor ihm ist, das Martinshorn mit einer anderen Tonlage hören als dann, wenn sich
der Krankenwagen hinter dem Menschen befindet.
Auch bei der Wellenfeldsynthese bzw. Klangfeldsynthese existiert ein
Dopplereffekt. Er basiert physikalisch auf dem gleichen Hintergrund wie der vorstehend
beschriebene natürliche Dopplereffekt. Im Gegensatz zum natürlichen Dopplereffekt
existiert jedoch bei der Klangfeldsynthese kein direkter Weg zwischen dem Sender
und dem Empfänger. Statt dessen wird eine Unterscheidung dahingehend vorgenommen,
daß es einen Primärsender und einen Primärempfänger gibt. Darüber hinaus existiert
ein Sekundärsender und ein Sekundärempfänger. Dieses Szenario wird nachfolgend anhand
von 7 dargestellt.
7 zeigt eine virtuelle Quelle
700, die sich von einer ersten Position, die mit einer eingekreisten „1"
in 7 bezeichnet ist, über der Zeit entlang einer Bewegungsbahn
702 zu einer zweiten Position bewegt, die in 7
mit einer eingekreisten „2" dargestellt ist. Ferner sind schematisch drei
Lautsprecher 704 gezeigt, die ein Wellenfeldsynthese-Lautsprecherarray
symbolisieren sollen. In dem Szenario befindet sich ferner ein Hörer 706,
der bei dem in 7 gezeigten Beispiel derart angeordnet
ist, daß die Bewegungsbahn der virtuellen Quelle eine Kreisbahn ist, die sich um
den Hörer herum, der den Mittelpunkt dieser Kreisbahn bildet, erstreckt. Dagegen
sind die Lautsprecher 704 nicht im Mittelpunkt angeordnet, dahingehend,
daß zu dem Zeitpunkt, zu dem sich die virtuelle Quelle 700 an der ersten
Position befindet, dieselbe einen ersten Abstand r1 von einem Lautsprecher
hat, und daß die Quelle dann in ihrer zweiten Position einen zweiten Abstand r2
zu der Quelle hat. Bei dem in 7 gezeigten Szenario
ist r1 ungleich r2, während R1, also die Entfernung
der virtuellen Quelle vom Hörer 706 gleich der Entfernung des Hörers
706 zur virtuellen Quelle zum Zeitpunkt 2 ist. Dies bedeutet, daß für den
Hörer 706 keine Abstandsänderung der virtuellen Quelle 700 stattfindet.
Dagegen findet jedoch sehr wohl eine Abstandsänderung der virtuellen Quelle
700 relativ zu den Lautsprechern 704 statt, da r1 ungleich
r2 ist. Die virtuelle Quelle stellt den Primärsender dar, während die
Lautsprecher 704 den Primärempfänger darstellen. Gleichzeitig stellen die
Lautsprecher 704 den Sekundärsender dar, während der Hörer 706
schließlich den Sekundärempfänger darstellt.
Bei der Wellenfeldsynthese erfolgt die Übertragung zwischen dem Primärsender
und dem Primärempfänger „virtuell". Dies bedeutet, daß die Wellenfeldsynthese-Algorithmen
verantwortlich sind für die Dehnung und Stauchung der Wellenfront der Wellenformen.
Zu dem Zeitpunkt, zu dem ein Lautsprecher 704 ein Signal vom Wellenfeldsynthesemodul
empfängt, existiert zunächst noch kein hörbares Signal. Hörbar wird das Signal erst
nach Ausgabe über den Lautsprecher. Damit können an verschiedenen Stellen Dopplereffekte
entstehen.
Falls sich die virtuelle Quelle relativ zu den Lautsprechern bewegt,
gibt jeder Lautsprecher ein Signal mit unterschiedlichem Dopplereffekt wieder, je
nach seiner speziellen Position bezüglich der sich bewegenden virtuellen Quelle,
da die Lautsprecher auf unterschiedlichen Positionen stehen und die relativen Bewegungen
somit für jeden Lautsprecher unterschiedlich sind.
Andererseits kann sich auch der Hörer relativ zu den Lautsprechern
bewegen. Dies ist jedoch insbesondere in einem Kinosetting ein für die Praxis unbedeutender
Fall, da die Bewegung des Hörers bezüglich der Lautsprecher immer eine relativ langsame
Bewegung mit einem entsprechend kleinen Dopplereffekt sein wird, da die Dopplerverschiebung,
wie es in der Technik bekannt ist, proportional zur Relativbewegung zwischen Sender
und Empfänger ist.
Der erstgenannte Dopplereffekt, also wenn sich die virtuelle Quelle
relativ zu den Lautsprechern bewegt, kann sich relativ natürlich, aber auch sehr
unnatürlich anhören. Dies hängt davon ab, in welcher Richtung die Bewegung stattfindet.
Bewegt sich die Quelle nämlich gerade vom Mittelpunkt des Systems weg oder hin,
ergibt sich ein eher natürlicher Effekt. Bezug nehmend auf 7
würde dies bedeuten, daß sich die virtuelle Quelle 700 z. B. entlang des
Pfeils R1 von dem Hörer weg bewegen würde.
„Umkreist" jedoch die virtuelle Quelle 700 den Hörer
706, wie es Bezug nehmend auf 7 dargestellt
ist, ergibt sich ein sehr unnatürlicher Effekt, da die Relativbewegungen zwischen
Primärquelle und Primärempfänger (Lautsprecher) sehr stark und innerhalb der unterschiedlichen
Primärempfänger auch sehr unterschiedlich sind, was in krassem Gegensatz zur Natur
steht, wo im Fall der Umkreisung der Quelle zum Hörer kein Dopplereffekt entsteht,
da dann keine Abstandsänderung zwischen Quelle und Hörer auftritt.
Die Fachveröffentlichung von Horbach U.u.a. „Real-time rendering
of dynamic scenes using wave field synthesis", in IEEE International Conference
on Multimedia and Expo, 2002, Proceedings, Vol. 1, 2002, S. 517 – 520 und
die Fachveröffentlichung von Pellegrini, R.S. u. Horbach, U., „Perceptual
encoding of acoustic environments", in, IEEE International Conference on Multimedia
and Expo, 2002, Proceedings Vol. 1, 2002, S. 501 – 503, beziehen sich auf
Wellenfeldsyntheseverfahren in Kombination mit dem MPEG-4-Muldimediastandard, um
zeitlich variierende akustische Szenen zu erfassen, zu übertragen und zu reproduzieren
bzw. auf Konzepte zur Messung/Analyse und Bestimmung von Raumeigenschaften auf der
Basis einer binauralen Impulsantwort.
Die Aufgabe der vorliegenden Erfindung besteht darin, ein verbessertes
Konzept zum Berechnen eines diskreten Werts zu einem aktuellen Zeitpunkt einer Komponente
in einem Lautsprechersignal zu schaffen, bei dem Artefakte aufgrund von Dopplereffekten
reduziert sind.
Diese Aufgabe wird durch eine Vorrichtung gemäß Patentanspruch 1 oder
ein Verfahren gemäß Patentanspruch 17 gelöst.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß Dopplereffekte
berücksichtigt werden können, da sie ein Bestandteil der für die Positionsidentifizierung
einer Quelle erforderlichen Informationen sind. Müßte vollständig auf solche Dopplereffekte
verzichtet werden, so könnte dies dazu führen, daß ein nicht optimales Klangerlebnis
entsteht, da der Doppler-Effekt naturgegeben ist und es somit zu einem nicht optimalen
Eindruck führen würde, wenn sich beispielsweise eine virtuelle Quelle auf einen
Hörer zu bewegt, jedoch keine Doppler-Verschiebung der Audiofrequenz stattfindet.
Andererseits wird erfindungsgemäß jedoch zur „Verschleifung"
des Dopplereffekts, dahingehend, daß er zwar vorhanden ist, daß jedoch seine Auswirkungen
zu keinen oder nur reduzierten Artefakten führen, ein „Überblenden" von einer
Position zu einer anderen Position durchgeführt. Beim Stand der Technik werden dann,
wenn eine Delayänderung auftritt, also wenn eine Positionsänderung der virtuellen.
Quelle stattfindet, bei einer verringerten Delay Abtastwerte einfach künstlich eingefügt,
oder bei einer vergrößerten Delay Abtastwerte einfach weggelassen. Dies führt zu
scharfen Sprüngen im Signal. Erfindungsgemäß werden dagegen diese scharfen Sprünge
dadurch reduziert, daß ein kontinuierlicher Übergang von einer Position der virtuellen
Quelle zu einer anderen Position der virtuellen Quelle erreicht wird. Hierzu wird
in einem Überblendungsbereich ein diskreter Wert für einen aktuellen Zeitpunkt in
dem Überblendungsbereich unter Verwendung eines für den aktuellen Zeitpunkt gültigen
Abtastwerts des Audiosignals an der ersten Position, also zu einem ersten Zeitpunkt,
und unter Verwendung eines zu einem aktuellen Zeitpunkt gehörigen Abtastwerts eines
Audiosignals der virtuellen Quelle an der zweiten Position, also zu dem zweiten
Zeitpunkt, berechnet.
Vorzugsweise findet ein Überblenden dahingehend statt, daß zum ersten
Zeitpunkt, zu dem also die ersten Positionsänderungen und damit die ersten Delayinformationen
gültig sind, ein Gewichtungsfaktor für das Audiosignal, das mit der ersten Verzögerung
verzögert ist, 100% beträgt, während ein Gewichtungsfaktor für das um die zweite
Verzögerung verzögerte Audiosignal 0% beträgt, und daß dann, von dem ersten Zeitpunkt
zu dem zweiten Zeitpunkt eine gegenläufige Änderung der beiden Gewichtungsfaktoren
durchgeführt wird, um gewissermaßen „glatt" von der einen Position zu der
anderen Position „überzublenden".
Das erfindungsgemäße Konzept stellt einen Kompromiß dar zwischen einerseits
einem gewissen Verlust an Positionsinformationen, da nicht mehr mit jedem neuen
aktuellen Zeitpunkt neue Positionsinformationen der Quelle berücksichtigt werden,
sondern da nur eine Positionsaktualisierung der virtuellen Quelle in eher groben
Schritten durchgeführt wird, wobei zwischen der einen Position der Quelle und der
um einige Zeit später stattfindenden zweiten Position der Quelle übergeblendet wird.
Dies erfolgt dadurch, daß das Delay zunächst für relativ grobe räumliche Schrittweiten,
d. h. zeitlich relativ weit entfernte Positionsinformationen (natürlich unter Berücksichtigung
der Geschwindigkeit der Quelle), durchgeführt wird. Damit wird die Delayänderung,
die zu dem oben genannten virtuellen Dopplereffekt zwischen dem Primärsender und
dem Primärempfänger führt, verschliffen, d. h. kontinuierlich von einer Delayänderung
zur anderen übergeführt. Das Überblenden oder „Panning" erfolgt erfindungsgemäß
mittels einer Lautstärkeskalierung von einer Position zur nächsten, um räumliche
Sprünge, und damit hörbare „Knackser" zu vermeiden. Damit wird das „harte"
Weglassen oder Hinzufügen von Abtastwerten aufgrund einer Delayänderung durch eine
an die harte Signalform angepaßte Signalform mit abgerundeten Ecken ersetzt, so
daß den Delayänderungen zwar Rechnung getragen wird, daß jedoch die zu Artefakten
führende harte Einflußnahme auf ein Lautsprechersignal aufgrund einer Positionsänderung
der virtuellen Quelle vermieden wird.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden
nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen detailliert erläutert.
Es zeigen:
1 ein Blockschaltbild einer erfindungsgemäßen
Vorrichtung;
2 ein Prinzipschaltbild einer Wellenfeldsyntheseumgebung,
wie sie für die vorliegende Erfindung einsetzbar ist;
3 eine detailliertere Darstellung des
in 2 gezeigten Wellenfeldsynthesemoduls;
4a einen Zeitverlauf eines diskreten
Audiosignals einer virtuellen Quelle zu einem ersten Zeitpunkt mit einer ersten
Delay D = 0;
4b eine Darstellung desselben Audiosignals
wie in 4a, jedoch mit einer Delay D = 2;
4c eine erste überblendete Version aufgrund
der in 4a und 4b gezeigten
Audiosignale in einem Zeitraum zwischen dem ersten Zeitpunkt, zu dem 4a
gültig ist, und einem zweiten Zeitpunkt, zu dem 4b
gültig ist;
4d eine weitere Überblendungsdarstellung
zu einem bezüglich zu 4c späteren Zeitpunkt, zu dem
das in 4b dargestellte Signal gültig ist;
5 einen Zeitverlauf der Komponente Kij
in einem Lautsprechersignal aufgrund einer virtuellen Quelle i, das aus den Zeitverläufen
der 4a bis 4d
zusammengesetzt ist;
6 eine detaillierte Darstellung der Gewichtungsfaktoren
m, n, die bei der Berechnung der in den 4a bis
4d gezeigten Audiosignale eingesetzt worden
sind;
7 ein Szenario zur Verdeutlichung eines
virtuellen Dopplereffekts; und
8 einen Zeitverlauf der Komponente Kij
ohne Überblenden.
Bevor detailliert auf 1 zur Darstellung
der erfindungsgemäßen Vorrichtung eingegangen wird, sei zunächst anhand von
2 eine klassische Wellenfeldsyntheseumgebung dargestellt.
Zentrum einer Wellenfeldsyntheseumgebung ist ein Wellenfeldsynthesemodul
200, das diverse Eingänge 202, 204, 206 und
208 sowie diverse Ausgänge 210, 212, 214,
216 umfaßt. Über Eingänge 202 bis 204 werden dem Wellenfeldsynthesemodul
verschieden Audiosignale für virtuelle Quellen zugeführt. So empfängt der Eingang
202 z. B. ein Audiosignal der virtuellen Quelle 1 sowie zugeordnete Positionsinformationen
der virtuellen Quelle. In einem Kinosetting beispielsweise wäre das Audiosignal
1 z. B. die Sprache eines Schauspielers, der sich von einer linken Seite der Leinwand
zu einer rechten Seite der Leinwand und möglicherweise zusätzlich noch vom Zuschauer
weg bzw. zum Zuschauer hin bewegt. Das Audiosignal 1 wäre dann die tatsächliche
Sprache dieses Schauspielers, während die Positionsinformationen als Funktion der
Zeit die zu einem bestimmten Zeitpunkt aktuelle Position des ersten Schauspielers
im Aufnahmesetting darstellt. Dagegen wäre das Audiosignal n die
Sprache beispielsweise eines weiteren Schauspielers, der sich gleich oder anders
als der erste Schauspieler bewegt. Die aktuelle Position des anderen Schauspielers,
dem das Audiosignal n zugeordnet ist, wird durch mit dem Audiosignal n synchronisierte
Positionsinformationen dem Wellenfeldsynthesemodul 200 mitgeteilt. In der
Praxis existieren verschiedene virtuelle Quellen je nach Aufnahmesetting bzw. Studio,
wobei das Audiosignal jeder virtuellen Quelle als eigener Audiotrack dem Wellenfeldsynthesemodul
200 zugeführt wird.
Wie es vorstehend dargelegt worden ist, speist ein Wellenfeldsynthesemodul
eine Vielzahl von Lautsprechern LS1, LS2, LS3, LSm durch Ausgabe von Lautsprechersignalen
über die Ausgänge 210 bis 216 zu den einzelnen Lautsprechern.
Dem Wellenfeldsynthesemodul 200 werden über den Eingang 206 die
Positionen der einzelnen Lautsprecher in einem Wiedergabesetting, wie beispielsweise
einem Kinosaal mitgeteilt. Im Kinosaal befinden sich um den Kinozuschauer herum
gruppiert viele einzelne Lautsprecher, die in Arrays vorzugsweise derart angeordnet
sind, daß sich sowohl vor dem Zuschauer, also beispielsweise hinter der Leinwand,
als auch hinter dem Zuschauer sowie rechts und links des Zuschauers Lautsprecher
befinden. Ferner können dem Wellenfeldsynthesemodul 200 noch sonstige Eingaben
mitgeteilt werden, wie beispielsweise Informationen über die Raumakustik etc., um
in einem Kinosaal die tatsächliche während des Aufnahmesettings herrschende Raumakustik
simulieren zu können.
Allgemein gesagt wird das Lautsprechersignal, das beispielsweise dem
Lautsprecher LS1 über den Ausgang 210 zugeführt wird, eine Überlagerung
von Komponentensignalen der virtuellen Quellen sein, dahingehend, daß das Lautsprechersignal
für den Lautsprecher LS1 eine erste Komponente, die auf die virtuelle Quelle 1 zurückgeht,
eine zweite Komponente, die auf die virtuelle Quelle 2 zurückgeht, sowie eine n-te
Komponente, die auf die virtuelle Quelle n zurückgeht, umfassen. Die einzelnen Komponentensignale
werden linear superponiert, also nach ihrer Berechnung addiert, um die linerare
Superposition am Ohr des Zuhörers nachzubilden, der in einem realen Setting eine
lineare Überlagerung der von ihm wahrnehmbaren Schallquellen hören wird.
Nachfolgend wird Bezug nehmend auf 3
eine detailliertere Ausgestaltung des Wellenfeldsynthesemoduls 200 dargelegt.
Das Wellenfeldsynthesemodul 200 hat einen stark parallelen Aufbau dahingehend,
daß ausgehend von dem Audiosignal für jede virtuelle Quelle und ausgehend von den
Positionsinformationen für die entsprechende virtuelle Quelle zunächst Verzögerungsinformationen
Vi sowie Skalierungsfaktoren SFi berechnet werden, die von
den Positionsinformationen und der Position des gerade betrachteten Lautsprechers,
z. B. dem Lautsprecher mit der Ordnungsnummer j, also LSj, abhängen. Die Berechnung
einer Verzögerungsinformation Vi sowie eines Skalierungsfaktors SFi
aufgrund der Positionsinformationen einer virtuellen Quelle und der Lage des betrachteten
Lautsprechers j geschieht durch bekannte Algorithmen, die in Einrichtungen
300, 302, 304, 306 implementiert sind. Auf der
Basis der Verzögerungsinformationen Vi(t) und SFi(t) sowie
auf der Basis des der einzelnen virtuellen Quelle zugeordneten Audiosignals ASi(t)
wird für einen aktuellen Zeitpunkt tA ein diskreter Wert AWi(tA)
für das Komponentensignal Kij in einem letztendlich erhaltenen Lautsprechersignal
berechnet. Dies erfolgt durch Einrichtungen, 310, 312,
314, 316, wie sie in 3 schematisch
dargestellt sind. 3 zeigt ferner gewissermaßen eine
„Blitzlichtaufnahme" zum Zeitpunkt tA für die einzelnen Komponentensignale.
Die einzelnen Komponentensignale werden dann durch einen Summierer 320
summiert, um den diskreten Wert für den aktuellen Zeitpunkt tA des Lautsprechersignals
für den Lautsprecher j zu ermitteln, der dann für den Ausgang (beispielsweise der
Ausgang 214, wenn der Lautsprecher j der Lautsprecher LS3 ist), dem Lautsprecher
zugeführt werden kann.
Wie es aus 3 ersichtlich ist, wird zunächst
für jede virtuelle Quelle einzeln ein aufgrund einer Verzögerung und einer Skalierung
mit einem Skalierungsfaktor zu einem aktuellen Zeitpunkt gültiger Wert berechnet,
wonach sämtliche Komponentensignale für einen Lautsprecher aufgrund der verschiedenen
virtuellen Quellen summiert werden. Wäre beispielsweise nur eine virtuelle Quelle
vorhanden, so würde der Summierer entfallen, und das am Ausgang des Summierers in
3 anliegende Signal würde z. B. dem Signal entsprechen,
das von der Einrichtung 310 ausgegeben wird, wenn die virtuelle Quelle
1 die einzige virtuelle Quelle ist.
Nachfolgend wird Bezug nehmend auf die 4a,
4b und 8
die Arbeitsweise der in 3 dargestellten Vorrichtung
erläutert. 4a zeigt ein beispielhaftes Audiosignal
der virtuellen Quelle über der Zeit t', das diskrete Werte hat, die sich von einem
Zeitpunkt t' = 0 bis zu einem Zeitpunkt t' = 13 erstrecken. Als Skalierungsfaktor
zum Zeitpunkt t' = 0 wird ein Skalierungsfaktor von 1 angenommen. Ferner wird ohne
Einschränkung der Allgemeinheit angenommen, daß zum Zeitpunkt t' = 0 eine Verzögerung
bzw. Delay von 0 Abtastwerten durch das Wellenfeldsynthesemodul berechnet worden
ist.
Zu dem ersten Zeitpunkt t' = 0, der in 4a
ferner mit 401 markiert ist, soll somit das in 4a
dargestellte Audiosignal einer virtuellen Quelle gespielt werden, während zu einem
zweiten Zeitpunkt 402, der in 4a gekennzeichnet
ist, von dem Audiosignal mit einer Delay D = 0 zu demselben Audiosignal, nun jedoch
mit einer Delay D = 2 umgeschaltet werden soll. Der Umschaltzeitpunkt
ist ferner durch einen Pfeil 404 in 4a gekennzeichnet.
Das um D = 2 verschobene Audiosignal von der virtuellen Quelle ist
in 4b als Funktion der Zeit für aktuelle Zeitpunkte
von t' = –2 bis t' = 12 dargestellt. Die Komponente für das Lautsprechersignal
auf der Basis der in den 4a und 4b
dargestellten virtuellen Quelle besteht somit vom Zeitpunkt 0 bis zum Zeitpunkt
8 aus den in 4a gezeigten Werten und vom Zeitpunkt
9 bis zu einem späteren Zeitpunkt, zu dem wieder eine Positionsänderung signalisiert
wird, aus den Abtastwerten zu den aktuellen Zeitpunkten 9 bis 12, die in
4b gezeigt sind. Dieses Signal ist in 8
dargestellt. Es ist zu sehen, daß zum Zeitpunkt des Umschaltens, also zum Zeitpunkt
des Umschaltens von der einen Position zur anderen Position, wobei das Umschalten
in 8 wieder durch 404 bezeichnet ist, zwei
Samples weggelassen wurden. Gemäß dem in 4a gezeigten
Audiosignal hätte nämlich zum Zeitpunkt 9 zwar ein Abtastwert mit einer Amplitude
von 1 kommen müssen, jedoch zum Zeitpunkt 10 ein Abtastwert mit einer Amplitude
von 0, während jedoch das in 8 gezeigte Signal zum
Zeitpunkt 10 bereits einen Abtastwert mit einer Amplitude von 2 hat, was aufgrund
der Delay D = 2 der Fall ist. Dieses Weglassen der zwei Samples führt zu dem eingangs
erwähnten virtuellen Dopplereffekt.
Zur Unterdrückung der unerwünschten Eigenschaften bzw. zur Unterdrückung
der aufgrund dieses Umschaltens von einer Delay zu einer anderen Delay bewirkten
Artefakte wird die in 1 gezeigte erfindungsgemäße Vorrichtung
eingesetzt. 1 zeigt insbesondere eine Vorrichtung zum
Berechnen eines diskreten Werts für einen aktuellen Zeitpunkt einer Komponente Kij
in einem Lautsprechersignal für einen Lautsprecher j aufgrund einer virtuellen Quelle
i in einem Wellenfeldsynthesesystem mit einem Wellenfeldsynthesemodul und einer
Mehrzahl von Lautsprechern. Insbesondere ist das Wellenfeldsynthesemodul ausgebildet,
um unter Verwendung eines Audiosignals, das der virtuellen Quelle zugeordnet ist,
und unter Verwendung einer Positionsinformation, die auf eine Position der virtuellen
Quelle hinweist, eine Verzögerungsinformation zu ermitteln, die anzeigt, um wie
viele Abtastwerte verzögert das Audiosignal bezüglich einer Zeitreferenz in der
Komponente auftreten soll. Die in 1 gezeigte Vorrichtung
umfaßt zunächst eine Einrichtung 10 zum Bereitstellen einer ersten Verzögerung,
die einer ersten Position der virtuellen Quelle zugeordnet ist, und zum Bereitstellen
einer zweiten Verzögerung, die einer zweiten Position der virtuellen Quelle zugeordnet
ist. Insbesondere bezieht sich die erste Position der virtuellen Quelle auf einen
ersten Zeitpunkt, und bezieht sich die zweite Position der virtuellen Quelle auf
einen zweiten Zeitpunkt, der später als der erste Zeitpunkt ist. Ferner unterscheidet
sich die zweite Position von der ersten Position. Die zweite Position ist beispielsweise
die in 7 mit der umkreisten „2" dargestellte
Position der virtuellen Quelle, während die erste Position die in 7
mit einer umkreisten „1" dargestellte Position der virtuellen Quelle
700 ist.
Die Einrichtung 10 zum Bereitstellen liefert ausgangsseitig
somit eine erste Verzögerung 12a für den ersten Zeitpunkt sowie eine zweite
Verzögerung 12b für den zweiten Zeitpunkt. Optional ist die Einrichtung
10 ferner ausgebildet, um neben den Verzögerungen auch Skalierungsfaktoren
für die zwei Zeitpunkt auszugeben, wie später noch erläutert wird.
Die beiden Verzögerungen an den Ausgängen 12a,
12b der Einrichtung 10 werden einer Einrichtung 14 zum
Ermitteln eines Werts des um die erste Verzögerung verzögerten Audiosignals, das
über einen Eingang 16 der Einrichtung 14 zugeführt wird, für den
aktuellen Zeitpunkt (der über einen Eingang 18 signalisierbar ist) und
zum Ermittelns eines zweiten Werts des um die zweite Verzögerung verzögerten Audiosignals
für den aktuellen Zeitpunkt zugeführt. Ausgangsseitig liefert die Einrichtung
14 zum Ermitteln somit zunächst einen ersten Wert A1(ti')
zum Zeitpunk ti' = tA des mit der ersten Verzögerung verzögerten
Audiosignals, der in 1 mit 20a bezeichnet
ist, sowie einen zweiten Wert 20b zum aktuellen Zeitpunkt ti'
= tA des mit der zweiten Verzögerung 12b verzögerten Audiosignals,
wobei A1 auf jeden Fall zum ersten Zeitpunkt gültig sein soll, und wobei
der A4 auf jeden Fall zum zweiten Zeitpunkt gültig sein soll.
Die erfindungsgemäße Vorrichtung umfaßt ferner eine Einrichtung
22 zum Gewichten des ersten Werts aus A1 mit einem ersten Gewichtungsfaktor,
um einen gewichteten ersten Wert 24a zu erhalten. Die Einrichtung
22 ist ferner wirksam, um den zweiten Wert 20b aus A4
mit einem zweiten Gewichtungsfaktor n zu gewichten, um einen zweiten gewichteten
Wert 24b zu erhalten. Die beiden gewichteten Werte 24a und
24b werden einer Einrichtung 26 zum Summieren der beiden Werte
zugeführt, um tatsächlich einen „überblendeten" diskreten Wert
28 für den aktuellen Zeitpunkt der Komponente Kij in einem Lautsprechersignal
für einen Lautsprecher j aufgrund der virtuellen Quelle i zu erhalten.
Nachfolgend wird die Funktionalität der in 1
gezeigten Vorrichtung beispielhaft anhand der 4c,
4d, 5
und 6 dargestellt. Bei dem in den
4a und 4b erläuterten
Szenario wird ein Umschalten von einer Delay zu einer anderen Delay nach 10 Abtastwerten
gefordert. Der erste Zeitpunkt 401 ist der aktuelle Zeitpunkt tA
= 0, während der zweite Zeitpunkt 402 der aktuelle Zeitpunkt tA
= 9 ist.
Erfindungsgemäß wird weder der Wert aus A1
zum ersten Zeitpunkt 401 noch der Wert aus A4 zum zweiten Zeitpunkt
402 modifiziert. Erfindungsgemäß modifiziert werden jedoch sämtliche Werte
zwischen t1 401 und t2 402, also Werte,
die einem aktuellen Zeitpunkt tA zugeordnet sind, der zwischen dem ersten
Zeitpunkt 401 und dem zweiten Zeitpunkt 402 liegt. Der aktuelle
Zeitpunkt erstreckt sich somit von den Zeitpunkten t' = 1 bis t' = 8 für die nachfolgende
beispielhafte Erläuterung.
Mathematisch ausgedrückt ist dies in der Graphik in 6
dargestellt, die den ersten Gewichtungsfaktor m als Funktion der aktuellen Zeitpunkte
zwischen dem ersten Zeitpunkt 401 und dem zweiten Zeitpunkt 402
darstellt. So ist der erste Gewichtungsfaktor m monoton fallend, während der zweite
Gewichtungsfaktor n monoton steigend ist. Zum ersten Zeitpunkt 401, als
t' = 0, beträgt m = 1 und n = 0. Dagegen betragen zum zweiten Zeitpunkt
402 der erste Gewichtungsfaktor m = 0 und der zweite Gewichtungsfaktor
n = 1. Zwischen dem ersten Zeitpunkt 401 und dem zweiten Zeitpunkt
402 werden die beiden Gewichtungsfaktoren einen treppenartigen Verlauf
haben, da nur für jeden Abtastwert, also nicht kontinuierlich gerechnet werden kann.
Der treppenförmige Verlauf wird ein in 6 gestrichelt
bzw. gepunktet dargestellter Verlauf sein, der je nach Anzahl der Überblendereignisse
bzw. der vorgegebenen Rechenkapazitätsressourcen zwischen dem ersten Zeitpunkt
401 und dem zweiten Zeitpunkt 402 entsprechend oft an die kontinuierliche
Linie angelehnt sein wird.
Lediglich beispielhaft wurde bei dem in 6
dargestellten Ausführungsbeispiel, das sich in den 4c
und 4d wiederspiegelt, zu zwei Überblendereignissen
zwischen dem ersten Zeitpunkt 401 und dem zweiten Zeitpunkt 402
gegriffen. Das erste Überblendereignis findet zum aktuellen Zeitpunkt tA
= 3 statt, während das zweite Überblendereignis zum aktuellen Zeitpunkt tA
= 6 stattfindet. Das Signal mit den zum ersten Überblendzeitpunkt zugehörigen Gewichtungsfaktoren
m und n, die in einer Zeile 600 in 6 gezeigt
sind, ist mit A2 in 4c dargestellt. Ferner
ist das zum zweiten Überblendzeitpunkt 602 zugehörige Signal mit A3
in 4d gezeigt. Der tatsächliche Zeitverlauf der Komponente
Kij, der letztendlich berechnet wird (die 4a
bis 4d dienen lediglich der Veranschaulichung)
ist in 5 dargestellt. Bei dem in 4a
bis 4d, 5 und
6 gezeigten Ausführungsbeispiel wird nicht zu jedem
neuen Abtastwert, also mit einer Periodendauer TA ein neuer Gewichtungsfaktor
berechnet, sondern lediglich alle drei Abtastzeitdauern. Daher wird für die aktuellen
Zeitpunkt 0, 1 und 2 die diesen Zeitpunkten entsprechenden Abtastwerte von
4a genommen. Für die aktuellen Zeitpunkte 3, 4 und
5 werden die zu 4c gehörenden Abtastwerte für die Zeitpunkte
3, 4 und 5 genommen. Ferner werden für die Zeitpunkte 6, 7 und 8 die zu
4d gehörigen Abtastwerte genommen, während schließlich
für die Zeitpunkte 9, 10 und 11 sowie weitere Zeitpunkte bis zu einer nächsten Positionsänderung
bzw. bis zu einer nächsten Überblendaktion die Abtastwerte von 4b
genommen werden, die den aktuellen Zeitpunkten 9, 10 bzw. 11 entsprechen. Ein Vergleich
von 5 mit 8 offenbart,
daß die scharfe Symmetrie um den Abtastwert zum aktuellen Zeitpunkt tA
= 9 entspannt ist, dahingehend, daß das „Weglassen" von zwei Samples, das
zu diesem Artefakt in 8 führte, in 5
entsprechend „verschliffen" ist.
Eine „feinere" Verschleifung könnte dann erreicht werden, wenn
das in 5 gezeigte Positionsaktualisierungsintervall
PAI nicht nur wie in 5 gezeigt alle drei Abtastwerte
durchgeführt wird, sondern zu jedem Abtastwert, so daß der Parameter N in
5 zu 1 werden würde. In diesem Fall würde die den ersten
Gewichtungsfaktor m symbolisierende Treppenkurve entsprechend enger an die kontinuierliche
Kurve angenähert sein. Alternativ könnte jedoch auch das Positionsaktualisierungsintervall
noch größer als 3 gemacht werden, beispielsweise daß nur eine Aktualisierung in
der Mitte des Intervalls zwischen dem zweiten Zeitpunkt 402 und dem erstem
Zeitpunkt 401 durchgeführt wird, so daß in der ersten Hälfte des Intervalls,
also für die aktuellen Zeitpunkte tA = 1 bis 4 m = 1 und n = 0 ist, während
für die zweite Hälfte des entsprechenden Intervalls, also für die aktuellen Zeitpunkte
5, 6, 7 und 8 m und n gleich 0, 5 sein würden, derart, daß dann zum zweiten Zeitpunkt
402, also zum aktuellen Zeitpunkt tA = 9, n zu 1 wird und m
zu 0 wird. Die Auswahl, ob zu jedem Abtastwert eine Überblendung durchgeführt wird,
oder ob nur alle N Abtastwerte eine Überblendung, also eine Positionsaktualisierung
durchgeführt wird, kann von Fall zu Fall unterschiedlich sein. Sie kann insbesondere
davon abhängen, wie schnell sich eine virtuelle Quelle bewegt. Bewegt sie sich sehr
langsam, so genügt es, einen relativ hohen Parameter N zu verwenden, also nur nach
einer relativ hohen Anzahl von Abtastwerten eine neue Positionsaktualisierung durchzuführen,
also eine neue „Stufe" in 6 zu erzeugen, während
im entgegengesetzten Fall, also dann, wenn sich die Quelle schnell bewegt, eine
eher häufigere Positionsaktualisierung bevorzug wird.
Bei dem in den 4a bis 4d
dargestellten Ausführungsbeispiel wurde davon ausgegangen, daß die ersten Positionsinformationen
für die virtuelle Quelle, die betrachtet wird, zum ersten Zeitpunkt 401
vorlagen, während die zweiten Positionsinformationen für die virtuelle Quelle zum
zweiten Zeitpunkt 402 vorlagen, der sich um neun Abtastwerte hinter dem
ersten Zeitpunkt befindet. Je nach Implementierung kann es jedoch sein, daß für
jeden Abtastwert eine eigene Positionsinformation vorliegt, bzw. daß eine solche
Positionsinformation ohne weiteres zur Interpolation gewonnen werden kann. So wurde
bisher die Bewegung der Quelle für jede Zwischenposition in sehr kleinen
räumlichen und damit zeitlichen Schritten berechnet, um ein hörbares Knacksen im
Audiosignal von dem Umschalten von einer Delay zu einer anderen Delay zu unterbinden,
wobei dieses Umschalten nur dann unterbunden werden kann, wenn die Abtastwerte vor
und nach dem Umschalten nicht zu stark auseinanderfielen.
Für das erfindungsgemäße Überblenden muß jedoch der aktuelle Zeitpunkt
tA zwischen dem ersten Zeitpunkt 401 und dem zweiten Zeitpunkt
402 liegen. Die minimale „Schrittweite", also der minimale Abstand
zwischen dem ersten Zeitpunkt 401 und dem zweiten Zeitpunkt 402
wird erfindungsgemäß zwei Abtastperioden betragen, so daß der aktuelle Zeitpunkt
zwischen dem ersten Zeitpunkt 401 und dem zweiten Zeitpunkt 402
mit beispielsweise jeweiligen Gewichtungsfaktoren von 0,5 bearbeitet werden kann.
Für die Praxis wird jedoch eine eher größere Schrittweite vorgezogen, zum einen
aus Rechenzeitgründen und zum anderen um einen Überblendeffekt zu erzeugen, der
dann nicht mehr auftreten würde, wenn zum nächsten Zeitpunkt schon die Folgeposition
erreicht ist, was wiederum zum unnatürlichen Dopplereffekt bei der herkömmlichen
Wellenfeldsynthese führen würde. Eine obere Grenze für die Schrittweite, also für
den Abstand vom ersten Zeitpunkt 401 zum zweiten Zeitpunkt 402
wird darin bestehen, daß natürlich mit größer werdendem Abstand immer mehr Positionsinformationen,
die eigentlich bereitstehen würden, aufgrund der Überblendung ignoriert werden,
was im Extremfall zu einem Verlust der Lokalisierbarkeit der virtuellen Quelle für
den Zuhörer führen wird. Daher werden Schrittweiten im mittleren Bereich bevorzugt,
die zusätzlich je nach Ausführungsform von der Geschwindigkeit der virtuellen Quelle
abhängen können, um eine adaptive Schrittweitensteuerung zu realisieren.
Bei dem in 6 gezeigten Ausführungsbeispiel
wurde als „Basis" für die Treppenkurve für den ersten und den zweiten Gewichtungsfaktor
ein linearer Verlauf gewählt. Alternativ könnte jedoch auch ein sinusförmiger, quadratischer,
kubischer etc. Verlauf verwendet werden. In diesem Fall müßte der entsprechende
Verlauf des anderen Gewichtungsfaktors komplementär dahingehend sein, daß die Summe
des ersten und des zweiten Gewichtungsfaktors immer gleich 1 ist bzw. innerhalb
eines vorbestimmten Toleranzbereichs, der sich beispielsweise um plus oder minus
10% um 1 herum erstreckt, liegt. Eine Option wäre beispielsweise für den ersten
Gewichtungsfaktor einen Verlauf gemäß dem Quadrat der Sinusfunktion zu nehmen und
für den zweiten Gewichtungsfaktor einen Verlauf gemäß dem Quadrat der Cosinusfunktion
zu nehmen, da die Quadrate von Sinus und Cosinus für jedes Argument, also für jeden
aktuellen Zeitpunkt tA, gleich 1 ist.
In den 4a bis 4d
wurde bisher angenommen, daß die Skalierungsfaktoren zum ersten Zeitpunkt
401 und zum zweiten Zeitpunkt 402 beide gleich 1 sind. Dies muß
jedoch nicht unbedingt so sein. So wird jeder Abtastwert des Audiosignals, das einer
virtuellen Quelle zugeordnet ist, einen bestimmten Betrag Bi haben. Das
Wellenfeldsynthesemodul wäre dann wirksam, einen ersten Skalierungsfaktor SF1
für den ersten Zeitpunkt 401 und einen zweiten Skalierungsfaktor SF2
für den zweiten Zeitpunkt 402 zu berechnen. Der tatsächliche Abtastwert
zu einem aktuellen Zeitpunkt tA zwischen dem ersten Zeitpunkt
401 und dem zweiten Zeitpunkt 402 würde dann folgendermaßen lauten:
AWi = B(tA)·m·SF1
+ B(tA)·n + SF2.
Aus der vorstehenden Gleichung kann aus Vereinfachungsgründen nunmehr
die Multiplikation eines Werts des Audiosignals mit zwei Gewichtungsfaktoren durch
eine Multiplikation des Werts mit dem Produkt aus den beiden Gewichtungsfaktoren
ersetzt werden.
|
| Anspruch[de] |
- Vorrichtung zum Berechnen eines diskreten Werts (28), für
einen aktuellen Zeitpunkt (tA), einer Komponente (Kij) in
einem Lautsprechersignal (322) für einen Lautsprecher (j) aufgrund einer
virtuellen Quelle (i) in einem Wellenfeldsynthesesystem mit einem Wellenfeldsynthesemodul
und einer Mehrzahl von Lautsprechern (LS1, LS2, LS3, LSm), wobei das Wellenfeldsynthesemodul
ausgebildet ist, um unter Verwendung eines Audiosignals (16), das der virtuellen
Quelle zugeordnet ist, und unter Verwendung einer Positionsinformation, die auf
eine Position der virtuellen Quelle hinweist, eine Verzögerungsinformation zu ermitteln,
die anzeigt, um viele Abtastwerte verzögert das Audiosignal bezüglich einer Zeitreferenz
in der Komponente auftreten soll, mit folgenden Merkmalen:
einer Einrichtung (10) zum Bereitstellen einer ersten Verzögerung (12a),
die einer ersten Position der virtuellen Quelle zu einem ersten Zeitpunkt zugeordnet
ist, und zum Bereitstellen einer zweiten Verzögerung (12b), die einer zweiten
Position der virtuellen Quelle zu einem zweiten späteren Zeitpunkt zugeordnet ist,
wobei sich die zweite Position von der ersten Position unterscheidet, und wobei
der aktuelle Zeitpunkt (tA) zwischen dem ersten Zeitpunkt (400)
und dem zweiten Zeitpunkt (402) liegt;
einer Einrichtung (14) zum Ermitteln eines ersten Werts des um die erste
Verzögerung verzögerten Audiosignals (A1) für den aktuellen Zeitpunkt (tA)
und zum Ermitteln eines zweiten Werts des um die zweite Verzögerung verzögerten
Audiosignals (A4) für den aktuellen Zeitpunkt (tA);
einer Einrichtung (22) zum Gewichten des ersten Werts mit einem ersten
Gewichtungsfaktor (m), um einen ersten gewichteten Wert (24a) zu erhalten,
und des zweiten Werts mit einem zweiten Gewichtungsfaktor (n),
um einen zweiten gewichteten Wert (24b) zu erhalten; und
einer Einrichtung zum Summieren (26) des ersten gewichteten Werts (24a)
und des zweiten gewichteten Werts (24b), um den diskreten Wert (28)
für den aktuellen Zeitpunkt (tA) zu erhalten,
wobei der erste Gewichtungsfaktor (m) und der zweite Gewichtungsfaktor (n) für Werte
zwischen dem ersten und dem zweiten Zeitpunkt (400, 402) so eingestellt
sind, daß eine Überblendung von dem um die erste Verzögerung verzögerten Audiosignal
in das um die zweite Verzögerung verzögerte Audiosignal stattfindet.
- Vorrichtung nach Anspruch 1, bei der der erste Gewichtungsfaktor (m)
zwischen dem ersten Zeitpunkt (400) und dem zweiten Zeitpunkt (402)
abnimmt, und bei dem der zweite Gewichtungsfaktor zwischen dem ersten Zeitpunkt
(400) und dem zweiten Zeitpunkt (402) ansteigt.
- Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der erste
Gewichtungsfaktor zu dem ersten Zeitpunkt gleich 1 ist und zu dem zweiten Zeitpunkt
gleich 0 ist, und bei der der zweite Gewichtungsfaktor (n) zu dem ersten Zeitpunkt
gleich 0 und zu dem zweiten Zeitpunkt gleich 1 ist.
- Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der erste
und der zweite Gewichtungsfaktor von einer Differenz zwischen dem aktuellen Zeitpunkt
und dem ersten Zeitpunkt (400) oder von einer Differenz zwischen dem aktuellen
Zeitpunkt und dem zweiten Zeitpunkt (402) abhängen.
- Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der erste
Gewichtungsfaktor von dem ersten Zeitpunkt zu dem zweiten Zeitpunkt monoton fällt,
und der zweite Gewichtungsfaktor von dem ersten Zeitpunkt zu dem zweiten Zeitpunkt
monoton steigt.
- Vorrichtung nach einem der vorhergehenden Ansprüche, bei der eine Summe
aus dem ersten Gewichtungsfaktor und dem zweiten Gewichtungsfaktor innerhalb eines
vorbestimmten Toleranzbereichs liegt, der sich um einen definierten Wert erstreckt.
- Vorrichtung nach Anspruch 6, bei der der vorbestimmte Toleranzbereich
plus oder minus 10% beträgt.
- Vorrichtung nach einem der vorhergehenden Ansprüche, bei der das Audiosignal
eine Folge von zeitdiskreten Werten ist, die jeweils um eine Abtastperiode (TA)
beabstandet sind, bei der der erste Zeitpunkt und der zweite Zeitpunkt um mehr als
eine Abtastperiode voneinander beabstandet sind.
- Vorrichtung nach Anspruch 8, bei der der erste Zeitpunkt und der zweite
Zeitpunkt fest eingestellt sind.
- Vorrichtung nach Anspruch 8, bei der die Einrichtung (10)
zum Bereitstellen der ersten und der zweiten Verzögerung den zeitlichen Abstand
zwischen dem ersten Zeitpunkt und dem zweiten Zeitpunkt abhängig von den Positionsinformationen
so einstellt, daß der zeitliche Abstand größer ist, wenn sich die virtuelle Quelle
mit einer kleineren Geschwindigkeit bewegt, und daß der zeitliche Abstand kleiner
ist, wenn sich die virtuellen Quelle mit einer größeren Geschwindigkeit bewegt.
- Vorrichtung nach einem der vorhergehenden Ansprüche, bei der ein zeitlicher
Abstand zwischen dem ersten Zeitpunkt und dem zweiten Zeitpunkt N Abtastperioden
beträgt, und bei der die Einrichtung (22) zum Gewichten ausgebildet ist,
um für eine Anzahl von M aufeinanderfolgenden aktuellen Abtastwerten denselben ersten
Gewichtungsfaktor und denselben zweiten Gewichtungsfaktor zu verwenden, wobei M
kleiner als N und größer oder gleich 2 ist.
- Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung
(22) zum Gewichten für jeden aktuellen Abtastwert einen aktuellen ersten
Gewichtungsfaktor und einen aktuellen zweiten Gewichtungsfaktor berechnet, so daß
der erste und der zweite Gewichtungsfaktor für jeden aktuellen Abtastwert unterschiedlich
zu einem ersten und einem zweiten Gewichtungsfaktor sind, die für einen ermittelten
vorhergehenden Abtastwert bestimmt worden sind.
- Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung
(10) zum Bereitstellen ausgebildet ist, um die zweite Verzögerung für den
zweiten Zeitpunkt basierend auf einer oder mehrerer Verzögerungen für vorausgehende
Zeitpunkte zu schätzen.
- Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Positionsinformationen
der virtuellen Quelle gemäß einem Zeitraster dem Audiosignal für die virtuelle Quelle
zugeordnet sind, wobei der erste und der zweite Zeitpunkt um eine Dauer voneinander
beabstandet sind, die länger als ein zeitlicher Abstand zwischen zwei Rasterpunkten
des Zeitrasters ist.
- Vorrichtung nach einem der vorhergehenden Ansprüche, bei der mehrere
Audiosignale für mehrere virtuelle Quellen vorhanden sind, bei der für jede virtuelle
Quelle ein Komponentensignal berechnet wird, und bei der alle Komponentensignale
für einen Lautsprecher addiert werden, um das Lautsprechersignal für den Lautsprecher
zu erhalten.
- Vorrichtung nach einem der vorhergehenden Ansprüche,
bei der das Wellenfeldsynthesemodul ausgebildet ist, um neben den Verzögerungsinformationen
auch Skalierungsinformationen zu berechnen, die anzeigen, mit welchem Skalierungsfaktor
das der virtuellen Quelle zugeordnete Audiosignal zu skalieren ist, und
bei der die Einrichtung (22) zum Gewichten ausgebildet ist, um den ersten
gewichteten Wert (24a) als Produkt aus dem Wert des Audiosignals für den
aktuellen Zeitpunkt und einem ersten Skalierungsfaktor für den aktuellen Zeitpunkt
und dem ersten Gewichtungsfaktor zu berechnen, und
bei der die Einrichtung (22) zum Gewichten ferner ausgebildet ist, um den
zweiten gewichteten Wert als Produkt aus dem Wert des Audiosignals für den aktuellen
Zeitpunkt, aus dem zweiten Skalierungsfaktor für den zweiten Zeitpunkt und den zweiten
Gewichtungsfaktor zu berechnen.
- Verfahren zum Berechnen eines diskreten Werts (28), für einen
aktuellen Zeitpunkt (tA), einer Komponente (Kij) in einem
Lautsprechersignal (322) für einen Lautsprecher (j) aufgrund einer virtuellen
Quelle (i) in einem Wellenfeldsynthesesystem mit einem Wellenfeldsynthesemodul und
einer Mehrzahl von Lautsprechern (LS1, LS2, LS3, LSm), wobei das Wellenfeldsynthesemodul
ausgebildet ist, um unter Verwendung eines Audiosignals (16), das der virtuellen
Quelle zugeordnet ist, und unter Verwendung einer Positionsinformation, die auf
eine Position der virtuellen Quelle hinweist, eine Verzögerungsinformation zu ermitteln,
die anzeigt, um viele Abtastwerte verzögert das Audiosignal bezüglich einer Zeitreferenz
in der Komponente auftreten soll, mit folgenden Schritten:
Bereitstellen (10) einer ersten Verzögerung (12a), die einer ersten
Position der virtuellen Quelle zu einem ersten Zeitpunkt zugeordnet ist, und zum
Bereitstellen einer zweiten Verzögerung (12b), die einer zweiten Position
der virtuellen Quelle zu einem zweiten späteren Zeitpunkt zugeordnet ist, wobei
sich die zweite Position von der ersten Position unterscheidet, und wobei der aktuelle
Zeitpunkt (tA) zwischen dem ersten Zeitpunkt (400) und dem zweiten
Zeitpunkt (402) liegt;
Ermitteln (14) eines ersten Werts des um die erste Verzögerung verzögerten
Audiosignals (A1) für den aktuellen Zeitpunkt (tA) und Ermitteln eines
zweiten Werts des um die zweite Verzögerung verzögerten Audiosignals (A4)
für den aktuellen Zeitpunkt (tA);
Gewichten (22) des ersten Werts mit einem ersten Gewichtungsfaktor (m),
um einen ersten gewichteten Wert (24a) zu erhalten, und des zweiten Werts
mit einem zweiten Gewichtungsfaktor (n), um einen zweiten gewichteten Wert (24b)
zu erhalten; und
Summieren (26) des ersten gewichteten Werts (24a) und des zweiten
gewichteten Werts (24b), um den diskreten Wert (28) für den aktuellen
Zeitpunkt (tA) zu erhalten,
wobei der erste Gewichtungsfaktor (m) und der zweite Gewichtungsfaktor (n) für Werte
zwischen dem ersten und dem zweiten Zeitpunkt (400, 402) so eingestellt
sind, daß eine Überblendung von dem um die erste Verzögerung verzögerten Audiosignal
in das um die zweite Verzögerung verzögerte Audiosignal stattfindet.
Es folgen 8 Blatt Zeichnungen
|
|
|