PatentDe  


Dokumentenidentifikation DE102004061969A1 20.07.2006
Titel Verfahren zur Positionsbestimmung von Personen in komplexen Szenen aus der Bildsequenz einer monokularen Kamera
Anmelder Kraiss, Karl-Friedrich, Prof. Dr.-Ing., 52074 Aachen, DE
Erfinder Fillbrandt, Holger, Dipl.-Ing., 52070 Aachen, DE;
Kraiss, Karl-Friedrich, Prof.-Ing, 52072 Aachen, DE
DE-Anmeldedatum 23.12.2004
DE-Aktenzeichen 102004061969
Offenlegungstag 20.07.2006
Veröffentlichungstag im Patentblatt 20.07.2006
IPC-Hauptklasse G06T 7/20(2006.01)A, F, I, 20051017, B, H, DE
IPC-Nebenklasse G02B 7/28(2006.01)A, L, I, 20051017, B, H, DE   
Zusammenfassung In automatisierten, kamerabasierten Überwachungssystemen ist es häufig erforderlich, die genaue Position der Personen innerhalb des überwachten Raumes aus der aufgenommenen Bildsequenz zu bestimmen. Die Schwierigkeit hierbei ist, dass aufgrund von Verdeckungen durch Raumobjekte und andere Personen oft nur Teile einer Person sichtbar sind.
Die Position der zu lokalisierenden Person wird aus drei unabhängigen, adaptiv gewichteten Positionsberechnungen bestimmt. Hierbei handelt es sich um die Positionsvorhersage durch Extrapolation der bisherigen Trajektorie (A), sowie die Positionsberechnungen auf den Fuß- (B) und Kopfkoordinaten (C) im Bild. Diese Koordinaten werden durch Silhouettenrekonstruktion aus dem unverdeckten Teil der Person bestimmt. Die Gewichte berücksichtigen sowohl die aus dem Verdeckungsgrad ermittelte Zuverlässigkeit der jeweiligen Koordinaten als auch den Einfluss der Kameraperspektive auf die Koordinatentransformation.
Kamerabasierte Überwachungssysteme.

Beschreibung[de]

Der Rahmen der Erfindung ist die Entwicklung eines Systems zur videobasierten Überwachung eines Raumes. Die spezielle Problemstellung ist dabei die Bestimmung der genauen Position jeder sich im Bild befindlichen Person in den Koordinaten der Bodenebene der beobachteten Szene. Zur Abbildung eines Raumteils soll jeweils nur eine einzelne, festinstallierte Kamera an einer beliebigen Position verwendet werden. Die Schwierigkeit hierbei ist, dass die im Raum vorhandenen Objekte (Tische, Stühle, Schränke etc.) und anderen Personen eine zu lokalisierende Person teilweise oder vollständig verdecken können. Wäre dieses nicht der Fall, so könnte die Aufgabenstellung durch die einfache Koordinatentransformation der in der Bildebene zu findenden Fußposition in die Bodenkoordinaten gelöst werden.

Die meisten bekannten Trackingsysteme zur Personenverfolgung arbeiten lediglich in der Bildebene, legen also nur fest, in welchem Bildbereich sich eine Person aufhält. Solche Systeme lösen daher nicht die Aufgabenstellung, die beobachteten Personen in Bodenkoordinaten zu lokalisieren. Sie stellen vielmehr den Vorverarbeitungsschritt dar, eine Person im Bildbereich zu segmentieren und ihre Silhouette zu verfolgen. Der Großteil dieser Systeme geht nicht auf Verdeckungen durch Szenerieobjekte ein und behandelt Überlappungen von mehreren Personen, indem diese für den Zeitraum der Überlappung als ein einzelnes Objekt weiter verfolgt und erst nach dem Auseinandergehen wieder getrennt erfasst werden. Neuere Arbeiten verwenden Farbinformation zur getrennten Segmentierung einzelner Personen auch während einer Überlappung. Systeme, die Personen in Bodenkoordinaten lokalisieren und verfolgen, beobachten die Personen meist im Freien aus einer großen Entfernung und erhöhten Position bzw. mit mehreren Kameras, wodurch der Positionsfehler während einer Überlappung gering ist.

Bisher wurde kein Lösungsansatz vorgestellt, der es erlaubt, die genaue Boden-Position von Personen in einer komplexen, räumlich engen Szene mit einer einzelnen Kamera zu bestimmen, insbesondere wenn die beobachteten Personen aufgrund von Verdeckungen nur teilweise sichtbar sind.

Den Kern der Erfindung bildet ein Berechnungsverfahren zur Bestimmung der wahrscheinlichsten Position einer zu lokalisierenden Person aus drei unabhängigen, adaptiv gewichteten Positionsberechnungen. Voraussetzungen hierfür sind das Einbeziehen von Vorwissen über den Abbildungsvorgang der Kamera und die sich im Raum befindlichen Objekte.

Das Wissen um den Abbildungsvorgang der Kamera ermöglicht das Berechnen der Position einer Person in Bodenkoordinaten aus ihrer Fußposition im Bild oder aus ihrer Kopfposition bei bekannter Größe der Person. Ebenfalls kann die Größe der Person aus der gefundenen Kopf- und Fußposition berechnet werden. Zusammen mit Wissen um die Form der Silhouette kann so für jede Bodenposition der belegte Bildbereich einer Person rekonstruiert werden.

Das Wissen um die Raumtiefe von Szenerieobjekten ermöglicht es zu definieren, welche Bildteile von einer Person bekannter oder vorhergesagter Tiefenposition verdeckt werden, bzw. welche Teile einer Person von Szenerieobjekten verdeckt sind. Dieses Wissen wird zum einen dazu verwendet, die vollständige Silhouette einer Person anhand des sichtbaren Teils zu rekonstruieren und zum anderen dazu, die Zuverlässigkeit der so gefundenen Kopf- und Fußpositionen der Person zu bestimmen.

1 zeigt einen Überblick über das Funktionsprinzip des Gesamtsystems. Es beinhaltet die folgenden Schritte:

  • 1. In einem neuen Frame der Bildsequenz werden die Bodenpositionen der beobachteten Personen mittels eines Kalman-Filters vorhergesagt. Diese Vorhersage ist gleichzeitig die erste Annahme (xA, yA) für die finale Position.
  • 2. Anhand der vorhergesagten Position einer zu lokalisierenden Person und des Vorwissens um die Position von Szenenobjekten und anderer Personen im Raum wird festgelegt, welche Bildbereiche die Person verdecken und somit „ungültig" sind.
  • 3. Die vollständige Silhouette der Person wird aus dem sichtbaren, gültigen Teil rekonstruiert, indem ein Körpermodell an diesen durch verschiedene Vorbearbeitungsstufen segmentierten Bereich angepasst wird. Auf diese Weise lassen sich Fuß- und Kopfposition der Person finden bzw. schätzen.
  • 4. Aus der Fuß- und der Kopfposition im Bild lassen sich mit dem Abbildungsmodell per Koordinatentransformation zwei weitere Annahmen (xB, yB) und (xC, yC) für die Position berechnen.
  • 5. Die finale Positionsschätzung ergibt sich aus der gewichteten Summe der drei Ergebnisse wie folgt:

Die Gewichtung beruht auf zwei Elementen: der Zuverlässigkeit w (0 ≤ w ≤ 1) und der Fehlervarianz der Koordinatentransformation &sgr;2.

Die Zuverlässigkeiten w der Positionsschätzungen (xB, yB) und (xC, yC) hängen davon ab, welche Bereiche der Silhouette verdeckt sind. 2b zeigt, welche Teile einer durchschnittlichen menschlichen Silhouette (2a) relevant zur genauen Positionierung in horizontaler Richtung in der Bildebene sind. Analog zeigt dieses 2c für die Positionierung in vertikaler Richtung, wobei wyB aus dem Verdeckungsgrad der unteren Körperhälfte und wyC aus dem der oberen Körperhälfte resultiert. Die Gewichtungen wxA und wyA der vorhergesagten Position sind vordefinierte Konstanten.

Die Fehlervarianzen &sgr;xA2 und &sgr;yA2 der Vorhersage können direkt der a-priori-Kovarianzmatrix des Kalman Filters, der zur Positionsextrapolation eingesetzt wird, entnommen werden. Die theoretischen Fehlervarianzen der aus den Kopf- und Fußkoordinaten berechneten Bodenpositionen (durch Ellipsen angedeutet in 1) lassen sich abschätzen aus den Positionsdifferenzen, die aus einem 1-Pixel-Fehler der x- bzw. y-Koordinaten in der Bildebene resultieren. Hierauf hat neben der Entfernung der Person von der Kamera auch die Kameraperspektive großen Einfluß. Je flacher z.B. der Kamerawinkel bzgl. der Kopfhöhe im Bild ist, desto ungenauer ist die Berechnung der Entfernung der Person von der Kamera aus der y-Position ihres Kopfes im Bild.

Das vorgestellte Verfahren ermöglicht eine Positionsbestimmung von mehreren beobachteten Personen in einer komplexen Szene mit Verdeckungen und Überlappungen. Der Neuheitsgrad der Erfindung besteht in der optimierten, adaptiven Ausnutzung und Kombination der im gegebenen Kamerabild vorhandenen Informationen unter Einbeziehung der Auswirkungen der Abbildungsgleichungen der jeweiligen Kamera.


Anspruch[de]
  1. Verfahren zur Positionsbestimmung und Verfolgung von ganz oder teilweise sichtbaren Personen in einer komplexen Szene aus der Bildsequenz einer monokularen Kamera, dadurch gekennzeichnet, dass jede Positionsberechnung durch adaptive Gewichtung unabhängiger Positionsschätzungen erfolgt, die aus den gefundenen oder rekonstruierten Koordinaten des Kopfes und der Füße der jeweiligen Person im Bild sowie einer Positionsvorhersage gewonnen werden.
  2. Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, dass die Gewichte der Positionsschätzungen sowohl die aus der Lage der Verdeckungen der Personensilhouette ermittelte Zuverlässigkeit der verwendeten Koordinaten berücksichtigen als auch die aus der Kameraperspektive resultierende theoretische Fehlervarianz der jeweiligen Positionsberechnung.
Es folgt ein Blatt Zeichnungen






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com