PatentDe  


Dokumentenidentifikation DE102005000646B4 13.03.2008
Titel Vorrichtung und Verfahren zum Erfassen von sich bewegenden Objekten
Anmelder Honda Motor Co., Ltd., Tokyo, JP
Erfinder Higaki, Nobuo, Wako, Saitama, JP;
Shimada, Takamichi, Wako, Saitama, JP
Vertreter Weickmann & Weickmann, 81679 München
DE-Anmeldedatum 03.01.2005
DE-Aktenzeichen 102005000646
Offenlegungstag 18.08.2005
Veröffentlichungstag der Patenterteilung 13.03.2008
Veröffentlichungstag im Patentblatt 13.03.2008
IPC-Hauptklasse G06T 7/20(2006.01)A, F, I, 20051017, B, H, DE
IPC-Nebenklasse G06K 9/62(2006.01)A, L, I, 20051017, B, H, DE   

Beschreibung[de]

Die vorliegende Erfindung betrifft eine Vorrichtung und ein Verfahren zum Erfassen sich bewegender Objekte, und insbesondere eine Vorrichtung, ein Verfahren und ein Programm zum Erfassen sich bewegender Objekte wie beispielsweise Menschen und Robotern, unter Verwendung von Bildern (nämlich Videobildern), die von mehreren digitalen Videokameras aufgenommen sind, gemäß dem Oberbegriff der Ansprüche 1 und 15.

Als eine Technologie zum Erfassen von Objekten unter Verwendung von Videobildern, die von CCD-Videokameras aufgenommen sind, ist z.B. ein Modell dynamischer Konturen (SNAKES genannt), das die Kontur des Objekts erfassen soll, die anfangs in den Bildern undeutlich ist, eine gut bekannte Technologie. Die Objekterfassungstechnologie auf der Basis der Konturerfassung soll den sich bewegenden Körper erfassen, indem Zeitreihenbilder verwendet werden, wobei ein Konturmodell mit den Rändern der sich bewegenden Objekte verbunden ist (siehe JP-08-329254 A (1996), Seite 7, 7 und 10).

Die in der JP-08-329254 A beschriebene Technologie weist ein Problem auf, dass mehrere Objekte als ein einziger Körper erkannt werden, wenn sich die mehreren Objekte nebeneinander befinden.

Hierzu ist in der JP 2004-171189 A (2002) entsprechend US 2004/0101162 A1 ein neues Verfahren offenbart, um jedes der sich bewegenden Objekte, die sich berühren und einander benachbart sind, einzeln zu erfassen. Die Druckschrift schlägt ein Verfahren vor, ein einzelnes sich bewegendes Objekt aus mehreren sich bewegenden Objekten zu erfassen, indem ein Bild spezifiziert wird, mit einer vorgegebenen Breite um den Mittelpunkt, die für das sich bewegende Objekt gesetzt ist, indem ein Histogramm der gezählten Anzahl von Kantenpixeln in der vertikalen Richtung des Bildes verwendet wird. Der Oberbegriff der Ansprüche 1 und 15 beruht auf dieser Druckschrift.

Es ist zum Beispiel möglich, ein einzelnes Objekt aus mehreren Körpern zu extrahieren, indem die Position als der Mittelpunkt des sich bewegenden Objekts im Suchbereich gesetzt wird, bei dem die Gesamtanzahl von Pixeln, die ein Objekt in der vertikalen Richtung bilden, maximal ist.

Wie in dem in 17 mit (b) bezeichneten Objektabstandsbild TDE gezeigt ist, kann das verbesserte Erfassungsverfahren für sich bewegende Objekte allerdings immer noch ein Problem aufweisen, dass der Mittelpunkt des sich bewegenden Menschen, der seine Hand hebt, derart erfasst wird, dass die Kantenpixel in der Hand lokalisiert sind und der Mittelpunkt des sich bewegenden Objekts als der Mittelpunkt bestimmt wird, und nicht der Mittelpunkt des sich bewegenden Menschen.

Aufgabe der Erfindung ist es, eine Vorrichtung und ein Verfahren anzugeben, die ein einzelnes Objekt unter mehreren Objekten richtig erfassen können, ohne den Einfluss von Lokalisierungsrauschen im Histogramm der Kantenpixelanzahlen.

Zur Lösung der Aufgabe wird eine Vorrichtung gemäß Anspruch 1 angegeben.

Bei dieser Bewegungsvorrichtung ist es möglich, die horizontale Position der sich bewegenden Objekte genau zu setzen und das sich bewegende Objekt genau zu extrahieren, da der lokale Peak im Histogramm durch den Glättungsprozess eliminiert wird.

Der Objektabstand kann ein bestimmter sein oder ein Bereich von Abständen, wie beispielsweise 1,0 bis 1,2 Meter.

Die Vorrichtung zum Erfassen sich bewegender Objekte kann ferner ein Kantenbilderzeugungsmittel 13 aufweisen, das die Kantenbilder aus den Videobildern extrahiert. Das Objektabstandmessmodul kann ein Objektabstandsbild erzeugen, indem es die Pixel unter denen, die dem von dem Objektabstandmessmodul erhaltenen Objektabstand entsprechen, auswählt.

Es ist möglich, das sich bewegende Objekt genauer zu spezifizieren, indem ein Histogramm aus dem Objektkantenbild erstellt wird.

Ein Objektabstandsbilderzeugungsmittel erzeugt Objektabstandsbilder, indem es die Pixel auswählt, die dem Objektabstand entsprechen, der durch das Objektabstandsbestimmungsmittel spezifiziert ist.

Das Glätten von Pixelanzahlen in dem Objektbildflächenerfassungsmittel wird über die Koordinate x im Objektbereich durch die folgende Berechnung ausgeführt:

wobei Sx die Pixelanzahl der Koordinate x des Histogramms ist, Sx' die Pixelanzahl bei der Koordinate x nach dem Glätten ist, x0 eine positive konstante Zahl und f(n) eine Funktion von n oder eine Konstante ist.

Indem die Pixelanzahlen der benachbarten Pixel zur Pixelanzahl Sx an der Koordinate x des Histogramms addiert werden, ist es möglich, das Histogramm zu glätten. Beispielsweise kann in Gleichung (1) f(n) = |x – n| gesetzt werden.

Das Glätten im Objektbildflächenerfassungsmittel kann zusätzlich zu Gleichung (1) die folgende Relation erfüllen.

Für das Glätten nur nach Gleichung (1) erweitert sich der Fussbereich des Histogramms entlang der vertikalen Position bei „Fussbereichen", bei denen die Pixelanzahl des Histogramms nahe an Null ist. Daher besteht das Risiko, dass sich bewegende Objekte in einem derartigen Zustand extrahiert werden, dass sich mehrere sich bewegende Objekte in demselben Abstand befinden und nahe aneinander sind. Es ist allerdings möglich, die Fussbereiche zu unterdrücken und ein spezifisches sich bewegendes Objekt unter anderen Objekten zu erfassen.

Bei der obigen Vorrichtung zum Erfassen sich bewegender Objekte spezifiziert das Objektbildflächenerfassungsmittel einen vorbestimmten horizontalen Bereich um den Punkt, an dem die Pixelanzahl die maximale Anzahl beträgt. Das Objektbildflächenerfassungsmittel kann den vertikalen Bereich der Objektbildfläche basierend auf dem Neigungswinkel und der Höhe von dem Boden, auf dem die Vorrichtung zum Erfassen sich bewegender Objekte gesetzt ist, spezifizieren.

Das Objektbildflächenerfassungsmittel bewertet die Symmetrie des geglätteten Histogramms und bestimmt die Objektbildfläche auf der Basis des Punktes der größten Symmetrie im geglätteten Histogramm.

Durch die Verwendung dieser Systemkonstruktion ist es möglich, die Objektbildfläche auf einer Basis des Punktes größter Symmetrie im geglätteten Histogramm zu bestimmen, selbst wenn der Peak des Histogramms nicht mit dem Mittelpunkt des sich bewegenden Objekts zusammenfällt, da die Objektbildfläche die Objektbildfläche bestimmt, in der der Punkt verwendet wird, der die größte Symmetrie des geglätteten Histogramms zeigt.

Falls das sich bewegende Objekt ein Mensch ist, neigt das Histogramm insbesondere dazu, eine symmetrische Form aufzuweisen, da der menschliche Körper im Wesentlichen symmetrisch ist. Sobald daher der Mensch seine Hand hebt und der Peak des Histogramms sich von dem im wesentlichen Mittelpunkt des Menschen wegbewegt, ist es möglich, das Objektbild um den Mittelpunkt des sich bewegenden Objekts mit hoher Genauigkeit zu bestimmen.

Die Bestimmung der Symmetrie des Histogramms wird durch Glätten des Histogramms vereinfacht und die Mittelpunktsposition kann mit hoher Genauigkeit erfasst werden. Das Glätten verringert die lokalen Maxima und die lokalen Minima und verringert daher den Berechnungsaufwand.

Das Objektabstandsbestimmungsmittel zählt derartige Pixel, die für jeden Abstandsbereich Bewegung zeigen und bestimmt vorzugsweise danach einen Objektabstand, an dem sich das sich bewegende Objekt befindet, basierend auf dem Zählergebnis der Pixel.

Bei der Systemkonstruktion setzt das Objektabstandsbestimmungsmittel die Parallaxen (Abstände) als den Objektabstand, indem die Mengen der Pixel gezählt werden (in anderen Worten, indem ein Histogramm erstellt wird) für jeden Bereich von Parallaxen in den Differenzbildern DI, wobei die die Bewegungen repräsentierenden Pixel gezählt werden und der maximale Zählwert unter den Bereichen von Parallaxen bewertet wird, der das Vorhandensein des sich am meisten bewegenden bewegenden Objekts in einem derartigen Bereich von Parallaxen impliziert. Indem ein derartig einfaches Verfahren wie das Zählen der Pixel angewandt wird, ist es möglich, das Objekt zu bestimmen und den Abstand zu setzen, so dass ein hoher Durchsatz von Prozessen erhalten wird.

Das Objektabstandsbilderzeugungsmittel erzeugt ein Objektabstandsbild, das aus Pixeln gebildet ist, die die Bilderfassungsobjekte repräsentieren, die sich in einem vorbestimmten Bereich in der Tiefenrichtung befinden, basierend auf dem Objektabstand.

Gemäss einer derartigen Systemkonstruktion erfasst die Vorrichtung zum Erfassen sich bewegender Objekte nur die Pixel in der vorher bestimmten Fläche (vorbestimmte Fläche genannt) mittels des Objektabstandsbilderzeugungsmittels. Es ist möglich, das Objektabstandsbild zu erzeugen, das die sich bewegenden Objekte, die in dem Objektabstand existieren, unter den Objekten, die sich in die gleiche Richtung bewegen, spezifiziert.

Die Objekterfassungsvorrichtung erfasst die lokalen Maxima und die Minima im Histogramm, bestimmt die Pixelanzahldifferenz in der vertikalen Richtung von jeweils drei Serienpunkten und die Steigungsdifferenz von zwei Linien, die durch einen Mittelpunkt und zwei weitere Punkte der drei Serienpunkte gegeben sind, und bestimmt vorzugsweise einen Mittelpunkt von drei Serienpunkten, welcher Mittelpunkt eine minimale Pixelanzahldifferenz bereitstellt und eine minimale Steigungsdifferenz, als der Punkt größter Symmetrie im geglätteten Histogramm.

Bei einer derartigen Systemkonstruktion erfasst die Objekterfassungsvorrichtung lokale Maxima und Minima im Histogramm, bestimmt Pixelanzahldifferenzen in vertikaler Richtung von jeweils drei Serienpunkten und Steigungsdifferenzen von zwei Linien, die durch einen Mittelpunkt und zwei weitere Punkte der drei Serienpunkte bereitgestellt sind, und bestimmt und bewertet dann einen Mittelpunkt der drei Serienpunkte, der eine minimale Pixelanzahldifferenz und eine minimale Neigungsdifferenz aufweist, als den Punkt größter Symmetrie im geglätteten Histogramm. Daher ist es möglich, den Symmetrieparameter durch die Pixelanzahldifferenz und die Differenz von zwei Steigungen zu definieren, und den Punkt größter Symmetrie zu bewerten.

Die Vorrichtung zum Erfassen sich bewegender Objekte bestimmt vorzugsweise den horizontalen Bereich der Objektbildfläche mit einem bestimmten Rand um die horizontalen Punkte des lokalen Maximumpunkts und des lokalen Minimumpunkts, welche als der Punkt größter Symmetrie bewertet sind.

Bei einer solchen Systemkonstruktion setzt die Vorrichtung zum Erfassen sich bewegender Objekte einen Bereich der horizontalen Punkte des lokalen Maximums und des lokalen Minimums, welcher als die Punkte größter Symmetrie bestimmt worden sind, und als der horizontale Bereich der Objektbildfläche bewertet worden sind. Es ist möglich, den horizontalen Bereich der Objektbildfläche, die im Abstandsbild gesetzt ist, geeignet zu bestimmen.

Zur Lösung der Aufgabe wird ferner ein Verfahren gemäß Anspruch 15 angegeben.

Der Schritt des Bestimmens der Bildfläche bestimmt vorzugsweise die Bildfläche auf Grundlage des Punktes größter Symmetrie in dem geglätteten Histogramm, indem die Symmetrie des geglätteten Histogramms bewertet wird.

1 ist ein Blockdiagramm, das die gesamte Struktur der Funktionalmodule zeigt, die in die Vorrichtung zum Erfassen sich bewegender Objekte einer ersten Ausführungsform eingebaut sind.

2A ist ein Teil (der erste von insgesamt drei Teilen) des Flussdiagramms, das den Betrieb der Vorrichtung zum Erfassen sich bewegender Objekte der ersten Ausführungsform zeigt.

2B ist ein Teil (der zweite von insgesamt drei Teilen) des Flussdiagramms, das den Betrieb der Vorrichtung zum Erfassen sich bewegender Objekte der ersten Ausführungsform zeigt.

2C ist ein Teil (der dritte von insgesamt drei Teilen) des Flussdiagramms, das den Betrieb der Vorrichtung zum Erfassen sich bewegender Objekte der ersten Ausführungsform zeigt.

3 ist ein Beispiel der Inhalte des Abstandsbilds, des Kantenbilds, des Hautfarbenbereichsbilds und des Differenzbilds.

4 ist ein Beispiel der Inhalte des Abstandsbilds und des Differenzbilds.

5 ist eine erläuternde schematische Darstellung, die die Prozedur zum Erzeugen des Objektabstandsbilds basierend auf der Bewegung (Pixelanzahl) für jede Parallaxe (jeden Abstand) zeigt.

6 ist ein Histogramm der Grafik, die die Position repräsentiert, und die Anzahl der Pixel in der vertikalen Richtung im Objektabstandsbild zeigt.

7A ist eine schematische Darstellung, die ein Beispiel des Histogramms vor dem Glätten des Histogramms zeigt.

7B ist eine schematische Darstellung, die ein Beispiel des Histogramms nach Glätten des Histogramms zeigt.

8 ist eine erläuternde schematische Darstellung, die die Prozedur zum Berechnen des Höhenniveaus des sich bewegenden Objekts im Objektabstandsbild zeigt.

9 ist eine schematische Darstellung, die ein Beispiel zum Erfassen der Kontur der Objektbildfläche im Objektabstandsbild zeigt.

10 ist ein Blockdiagramm, das die gesamte Struktur der funktionalen Module zeigt, die in der Vorrichtung, zum Erfassen sich bewegender Objekte einer zweiten Ausführungsform eingebaut sind.

11A ist die erste Hälfte des Flussdiagramms, das den Betrieb der Vorrichtung zum Erfassen sich bewegender Objekte der ersten Ausführungsform zeigt.

11B ist die zweite Hälfte des Flussdiagramms, das den Betrieb der Vorrichtung zum Erfassen sich bewegender Objekte der ersten Ausführungsform zeigt.

12A ist eine schematische Darstellung, die ein Beispiel des Histogramms vor dem Glätten des Histogramms zeigt.

12B ist eine schematische Darstellung, die ein Beispiel des Histogramms nach dem Glätten des Histogramms zeigt.

13 ist eine schematische Darstellung, die die lokalen Maxima und Minima im Histogramm zeigt.

14 ist eine schematische Darstellung, die die Prozedur zum Berechnen des Höhenniveaus des sich bewegenden Objekts im Objektabstandsbild zeigt.

15 ist eine schematische Darstellung, die ein Beispiel zum Erfassen der Kontur des Objektabstandsbereichs im Objektabstandsbild zeigt.

16 ist eine schematische Darstellung, die das aktualisierte Abstandsbild zeigt mit der Objektbildfläche, aus der das sich bewegende Objekt entfernt worden ist.

17 ist eine schematische Darstellung, die ein Beispiel des Objektabstandsbilds und des Objektabstandsbereichs zeigt, die durch eine herkömmliche Vorrichtung zum Erfassen sich bewegender Objekte erhalten ist.

Die Vorrichtung zum Erfassen sich bewegender Objekte gemäß der vorliegenden Erfindung, das Verfahren zum Erfassen der sich bewegenden Objekte und das Computerprogramm zum Erfassen sich bewegender Objekte können die lokalisierte Peakanzahl im Histogramm entfernen und es ist daher möglich, die sich bewegenden Objekte zu spezifizieren und zu erfassen.

Im folgenden werden die Ausführungsformen der vorliegenden Erfindung mit Bezug zu den Figuren erläutert.

<Erste Ausführungsform>

Eine erste Ausführungsform der vorliegenden Erfindung wird unter Bezugnahme auf die Figuren und Gleichungen in den folgenden Abschnitten erläutert.

(Struktur eines Detektors für sich bewegende Objekte)

1 zeigt die Gesamtstruktur der Vorrichtung 1 zum Erfassen sich bewegender Objekte. Die fundamentale Funktion der Vorrichtung 1 zum Erfassen sich bewegender Objekte ist, das Objekt zu erfassen, welches sich bewegt (und „sich bewegendes Objekt" genannt wird). Bei dieser Ausführungsform ist die Vorrichtung 1 zum Erfassen sich bewegender Objekte mit einem Eingabebildanalysator 10 aufgebaut, der die Eingabevideobilder analysiert, und mit einem Objektdetektor 20, der das Objekt aus den analysierten Videobildern erfasst. Zwei Kameras 2, umfassend die Kamera 2a und die Kamera 2b, sind horizontal mit einem Trennungsabstand B angeordnet. Die als rechte Kamera 2a beschriebene Kamera ist in einer relativ rechts befindlichen Position angeordnet und die andere, als linke Kamera 2b beschriebene Kamera, ist in einer relativ links befindlichen Position angeordnet.

Der Eingabebildanalysator 10 analysiert die Videobilder, die von den beiden Kameras 2 aufgenommen und dem Eingabebildanalysator 10 synchron eingegeben werden. Als das Ergebnis der Bildanalyse, werden Abstandsbilder, die Abstandsinformationen umfassen, Differenzbilder, die Bewegungsinformation umfassen, und Kantenbilder, welche die aus den Videobildern extrahierten Kanten sind, erzeugt. Der Eingabebildanalysator 10 umfasst den Abstandsinformationsgenerator 11, den Bewegungsinformationsgenerator 12, den Kanteninformationsgenerator 13 und den Hautfarbbereichbildinformationsgenerator 14.

Der Abstandsinformationsgenerator 11 erzeugt das Abstandsbild, indem die Abstandsinformation enthalten ist, die der Abstand der Objekt ist, der durch die Parallaxe der beiden Kameras 2 erhalten ist (genauer, der Abstand der Objekte von den Brennpunkten der beiden Kameras 2). Der Abstandsinformationsgenerator 11 empfängt die von den Kameras 11 aufgenommenen Videobilder als ein Einzelbild alle 100 ms.

Die Parallaxenberechnung wird ausgeführt, indem das Referenzbild verwendet wird. Das Referenzbild wird nacheinander von der rechten Kamera 2a und der linken Kamera 2b aufgenommen, und ein Blockabgleich wird durchgeführt, so dass ein bestimmter Block einer bestimmten Größe (z. B. 8×3 Pixel) verwendet wird, um die Parallaxe des Referenzbilds zu bestimmen. Das Abstandsbild wird durch den Betrag der Parallaxe gewonnen, die jedem Pixel auf dem Referenzbild entspricht.

Die Parallaxe wird als Z angenommen, der Abstand zum Objekt von den Kameras 2, die Brennweiten der Kameras 2 als f (in den Figuren nicht gezeigt) und der Trennungsabstand zwischen den beiden Kameras 2 als B. Dann haben diese Parameter die folgende Beziehung: L = B × f/Z(3) wobei L der Trennungsabstand der Objektvertikale zu der durch die beiden Kameras 2 bestimmten Linie ist.

Der Bewegungsinformationsgenerator 12 erzeugt ein Differenzbild, das die Bewegungsinformation der Objekte enthält. Das Differenzbild wird durch die Subtraktion von zwei Bildern erzeugt, die als Zeitreihe von der Referenzkamera (der rechten Kamera 2a bei dieser Ausführungsform) aufgenommen worden sind.

Der Bewegungsinformationsgenerator 12 nimmt eine Differenz zwischen zwei Videobildern, die zu zwei verschiedenen Zeitpunkten von der rechten Kamera 2a als der Referenzkamera aufgenommen sind. Die Differenz wird beispielsweise zwischen einem Videobild und einem weiteren, das &Dgr;t (z. B. 33 ms) später aufgenommen ist, durchgeführt, beispielsweise im Fall der Bildwiederholungsrate von 100 ms.

Das Differenzbild wird derart erzeugt, dass ein Pixelwert „1" für einen Pixel gesetzt wird, der eine endliche Differenz aufweist, und „0" für einen Pixel, der eine Differenz von Null aufweist. Das Differenzbild wird durch Filter, wie beispielsweise Medianfilter, verarbeitet, und das Rauschen wird aus dem Differenzbild entfernt.

Falls die Kameras 2 in Robotern oder Automobilen eingebaut sind, verändern sich die Hintergrundszenen. Die Bewegung der Kameras, wie beispielsweise Schwenken oder Neigen, wird dem Bewegungsinformationsgenerator 12 eingegeben, und eine Korrektur wird für das Videobild zur Zeit von t + &Dgr;t durchgeführt. Die Differentiation mit dem Videobild zum Zeitpunkt t kann das Differenzbild erzeugen, und die mit der Bewegung assoziierten Pixel können spezifiziert werden.

Der Kantenbildgenerator 13 empfängt das Videobild (ein Referenzbild) und erzeugt ein Kantenbild, bei dem die Kanten des Bildes extrahiert sind. Der Kantenbildgenerator 13 spezifiziert Kanten als die Abschnitte, in denen sich die Helligkeit (Intensität und Graustufenskala) von Bildern rapide ändert und erzeugt das Kantenbild, das die Kanten umfasst. Beispielsweise werden Produkte für alle Pixel mit einem Operator durchgeführt, der einen Gewichtungskoeffizienten gegenüber den Nachbarpixeln für einen bestimmten Pixel aufweist (wie beispielsweise eine Koeffizientenmatrix, Sovel-Operator, Kirsch-Operator, usw.) und dann werden die Kanten erfasst.

Der Hautfarbenbereichsbildgenerator 14 empfängt das Videobild (Referenzbild) von den Kameras 2 (2a). Der Hautfarbenbereichsbildgenerator 14 wandelt RGB-Werte in einen HLS-Raum um, dessen Elemente der Farbton, die Helligkeit und die Farbsättigung sind, und spezifiziert den Umgebungsfarbbereich als die Bereiche, die durch alle die Pixel gegeben sind, die sich oberhalb der für den Farbton, die Helligkeit und die Farbsättigung bestimmten Schwellwerte befinden.

Nun werden Einzelheiten der Erzeugungsprozesse des Abstandsbilds, des Differenzbilds, des Kantenbilds und des Hautfarbenbereichsbilds erläutert. 3 zeigt die Sequenz zur Erzeugung dieser Bilder, nachdem ein Videobild in den Eingabebildanalysator 10 eingegeben worden ist.

Wie in 3 gezeigt, wird das Abstandsbild D erzeugt, indem Pixelwerte der Pixel gesetzt werden, wobei die Pixelwerte durch die Parallaxen gegeben sind, die durch zwei Bilder erhalten sind, die gleichzeitig durch die rechte Kamera 2a und die linke Kamera 2b aufgenommen worden sind. Es ist impliziert, dass je größer die Parallaxe, desto näher das Objekt (ein Mensch bei dem Bild in 3) an der Kamera ist und umgekehrt. Das Kantenbild ED basiert auf dem von der rechten Kamera 2a aufgenommenen Videobild und umfasst nur die Kanten, die von dem Kantenbildgenerator 13 spezifiziert sind. Das Hautfarbenbereichsbild SA basiert auf dem von der rechten Kamera 2a aufgenommenen Videobild, wie das Kantenbild ED, und wird erzeugt, indem die Bereiche (Hautfarbenbereiche) extrahiert werden, in denen Hautfarbe erfasst wird. Das Differenzbild DI wird erzeugt, indem „1" und „0" als die Pixelwerte für alle Pixel gesetzt werden, welche jeweils Differenzen und keine Differenzen zeigen, in dem Differenzbild von zwei Videobildern, die von der rechten Kamera 2a mit der Zeitdifferenz &Dgr;t aufgenommen worden sind (beispielsweise ein Videobild, das zur Zeit t aufgenommen ist und ein weiteres Videobild, das zur Zeit t + &Dgr;t aufgenommen ist). Die Differenz von „1" zeigt die tatsächliche Bewegung der Menschen.

Die Einzelheiten des Abstandsbilds D und des Differenzbilds DI werden mit Bezug auf 4 erläutert. Die obere schematische Darstellung in 4zeigt ein Beispiel des erzeugten Bildes und der Pixelwerte (Abstandsbildpixelwerte DB). Die untere schematische Darstellung in 4 zeigt ein Beispiel des erzeugten Bildes des Differenzbilds DI und der Pixelwerte (der Differenzbildpixelwerte DIB). Die menschlichen Objekte befinden sich in etwa 1, 2 und 3 Metern Abstand von den Kameras 2.

Das Abstandsbild D zeigt, wie in 4A gezeigt, die Pixelwerte, die den Parallaxen entsprechen, die von den zwei gleichzeitig erhaltenen Videobildern der rechten Kamera 2a und der linken Kamera 2b erhalten sind. Wie in den Abstandsbildpixelwerten DB gezeigt, weist die Pixelposition (0, 0) des Abstandspixels beispielsweise eine Parallaxe von Null auf, was impliziert, dass der Abstand von der Kamera unendlich ist (∞). Die Pixelposition (30, 50) hat den Pixelwert 30 und der Abstand einer derartigen Pixelposition von den Kameras 2 ist der Abstand, der beispielsweise dem Abstand von 2,2 Metern entspricht. Wie oben erläutert, zeigt das Abstandsbild das Objekt hell, wenn es sich nahe an den Kameras 2 befindet, und dunkel, wenn es weit von den Kameras 2 entfernt ist.

Das Differenzbild DI zeigt, wie in 4B gezeigt, das Vorhandensein der Differenzen von Pixeln zwischen zwei Zeitreihen-Videobildern, die von der rechten Kamera 2a aufgenommen sind. Wie beispielsweise in den Differenzbildpixelwerten DIB gezeigt, ist der Pixelwert bei (0, 0) im Differenzbild DI „0", was „Stillstehen" impliziert und wobei keine Bewegung stattfindet. Der Pixelwert bei (30, 50) im Differenzbild DI ist „1", was „hat sich bewegt" impliziert, und wobei eine Bewegung stattfindet.

Der Objektdetektor 20, wie in 1 gezeigt, spezifiziert und extrahiert die Konturen von sich bewegenden Objekten durch die Prozesse, dass die Bildflächen, welche den sich bewegenden Objekten entsprechen, spezifiziert werden, indem die von dem Eingabebildanalysator 10 ausgegebenen Bilder (wie beispielsweise die Abstandsbilder, Differenzbilder, Kantenbilder und die Hautfarbenbereichsbilder) verwendet werden. Der Objektdetektor 20 ist mit einem Objektabstandsmessmodul 21 aufgebaut, mit einem Objektabstandsbildgenerator 22, mit einem Objektabstandsbereichserfassungsmodul 23 und mit einem Konturdetektor 24.

Das Objektabstandsbestimmungsmodul 21 bestimmt die größte Varianz der Bewegung unter Verwendung des Abstandsbilds D und des Differenzbilds DI (dies wird bezeichnet mit „ein Bildprodukt herstellen") und bestimmt den Objektabstand. Die Information des Objektabstands wird an den Objektabstandsbildgenerator 22 gesendet.

Das Objektabstandsbestimmungsmodul 21 zählt die Pixelmengen für jeden Bereich von Parallaxen (die dem Abstand von den Kameras 2 entsprechen) in den Differenzbildern DI, wobei die Pixel, die Bewegungen repräsentieren, gezählt werden. Der maximale Zählwert unter den Bereichen von Parallaxen impliziert das Vorhandensein des sich am meisten bewegenden bewegenden Objekts in einem derartigen Bereich von Parallaxen (diese Parallaxe wird die Parallaxe des maximalen Zählwerts genannt). Beispielsweise ist der Zählwert der Pixelwerte 110 für einen Parallaxenbereich (und daher einem Abstandsbereich) von 1,0 bis 1,1 Meter und der Zählwert der Pixelwerte 92 für einen Parallaxenbereich (und damit einen Abstandsbereich) von 1,1 bis 1,2 Meter. Das Objektabstandsbestimmungsmodul 21 führt diese Zählungen durch und bestimmt die Parallaxe mit dem maximalen Zählwert.

Die Tiefe (d.h. der Mittelpunktwert plus &agr; und minus &agr;) des Objektabstands, der dem häufigsten Parallaxenabstandsbereich entspricht, wird als der Abstandsbereich gesetzt, in dem sich das sich bewegende Objekt mit der meisten Bewegung befindet. Der Wert von &agr; impliziert den Bereich in der Tiefenrichtung als die Referenz des Objektabstands. Der Wert von &agr; ist als die Differenz zwischen zwei Abstandsbildern D gesetzt, wie beispielsweise dem Abstandsbild D, das zur Zeit t – 1 aufgenommen wurde, und dem, das zur Zeit t aufgenommen wurde (hierbei ist zu beachten, dass die Zeiten t und t – 1 diskrete Zeiten sind), welche von dem Abstandsinformationsgenerator 11 als eine Zeitreihe gesetzt werden. Es ist ebenfalls möglich, den Wert von &agr; zum Zwecke des Erfassens von Menschen auf einen festen Wert von mehreren zehn Zentimetern zu setzen.

Das Objektabstandsbestimmungsmodul 21 nimmt das Abstandsbild D, das vom Abstandsinformationsgenerator 11 erzeugt ist, und das Differenzbild ID, das vom Bewegungsinformationsgenerator 12 erzeugt ist, in Speichervorrichtungen (nicht gezeigt in 1), wie beispielsweise Halbleiterspeichern, Festplattenvorrichtungen, usw. auf.

Der Objektabstandsbildgenerator 22 erzeugt die Objektabstandsbilder, indem die von dem Kantenbildgenerator erzeugten Kantenbilder und die von dem Abstandsinformationsgenerator 11 erzeugten Abstandsbilder auf der Basis des Abstandsbilds, das Pixel aufweist, dessen Werte die Parallaxen repräsentieren, kombiniert werden. Demzufolge entsprechen die Pixel den Parallaxen und daher den Objektabständen, welche vom Objektabstandsbestimmungsmodul 21 bestimmt und gesetzt werden.

Für das Objekt, das die Bedingung der am häufigsten vorkommenden Parallaxe erfüllt, wird unter Verwendung von Gleichung 3 der Trennungsabstand L von den Kameras 2 berechnet. Der Bereich des Parallaxenbereichs Zr kann durch Gleichung (4) gegeben sein, wobei angenommen wird, dass die Brennweite der Kameras 2 f ist, wobei der Trennungsabstand B zwischen der Kamera 2a und der Kamera 2b und der Tiefenbereich &agr; des Objekts gegeben sind. B × f/(L + &agr;) < Zr < B × f/(L – &agr;)(4)

Der Objektabstandsbildgenerator 22 erzeugt ein Objektabstandsbild, das aus den Pixeln gebildet ist, die in den Kantenbildern in den in Gleichung (4) gegebenen Bereich fallen.

Das Objektabstandsbild kann erzeugt werden, indem die Pixel ausgewählt werden, welche sich in dem Bereich des Objektabstands in dem Bild eines Videobilds (eines Originalbilds) befinden, das von einer Referenzkamera (der rechten Kamera 2a) aufgenommen ist, oder in dem Abstandsbild, das von dem Abstandsinformationsgenerator 11 erzeugt ist.

Unter Bezugnahme auf 5 (sowie 1) wird der Prozess zum Erzeugen des Objektabstandsbilds, das den Abstand von der das zu erfassende Objekt spezifizierenden Position repräsentiert, detailliert erläutert. Die obere schematische Darstellung von 5 ist ein Histogramm, das die Bewegung (als Menge von Pixeln) zeigt, die ein Zählwert von Pixeln in jedem Bereich von Parallaxen (Abständen) ist. Die untere schematische Darstellung in 5 zeigt das Objektabstandsbild TD, das aus den Pixeln gebildet ist, die im Kantenbild ED (3) im Bereich des Objektabstands liegen.

Die obere schematische Darstellung von 5 zeigt die Parallaxen (die den Abständen entsprechen) im Abstandsbild D (4) gegen die Bewegung (Pixelmengen) aufgetragen. Die Bewegung weist Maxima bei den Parallaxen (Abständen) von 1 Meter, 2,2 Meter und 3 Meter auf. Das Objektabstandsbestimmungsmodul 21. Es wird angenommen, dass sich das sich bewegende Objekt bei der Parallaxe (2,2 m) befindet, bei der der Bewegungsbetrag maximal ist und es wird bestimmt, dass sich das sich bewegende Objekt in dem Tiefenbereich (± &agr;) befindet. Der Wert von &agr; ist als die Differenz zwischen zwei Abstandsbildern D gesetzt, wie beispielsweise dem Abstandsbild D, das zur Zeit t – 1 aufgenommen ist und dem, das zur Zeit t aufgenommen ist, welche von dem Abstandsinformationsgenerator 11 als Zeitreihe gesendet werden. Es ist ebenfalls möglich, den Wert von &agr; als 0,5 zu setzen, so dass sich das menschliche Objekt in dem Bereich der Kameras 2 befindet.

Der Objektabstandsbildgenerator 22 erzeugt, wie in der unteren schematischen Darstellung von 5 gezeigt, das Objektabstandsbild TD, das nur die Menschen spezifiziert, welche sich im vom Kantenbildgenerator 13 erzeugten Kantenbild 2,2 ± &agr; Meter entfernt von den Kameras 2 befinden, nachdem das Bild der Menschen, die sich einen Meter und zwei Meter entfernt von den Kameras 2 befinden, entfernt worden ist.

Das Objektbildflächenbestimmungsmodul 23 bestimmt den horizontalen Bereich der Objektbildfläche als die optimale Breite von Menschen unter der Annahme, dass die sich bewegenden Objekte Menschen sind. Falls sich ein Mensch entlang der Richtung eines geneigten Winkels gegen die Frontrichtung der Kamera nähert, bestimmt das Objektbildflächenbestimmungsmodul den horizontalen Bereich des Objekts, nachdem der horizontale Bereich eingegrenzt worden ist. Die Erfassung von Menschen kann mit der Schulterbreite von Menschen durchgeführt werden.

Das Objektbildflächenbestimmungsmodul 23 umfasst einen Histogrammgenerator 23a, einen Histogrammglätter 23b, ein Bestimmungsmodul 23c für den horizontalen Bereich und ein Bestimmungsmodul 23b für den vertikalen Bereich.

Das Objektbildflächenbestimmungsmodul 23 kann den horizontalen Bereich bestimmen, der die zulässige Breite der menschlichen Figur abdeckt. Wenn der Mensch sich den Kameras 2 in einem von der optischen Achse der Kameras 2 abweichenden Winkel nähert, engt das Objektbildflächenbestimmungsmodul 23 den horizontalen Bereich ein, da die menschliche Figur in einem derartigen engen Bereich abgedeckt werden kann.

Das Objektbildflächenbestimmungsmodul 23 nimmt eine Höhe (beispielsweise 2 Meter) der Objektbildfläche in der vertikalen Richtung an. In diesem Fall bestimmt das Objektbildflächenbestimmungsmodul 23 die vertikale Fläche (Bereich) der Objektbildfläche basierend auf dem Neigungswinkel, der Höhe vom Boden (Installationsebene) usw. der Kameras 2.

Unter Bezugnahme auf 6 und 7 (sowie 1) wird ein Prozess detailliert erläutert, bei dem das Objektbildflächenbestimmungsmodul 23 einen Bereich des Bildes des sich bewegenden Objekts (eines Menschen) im Objektabstandsbild TD bestimmt. 6 ist ein Histogramm HI, das die Anzahl der Pixel repräsentiert, welche die Zählanzahl von Pixeln in der vertikalen Richtung der Originalpixel sind, die sich in einer horizontalen Linie im Objektabstandsbild befinden. 6 zeigt das Histogramm HI zusammen mit dem Objektabstandsbild TD. Dies ist allerdings nur zur Vereinfachung der Erläuterung.

7A ist ein Histogramm HI vor einer Glättung und 7B ein weiteres Histogramm HI' nach einer Glättung.

Ein Histogrammgenerator 23a erzeugt ein Histogramm HI, das den Pixelzählwert repräsentiert, der der Zählwert der Pixel in einer vertikalen Richtung im Objektabstandsbild TD ist.

Ein Histogrammglätter 23b führt einen Glättungsprozess entlang der Pixelposition des Histogramms HI durch, das vom Histogrammgenerator 23a erzeugt ist.

Genauer wird das Glätten durch einen Prozess ausgeführt (einen Berechnungsprozess eines gleitenden Durchschnitts), der im folgenden Algorithmus beschrieben ist.

wobei Sx der Pixelzählwert der x-Koordinate des Histogramms HI ist, und Sx' der Pixelzählwert der x-Koordinate im Histogramm HI' ist und x0 eine positive Konstante ist. Die Funktion f(n) ist eine Funktion von n, welches eine Pixelanzahl ist, die durch eine ganze Zahl einschließlich Null gegeben ist. Die Funktion f(n) kann eine konstante Zahl sein. Unter Verwendung von Gleichung (6), wobei F(n) = |x – n| hat die Pixelanzahl Sn, welche sich nahe am Koordinatenwert n befindet, ein größeres Gewicht als die anderen. Daher ist es möglich, das geglättete Histogramm HI' zu erzeugen, das weiterhin die Merkmale des Histogramms HI enthält, indem verwendet wird:

Gemäß diesem Glättungsprozess kann das in 7A gezeigte Histogramm HI in das in 7B gezeigte Histogramm HI' umgewandelt werden. Ein lokalisierter Peak P1 im Histogramm HI wird zu einem niedrigeren Peak P1' unterdrückt.

Vorzugsweise wird eine zusätzliche Bedingung angewendet, die durch Gleichung (7) gegeben ist, so dass der Fußbereich der Histogrammkurven nicht schwammig wird, und zwar:

Falls der Pixelzählwert Sx des Histogramms HI bei der rechten benachbarten Position (zur größeren x) und der linken benachbarten Position (zur kleineren x) zu einer betrachteten Position x in der x-Koordinate Null ist, wird bei beiden Fällen der resultierende Pixelzählwert Sx' im geglätteten Histogramm gesetzt.

Anders ausgedrückt, verbreitern sich die Fußabschnitte der geglätteten Kurven nicht und bleiben scharf abgetrennt, im Unterschied zu den in 7B gezeigten gestrichelten Linien. Indem die scharfe Abtrennung beibehalten wird, wird vermieden, dass im Histogramm HI' die beiden benachbarten Personen miteinander verschmolzen werden.

Das Bestimmungsmodul 23c für den horizontalen Bereich bestimmt den horizontalen Bereich, indem der Konturdetektor 24 den Konturbestimmungsprozess zum Zweck des Spezifizierens eines einzelnen sich bewegenden Objekts im Histogramm HI' durchführt, das im Histogrammglätter 23b geglättet worden ist.

Genauer wird der horizontale Bereich eines Objekts derart bestimmt, dass die x-Koordinate, bei der der Pixelwert Sx' maximal ist, als Mittelpunkt des sich bewegenden Objekts angesehen wird und der horizontale Bereich den dem Mittelpunkt des sich bewegenden Objekts benachbarten Bereich (&bgr; in 7B) umfasst. Der Parameter &bgr; kann als ein Wert ausgewählt werden, und der horizontale Bereich deckt die Breite eines Menschen oder mehr ab, so dass es möglich ist, die Figur eines Menschen abzudecken, der seine Hand und/oder seinen Arm hebt. In der nächsten Phase wird der horizontale Wert (die Koordinate x) erfasst, an dem das Histogramm in dem obigen horizontalen Bereich minimal ist. Die horizontalen Positionen werden als die linken und rechten Ränder des Menschen spezifiziert.

Beispielsweise wird der Wert &bgr; bestimmt, indem die Pixelmenge berechnet wird, die 40 cm entspricht, was etwas breiter ist als die allgemeine Breite eines menschlichen Körpers.

Das Bestimmungsmodul 23d für den vertikalen Bereich wählt für den vertikalen Bereich des Objekts eine spezifische Länge (z. B. 2 Meter) aus. Die Auswahl des Bereichs wird unter Verwendung von 8 (sowie 1) erläutert.

8 zeigt, dass zwei Kameras 2 in einem sich bewegenden Roboter (der in 8 nicht gezeigt ist) eingebaut sind und in einer Höhe H vom Boden, auf dem das sich bewegende Objekt M steht, angeordnet sind. Die obere schematische Darstellung und die untere schematische Darstellung in 8 zeigen die Relation von Kameras 2 und dem sich bewegenden Objekt M wenn die Neigungswinkel der Kameras jeweils Null und &thgr;T (nicht Null) sind.

Unter Bezugnahme auf die obere schematische Darstellung in 8, befindet sich das sich das bewegende Objekt M in einem Abstand L von den Kameras 2, die einen vertikalen Blickwinkel &thgr;V und einer Auflösung Y aufweisen, die in dem mit a' bezeichneten Objektabstandsbild gegeben sind.

Die Kamerahöhe vom Boden ist H, die virtuelle Höhe des sich bewegenden Objekts M ist 2 Meter. Der Winkel &thgr;H zwischen der optischen Achse der Kameras 2 und der Linie des zur virtuellen Oberkante des sich bewegenden Objekts (2 Meter vom Boden) werden durch Gleichung (8) berechnet: &thgr;H = tan–1((2 – H)/L)(8) wobei H und L in Metern angegeben werden.

Das obere Ende yT des Objektabstandsbilds (a') des sich bewegenden Objekts M wird durch die folgende Gleichung gegeben. yT = Y/2 – &thgr;HY/&thgr;V= Y/2 – (Y/&thgr;V)tan–1((2 – H)/L)(9)

Der Winkel &thgr;L zwischen den optischen Achsen der Kameras 2 (wobei die Winkel für jede Kamera gleich sind) und das untere Ende (auf dem Boden) des sich bewegenden Objekts M können durch die folgende Gleichung ausgedrückt werden. &thgr;L = tan–1(H/L)(10)

Das untere Ende yB des Objektabstandsbilds (a') des sich bewegenden Objekts ist durch die folgende Gleichung (11) gegeben. yB = Y/2 + &thgr;LY/&thgr;V= Y/2 + (Y/&thgr;V)tan–1(H/L)(11)

Die untere schematische Darstellung in 8 zeigt die Relation des oberen Endes und des unteren Endes des sich bewegenden Objekts, wenn die Kameras 2 einen von Null verschiedenen Neigungswinkel &thgr;T aufweisen.

Die beiden Kameras 2 weisen den selben Blickwinkel &thgr;L und Neigungswinkel &thgr;T auf. Es wird angenommen, dass der Abstand von den Kameras 2 zum sich bewegenden Objekt L ist, die Höhe der Kameras 2 vom Boden H ist, die angenommene Höhe des sich bewegenden Objekts M vom Boden (2 Meter). Der Differenzwinkel (&thgr;H – &thgr;T) kann durch einen Winkel &thgr;H zwischen der optischen Achse der Kameras 2 und dem Winkel &thgr;T zwischen der angenommenen Höhe des sich bewegenden Objekts und der optischen Achse der Kameras 2 repräsentiert werden, der in der folgenden Gleichung (12) gegeben ist. &thgr;H – &thgr;L = tan–1((2 – H)/L)(12)

Das obere Ende des Objektabstandsbilds (b') wird durch die folgende Gleichung gegeben. yT = Y/2 – &thgr;TY/&thgr;V – (&thgr;H – &thgr;L)Y/&thgr;V= Y/2 – &thgr;TY/&thgr;V – (Y/&thgr;V)tan–1((2 – H)/L)(13)

Der Summenwinkel (&thgr;L + &thgr;T) des Winkels &thgr;L zwischen der optischen Achse der Kameras 2 und des unteren Endes des sich bewegenden Objekts (dem Boden) und dem Neigungswinkel &thgr;T wird durch die folgende Gleichung (14) gegeben. &thgr;L + &thgr;T = tan–1(H/L)(14)

Das untere Ende des sich bewegenden Objekts im Objektabstandsbild (b') wird durch die folgende Gleichung (15) gegeben. yB = Y/2 – &thgr;TY/&thgr;V + (&thgr;L + &thgr;T)Y/&thgr;V= Y/2 – &thgr;TY/&thgr;V + (Y/&thgr;V)tan–1(H/L)(15)

Der vertikale Bereich des Objektbilds (a' oder b') wird durch das obere Ende yT und das untere Ende yB bestimmt.

Wenn der Roboter, der die Kameras 2 aufweist, Stufen nach oben oder nach unten steigt, befindet sich der Roboter nicht auf demselben Niveau wie das sich bewegende Objekt. Die Verlagerung des Niveaus oder vertikale Bewegung wird durch den Encoder des eine derartige Bewegung antreibenden Motors erfasst. Als möglich, die vertikale Position des sich bewegenden Objekts im Objektabstandsbild (a' oder b') zu bestimmen, indem der Betrag der Niveauverlagerung oder der vertikalen Bewegung subtrahiert oder addiert wird. Eine weitere Möglichkeit ist es, die Höhe oder das Niveau des Bodens zu bestimmen, auf dem das sich bewegende Objekt steht, indem die Position des sich bewegenden Objekts auf der vorher im Roboter gespeicherten Bodenkennfeldinformation spezifiziert wird.

Der horizontale Bereich der Objektbildfläche kann in Gleichung (16) gegeben werden, und wird durch den horizontalen Blickwinkel &thgr;h, den Abstand L des Objekts M von den Kameras 2 und der horizontalen Auflösung X des Objektabstandsbilds als einem Parameter der horizontalen Pixelanzahl &agr;H im Objektabstandsbild erhalten. &agr;H = (X/&thgr;h) tan–1(0,5/L)(16)

Der Konturdetektor 24 soll die Kontur des sich bewegenden Objekts im Bereich (der Objektbildfläche) des Bildflächenbestimmungsmoduls 23 für das sich bewegende Objekt erfassen, indem ein vorhandenes Konturverfahren verwendet wird. Ein Beispiel eines vorhandenen Konturverfahrens ist ein dynamisches Konturmodell, SNAKES genannt. Die Erfassung wird ausgeführt, indem eine geschlossene Kurve deformiert und verkleinert wird, so dass die vorbestimmte Energie darauf minimiert wird. Ein derartiger dynamischer Prozess, dass Energie im Bereich des sich bewegenden Objekts (Objektbildfläche) berechnet wird, wird angenommen, und daher ist es möglich, den Umfang der Berechnung zum Erfassen der Kontur zu verringern.

Ferner kann der Konturdetektor 24 ein Hautfarbenbereichsbestimmungsmodul 24a umfassen.

Das Hautfarbenbestimmungsmodul 24a soll bestimmen, ob die erfassten Konturen diejenigen von Menschen sind. Die Bestimmung wird ausgeführt, indem bewertet wird, ob ein Hautfarbenbereich R (siehe 3) in den erfassten Konturen eingeschlossen ist.

Der Konturdetektor 24 bewertet die Beobachtungsinformationen (den Schwerpunkt, die Bewegungsrichtung (Azimutwinkel), usw.) des sich bewegenden Objekts in der Kontur und gibt diese aus. Der Konturdetektor 24 erfasst nur Menschen. Wenn das Hautfarbenbereichsbestimmungsmodul 24a bestimmt, das der Farbbereich innerhalb der Kontur nicht der eines Menschen ist, gibt der Konturdetektor 24 die Beobachtungsinformation nicht aus. Wie in 9 gezeigt, ist es möglich, die Kontur O in der Objektbildfläche T zu erfassen, wenn nur ein sich bewegendes Objekt (oder nur eine einzige Person) sich im Objektabstandsbild TD befindet.

Es ist möglich, Menschen oder sich bewegende Objekte zu erfassen, indem die Vorrichtung 1 zum Erfassen sich bewegender Objekte in sich bewegenden Fahrzeugen, wie beispielsweise sich bewegenden Robotern, Kraftfahrzeugen usw. eingebaut wird. Indem beispielsweise die vorliegende Erfindung bei sich autonom bewegenden Robotern angewandt wird, kann der Roboter Menschen in einem Bereich voller Menschen erfassen. Ferner kann die vorliegende Erfindung jede menschliche Figur spezifizieren. Daher ist es möglich, zusätzlich als eine Nachverarbeitung eine Gesichtsidentifikationsverarbeitung einzubauen, und dann ist es möglich, eine bestimmte Person zu verfolgen oder eine Aktion für jede bestimmte Person durchzuführen.

Wenn sich mehrere sich bewegende Objekte (Menschen) im Objektabstand befinden, wird die Extraktion der sich bewegenden Objekte wiederholt ausgeführt. Der Konturdetektor 24 erfasst ein sich bewegendes Objekt im vom Abstandsinformationsgenerator 11 erzeugten Abstandsbild und eliminiert dann den Bereich von dem Abstandsbild, indem er die Pixelwerte der in einem derartigen Bereich eingeschlossenen Pixel auf Null setzt, wie in 16 gezeigt. Die Erfassung und Elimination werden wiederholt ausgeführt, bis alle Pixelwerte Null sind.

Die Struktur der Vorrichtung 1 zum Erfassen sich bewegender Objekte wurde für eine Ausführungsform der vorliegenden Erfindung erläutert. Die Vorrichtung 1 zum Erfassen sich bewegender Objekte kann durch einen allgemeinen Computer aufgebaut oder organisiert werden, bei dem ein Softwareprogramm installiert wird, um die obigen Operationen durchzuführen.

Der Abstandsinformationsgenerator 11 in der Vorrichtung 1 zum Erfassen sich bewegender Objekte erzeugt das Abstandsbild auf der Basis von Videobildern, die von zwei Kameras 2 aufgenommen worden sind, es ist auch möglich, das Abstandsbild zur Verwendung von mehr als drei Kameras zu erzeugen. Beispielsweise können neun Kameras 9 so angeordnet sein, dass jeweils drei Kameras vertikal ausgerichtet sind und drei Kameras horizontal ausgerichtet sind, und das von der mittleren Kamera erzeugte Abstandsbild wird als die Referenz verwendet und stellt Parallaxen in Relation mit den anderen Kameras bereit, so dass ein genauerer Abstand zum sich bewegenden Objekt gemessen werden kann.

Bei der vorliegenden Ausführungsform ist die Vorrichtung 1 zum Erfassen sich bewegender Objekte so ausgeführt, dass sie Menschen erfasst. Es ist allerdings ferner möglich, sie anzuwenden, um ein allgemeines sich bewegendes Objekt zu erfassen, ohne die Verwendung auf Menschen zu beschränken, indem eine weitere Vorrichtung zum Erfassen sich bewegender Objekte verwendet wird, aus der der Hautfarbenbereichsbildgenerator 14 und das Hautfarbenbereichsbestimmungsmodul 24 entfernt werden können.

(Betrieb der Vorrichtung 1 zum Erfassen sich bewegender Objekte)

Unter Bezugnahme auf die Flussdiagramme von 2A, 2B und 2C, sowie auf 1, wird der Betrieb der Vorrichtung zum Erfassen sich bewegender Objekte erläutert.

<Videobildeingabeschritt>

Die von den beiden Kameras 2 aufgenommenen Videobilder (welche synchronisiert sind) werden in einer Zeitreihenvideobildfolge der Vorrichtung 1 zum Erfassen sich bewegender Objekte eingegeben (Schritt S1). Die Extraktion der sich bewegenden Objekte wird durchgeführt, indem die Videobilder (in einer Einheit eines Einzelbilds) verwendet werden, die von der rechten Kamera 2a (der Referenzkamera und der linken Kamera 2b zur Zeit t aufgenommen sind, und unter Verwendung von weiteren Videobildern, die von diesen beiden Kameras zur Zeit t + &Dgr;t aufgenommen sind. Der Betrieb des Systems ist schnell genug, dass die aufeinander folgenden Abstandsbilder Dt–1 und Dt–2 und die Objektabstandsbilder TDt–1 und TDt–1, welche zur Zeit t – 1 und t – 2 erzeugt sind, verarbeitet werden, während die Vorrichtung 1 zum Erfassen sich bewegender Objekte das Videobild zur Zeit t empfängt.

<Abstandsbilderzeugungsschritt>

Mittels des Abstandsbildgenerators 11 erzeugt die Vorrichtung 1 zum Erfassen sich bewegender Objekte das Abstandsbild Dt, welches Pixelwerte aufweist, die die Parallaxen (Abstände) repräsentieren, indem zwei Videobilder verwendet werden, welche von der rechten Kamera 2a (der Referenzkamera) und der linken Kamera 2b zum Zeitpunkt t aufgenommen sind (Schritt S2).

<Differenzbilderzeugungsschritt>

Mittels des Bewegungsinformationsgenerators 12 erzeugt die Vorrichtung 1 zum Erfassen sich bewegender Objekte das Differenzbild DIt durch die Bildung einer Differenz der beiden Videobilder, die von der rechten Kamera 2a (der Referenzkamera) zum Zeitpunkt t und t + &Dgr;t aufgenommen sind, und setzt die Pixelwerte als „1" für die Pixel, welche eine Differenz zwischen diesen beiden Videobildern zeigen (Schritt S3).

<Kantenbilderzeugungsschritt>

Mittels des Kantenbildgenerators 13 erzeugt die Vorrichtung 1 zum Erfassen sich bewegender Objekte das Kantenbild EDt, indem das Videobild verwendet wird, dass von der rechten Kamera 2a (der Referenzkamera) zum Zeitpunkt t aufgenommen wird (Schritt S4).

<Hautfarbenbereichsbilderzeugungsschritt>

Mittels des Hautfarbenbereichsbildgenerators 14 erzeugt die Vorrichtung 1 zum Erfassen sich bewegender Objekte das Hautfarbenbild SAt, indem das Videobild verwendet wird, das von der rechten Kamera 2a (der Referenzkamera) aufgenommen ist (Schritt S5).

<Objektabstandbestimmungsschritt>

Mittels des Objektabstandsbestimmungsmoduls 21 bestimmt die Vorrichtung 1 zum Erfassen sich bewegender Objekte den Abstand als den Objektabstand dt (den Abstand mit einem Bereich) derart, dass der Objektabstand 21 das Bildprodukt des Abstandsbildes Dt und des Differenzbildes DIt erzeugt, zählt die Pixel, die in der Zeitdifferenz (der Differenz zwischen der Zeit t und t + &Dgr;t) zu Bewegung zeigen für jeden Bereich von Parallaxen (Abständen) und bestimmt den Abstand, bei dem die Parallaxe mit dem maximalen Zählwert erhalten wird (Schritt S8).

<Objektabstandsbilderzeugungsschritt>

Mittels des Objektabstandsbildgenerators 22 erzeugt die Vorrichtung 1 zum Bestimmen sich bewegender Objekte das Objektabstandsbild TDt, das aus den Pixeln gebildet ist, die die Objekte im Objektabstand dt repräsentieren, und die im Kantenbild EDt gegeben sind (Schritt S7).

Der Objektabstandsbildgenerator 22 1 ermöglicht es, die Tiefe des Objektabstands zu setzen, wenn sich das Objekt im Abstandsbild Dt zur Zeit t befindet.

<Objektbildflächenbestimmungsschritt>

Mittels des Histogrammgenerators 23a im Objektbildflächenbestimmungsmodul 23, das in der Vorrichtung 1 zum Erfassen sich bewegender Objekte eingebaut ist, erzeugt die Vorrichtung 1 zum Erfassen sich bewegender Objekte ein Histogramm, indem die Pixel im Objektabstandsbild TDt in der vertikalen Richtung gezählt werden (Schritt S8).

Gemäß den Erfahrungen bei der Anwendung dieses Verfahrens auf verschiedene Objekte, hat sich herausgestellt, dass es möglich ist, zu bestimmen, das der Mittelpunkt des horizontalen Elements des sich bewegenden Objekts an der Position angeordnet ist, an der das Histogramm HI maximal ist, indem das Objektabstandsbild TD in ein Histogramm umgewandelt wird.

Mittels des Histogrammglätters 23b glättet die Vorrichtung 1 zum Erfassen sich bewegender Objekte das Histogramm HI, durch Berechnungen mit Hilfe der in Gleichungen (6) und (7) gegebenen Algorithmen (Schritt S9).

Wie in 6 gezeigt, zeigt das Histogramm manchmal einen lokalisierten Peak P1 bei der horizontalen Koordinate (als x-Koordinate), auf die die Hand projiziert wird, falls das sich bewegende Objekt seine oder ihre Hand hebt.

Bei der ersten Ausführungsform glättet der Histogrammglätter 23c das Histogramm und modifiziert es zum Histogramm HI', wie in 7B gezeigt. Durch diesen Prozess wird der Peak P1, der der durch die Bewegung erhobenen Hand entspricht, klein als P1' und der Pixelzählwert um den Mittelpunkt des sich bewegenden Objekts herum wird relativ größer.

Ein horizontaler Bereich wird um den Mittelpunkt x1 eingestellt (wie in 7B gezeigt), an dem das Histogramm maximal ist (Schritt S10). Es wird angenommen, dass das sich bewegende Objekt ein Mensch ist und der Winkel zwischen der Blickrichtung der Kameras 2 und dem Bewegungsvektor (aufgrund einer Annäherung an die Kameras 2 in einem gegenüber der optischen Achse der Kameras 2 geneigten Winkel) des Menschen kleiner als 45 Grad ist, daher wird der Bereich als x1 ± (0,5 bis 0,6) Meter als der horizontale Bereich zum Erfassen der Menschen angenommen. Wenn der Winkel zwischen dem Bewegungsvektor und dem Betrachtungswinkel mehr als 45 Grad beträgt, wird der Bereich x1 ± (0,2 bis 0,3) Meter als der horizontale Bereich zum Erfassen der Menschen angenommen.

Das Objektbildflächenbestimmungsmodul 23 bestimmt den vertikalen Bereich des Objekts, das im Objektabstandsbild TDt repräsentiert ist, indem die Kameraparameter, wie beispielsweise der Neigungswinkel und die Höhe vom Boden, welche durch die Kameras 2 gegeben sind, verwendet werden (Schritt S11).

Beispielsweise wird die Bodenposition (in Wirklichkeit das untere Ende des Objekts) im Objektabstandsbild aus dem Neigungswinkel der Kameras 2 und der Höhe vom Boden erhalten. Entsprechend dem Blickwinkel und dem Abstand zum Objekt, wird das obere Ende, das einer Höhe von 2 Meter vom Boden entspricht, in einem derartigen Abstand eingestellt und durch die Pixelmenge spezifiziert, die den Bereich vom unteren Ende zum oberen Ende abdeckt. Das obere Ende der Objektbildfläche im Objektabstandsbild wird auf eine ähnliche Art wie oben beschrieben erhalten. Das obere Ende des Objekts im Objektabstandsbild kann im Objektabstandsbild direkt durch die Position von 2 Metern (Höhe vom Boden) durch den Kameraneigungswinkel 2 und die Höhe vom Boden bestimmt werden. Die Höhe von 2 Metern ist eine angenommene Höhe, es ist allerdings auch eine andere Höhe denkbar.

<Konturerfassungsschritt>

Durch den Konturdetektor 24 erfasst die Vorrichtung 1 zum Erfassen sich bewegender Objekte die Konturen der Objekte, die sich in der in den Schritten S10 und S11 eingestellten Objektbildfläche befinden (Schritt S12). Die Objektbildfläche ist im Objektabstandsbild TDt repräsentiert, welches im Schritt S7 erzeugt wird. Das dynamische Konturmodell, wie beispielsweise SNAKES, kann an diese Konturerfassung bezüglich der Objekte in der Objektbildfläche angewandt werden.

Im darauf folgenden Schritt wird bewertet, ob die Konturerfassung fertiggestellt ist oder nicht (Schritt S13). Die Bewertung umfasst nicht nur „Ja" oder „Nein", sondern umfasst ebenfalls eine Spezifikation des Grundes, warum die Konturerfassung nicht durchgeführt worden ist, beispielsweise wenn der Objektabstand kürzer ist als der vorbestimmte Wert im Objektabstandsbild TDt oder wenn die Objektbildfläche kleiner ist als die vorbestimmte.

Wenn die Konturerfassung fertiggestellt ist („Ja” in Schritt S13), wird mit Schritt S14 fortgefahren. Wenn die Konturerfassung nicht durchgeführt worden ist („Nein” in Schritt S13), wird zum ENDE fortgefahren.

<Objektextraktionsschritt>

Das Hautfarbenbereichsbestimmungsmodul 24a, das im Konturdetektor 24 enthalten ist, der wiederum in der Vorrichtung 1 zum Erfassen sich bewegender Objekte enthalten ist, bewertet, ob der Hautfarbenbereich im Hautfarbenbereichsbild SAt, das in Schritt S5 erzeugt worden ist, in der im Konturdetektor 24 erfassten Kontur für die Objekte enthalten ist, und daher ist es möglich, zu bestimmen, ob die Kontur die eines Menschen ist oder nicht (Schritt S14).

Wenn das Hautfarbenbereichbestimmungsmodul 24a bestimmt, dass die Kontur des sich bewegenden Objekts die eines Menschen ist („Ja” in Schritt S14), erzeugt der Konturdetektor 24 die Beobachtungsinformation bezüglich des sich bewegenden Objekts und gibt diese aus (Schritt S15) und es wird mit Schritt S16 fortgefahren. Die Beobachtungsinformation umfasst die Koordinate des Schwerpunkts, den Neigungswinkel der Kameras 2 und Winkel, wie beispielsweise einen Azimutwinkel, usw., die die Bewegungsrichtung des sich bewegenden Objekts zeigen. Wenn das Hautfarbenbereichsbestimmungsmodul bestimmt, dass die Kontur des sich bewegenden Objekts nicht die eines Menschen ist („Nein” in Schritt S14), geht die Verarbeitung mit Schritt S16 weiter.

Unter Verwendung der Ausgabe der Vorrichtung 1 zum Erfassen sich bewegender Objekte (tatsächlich: vom Konturdetektor 24) in Schritt S15, kann der sich autonom bewegende Roboter, bei dem die Vorrichtung 1 zum Erfassen sich bewegender Objekte eingebaut ist, die Bewegung des sich bewegenden Objekts bewerten (Schritt S16) durch Assistenz des Steuer-/Regeleinrichtung des sich bewegenden Roboters und der Anwendungssoftware zum Analysieren der Aktionen des Menschen (Schritt S16).

Mit den obigen Schritten kann die Vorrichtung 1 zum Erfassen sich bewegender Objekte der ersten Ausführungsform das sich bewegende Objekt erfassen, welches sich im von den Kameras 2 aufgenommen und von diesen gesendeten Videobild befindet. Die obigen Prozesse wurden zu einem Zeitpunkt t erläutert und die Reihe dieser Prozesse kann zum Erfassen von Menschen mittels der sich bewegenden Vorrichtung, wie beispielsweise einem sich bewegenden Roboter, wiederholt werden.

<Zweite Ausführungsform>

Die zweite Ausführungsform der vorliegenden Erfindung wird mit Bezug auf die Figuren erläutert. Dieselben Bezugszeichen werden für dieselben Bauteile wie bei der ersten Ausführungsform verwendet, und die wiederholten Erläuterungen derselben werden für die zweite Ausführungsform nicht wiederholt.

Die Vorrichtung 101 zum Erfassen sich bewegender Objekte der zweiten Ausführungsform unterscheidet sich von der der ersten Ausführungsform im Aufbau derart, dass (1) der Eingabe-Bildanalysator 110 keinen Hautfarbenbereichsbildgenerator aufweist, und dass (2) das Objektbildflächenbestimmungsmodul 23 einen Abweichungsdetektor, einen Symmetriedetektor und einen Symmetriebewerter aufweist.

Bei der Erläuterung der zweiten Ausführungsform werden die Struktur des Objektbildflächenbestimmungsmoduls 23 und der Betrieb der Vorrichtung 101 zum Erfassen sich bewegender Objekte detailliert erläutert. Identische Erläuterungen zu denen der ersten Ausführungsform werden nicht wiederholt.

Die Figuren und Bewegungen der sich bewegenden Objekte sind derart, dass ein Erwachsener sich parallel zu einem Kind bewegt, während er seine Hand hebt.

(Struktur eines Detektors für sich bewegende Objekte)

10 zeigt das Blockdiagramm der Vorrichtung 101 zum Erfassen sich bewegender Objekte. Die fundamentale Funktion der Vorrichtung 101 zum Erfassen sich bewegender Objekte ist es, das Objekt, welches eine Bewegung aufweist und als sich bewegendes Objekt bezeichnet wird, unter Verwendung des von zwei Kameras 102 aufgenommenen Videobilds zu erfassen. Bei dieser Ausführungsform ist die Vorrichtung 101 zum Erfassen sich bewegender Objekte mit einem Eingabebildanalysator 110 aufgebaut, der die von zwei Kameras 102 aufgenommenen Videobilder analysiert, und mit einem Objektdetektor 120, der das Objekt von den analysierten Videobildern erfasst. Die zwei Kameras 102 sind als 2a und 2b horizontal mit einem Trennungsabstand B angeordnet. Eine ist als rechte Kamera 102a bezeichnet und in einer relativ rechts befindlichen Position angeordnet, und die andere als eine linke Kamera 102b in einer relativ links befindlichen Position angeordnet.

Der Eingabebildanalysator 110 analysiert die von den zwei Kameras 2 aufgenommenen und synchron dem Eingabebildanalysator 110 eingegebenen Videobilder. Als ein Ergebnis der Bildanalyse werden Abstandsbilder, welche die Abstandsinformation enthalten, Differenzbilder, welche die Bewegungsinformation enthalten, und Kantenbilder, welche die Kanten umfassen, aus den Videobildern extrahiert. Der Eingabebildanalysator 110 wird durch den Abstandsinformationsgenerator 111, den Bewegungsinformationsgenerator 112 und den Kantenbildgenerator 113 gebildet.

Da der Eingabebildanalysator 110 eine ähnliche Struktur aufweist wie der Eingabebildanalysator 10, abgesehen davon, dass der Hautfarbenbereichsbildgenerator 14 entfernt ist (siehe 1), sind die Einzelheiten des Eingabebildanalysators 110 wie bei dem Eingabebildanalysator 110 der ersten Ausführungsform. Es wird keine wiederholte Erläuterung durchgeführt.

Der Objektdetektor 120 spezifiziert und erfasst die Konturen von sich bewegenden Objekten durch die Prozesse, dass die Bildflächen, die den sich bewegenden Objekten entsprechen, unter Verwendung der analysierten Bilder spezifiziert werden und von dem Eingabebildanalysator 110 ausgegeben werden (beispielsweise als Abstandsbilder, Differenzbilder und Kantenbilder). Der Objektdetektor 120 ist mit einem Objektabstandsmessmodul 121, einem Objektabstandsbildgenerator 122, einem Objektbildflächenerfassungsmodul 123 und einem Konturdetektor 24 und einem Abstandsinformationsaktualisierungsmodul aufgebaut.

Da der Objektdetektor 120 die gleiche Struktur wie der Objektdetektor 20 aufweist, abgesehen von dem Aufbau des Objektbildflächenbestimmungsmoduls (siehe 1), werden die Einzelheiten des Objektbildflächenbestimmungsmoduls 123 erläutert. Die anderen Elemente werden nicht erläutert.

Das Objektbildflächenbestimmungsmodul 123 bestimmt den Bereich, der das sich bewegende Objekt enthält (der als die Objektbildfläche bezeichnet wird), indem symmetrische vertikale Linien spezifiziert werden und die vertikale Linie größter Symmetrie als die horizontale Position des Mittelpunkts des sich bewegenden Objekts bestimmt wird, nachdem ein Histogramm erzeugt worden ist, indem die Pixel von den Ausgangspixeln, die sich im durch den Objektabstandsbildgenerator 122 erzeugten Objektabstandsbild (dem Kantenbild, das dem Objektabstand entspricht) befinden, in der vertikalen Richtung gezählt werden. Die Objektbildflächenbestimmungseinheit 123 umfasst einen Histogrammgenerator 123a, einen Abweichungsdetektor 123b, einen Symmetriedetektor 123c, einen Symmetriebewerter 123d, und ein Bestimmungsmodul 123e für den horizontalen Bereich und ein Bestimmungsmodul 123f für den vertikalen Bereich.

Das Objektbildflächenbestimmungsmodul 123 kann den horizontalen Bereich bestimmen, der die erlaubte Breite der menschlichen Gestalten abdeckt, unter der Annahme, dass das sich bewegende Objekt ein Mensch ist. In einem anderen Fall, wenn zum Beispiel der Mensch sich den Kameras 2 in einem von der optischen Achse der Kameras 2 abweichenden Winkel nähert, verengt das Objektbildflächenbestimmungsmodul 123 den horizontalen Bereich, da es möglich ist, die menschliche Gestalt in einem derartigen engen Bereich abzudecken.

Das Objektbildflächenbestimmungsmodul 123 nimmt eine Höhe (zum Beispiel 2 Meter) für die Objektbildfläche in der vertikalen Richtung an. In diesem Fall bestimmt das Objektbildflächenbestimmungsmodul 123 die vertikale Fläche (den Bereich) der Objektbildfläche auf Grundlage des Neigungswinkels, der Höhe vom Boden (Einbauebene) usw. der Kameras 102.

Unter Bezugnahme auf 12 bis 14 werden der Histogrammgenerator 123a, ein Wechselpunktdetektor 123b, ein Symmetriedetektor 123c, einen Symmetriebewertungsbewerter 123d, ein Bestimmungsmodul 123e für den horizontalen Bereich und ein Bestimmungsmodul 123f für den vertikalen Bereich erläutert. 12A und 12B sind ein Histogramm HI und ein geglättetes Histogramm HI', die den Zählwert der Pixel repräsentieren, welcher die Zählanzahl der Pixel in vertikaler Richtung von dem Ausgangspixel ist, die in einer sich horizontal erstreckenden Linie im vom Objektabstandsbild erzeugten Objektabstandsbild sind. 12A ist ein Histogramm vor dem Glätten und 12B ist ein Histogramm HI' nach dem Glätten. 13 zeigt das lokale Maximum und Minimum. 14 zeigt die im Objektabstandsbild spezifizierte Objektbildfläche.

Ein Histogrammgenerator 123 erzeugt ein Histogramm HI, das den Pixel-Zählwert repräsentiert, der der Zählwert von Pixeln in einer vertikalen Richtung im vom Objektabstandsbild erzeugten Objektabstandsbild TDE ist.

Ein Histogrammglätter 23b glättet bei der zweiten Ausführungsform das Histogramm HI entlang der Pixelposition. Genauer ausgedrückt wird das Histogramm unter Verwendung der Gleichungen (1) und (2) geglättet, so wie auch der Histogrammglätter 23b bei der ersten Ausführungsform funktioniert.

Bei diesem Glättungsprozess kann das Histogramm HI, wie in 12A gezeigt, in das Histogramm HI', wie in 12B gezeigt, umgewandelt werden. Ein lokalisierter Peak PK im Histogramm HI wird zu einem niedrigeren Peak PK' unterdrückt.

Der Wechselpunktdetektor 123b erfasst das lokale Maximum und das lokale Minimum (manchmal "Wechselpunkt" genannt) im Histogramm HI'. Genauer ausgedrückt, ist das Histogramm HI' ein gleitender Durchschnitt der Pixelanzahl im Histogramm HI und wird, beispielsweise durch ein Spline-Interpolationsverfahren, in einer kontinuierlichen Kurve angegeben. Ein solches Verfahren berechnet die Zunahme und Abnahme der Pixelanzahlen entlang der horizontalen Achse und bestimmt die Wechselpunkte P1, P2, ... derart, dass dort die Zunahmen sich in Abnahmen ändern. Die Pixelanzahl Sxn' und die horizontale Koordinate einer derartigen Koordinate wird gespeichert (nicht in den Figuren gezeigt). Das Verfahren zum Bestimmen der Wechselpunkte (der lokalen Maxima oder Minima) ist nicht auf das obige Verfahren begrenzt, sondern es kann ein anderes Verfahren verwendet werden, bei dem die Tangente des Histogramms HI' berechnet wird und die Wechselpunkte dort bestimmt werden, wo die Tangenten Null sind.

Der Symmetriedetektor 123c erfasst die Symmetrien des Histogramms HI' für jeweils drei aufeinander folgende Punkte auf Grundlage der Punkte (Xn, Sxn') für den Wechselpunkt Pn, der vom Wechselpunktdetektor 123b bestimmt worden ist. Die zweite Ausführungsform spezifiziert die Differenz DS der Pixelanzahlen für beide Enden der drei aufeinander folgenden Punkte (einfach als "Pixelanzahldifferenz DS" bezeichnet). Ein Symmetrieparameter wird durch die Differenz DK von zwei Steigungen definiert (die einfach als die Steigungsdifferenz DS bezeichnet wird): eine zwischen dem Mittelpunkt einem der benachbarten Punkte und die andere zwischen dem Mittelpunkt und dem anderen benachbarten Punkt.

Die Pixelanzahldifferenz DSn wird durch Gleichung (17) gegeben als DSn = |SXn+2 – SXn'|(17)

Die Steigungsdifferenz DKn wird durch Gleichung (18) gegeben als DKn = |Kn+1 – Kn|(18) wobei die Steigung definiert ist durch Kn = |SXn+1' – SXn'|/|Kn+1 – Xn|(19)

Die obigen Gleichungen werden unter Bezugnahme auf 13 erläutert. Der Symmetriedetektor 123c berechnet erst die Pixelanzahldifferenz DS1 und die Steigungsdifferenz DK1 für die drei aufeinander folgenden Wechselpunkte P1, P2, ..., welche der Wechselpunktdetektor 123b erfasst hat, als DS1 = |SX3' – SX1'|(20a) K1 = |(SX2' – SX1')/(X2 – X1)|(20b) K2 = |(SX3' – SX2')/(X3 – X2)|(20c) DK1 = |K2 – K1|(20d)

Der Symmetriedetektor 123c berechnet die Pixelanzahldifferenz DS2 und die Steigungsdifferenz DK2 für die drei aufeinander folgenden Wechselpunkte P2, P3, ..., welche der Wechselpunktdetektor 123b erfasst hat, als DS2 = |SX4' – SX2'|(21a) K1 = |(SX3' – SX3')/(X3 – X2)|(21b) K2 = |(SX4' – SX3')/(X4 – X3)|(21c) DK1 = |K3 – K2|(21d)

Als den Symmetrieparameter berechnet der Symmetriedetektor 123c die Pixelanzahldifferenz DSn und die Steigungsdifferenz DKn für jede drei aufeinander folgenden Wechselpunkte Pn, Pn+1 und Pn+2 (n = 1, 2, ...), welche der Wechselpunktdetektor 123 erfasst und in einem Speicher speichert. Zur Vereinfachung der Ausdrucksweise impliziert der mittlere Punkt den mittleren Punkt der drei aufeinander folgenden Wechselpunkte. Zum Beispiel ist der Punkt Pn+1 der mittlere Wechselpunkt unter den drei aufeinander folgenden Wechselpunkten Pn, Pn+1 und Pn+2.

Der Symmetriebewerter 123d bewertet die Symmetrie und bestimmt die größte Symmetrie unter Verwendung des Symmetrieparameters. Zum Beispiel wird der mittlere Wechselpunkt, bei dem das Minimum der Pixelanzahldifferenzen DSn und das Minimum der Steigungsdifferenzen erhalten wird, als der Wechselpunkt größter Symmetrie beurteilt.

Wenn der mittlere Wechselpunkt, bei dem die Pixelanzahldifferenz minimal ist, sich von dem mittleren Wechselpunkt, bei dem die Steigungsdifferenz minimal ist, unterscheidet, dann kann der mittlere Wechselpunkt, bei dem der folgende quadratische Mittelwert minimal ist, als der Wechselpunkt größter Symmetrie angesehen werden. Ln = (DSn2 + DKn2)0,5(22)

Wenn die Symmetrieparameter als DSn und DKn größer als der vorbestimmte Wert sind, kann beurteilt werden, dass es keinen Wechselpunkt gibt, der im geglätteten Histogramm HI' Symmetrie aufweist.

Das Bestimmungsmodul 123e für den horizontalen Bereich, wie in 14 gezeigt, spezifiziert den Wechselpunkt Pn der horizontalen Koordinate Xn als den Mittelpunkt des sich bewegenden Objekts und setzt die Objektbildfläche; die das sich bewegende Objekt umfasst, im Objektabstandsbild TDE. Es wird angenommen, dass der Mensch erfasst werden soll und der horizontale Bereich (zum Beispiel 0,5 Meter bis 0,6 Meter) wird als die vorhandene Fläche des Objekts in der Objektbildfläche gesetzt.

Das Bestimmungsmodul 123f für den vertikalen Bereich setzt die vorhandene Fläche des Objekts auf Grundlage der Kameraparameter, wie beispielsweise dem Neigungswinkel, der Höhe vom Boden, etc. Es wird angenommen, dass der Mensch erfasst werden soll und eine bestimmte Höhe (zum Beispiel 2 Meter) wird als die Höhe des Objekts in der Objektbildfläche gesetzt.

Für die Größe der Objektbildfläche T kann auf die Erläuterung des Bestimmungsmoduls 23d für den vertikalen Bereich bei der ersten Ausführungsform verwiesen werden, sowie auf 8, und es wird keine weitere detaillierte Erläuterung gegeben.

Der Konturdetektor 124 erfasst die Kontur des sich bewegenden Objekts in der Objektbildfläche, welche die Objektbildflächenbestimmungseinheit bestimmt hat, unter Verwendung eines herkömmlichen Konturbestimmungsverfahrens. Die bestimmte Kontur (Konturinformation) ist die Ausgabe der Vorrichtung 101 zum Erfassen sich bewegender Objekte, und wird auch an das Abstandsinformationsaktualisierungsmodul 125 gesandt. Aus der Bestimmung der Kontur des sich bewegenden Objekts bei dem Konturdetektor 124 wird geschlossen, dass das sich bewegende Objekt erfasst worden ist.

Das Abstandsinformationsaktualisierungsmodul 125 aktualisiert das Abstandsbild, welches durch eine Speichervorrichtung (in den Figuren nicht gezeigt) gespeichert worden ist, in einem Objektabstandsbestimmungsmodul 121. Zum Beispiel werden die Pixelanzahlen des Abstandsbildes, welche der inneren Fläche einschließlich der Konturlinie entsprechen, auf "0" gesetzt. Durch diesen Prozess wird die Objektbildfläche aus dem Abstandsbild entfernt. Das Abstandsinformationsaktualisierungsmodul 125 sendet die Nachricht, dass die Abstandsbildsaktualisierung fertiggestellt worden ist, als die Aktualisierungsinformation an das Objektabstandsbestimmungsmodul 121.

Zum Beispiel wird, wie in 16 gezeigt, der Inhalt aktualisiert (das heißt, die Abstandsbildpixelwerte DB, die im Abstandsbild D angegeben sind), der der Innenfläche der Kontur O entspricht (die Innenfläche einschließlich der Kontur O), die, wie in 15 gezeigt, im Objektabstand TDE erfasst ist. Mit anderen Worten werden alle Pixelwerte in der Kontur O, zum Beispiel (30, 50), usw. für die Parallaxen auf "0" gesetzt. Durch ein derartiges Setzen auf "0" für die Parallaxen in der Kontur O, weist das als die Kontur O erfasste sich bewegende Objekt einen Abstand von unendlich von den Kameras 2 auf und existiert nicht mehr im Abstandsbild D.

Die Struktur oder die Vorrichtung 101 zum Erfassen sich bewegender Objekte der zweiten Ausführungsform wurde erläutert. Jedes der Funktionsmodule und funktionalen Blöcke kann durch Computersoftwaremodule implementiert werden, und es ist möglich, diese Softwaremodule zu einem Computersoftwareprogramm zum Erfassen sich bewegender Objekte zu vereinigen.

Es kann möglich sein, mehr als drei Kameras zum Erzeugen des Abstandsbilds zu verwenden, obwohl der Abstandsinformationsgenerator 111 bei der Vorrichtung 101 zum Erfassen sich bewegender Objekte das Abstandsbild auf der Grundlage von durch die zwei Kameras 2 aufgenommenen Videobildern erzeugt. Zum Beispiel bestimmen neun Kameras, welche als drei mal drei in der vertikalen Richtung und der horizontalen Richtung angeordnet sind, den Abstand zum sich bewegenden Objekt durch die Parallaxen gegenüber der mittleren Kamera genauer durch den überbestimmten Berechnungsprozess.

Es ist möglich, Menschen und andere sich bewegende Objekte zu erfassen, indem die Vorrichtung 101 zum Erfassen sich bewegender Objekte in sich bewegenden Robotern, Kraftfahrzeugen oder Fahrzeugen eingebaut wird. Zum Beispiel kann ein mit dieser Vorrichtung 101 zum Erfassen sich bewegender Objekte ausgestatteter Roboter bestimmte Menschen an einem bevölkerten Ort erkennen. Da der Roboter jeden Menschen einzeln spezifizieren kann, kann es möglich sein, eine bestimmte Person zu verfolgen, indem sein oder ihr Gesicht identifiziert wird, oder für jede individuelle Person eine besondere Aktion durchzuführen. Dies kann als Nachverarbeitung zu dem obigen Konturerfassungsprozess durchgeführt werden.

Ein Beispiel ist, dass ein Mensch seine Hand hebt und dass die Kontur eines derartigen Menschen bei der zweiten Ausführungsform bestimmt wird. Selbstverständlich ist es möglich, eine Person zu erfassen, die nicht ihre Hand hebt. In diesem Fall kann die Kontur der Person im Objektabstandsbild schnell mittels der Symmetrie des Histogramms erfasst werden.

(Betrieb der Vorrichtung 101 zum Erfassen sich bewegender Objekte)

Unter Bezugnahme auf die Flussdiagramme der 10, 11A und 11B wird der Betrieb der Vorrichtung 101 zum Erfassen sich bewegender Objekte erläutert. 11A und 11B sind die Flussdiagramme, die den Betrieb der Vorrichtung 101 zum Erfassen sich bewegender Objekte zeigen.

<Videobildeingabeschritt>

Die von den beiden Kameras 2 aufgenommenen Videobilder (welche synchronisiert sind) werden in einer Zeitreihe von Video-Einzelbildern der Vorrichtung 101 zum Erfassen sich bewegender Objekte eingegeben (Schritt S101). Die Erfassung der Kontur der sich bewegenden Objekte wird unter Verwendung der Videobilder (in der Einheit von Einzelbildern) durchgeführt, welche von der rechten Kamera 2a (der Referenzkamera) und der linken Kamera 2b zur Zeit t aufgenommen sind, und der von diesen beiden Kameras zur Zeit t + 1 (wie beispielsweise ein Einzelbild nach der Zeit t).

<Abstandsbilderzeugungsschritt>

Der Abstandsbildgenerator 111 bei der Vorrichtung 101 zum Erfassen sich bewegender Objekte erzeugt das Abstandsbild, welches Pixelwerte aufweist, die die Parallaxen (Abstände) repräsentieren, indem zwei Videobilder verwendet werden, die von der rechten Kamera 2a (der Referenzkamera) und der linken Kamera 2b zur Zeit t aufgenommen sind (Schritt S102).

<Bewegungsinformationserzeugungsschritt>

Der Bewegungsinformationsgenerator 112 der Vorrichtung 101 zum Erfassen sich bewegender Objekte erzeugt ein Differenzbild durch Bilden der Differenz der beiden Videobilder, die von der rechten Kamera 2a (der Referenzkamera) zur Zeit t und t + &Dgr;t aufgenommen sind, und setzt die Pixelwerte auf "1" für die Pixel, welche Differenzen (Bewegung) zwischen diesen beiden Videobildern zeigen, und "0" für die Pixel, die keine Differenzen zeigen (Schritt S103).

<Kantenbilderzeugungsschritt>

Der Kantenbildgenerator 113 der Vorrichtung 101 zum Erfassen sich bewegender Objekte erzeugt das Kantenbild unter Verwendung des von der rechten Kamera 2a (der Referenzkamera) zur Zeit t aufgenommenen Videobilds (Schritt S104).

<Objektabstandsbestimmungsschritt>

Das Objektabstandsbestimmungsmodul 121 der Vorrichtung 101 zum Erfassen sich bewegender Objekte zählt die Pixel, welche für jeden Parallaxenbereich (der den Abständen entspricht) Bewegung zeigen (Schritt S105), und die im Abstandsbild angegeben sind, indem es das Abstandsbild und das Differenzbild verwendet, die jeweils in den Schritten S102 und S103 erzeugt worden sind. Zum Beispiel zählt das Objektabstandsbestimmungsmodul 121 die Pixelwerte der Pixel im Differenzbild, welche den Pixeln in einer bestimmten Parallaxe (einem Abstand) im Abstandsbild entsprechen. Der Abstand, bei dem der Zählwert der Pixel, die Bewegung zeigen, maximal ist, wird bestimmt und als der Objektabstand des sich bewegenden Objekts gesetzt (Schritt S106).

<Objektabstandsbilderzeugungsschritt>

Der Objektabstandsbildgenerator 122 bei der Vorrichtung 101 zum Erfassen sich bewegender Objekte erzeugt das Objektabstandsbild, welches die Pixel extrahiert, die die Objekte mit ±&agr; im Abstandsbild repräsentieren (Schritt S107). Der Wert von &agr; wird auf mehrere zehn Zentimeter gesetzt.

<Histogrammerzeugungsschritt>

Der Histogrammgenerator 123a der Vorrichtung 101 zum Erfassen sich bewegender Objekte erzeugt das Histogramm, indem er die Pixel im Objektabstandsbild in vertikaler Richtung zählt (Schritt S108). Der Histogrammgenerator 123a glättet das erzeugte Histogramm.

<Wechselpunkterfassungsschritt>

Der Wechselpunktdetektor 123b der Vorrichtung 101 zum Erfassen sich bewegender Objekte bestimmt die Wechselpunkte (die lokalen Maxima und Minima) in dem in Schritt S8 (Schritt S108) erzeugten Histogramm. Zum Beispiel wird die Pixelanzahl (Sxn') in der horizontalen Richtung (Xn) mit den benachbarten Pixelanzahlen verglichen. Wenn sich die Pixelanzahl erhöht und dann erniedrigt, wird der Punkt als ein Maximum bestimmt und die horizontale Position Xn und die Pixelanzahl Sxn' werden gespeichert. Der Minimum-Punkt wird mit einem ähnlichen Verfahren bestimmt.

<Symmetrieerfassungsschritt>

Mittels des Symmetriedetektors 123c bestimmt die Vorrichtung 101 zum Erfassen sich bewegender Objekte die Pixelanzahldifferenz DSn und die Steigungsdifferenz DKn als den Symmetrieparameter für jede Serie von drei Wechselpunkten Pn, Pn+1 und Pn+2 (Schritt S110) bezüglich der Koordinaten (Xn, Sxn') der Wechselpunkte Pn (der lokalen Maxima und Minima) (Schritt S110).

<Symmetriebewertungsschritt>

Mittels des Symmetriebewerters 123d bewertet die Vorrichtung 101 zum Erfassen sich bewegender Objekte die in Schritt S110 erhaltenen Symmetrieparameter und bestimmt die drei Punkte, welche im Histogramm HI' die größte Symmetrie zeigen (Schritt S110).

<Bestimmungsschritte für den horizontalen und den vertikalen Bereich>

Mittels des Bestimmungsmoduls für den horizontalen Bereich bestimmt die Vorrichtung 101 zum Erfassen sich bewegender Objekte den horizontalen Bereich der Objektbildfläche mit bestimmten rechten und linken Rändern (zum Beispiel 0,5 bis 0,6 Meter) um den Mittelpunkt der drei Wechselpunkte, die die größte Symmetrie zeigen (Schritt S112).

Mittels des Bestimmungsmoduls 123f für den vertikalen Bereich bestimmt die Vorrichtung 101 zum Erfassen sich bewegender Objekte den vertikalen Bereich der Objektbildfläche auf Grundlage der Kameraparameter, wie beispielsweise des Neigungswinkels, der Kamerahöhe vom Boden (Anordnungshöhe), mit bestimmten rechten und linken Rändern (zum Beispiel 0,5 bis 0,6 Meter) um den Mittelpunkt der drei Wechselpunkte, die die größte Symmetrie zeigen (Schritt S112). Die Schritte vom Histogrammerzeugungsschritt zum Bestimmungsschritt für den horizontalen und vertikalen Bereich entsprechen dem Objektbildflächenbestimmungsschritt.

Zum Beispiel wird die Bodenposition (das untere Ende des Objekts) im Objektabstandsbild aus dem Neigungswinkel der Kameras 2 und der Höhe vom Boden bestimmt. Entsprechend dem Blickwinkel und dem Abstand zum Objekt wird das das obere Ende, das der Höhe von 2 Metern vom Boden entspricht, in einem derartigen Abstand gesetzt und durch die Pixelanzahl spezifiziert, die den Bereich vom unteren Ende zum oberen Ende abdeckt. Das obere Ende der Objektbildfläche im Objektabstandsbild wird auf eine ähnliche Art wie oben beschrieben erhalten. Das obere Ende des Objekts im Objektabstandsbild kann direkt durch die Position von 2 Metern (Höhe vom Boden) im Objektabstandsbild bestimmt werden, durch den Kamera-Neigungswinkel 2 und die Höhe vom Boden. Die Höhe von 2 Metern wird angenommen, es ist allerdings auch eine andere Höhenabmessung möglich.

<Konturerfassungsschritt>

Mittels des Konturdetektors 124 erfasst die Vorrichtung 101 zum Erfassen sich bewegender Objekte die Konturen der Objekte, die sich in der in den Schritten S112 und S113 gesetzten Objektbildfläche befinden (Schritt S114).

Zum Beispiel wird die Kante der Objektbildfläche erfasst und die Kontur erfasst, indem das dynamische Konturmodell (SNAKES) angewandt wird.

Die Fertigstellung der Konturerfassung wird anschließend beurteilt (Schritt S115). Die Bewertung umfasst nicht nur „Ja" oder „Nein", sondern umfasst ebenfalls einen spezifischen Grund, warum die Konturerfassung nicht durchgeführt worden ist, beispielsweise wenn der Objektabstand kürzer ist als der vorbestimmte Wert im Objektabstandsbild TDt oder wenn die Objektbildfläche kleiner ist als die vorbestimmte.

Wenn die Konturerfassung fertiggestellt ist („Ja” in Schritt S114), wird mit Schritt S116 fortgefahren. Wenn die Konturerfassung nicht durchgeführt worden ist („Nein” in Schritt S13), wird zum ENDE fortgefahren.

<Abstandsinformationsaktualisierungsschritt>

Mittels des Abstandsinformationsaktualisierungsmoduls 125 aktualisiert die Vorrichtung 101 zum Erfassen sich bewegender Objekte das der Innenfläche (der Innenfläche einschließlich der Kontur) entsprechende Abstandsbild der in Schritt S114 erfassten Kontur (Schritt S116). Zum Beispiel werden die Pixelwerte der Pixel im Abstandsbild, welche Pixel der Innenfläche der Kontur entsprechen, auf "0" gesetzt. Dann ist die Bildfläche der sich bewegenden Objekte aus dem Abstandsbild entfernt, nach der oben erwähnten Erfassung. Der Ablauf geht weiter bei Schritt S105 und der Prozess wird fortgeführt.

Entsprechend aller obigen Schritte kann die Vorrichtung 101 zum Erfassen sich bewegender Objekte der zweiten Ausführungsform das Objekt erfassen, dessen Bild in den von den Kameras 2 aufgenommenen Videobildern aufgenommen ist. Oben wurden Prozesse erläutert, umfassend das Erfassen der Kontur des sich bewegenden Objekts zu einem Zeitpunkt t und die Serie dieser Prozesse kann wiederholt werden zum Erfassen von Menschen mittels der sich bewegenden Vorrichtung, wie beispielsweise einem sich bewegenden Roboter.

Die vorliegende Erfindung erfasst ein sich bewegendes Objekt, indem sie die Abstandsinformation des sich bewegenden Objekts erzeugt, die Objektbewegung erfasst, den Objektabstand bestimmt, die Objektbildfläche und die Objektkontur aus dem Videobild erfasst, das das Objektbild und die Kontur umfasst, und stellt eine Vorrichtung zum Erfassen sich bewegender Objekte bereit, um eine derartige Erfassung durchzuführen, sowie um eine Kontur des spezifischen sich bewegenden Objekts durch Erfassen des Mittelpunkts des sich bewegenden Objekts mit hoher Genauigkeit zu erfassen.


Anspruch[de]
Vorrichtung zum Erfassen sich bewegender Objekte, die sich bewegende Objekte mittels einer Mehrzahl von Videobildern erfasst, einschließlich Bilderfassungsobjekte, welche von mehreren synchronisierten Kameras (2a, 2b; 102a, 102b) aufgenommen worden sind, umfassend:

ein Abstandsinformationserzeugungsmittel (11; 111), welches Abstandsinformationen bezüglich des Abstands zu den Bilderfassungsobjekten auf Grundlage einer Parallaxe (8) der Kameras (2a, 2b; 102a, 102b) erzeugt,

ein Bewegungsinformationserzeugungsmittel (12; 112), das Bewegungsinformationen bezüglich einer Bewegung der sich bewegenden Objekte auf Grundlage von Differenzen zwischen Videobildern erzeugt, die in einer Zeitreihe von zumindest einer der Kameras (2a, 2b; 102a, 102b) eingegeben werden,

ein Objektabstandsbestimmungsmittel (21; 121), das aus der Abstandsinformation und der Bewegungsinformation einen Objektabstand bestimmt, der einen Ort spezifiziert, an dem sich das sich bewegende Objekt befindet,

ein Objektabstandsbilderzeugungsmittel (22; 122), das aus dem Objektabstand und dem Videobild einer (2a; 102a) der Kameras sowie der Abstandsinformation ein Objektabstandsbild erzeugt, das aus Pixeln zusammengesetzt ist, welche dem durch das Objektabstandsbestimmungsmittel (21; 121) bestimmten Objektabstand entsprechen,

ein Objektbildflächenbestimmungsmittel (23; 123), das die Objektbildfläche bestimmt, die in dem Objektabstandsbild enthalten ist, das wenigstens dem Objektabstand entspricht, und

ein Konturerfassungsmittel (24; 124), das das sich bewegende Objekt erfasst, indem es eine Kontur in der von dem Objektbildflächenbestimmungsmittel (23; 123) bestimmten Objektbildfläche erfasst,

wobei das Objektbildflächenbestimmungsmittel (23; 123) ein Histogramm (HI) bestimmt, indem die Pixel in vertikaler Richtung für jeden Objektpunkt an einer horizontalen Koordinate gezählt werden,

dadurch gekennzeichnet,

dass das Objektbildflächenbestimmungsmittel (23; 123) ein geglättetes Histogramm (HI') erstellt, indem das Histogramm (HI) in der horizontalen Koordinate geglättet wird, und danach unter Verwendung des geglätteten Histogramms (HI') eine Objektbildfläche bestimmt.
Vorrichtung zum Erfassen sich bewegender Objekte nach Anspruch 1, ferner umfassend ein Kantenbilderzeugungsmittel (13; 113), das ein Kantenbild erzeugt, indem es Kanten des in dem Videobild enthaltenen Bilderfassungsobjekts aus Basisfarbinformationen und Farbkonzentrationsinformationen erfasst, die für jeden der Pixel, die das Videobild aufbauen, gegeben sind, wobei das Objektabstandsbilderzeugungsmittel (22; 122) das Objektabstandsbild erzeugt, indem aus dem Kantenbild Pixel extrahiert werden, welche von dem Objektabstandbestimmungsmittel (21; 121) gesetzten Objektabständen entsprechen. Vorrichtung zum Erfassen sich bewegender Objekte nach Anspruch 1, wobei das Objektabstandsbilderzeugungsmittel (22; 122) das Objektabstandsbild erzeugt, indem aus dem Videobild Pixel extrahiert werden, welche von dem Objektabstandsbestimmungsmittel (21; 121) gesetzten Objektabständen entsprechen. Vorrichtung zum Erfassen sich bewegender Objekte nach Anspruch 1, wobei das Objektabstandsbilderzeugungsmittel (22; 122) das Objektabstandsbild erzeugt, indem aus dem Abstandsbild Pixel extrahiert werden, welche von dem Objektabstandsbestimmungsmittel (21; 121) gesetzten Objektabständen entsprechen. Vorrichtung zum Erfassen sich bewegender Objekte nach Anspruch 1,

wobei das Objektbildflächenbestimmungsmittel (23; 123) das geglättete Histogramm (HI') durch eine Berechnung mit der folgenden Gleichung erstellt:
wobei Sx eine Pixelanzahl in einer horizontalen Koordinate x des Histogramms ist, Sx' eine Pixelanzahl in einer horizontalen Koordinate x des Histogramms ist, x0 eine positive Konstante ist und f(n) eine Funktion von n oder eine Konstante ist.
Vorrichtung zum Erfassen sich bewegender Objekte nach Anspruch 5,

wobei das Objektbildflächenbestimmungsmittel (23; 123) das geglättete Histogramm (HI') erstellt, indem es die Gleichung mit einer Bedingung: f(n) = |x – n| berechnet.
Vorrichtung zum Erfassen sich bewegender Objekte nach Anspruch 5,

wobei ferner die nachfolgend beschriebene Bedingung verwendet wird:
Vorrichtung zum Erfassen sich bewegender Objekte nach Anspruch 1, wobei das Objektbildflächenbestimmungsmittel (23; 123) einen horizontalen Bereich als einen vorbestimmten horizontalen Bereich um die x-Koordinate setzt, an der die Pixelanzahl in dem Histogramm (HI) maximal ist. Vorrichtung zum Erfassen sich bewegender Objekte nach Anspruch 1, wobei das Objektbildflächenbestimmungsmittel (23; 123) einen vertikalen Bereich der Objektbildfläche auf Grundlage wenigstens eines Neigungswinkels und einer Höhe von einem Boden, auf den die Kameras gesetzt sind, bestimmt. Vorrichtung zum Erfassen sich bewegender Objekte nach Anspruch 1, wobei das Objektbildflächenbestimmungsmittel (23; 123) die Symmetrie des geglätteten Histogramms (HI') bewertet und die Objektbildfläche auf Grundlage eines Punktes größter Symmetrie in dem geglätteten Histogramm (HI') bestimmt. Vorrichtung zum Erfassen sich bewegender Objekte nach Anspruch 10, wobei das Objektabstandsbestimmungsmittel (21; 121) derartige Pixel zählt, die eine Bewegung zeigen, für jeden Berreich von Abständen, und auf Grundlage des Zählwerts der Pixel danach einen Objektabstand bestimmt, an dem sich das sich bewegende Objekt befindet. Vorrichtung zum Erfassen sich bewegender Objekte nach Anspruch 10, wobei das Objektabstandsbestimmungsmittel (21; 121) ein Objektabstandsbild erzeugt, das Pixel umfasst, die auf Grundlage des Objektabstands die Bilderfassungsobjekte repräsentieren, die sich in einem vorbestimmten Bereich in der Tiefenrichtung befinden. Vorrichtung zum Erfassen sich bewegender Objekte nach Anspruch 10, wobei das Objektbildflächenbestimmungsmittel (23; 123) lokale Maxima und Minima in dem Histogramm (HI) erfasst, Pixelanzahldifferenzen in vertikaler Richtung von jeden drei Serienpunkten und eine Steigungsdifferenz von zwei Linien bestimmt, die durch einen Mittelpunkt und zwei andere Punkte der drei Serienpunkte gegeben sind, und einen Mittelpunkt von drei Serienpunkten bestimmt, wobei der Mittelpunkt als der Punkt größter Symmetrie in dem geglätteten Histogramm (HI') eine minimale Pixelanzahldifferenz und eine minimale Steigungsdifferenz aufweist. Vorrichtung zum Erfassen sich bewegender Objekte nach Anspruch 13, wobei das Objektbildflächenbestimmungsmittel (23; 123) einen horizontalen Bereich der Objektbildfläche mit einem bestimmten Rand um den Punkt größter Symmetrie herum bestimmt. Verfahren zum Erfassen sich bewegender Objekte, das sich bewegende Objekte mittels einer Mehrzahl von Videobildern erfasst, einschließlich Bilderfassungsobjekte, welche von mehreren synchronisierten Kameras (2a, 2b; 102a, 102b) aufgenommen worden sind, umfassend die Schritte:

Erzeugen von Abstandsinformationenen bezogen auf den Abstand zu den Bilderfassungsobjekten auf Grundlage einer Parallaxe der Kameras (S1; S102);

Erzeugen von Bewegungsinformationen bezogen auf eine Bewegung der sich bewegenden Objekte auf Grundlage von Differenzen zwischen Videobildern, die in einer Zeitreihe von zumindest einer der Kameras (2b; 102b) eingegeben werden (S3; S103);

Bestimmen eines Objektabstands, der einen Ort spezifiziert, an dem sich das sich bewegende Objekt befindet, aus der Abstandsinformation und der Bewegungsinformation (S5; S105);

Erzeugen eines Objektabstandsbilds, das aus Pixeln zusammengesetzt ist, welche dem durch das Objektabstandsbestimmungsschritt bestimmten Objektabstand entsprechen, aus dem Objektabstand und dem Videobild einer (2a; 102a) der Kameras sowie der Abstandsinformation (S7; S107);

Bestimmen einer Bildfläche, die in dem Objektabstandsbild enthalten ist, das wenigstens dem Objektabstand entspricht (S12; S112); und

Erfassen des sich bewegenden Objekts durch Erfassen einer Kontur in der Objektbildfläche, welche durch den Schritt des Bestimmens des Bildes bestimmt ist (S14; S114),

wobei der Schritt (S12, S112) des Bestimmens der Bildfläche ferner so funktioniert, dass ein Histogramm (HI) bestimmt wird, indem die Pixel in vertikaler Richtung für jeden Objektpunkt einer horizontalen Koordinate gezählt werden,

dadurch gekennzeichnet,

dass in dem Schritt (S12; S112) des Bestimmens ein geglättetes Histogramm (HI') erstellt wird, indem das Histogramm (HI) in der horizontalen Koordinate geglättet wird, und danach unter Verwendung des geglätteten Histogramms (HI') eine Objektbildfläche bestimmt wird.
Verfahren zum Erfassen sich bewegender Objekte nach Anspruch 15, wobei der Schritt (S12; S112) des Bestimmens der Bildfläche ferner so funktioniert, dass die Bildfläche auf Grundlage des Punktes größter Symmetrie in dem geglätteten Histogramm (HI') bestimmt wird, indem die Symmetrie des geglätteten Histogramms (HI') bewertet wird.






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com