PatentDe  


Dokumentenidentifikation DE10126375A1 12.12.2002
Titel Verfahren und System zur Erkennung von Objekten
Anmelder BioID AG, 10709 Berlin, DE
Erfinder Frischholz, Robert, Dr.-Ing., 91058 Erlangen, DE;
Ernst, Jan, 91058 Erlangen, DE
Vertreter BOEHMERT & BOEHMERT, 80336 München
DE-Anmeldedatum 30.05.2001
DE-Aktenzeichen 10126375
Offenlegungstag 12.12.2002
Veröffentlichungstag im Patentblatt 12.12.2002
IPC-Hauptklasse G06K 9/62
Zusammenfassung Die Erfindung betrifft ein System und ein Verfahren zur Erkennung von Objekten. Eine Folge von Bildern eines Objekts wird digital aufgenommen und jedes Bild wird in zugehörige Bildpunkte umgewandelt, wobei wenigstens zwei Bilder des Objekts aus unterschiedlichen Perspektiven aufgenommen werden. Die Bildpunkte der aufgenommenen Bilder werden transformiert, so daß sie in einem gemeinsamen Koordinatensystem zu liegen kommen, und die transformierten Bildpunkte werden aneinander überlagert, um eine unstrukturierte Gesamtpunktmenge zu bilden, welche dem Objekt entspricht. Merkmale des Objekts werden aus der Punktmenge unter Verwendung einer Filterfunktion extrahiert, wobei die Filterfunktion in Übereinstimmung mit der unstrukturierten Punktmenge abgetastet wird, und die extrahierten Merkmale zur Erkennung des Objekts verwendet werden.

Beschreibung[de]

Die Erfindung betrifft ein Verfahren und ein System zum Erkennen von Objekten auf der Grundlage einer Folge von Bildern, die von dem Objekt mit einer digitalen Kamera aufgenommen werden. Insbesondere betrifft die Erfindung ein biometrisches Erkennungsverfahren und -system, das auf der Grundlage der Erkennung des menschlichen Gesichtes, und spezieller der Iris des menschlichen Auges, arbeitet.

Das U.S. Patent 5,291,560 beschreibt z. B. die Identifikation einer Person gestützt auf die Erkennung der Iris des menschlichen Auges. Zunächst erfaßt das System über eine Videokamera ein digitalisiertes Bild des Auges einer Person, welche identifiziert werden soll. Dann wird die Iris isoliert und runde Begrenzungen an der Außenkante und der Innenkante der Iris definiert. Das System richtet ein Polarkoordinatensystem auf dem isolierten Bild der Iris ein, dessen Ursprung im Zentrum der Pupille liegt. Es definiert dann mehrere ringförmige Analysebänder innerhalb des Bildes der Iris, welche bestimmte Bereiche der Iris ausschließen, die häufig durch das Augenlied, Wimpern oder Reflexionen verdeckt sind. Der Bereich des Bildes der Iris, der innerhalb dieser ringförmigen Analysebänder liegt, wird dann analysiert und codiert, um einen Iriscode zur Speicherung und für den Vergleich mit einem Bezugscode zu erzeugen.

Das in dem U.S. Patent 5,291,560 beschriebene Verfahren funktioniert so lange gut, solange das digitale Bild des Auges ausreichend gut ist und insbesondere eine ausreichende Auflösung und Schärfe hat. Dem Fachmann auf dem Gebiet der Bildverarbeitung ist bekannt, daß die Problemstellung der Erkennung von Bildern eng verknüpft ist mit der richtigen Klassifikation der extrahierten Merkmale eines Bildes; d. h. aufgrund der extrahierten Merkmale muß eine geeignete Klassifikation des Bildinhaltes vorgenommen werden, um beispielsweise zu entscheiden, ob das Bild mit den Merkmalen eines zuvor erfaßten Bildes übereinstimmt. Dies ist nur möglich, wenn die Ausgangsdaten, d. h. das digital aufgenommene Bild des Objekts, ausreichend präzise und detailliert sind und eine ausreichende Auflösung der gerasterten und quantisierten Einzelbilder ermöglichen.

Es gibt im Stand der Technik bereits verschiedene Vorschläge, wie aufgrund eines Einzelbildes oder einer Sequenz von digitalen Bildern mit unzureichender Auflösung ein Ausgangsbild abgeleitet werden kann, das eine höhere Auflösung für die weitere digitale Verarbeitung hat. Das U.S. Patent 6,188,804 schlägt z. B. ein Verfahren zum Verarbeiten eines abgetasteten Eingangsbildes, in dem Information bei verschiedenen Pixelpositionen fehlt, vor, bei dem in dem abgetasteten Bild gültige Pixelpositionen ermittelt werden und die Information an den gültigen Pixelpositionen mittels Faltung interpoliert wird, um bei nicht gültigen Pixelpositionen Information zu rekonstruieren.

Die Erzeugung eines höher aufgelösten Bildes aus einer Sequenz von Einzelbildern ist beispielsweise auch beschrieben in Dekeyser, F. et al. "Superresolution from Noisy Image Sequences Exploiting a 2D Parametric Motion Model", ICPR 2000, Band 3: Seiten 354 bis 357 und Bormann, S. et al., "Super-Resolution from Image Sequences - A Review", Midwest Symposium on Circuits and Systems, 1998. Das rekonstruierte, höher auflösende Bild liefert dann die Eingangsdaten für die Merkmalsextraktion und Klassifikation in einem Klassifikationssystem.

Ein Klassifikationssystem besteht grundsätzlich aus drei Komponenten, die schematisch in Fig. 1 dargestellt sind. Fig. 1 zeigt ein allgemeines Schema eines Bilderkennungssystems als Blockschaltbild. In das Bilderkennungssystem werden Bilddaten eingegeben und in einer Bild-Digitalisierstufe 10 digitalisiert. Die digitalisierten Bilddaten gelangen in eine Vorverarbeitungsstufe 11, in der beispielsweise die interessierenden Bildbereiche isoliert werden. Die vorverarbeiteten Bilddaten werden an eine Transformationsstufe 12 weitergegeben, um die Bilddaten beispielsweise aufgrund einer Spektralanalyse zu analysieren. Die transformierten Bilddaten werden in eine Merkmalsberechnungsstufe 14 eingegeben, in der Merkmale extrahiert werden, welche an einen Klassifikator 16 übergeben werden. Die digitalisierten Bilddaten werden nach der Vorverarbeitung 11 so transformiert 12, daß der nachfolgende Prozeß der Merkmalsberechnung 14 möglichst einfach gestaltet werden kann. Aus der Merkmalsberechnung ergeben sich Kennzahlen, die zu einer klassenweise diskriminierenden Kennzeichnung des Bildes von dem Klassifikator 16 korrekt zugewiesen werden müssen. Man wird verstehen, daß für eine optimale Auswertung und Klassifikation der eingehenden Bilddaten 10 eine Bildpunktmenge benötigt wird, die das abgebildete Objekt richtig und mit möglichst hoher Auflösung wiedergibt. Die aus dem Stand der Technik bekannten Verfahren zum Rekonstruktion des Bildes mit hoher Auflösung durch Interpolation führt zwangsläufig dazu, daß ein Teil der ursprünglichen Information verloren geht. Dadurch kann der ursprüngliche Informationsgehalt der digitalen Bilder nur bis zu einer Grenze ausgenutzt werden.

Der Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren und eine Vorrichtung zur Erkennung von Objekten aufgrund eines oder mehrerer digitaler Bilder des Objekts anzugeben, mit dem der Informationsgehalt der berechneten Merkmale aus den digitalen Bilder erhöht und die in den digitalen Bildern vorhandene Information optimal genutzt werden kann.

Diese Aufgabe wird durch ein Verfahren mit den Merkmalen von Anspruch 1 sowie durch ein System mit den Merkmalen von Anspruch 15 gelöst.

Die Erfindung gibt ein Verfahren und ein System zur Erkennung von Objekten an, das unter Verwendung von Bildsequenzen eine Merkmalsextraktion und Klassifikation ermöglicht, die mit Einzelbildern nicht erreichbar wäre. Als Eingabedaten wird eine Folge von Einzelbildern verwendet, die alle dasselbe Objekt von leicht veränderten Standorten aus zeigen, wobei die Erfindung diese zusätzliche, zeitliche Dimension für die Merkmalsberechnung und Klassifikation auf eine Punktmenge in zwei Dimensionen zurückführt. Mit dem erfindungsgemäßen Verfahren wird das Problem eines Informationsverlustes oder einer zu geringen Auflösung eines Einzelbildes dadurch gelöst, daß nicht ein höher aufgelöstes Bild rekonstruiert und als Grundlage für die weitere Verarbeitung verwendet wird, sondern daß auf der Basis einer normierten Überlagerung der einzelnen Elemente einer Bildsequenz gearbeitet wird. Die Einzelbilder der Bildsequenz können mit einer digitalen Kamera oder einer Videokamera aufgenommen werden.

Die Erfindung schlägt gemäß Anspruch 1 ein Verfahren zur Erkennung von Objekten vor, bei dem eine Folge von Bildern eines Objekts digital aufgenommen und jedes Bild in zugehörige Bildpunkte umgewandelt wird, wobei wenigstens zwei Bilder des Objekts aus unterschiedlichen Perspektiven aufgenommen werden. Die Bildpunkte der aufgenommenen Bilder werden derart transformiert, daß sie in einen gemeinsamen Koordinatensystem zu liegen kommen. Die transformierten Bildpunkte werden in dem gemeinsamen Koordinatensystem einander überlagert, um eine unstrukturierte Gesamtpunktmenge zu bilden, welche dem Objekt, genauer einer normierten Ansicht des Objekts entspricht. Merkmale des Objekts werden aus der Punktmenge unter Verwendung einer Funktion extrahiert, die in Übereinstimmung mit der unstrukturierten Punktmenge abgetastet wird, und die extrahierten Merkmale werden zur Erkennung des Objekts verwendet werden. Die Funktion ist vorzugsweise eine Filterfunktion. Bei dem erfindungsgemäßen Verfahren wird somit für die weitere digitale Verarbeitung eine hochauflösende unstrukturierte zweidimensionale Punktmenge erzeugt, die aus den Bildpunkten der ursprünglich aufgenommenen Bilder zusammengesetzt ist, um den Informationsgehalt der berechneten Merkmale aus den digitalisierten Einzelbildern zu erhöhen, ohne daß eine Interpolation mit inhärentem Informationsverlust durchgeführt werden müßte. Aufgrund der unregelmäßigen Abstände der Einzelpunkte der unstrukturierten Bildpunktmenge muß die nachfolgende Abtastung entsprechend angepaßt werden.

Bei dem erfindungsgemäßen Verfahren wird die Gesamtpunktmenge vorzugsweise vorverarbeitet, wobei die Bildpunkte danach eingeteilt werden, ob sie zu dem Objekt gehören oder nicht. Dies kann z. B. mittels Kantenextraktion erfolgen. Zur Extraktion der Grenzen des interessierenden Bildinhaltes kann z. B. eine Hough-Transformation eingesetzt werden. Diese ist z. B. beschrieben in dem Vorlesungsmanuskript "Bildverarbeitung II" des Instituts für Nachrichtentechnik und Theoretische Elektrotechnik, Jens-Rainer Ohm, S. 152-154, TU Berlin, 1999.

Die relativen Postitionsabweichungen der aufgenommenen Bilder, die sich durch die Aufnahme aus den verschiedenen Perspektiven ergeben, werden erfaßt, um die Bilder in das gemeinsame Koordinatensystem zu transformieren. Das gemeinsame Koordinatensystem kann beispielsweise das Koordinatensystem des ersten Bildes aus der Bildsequenz sein. Die Positionsabweichungen können allgemein Folge einer affinen Transformation sein (Translation, Rotation, Skalierung). Zusätzlich können sich geringfügige Abweichungen in den Abmessungen der aufgenommenen Bilder ergeben, die durch Normierung beispielsweise auf das erste Bild aus der Bildsequenz ebenfalls ausgeglichen werden sollten. Die Transformation der Bildpunkte der aufgenommenen Bilder in das gemeinsame Koordinatensystem erfolgt vorzugsweise mittels einer affinen Transformation, welche die Bildpunkte mit Sub-Pixel- Genauigkeit in das gemeinsame Koordinatensystem transformiert.

Im nächsten Verarbeitungsschritt werden die Merkmale des Objekts aus der vorverarbeiteten Bildpunktmenge extrahiert. Dies erfolgt vorzugsweise mittels Faltung der Bildpunktmenge mit der Filterfunktion, um verschiedene gesuchte Merkmale z. B. als Frequenzspektren oder auf andere Weise darzustellen. Für die Faltung werden die Bildpunkte der unstrukturierten Gesamtpunktmenge und die Filterfunktion in korrespondierenden Schritten abgetastet, welche dem Abstand der Bildpunkte der unstrukturierten Gesamtpunktmenge entsprechen und somit in der Regel unregelmäßig sein werden.

Zur Ermittlung der Abtastintervalle kann z. B. der Abstand der Bildpunkte der unstrukturierten Gesamtpunktmenge aufgrund der vorhergehenden, bekannten Transformationen der Bildpunkte in das gemeinsame Koordinatensystem ermittelt wird.

Filterfunktionen, die für die Merkmalsextraktion geeignet sind, sind dem Fachmann auf dem Gebiet der Bildverarbeitung bekannt. Die Filterfunktion kann beispielsweise eine Fouriertransformation oder ein zweidimensionales Gabor-Filter umfassen. Geeignete Verfahren zur Merkmalstransformation und -gewichtung sind beschrieben in dem genannten Vorlesungsmanuskript "Bildverarbeitung II", S. 151-160 und in einem weiteren Vorlesungsmanuskript "Bildsignalverarbeitung für Multimedia-Systeme" des Instituts für Nachrichtentechnik und Theoretische Elektrotechnik, Jens-Rainer Ohm, S. 171-188, TU Berlin, 1999. Darin findet sich auch eine Beschreibung der Gabor-Wavelets oder Gabor-Filter, die eine bevorzugte Filterfunktion für die Merkmalsextraktion in dem erfindungsgemäßen Verfahren sind.

Zur Unterscheidung verschiedener Bilder in bezug auf ausgewählte Merkmale werden die extrahierten Merkmale in Klassen eingeteilt werden. Hierzu können von dem Fachmann an sich bekannte Klassifikationsverfahren eingesetzt werden, wie sie z. B. in dem Vorlesungsmanuskript "Bildverarbeitung II", S. 161-179 beschrieben sind. Bevorzugte Klassifikatoren für die Realisierung der Erfindung sind der "Nächste Nachbar" (Nearest Neighbor) und Neuronale Netze.

Erfindungsgemäß werden für die extrahierten Merkmale Kennzahlen oder -vektoren berechnet und mit im voraus ermittelten und gespeicherten Merkmals-Kennzahlen für ein Referenzobjekt verglichen, um eine Ähnlichkeit zwischen dem Objekt und dem Referenzobjekt zu ermitteln. Dieser Vergleich erfolgt mithilfe einer Klassifikation, deren Grundzüge unten mit weiteren Einzelheiten beschrieben ist.

Um Bilder zu lernen, welche in einer späteren Erkennungsaufgabe identifiziert werden sollen, wird vorzugsweise mehrmals eine Folge von Bildern wenigstens eines Referenzobjekts aufgenommen, um Merkmale des Referenzobjekts zu lernen, wobei die gelernten Merkmale gespeichert werden. Gute Ergebnisse wurden z. B. mit einer fünffachen Wiederholung der Lernfolge erzielt. Bei dem Lernvorgang ist unter anderem die richtige Wahl der Wiederholungshäufigkeit wichtig, damit ein Bild eindeutig und gleichzeitig mit ausreichender Toleranz gelernt und später wieder erkannt wird.

In einer bevorzugten Ausführungsform der Erfindung wird abhängig von der Übereinstimmung des Objekts mit dem Referenzobjekt eine Zugangskontrolle gesteuert wird. Die Erkennung eines Gesichtes oder eines Gesichtsteiles, eines Fingerabdrucks oder dergleichen kann beispielsweise die Eingabe eines Paßwortes ersetzen, um Zugang zu einem Computersystem, einem geschützten Raum, einem Konto etc. zu erhalten. Das aufgezeichnete Bild kann mit weiteren Erkennungsmerkmalen, wie Sprache, Bewegung, Gestik, Mimik, kombiniert werden, um die Zugangskontrolle noch sicherer zu gestalten.

Das erfindungsgemäße Verfahren eignet sich aufgrund der Erhöhung der Auflösung besonders für die Erkennung kleiner Gegenstände, wie der Iris eines menschlichen Auges.

Die Erfindung sieht auch ein System zur Erkennung von Objekten vor, mit einer elektronischen Kamera, die eine Folge von Bildern eines Objekts aus wenigstens zwei unterschiedlichen Perspektiven digital aufnimmt; und einer Recheneinrichtung, welche die digital aufgenommenen Bilder empfängt und folgende Merkmale aufweist: eine Einheit zur Umwandlung jedes Bildes in zugehörige Bildpunkte; eine Transformationseinheit zum Transformieren der Bildpunkte in ein gemeinsames Koordinatensystem und zum Überlagern der transformierten Bildpunkte in dem gemeinsamen Koordinatensystem derart, daß sie eine unstrukturierte Gesamtpunktmenge bilden, welche dem Objekt entspricht, eine Extraktionseinheit, welche Merkmale des Objekts aus der Punktmenge unter Verwendung einer Filterfunktion extrahiert, wobei die Filterfunktion in Übereinstimmung mit der unstrukturierten Punktmenge abgetastet wird, und ein Klassifikator, der die extrahierten Merkmale des Objekts zur Erkennung des Objekts in Klassen einteilt. Schließlich ist auch vorgesehen, die Erfindung in einem Computerprogramm zu realisieren, das einen Programmcode zur Ausführung des oben beschriebenen Verfahrens auf der Grundlage einer Folge von digital aufgenommenen Bildern aufweist.

Zum besseren Verständnis der Erfindung werden im folgenden, ohne Anspruch auf Vollständigkeit, einige Grundzüge der Hough-Transformation zur Merkmalsbeschreibung, der Gabor- Wavelets, die bevorzugt zur Merkmalsextraktion verwendet werden, und verschiedener Arten von Klassifikatoren beschrieben. Die folgenden Erläuterungen sind den genannten Vorlesungsmanuskripten entnommen, auf die ergänzend bezug genommen wird.

In der Regel wird ein einziges extrahiertes Merkmal nicht ausreichen, um den Inhalt eines visuellen Signals zu klassifizieren. Sehr häufig wird es daher notwendig sein, die Entscheidung aus einer Reihe von Merkmalen abzuleiten, die nicht nur in ihrer physikalischen Bedeutung, sondern auch in ihren Wertebereichen z. T. signifikante Unterschiede aufweisen können. Darüberhinaus können zwischen den einzelnen extrahierten Merkmalswerten lineare oder nichtlineare Abhängigkeiten auftreten, welche die nachfolgende Klassifikation erschweren können. Ziel ist es daher, die zur Verfügung stehenden Merkmale durch eine Merkmalstransformation auf möglichst wenige voneinander unabhängige signifikante Werte zu reduzieren, und diese in ihren Wertebereichen so anzupassen (zu normieren), daß die Kombination der Merkmale entsprechend ihrer Relevanz im nachfolgenden Klassifikationsschritt so einfach wie möglich wird.

Ziel von Merkmalstransformationen ist es, die in den unmittelbar extrahierten Merkmalswerten vorhandenen gegenseitigen Abhängigkeiten zu analysieren, um auf dieser Grundlage zu einer möglichst kompakten (d. h. aus möglichst wenigen Werten bestehenden) Merkmalsbeschreibung zu kommen. Hierbei sind sowohl lineare Abhängigkeiten zu berücksichtigen, die sich weitgehend durch die zwischen den einzelnen Merkmalswerten bestimmbare Kovarianzfunktion analysieren und mittels einer Eigenvektortransformation beseitigen lassen, als auch nichtlineare Abhängigkeiten, die sich durch Verwendung eines geeigneten parametrischen Modells in Verbindung mit einer generalisierten Hough-Transformation auflösen lassen.

Die Hough-Transformation wurde in ihrer ursprünglichen Form für eine parametrisierte Beschreibung von Geraden entwickelt, um z. B. für eine Schar von Konturpunkten bestimmen zu können, ob diese alle auf einer Geraden liegen. Ausgangspunkt hierfür ist die Geradengleichung in Polarkoordinaten



ρ = m.cosα + n.sinα,



die eine Beziehung zwischen den (kartesischen) Punktkoordinaten (m, n) aller derjenigen Punkte angibt, die auf einer Geraden mit dem Abstand ρ und dem Winkel α zum Koordinatenursprung liegen. Die Transformation in den Hough-Raum (ρ, α) ergibt nun für jeden einzelnen Punkt eine Kurve, welche angibt, auf welchen hypothetischen Geraden er liegen könnte. Schneiden sich nun die Kurven mehrerer Punkte in eine einzigen Punkt des Hough- Raumes, so liegen tatsächlich alle diese Punkte auf einer einzigen Geraden, welche durch die Parameter (ρS, αS) des Schnittpunktes charakterisiert ist.

Heute wird die Hough-Transformation wesentlich universeller für viele Arten einer parametrisierbaren Beschreibung von Bildmerkmalen eingesetzt. Um z. B. nicht nur Geraden-, sondern auch Krümmungsverläufe von Konturkurven zu erfassen, wäre die Hinzuname zusätzlicher Parameter erforderlich, um die quadratischen, kubischen etc. Krümmungsterme zu charakterisieren. Der Hough-Raum würde dann ebenfalls mehr als zwei Dimensionen erhalten. Eine Anwendung einer solchen generalisierten Hough-Transformation besteht auch in der Erfassung parametrisierbarer Bewegungsverläufe. So läßt sich die Verschiebung von Bildpunkten nach dem 4-Parameter-Modell, welches Translation, Rotation θ und Größenänderung θ zwischen zwei Aufnahmezeitpunkten beschreiben kann, durch





charakterisieren.

Die Bestimmung von Bildmerkmalen erfordert eine Analyse der Abhängigkeiten (Richtungsorientierung, Schwankungen etc.) benachbarter Bildpunkthelligkeiten. Die gebräuchlichste Methoden zur Texturcharakterisierung basieren auf einer Frequenzanalyse. Für die Frequenzanalyse sind insbesondere Verfahren gut geeignet, die auf einer Wavelet-Transformation oder einer anderen Filteranalyse basieren, da sie sich im Gegensatz zu linearen Transformationen auch problemlos auf beliebig geformte Bildsegmente (und nicht nur auf Gesamtbilder) anwenden lassen. Die Frequenztransformation führt auf eine diskrete Anzahl von Partitionen im 2D-Frequenzspektrum, durch deren Analyse eine Aussage über den Änderungsverlauf (hohe Frequenzen = schnelle Änderungen) der Textur in verschiedenen Richtungsorientierungen möglich ist. Sinnvoll ist hier eine Oktavband-Einteilung der Frequenzachsen, d. h. bei einer Skalierung (Größenänderung) der Textur um den Faktor 2 verschiebt sich die spektrale Energie in das nächsthöhere (doppelte Frequenz) oder nächsttiefere Band (halbe Frequenz). Die Richtungsorientierungen sollten hingegen gleichmäßige Winkellagen des Spektrums erfassen. Fig. 2 stellt zwei Beispiele solcher Frequenzeinteilungen (sog. frequency layouts) im 2D- Spektralbereich dar, wobei Fig. 2a. Zur Definition von Richtungsorientierungen und Skalierungsstufen in der 2D-Frequenzebene und Fig. 2b Wavelet-Transformation mit 3 Richtungsorientierungen und 3 Skalierungsstufen zeigen.

Die letzte Stufe der Bilderkennung ist die Entscheidung darüber, wie auf Grund der extrahierten und ggf. transformierten/gewichteten Merkmale eine geeignete Klassifikation des Bildinhaltes erfolgen kann. Hierbei ist zumindest nach heutigem Stand der Technik davon auszugehen, daß noch keine Systeme existieren, die vollkommen automatisch beliebige visuelle Inhalte erkennen könnten. Zunächst ist hierzu eine Wissensbasis notwendig, d. h. es ist zu spezifizieren, bei Vorliegen welcher Merkmale es sich um welche Inhalte handelt, und wie diese Inhalte wiederum auf einer abstrakteren Ebene zu benennen sind. Ein Beispiel: Es soll erkannt werden, ob ein Bild ein menschliches Gesicht enthält, und wenn ja, um welche Person es sich handelt. Hierzu können z. B. als Merkmale die Farbe, die Form, das Vorhandensein eines Mundes, zweier Augen, einer Nase an bestimmten Positionen (die sich wiederum durch bestimmte Farb-, Textur- und Strukturmerkmale spezifizieren lassen) herangezogen werden. Sofern alle diese Vorgaben erfüllt sind, ist die Entscheidung relativ klar und sicher. Es kann jedoch vorkommen, daß z. B. ein Auge von Haaren verdeckt ist oder der Mund derart im Schatten liegt, daß er nicht lokalisiert werden kann. Dennoch handelt es sich aller Voraussicht nach um ein Gesicht, jedenfalls würde ein menschlicher Beobachter dies sofort erkennen, jedoch wird z. B. die Zuordnung einer bestimmten Person unsicher sein.

Bei den meisten Klassifikationsverfahren wird daher davon ausgegangen, daß für eine Stichprobe von gegebenen Bildern die Merkmale extrahiert werden, jedoch a priori bekannt sei. welcher Klasse sie zuzuordnen sind. So würde man beispielsweise bei dem geschilderten Problem der Personenerkennung von jeder der zu erkennenden Personen eine bestimmte Anzahl von Aufnahmen anfertigen, und diese als Stichprobe verwenden. Die Erkennungssicherheit wird dabei maßgeblich dadurch bestimmt, wie weit die Klassen, also die typischen Merkmalseigenschaften der einzelnen Personen, im Merkmalsraum voneinander entfernt sind. Hierbei spielt auch die Streuung, d. h. die Varianz innerhalb der einzelnen Klassen eine entscheidende Rolle; diese ist naturgemäß gering, wenn die Streuung innerhalb der Stichprobe gering ist. Andererseits ergibt sich automatisch eine höhere Streuung, wenn die Stichprobe z. B. Bilder mit sehr unterschiedlichen Aufnahmebedingungen (Beleuchtung, Richtung etc.) enthält, was notwendig ist, wenn bei Verwendung des Klassifikators später ebenfalls Bilder unter ähnlich schwankenden Bedingungen erkannt werden sollen. Die optimale Klassentrennung, die an Hand der Stichprobe "trainiert" wird, ist das Grundproblem bei allen Methoden. Hierbei stehen Merkmalsvektoren mit K Merkmalen zur Verfügung, so daß die Klassifikation in einem K-dimensionalen Merkmalsraum vorgenommen wird. Das Klassentrennungsproblem wird am Beispiel eines Merkmalsraumes mit K = 2 Merkmalen und L = 2 Klassen in Fig. 3 veranschaulicht. Es sind in geeigneter Weise die Grenzen zwischen den einzelnen Klassen zu beschreiben, so daß die Zuordnung zur Klasse auf derjenigen Seite der Grenze erfolgen kann, auf der ein gegebener Merkmalsvektor liegt.

Im Stand der Technik sind hierfür sogenannte lineare Klassifikatoren bekannt. Der lineare Klassifikator bietet jedoch keine eindeutige Lösung für die Klassentrennung bei mehr als 2 Klassen. Hier kann jedoch auch eine Nearest-Neighbor-Klassifikation verwendet werden, wie sie z. B. in clusterbasierten Klassifikationsmethoden häufig eingesetzt wird. Weitere Klassifikatoren sind die Maximum-a-Posteriori-Klassifikation behandeln, bei der für gegebene statistische Modelle der einzelnen Klassen der zu erwartende Klassifikationsfehler minimiert wird, und als wichtigen Vertreter nichtlinearer Klassifikationsmethoden die neuronalen Netze, die insbesondere für Aufgaben der Mustererkennung mittlerweile sehr häufig eingesetzt werden.

Der lineare Klassifikator definiert jeweils unendlich ausgedehnte Entscheidungsgeraden oder -hyperebenen. Sofern mehr als 2 (L) Klassen vorliegen, sind 1 + 2 + . . . + L - 1 einzelne Entscheidungen zwischen jeweils 2 Klassen notwendig. Sofern nicht alle entstehenden Entscheidungsebenen parallel sind (was unwahrscheinlich ist), entstehen durch Überschneidungen Bereiche, in denen keine eindeutige Entscheidung möglich ist. Eine mögliche Lösung des Problems stellt die "stückweise lineare" Klassifikation dar, bei der die Ausdehnung der Entscheidungsgeraden bzw. -ebenen begrenzt wird. Die richtige Einteilung der Klassen wird durch Definition zweier Entscheidungsgeraden mit begrenzten Gültigkeitsbereichen verbessert wird. Beim Mehrklassenproblem besteht die Aufgabe darin, für die uneindeutigen Bereiche eine Zuordnung zu einer der Klassen zu definieren, oder diese ggf. nochmals durch Einführung einer neuen Entscheidungsfunktion zu trennen. Hier tritt nun allerdings das Problem bei der Realisierung der stückweise linearen Klassifikation hervor: Bei den bisherigen Betrachtungen zur Optimierung war es stets Voraussetzung, daß die Entscheidungsgrenze sich tatsächlich bis ins unendliche ausdehnt, nur so ist die Funktion differenzierbar, und der Optimierungsansatz lösbar. Mit den stückweise linearen Entscheidungsfunktionen werden Unstetigkeiten eingeführt, die mit herkömmlichen algebraischen Methoden keine Optimierung mehr erlauben. Dies ließe sich nur umgehen, wenn die Stichprobe vorab in mehrere Untermengen eingeteilt wird, wofür aber eigentlich die Lagen der stückweise linearen Funktion schon vorab bekannt sein müßten. Eine sinnvolle Lösung zur Definition stückweise linearer Klassifkationsfunktionen stellen die Cluster- oder Nearest-Neighbor-Methoden dar, bei denen nicht mehr die Lage einer Entscheidungsebene, sondern die Lage repräsentativer Punkte im Merkmalsraum als Referenz benutzt werden. Die Einzelheiten der Nearest-Neighbor-Klassifikation, die eine bevorzugte Methode zur Realisierung der Erfindung darstellt ist, in dem genannten Vorlesungsmanuskript "Bildverarbeitung II", S. 168-174 beschrieben.

Mit künstlichen neuronalen Netzen (artificial neural network, ANK) schließlich läßt sich nahezu beliebiges nichtlineares Verhalten von Signalen erfassen; ANN-Systeme können sich durch Lernprozeduren an ein derartiges Verhalten anpassen. Die Bezeichnung "neuronale Netze" soll die Ähnlichkeit zur ebenfalls nichtlinearen Funktionsweise der Neuronen (Nervenknoten) im Nervensystem von Menschen und Tieren herausstellen: diese geben einen Reiz nur dann weiter, wenn die Summe der Eingangsreize eine bestimmte Schwelle überschreitet.

Die Erfindung ist im folgenden mit Bezug auf die Zeichnungen näher erläutert.

In den Figuren zeigen:

Fig. 1 ein schematisches Blockdiagramm des Grundaufbaus eines Systems zur Erkennung von Objekten aufgrund von digitalen Bilddaten, oder ein sogenanntes Klassifikationssystem, gemäß dem Stand der Technik und gemäß der Erfindung;

Fig. 2a ein schematisches Frequenz-Layout zur Definition von Richtungsorientierungen und Skalierungsstufen in der zweidimensionalen Frequenzebene für eine Wavelet- Transformation;

Fig. 2b die bekannte 2D-Wavelet-Transformation mit drei Richtungsorientierungen und drei Skalierungsstufen;

Fig. 3 ein Diagramm zur Veranschaulichung des Problems der Klassentrennung in einem Merkmalsraum mit zwei Merkmalen und zwei Klassen;

Fig. 4 eine schematische Darstellung von vier in Folge aufgenommenen Bildern und die Transformation und Überlagerung gemäß der Erfindung;

Fig. 5 ein Diagramm zur Erläuterung der Merkmalsextraktion mittels Faltung des Bildsignals mit einer Filterfunktion für ein regelmäßiges Bildpunktraster und für eine unstrukturierte Bildpunktmenge; und

Fig. 6 eine unstrukturierte Bildpunktmenge, die auf der Grundlage einer Folge von mehreren digitalen Bildern gebildet wurde.

Fig. 1, die bereits beschrieben wurde, zeigt allgemein das Schema eines sogenannten Klassifikators oder eines Systems zur Erkennung eines Objekts aufgrund digitaler Bilddaten, wobei der grundsätzliche Aufbau im Stand der Technik und in der Erfindung gleich sind. Erfindungsgemäß werden Bilddaten in einer Bild-Digitalisierstufe 10 digitalisiert. Alternativ können direkt digitale Daten, die z. B. mit einer digitalen Kamera aufgenommen werden, in das System eingegeben werden. Einer Folge von digitalem Bildern durchläuft eine Vorverarbeitungsstufe 11 und eine Transformationsstufe 12. Die Bilder werden vorzugsweise in kurzem zeitlichen Abstand mit geringen Abweichungen der Aufnahmeperspektive aufgenommen. Bei der Aufnahme von Bildern eines menschlichen Gesichts oder der Iris eines menschlichen Auges wird in der Regel die natürliche Bewegung der aufgenommenen Person genügen, um die Perspektivänderungen herbeizuführen. In der Vorverarbeitungsstufe 12 werden die interessierenden Abschnitte der digitalen Bilder isoliert, z. B. mittels Kantenextraktion. Und in der Transformationsstufe 11 werden die digitalen Bilder der Folge normiert, in ein gemeinsames Koordinatensystem transformiert und überlagert, wie mit Bezug auf Fig. 4 noch näher beschrieben ist. Das überlagerte Bild stellt eine unstrukturierte Gesamtpunktmenge dar, aus der die interessierenden Bildbereiche isoliert werden. Diese werden an die Merkmalsberechnungsstufe 14 übergeben, welche verschiedene Merkmale des aufgenommenen Bildes extrahiert, wie genauer noch mit Bezug auf Fig. 5 beschrieben ist. Die extrahierten Merkmale werden an die Klassifikationsstufe 16, oder den Klassifikator, übergeben, der eine Entscheidung darüber fällt, ob das aufgenommene Bild mit einem bekannten und gespeicherten Bild übereinstimmt oder nicht, oder der in einer Trainingsphase neue Klassen einrichtet und neue Bilder lernt. Die Klassifikationsstufe 16 kann mit den aus dem Stand der Technik bekannten, oben beschriebenen Verfahren oder anderen Klassifikationsverfahren realisiert werden.

Die verschiedenen Komponenten des Systems können in Hardware, Software oder Firmware realisiert sein.

Die Fig. 2a, 2b und 3 dienen zur Erläuterung eines Merkmalsextraktionsverfahrens mittels Gabor-Wavelet-Transformation und zur Erläuterung des Klassifikationsproblems. Sie wurden bereits beschrieben.

Fig. 4 illustriert schematisch die ersten Schritte des erfindungsgemäßen Verfahrens, bei denen eine Folge von Bildern eines Objekts digital aufgenommen wird, die Bildpunkte der aufgenommenen Bilder so transformiert werden, daß sie in einem gemeinsamen Koordinatensystem zu liegen kommen, und die transformierten Bildpunkte überlagert werden.

Bei dem in Fig. 4 gezeigten Ausführungsbeispiel wurden vier Bilder 20, 21, 22, 23 zu Zeitpunkten t0, t1, t2 und t3 aufgenommen, wobei die Bildpunkte der Bilder 20, 21, 22, 23 in Fig. 4 zur besseren Unterscheidung mit unterschiedlichen Symbolen gekennzeichnet sind. Die vier Bilder sind aus leicht unterschiedlichen Perspektiven aufgenommen, so daß sie eine unterschiedliche Skalierung haben und zueinander rotatorisch und translatorisch versetzt sein können. Die aufgenommenen digitalen Bilder 20, 21, 22, 23 werden normiert, und in ein gemeinsames Koordinatensystem transformiert, um die Abweichungen zwischen den Bildern auszugleichen. Dadurch werden die Bildpunkte innerhalb der einzelnen Bilder verschoben und/oder gedreht sowie das Bild gegebenenfalls in seiner Größe verändert. Die Transformation erfolgt im Sub-Pixelbereich, so daß die Bildpunkte eines normierten Bildes bei jeder beliebigen Position, auch zwischen den ursprünglichen Pixeln, zu liegen kommen können. Die so transformierten Bilder werden einander überlagert, 30, 31, 32, 33, wodurch sich eine unstrukturierte Gesamtpunktmenge 33 ergibt, welche dem ursprünglich aufgenommenen Bild entspricht, jedoch eine wesentlich höhere Bildpunktedichte als ein Einzelbild 20, 21, 22, 23 aufweist.

Bei dem erfindungsgemäßen Verfahren wird somit das Problem des Informationsverlustes durch Interpolation vermieden, indem nicht mit rekonstruierten, höher aufgelösten Bildern gerechnet wird, sondern auf der Basis von normierten Überlagerungen der einzelnen Elemente einer Sequenz. Unter der Annahme, daß die Normierung und Verschiebung der Einzelbilder 20, 21, 22, 23 der Sequenz in invertierbaren Transformationen der zweidimensionalen Bilder resultieren, können die jeweiligen Bildparameter für jeden Zeitpunkt normiert werden, z. B. in das Koordinatensystem des ersten Bildes 20. Das erfindungsgemäße Verfahren sieht nun vor, daß die nachfolgenden Schritte der Vorverarbeitung und Merkmalsberechnung des digitalen Bildes nicht auf einem regulären Gitter, sondern auf dieser irregulären Punktmenge definiert werden.

Dies ist mit Bezug auf Fig. 5 näher erläutert.

Aus dem Stand der Technik ist bekannt, zur Merkmalsextraktion die einzelnen Bildpunkte eines digitalen Bildes mit einer Filterfunktion zu falten, um die Merkmale in Form von Frequenzspektren zu extrahieren. Wenn eine regelmäßige Folge oder ein regelmäßiges Feld von Bildpunkten vorliegt, wie im Stand der Technik üblich, werden sowohl das digitale Bild als auch die Filterfunktion oder der Filterkernel in regelmäßigen Abständen abgetastet und multipliziert, siehe Fig. 5a. Die gesuchten Merkmale ergeben sich dann z. B. als Frequenzspektren, die beispielsweise als Fließkomma-Vektor, dargestellt werden können.

Bei dem erfindungsgemäßen Verfahren können die Vorverarbeitung und die Merkmalsberechnung nicht auf ein diskretes, äquidistantes und rechtwinkliges Gitter zurückgreifen. Es mußte ein Weg gefunden werden, die zusätzliche zeitliche Dimension der Bildfolge zu integrieren. Die Merkmalsberechnung durch Faltung gemäß der Erfindung erfolgt daher auf der irregulären Punktmenge und entsprechend wird erfindungsgemäß die Abtastung der Filterkurve an die unregelmäßige Punktmenge angepaßt.

Fig. 5b zeigt schematisch eine Darstellung eines digitalen Bildes mit unregelmäßig verteilten Bildpunkten, wobei die Abtastung der Filterkurve in Intervallen erfolgt, welche dem unregelmäßigen Abstand der Bildpunkte entsprechen. Da, wie bereits erläutert, die Verteilung der Bildpunkte in der unstrukturierten Gesamtpunktmenge aufgrund der vorangegangenen Transformation bekannt ist, können auf dieser Grundlage die Abtastschritte für die Bildpunktmenge sowie die Filterfunktion bestimmt werden. Die in Folge ermittelten Kennzahlen oder -vektoren für die extrahierten Merkmale können dann wieder auf eine im Stand der Technik an sich bekannte Weise klassifiziert werden, um Bilder zu lernen oder zu erkennen.

Bei der bevorzugten Ausführungsform der Erfindung ist das zu erkennende Objekt die Iris des menschlichen Auges. Fig. 6 zeigt beispielhaft eine unstrukturierte Bildpunktmenge, die mit dem erfindungsgemäßen Verfahren auf der Grundlage einer Folge von digitalen Bildern eines menschlichen Auges aufgenommen wurde.

Um den Rechenaufwand zu begrenzen, werden bei dem erfindungsgemäßen Verfahren die erlaubten Transformationen der einzelnen Bilder zur Normierung und Überlagerung vorzugsweise auf affine Transformationen beschränkt. Nach der Überlagerung der normierten Bilder in einem gemeinsamen Koordinatensystem wird die sich ergebende Punktmenge vorzugsweise vorverarbeitet, um die Punkte in zwei Klassen einzuteilen: zur Iris gehörend und nicht zur Iris gehörend, um die nachfolgende Berechnung einzelner gesuchter Merkmale weiter zu reduzieren. Die anschließende Berechnung der Merkmale basiert vorzugsweise auf einer lokalen Frequenzanalyse, beispielsweise mittels Fouriertransformation, oder einer Faltung mit einer geeigneten Filterkurve, wie eine Sinuskurve, Gabor-Wavelets, mit polartransformierten Frequenzmustern. Während für die Klassifikation der extrahierten Merkmale eine Vielzahl von Klassifikationsverfahren eingesetzt werden kann, wird erfindungsgemäß vorzugsweise eine Klassifikation mittels einem gewichteten Nächster-Nachbar-Verfahren durchgeführt.

Die in der vorstehenden Beschreibung, den Ansprüchen und den Zeichnungen offenbarten Merkmale können sowohl einzeln als auch in beliebiger Kombination für die Realisierung der Erfindung in den verschiedenen Ausgestaltungen von Bedeutung sein.


Anspruch[de]
  1. 1. Verfahren zur Erkennung von Objekten, bei dem

    eine Folge von Bildern (20, 21, 22, 23) eines Objekts digital aufgenommen und jedes Bild in zugehörige Bildpunkte umgewandelt wird, wobei wenigstens zwei Bilder des Objekts aus unterschiedlichen Perspektiven aufgenommen werden,

    die Bildpunkte der aufgenommenen Bilder (20, 21, 22, 23) derart transformiert werden, daß sie in einem gemeinsamen Koordinatensystem zu liegen kommen,

    die transformierten Bildpunkte (30, 31, 32, 33) in dem gemeinsamen Koordinatensystem einander überlagert werden, um eine unstrukturierte Gesamtpunktmenge (33) zu bilden, welche dem Objekt entspricht, und

    Merkmale des Objekts aus der Punktmenge durch Merkmalsextraktion mit einer Funktion gewonnen werden, welche in Übereinstimmung mit der unstrukturierten Punktmenge abgetastet wird, und

    die extrahierten Merkmale zur Erkennung des Objekts verwendet werden.
  2. 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Gesamtpunktmenge einer normierten Wiedergabe des Objekts entspricht.
  3. 3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Funktion eine Filterfunktion ist.
  4. 4. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß die Gesamtpunktmenge (33) vorverarbeitet wird, wobei die Bildpunkte danach eingeteilt werden, ob sie zu dem Objekt gehören oder nicht.
  5. 5. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß relative Postitionsabweichungen der aufgenommenen Bilder erfaßt werden, um die Bilder in das gemeinsame Koordinatensystem zu transformieren.
  6. 6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die Bildpunkte der aufgenommenen Bilder mittels einer affinen Transformation in das gemeinsame Koordinatensystem transformiert werden.
  7. 7. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß die Bildpunkte der aufgenommenen Bilder mit sub-Pixel- Genauigkeit in das gemeinsame Koordinatensystem transformiert werden.
  8. 8. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß die Merkmale des Objekts mittels Faltung mit der Funktion extrahiert werden.
  9. 9. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß die Funktion an Stellen abgetastet wird, welche den Bildpunkten der unstrukturierten Gesamtpunktmenge (33) entsprechen.
  10. 10. Verfahren nach Anspruch 9 dadurch gekennzeichnet, daß der Abstand der Bildpunkte der unstrukturierten Gesamtpunktmenge (33) aufgrund der Transformationen der Bildpunkte in das gemeinsame Koordinatensystem ermittelt wird.
  11. 11. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß die Funktion eine Fouriertransformation oder ein zweidimensionales Gabor-Filter umfaßt.
  12. 12. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß die extrahierten Merkmale in Klassen eingeteilt werden.
  13. 13. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß die extrahierten Merkmale mit im voraus ermittelten und gespeicherten Merkmalen verglichen werden, um eine Ähnlichkeit zwischen dem Objekt und einem Referenzobjekt zu ermitteln.
  14. 14. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß mehrmals eine Folge von Bildern (20, 21, 22, 23) wenigstens einer Referenz aufgenommen wird, um Merkmale des Referenzobjekts zu lernen, wobei die gelernten Merkmale gespeichert werden.
  15. 15. Verfahren nach Anspruch 13 und 14, dadurch gekennzeichnet, daß abhängig von der Übereinstimmung des Objekts mit dem Referenzobjekt eine Zugangskontrolle gesteuert wird.
  16. 16. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß das Objekt die Iris eines menschlichen Auges ist.
  17. 17. System zur Erkennung von Objekten, mit

    einer elektronischen Kamera, die eine Folge von Bildern (20, 21, 22, 23) eines Objekts aus wenigstens zwei unterschiedlichen Perspektiven digital aufnimmt;

    einer Recheneinrichtung, welche die digital aufgenommenen Bilder empfängt und folgende Merkmale aufweist:

    eine Einheit (10) zur Umwandlung jedes Bildes in zugehörige Bildpunkte;

    eine Transformationseinheit (12) zum Transformieren der Bildpunkte in ein gemeinsames Koordinatensystem und zum Überlagern der transformierten Bildpunkte in dem gemeinsamen Koordinatensystem derart, daß sie eine unstrukturierte Gesamtpunktmenge (33) bilden, welche dem Objekt entspricht,

    eine Extraktionseinheit (14), welche Merkmale des Objekts aus der Gesamtpunktmenge (33) unter Verwendung einer Funktion extrahiert, welche in Übereinstimmung mit der unstrukturierten Punktmenge abgetastet wird, und

    ein Klassifikator (16), der die extrahierten Merkmale des Objekts zur Erkennung des Objekts in Klassen einteilt.
  18. 18. Auf einem digitalen Rechner ausführbares Computerprogramm, das einen Programmcode zur Ausführung des Verfahrens nach einem der Ansprüche 1 bis 16 auf der Grundlage einer Folge von digital aufgenommenen Bildern (20, 21, 22, 23) eines Objekts aufweist.






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com