PatentDe  


Dokumentenidentifikation DE102006039922A1 12.04.2007
Titel System und Verfahren zum Erlernen eines relativen Abstandes in einem Formenraum unter Verwendung von auf einem Bild basierenden Merkmalen
Anmelder Siemens Medical Solutions USA, Inc., Malvern, Pa., US
Erfinder Zheng, Yefeng, Plainsboro, N.J., US;
Zhou, Xiang, Exton, Pa., US;
Zhou, Shaohua Kevin, Plainsboro, N.J., US;
Georgescu, Bogdan, Plainsboro, N.J., US;
Comaniciu, Dorin, Princeton Junction, N.J., US
Vertreter KRAMER - BARSKE - SCHMIDTCHEN, 81245 München
DE-Anmeldedatum 25.08.2006
DE-Aktenzeichen 102006039922
Offenlegungstag 12.04.2007
Veröffentlichungstag im Patentblatt 12.04.2007
IPC-Hauptklasse G06T 7/40(2006.01)A, F, I, 20070103, B, H, DE
Zusammenfassung Ein System und ein Verfahren zum Identifizieren einer Form einer anatomischen Struktur in einem Eingabebild wird offenbart. Das Bild wird emfpangen und unter Verwendung eines Satzes von Verwölbungstemplates einer Verformung unterworfen, woraus sich ein Satz von verformten Bildern ergibt. Ein Integralbild wird von jedem verformten Bild berechnet. Eine verstärkte Merkmalsbewertung wird für die kombinierten, ausgewählten Merkmale für jedes verformte Bild berechnet. Die verformten Bilder werden auf der Grundlage der verstärkten Merkmalsbewertungen in einer Rangordnung angeordnet. Eine vorgegebene Anzahl von verformten Bildern wird ausgewählt, die die größten Merkmalsbewertungen haben. Jedes ausgewählte verformte Bild wird einem entsprechenden Verwölbungstemplate zugeordnet. Die entsprechenden Verwölbungstemplates werden gespeicherten Formenmodellen zugeordnet. Die Form des Eingabebildes wird auf der Grundlage des gewichteten Durchschnitts der Formenmodelle identifiziert.

Beschreibung[de]

Die vorliegende Erfindung ist auf ein System und ein Verfahren gerichtet, um den relativen Abstand in einem Formenraum unter Verwendung von auf einem Bild basierenden Merkmalen zu erlernen, und insbesondere auf ein System und ein Verfahren für einen auf einem maschinellen Lernvorgang basierenden Ansatz, um ein verfeinertes Formenerfassungsergebnis zu erreichen.

Es ist weitgehend anerkannt, dass Vorkenntnisse über eine Zielform wichtig sind und bei der Formenerfassung verwendet werden sollten. Wie die Vorkenntnisse wirksam zu nutzen sind, war jedoch lange ein Gegenstand aktiver Forschung bei der nicht-starren Formenerfassung. Das aktive Konturmodell (ACM = active contour model) und andere Energie-Minimierungansätze sind zu einem Standardwerkzeug für die nicht-starre Formenerfassung geworden, wo die Vorkenntnis in eine Energiefunktion einkodiert ist. Eine aktive Kontur wird durch externe und interne Kräfte angetrieben. Die externe Kraft wird von den Eingabebildern abgeleitet, während die interne Kraft die Vorkenntnisse der Zielform einschließt. Bei einer Standardeinstellung verwenden ACMs zwei Parameter, um die Elastizität und die Steifheit der Form einzustellen. Mit einer solchen eingeschränkten Flexibilität können nur sehr geringe Vorkenntnisse von dem ACMs verwertet werden, und die Kontur konvergiert oft zu einer unrealistischen Form hin.

Um dieses Problem zu mildern, modelliert das aktive Formenmodell (ASM = acitive shape model) die Deformation einer Form anders. Ist ein Satz von Formen vorgegeben, wird die Hauptkomponentenanalyse (PCA = principle component analysis) auf den Formenraum angewendet. Die Deformation der Form wird auf einen Unterraum beschränkt, der durch die Eigenvektoren aufgespannt wird, die mit den größten Eigenwerten in Beziehung stehen. Der zu durchsuchende Raum kann ferner durch einen Hyperkubus eingeschränkt werden. Durch Einstellen der Anzahl der einbezogenen Hauptkomponenten kann ASM einen Kompromiss zwischen der Darstellungsfähigkeit des Modells und den Einschränkungen bezüglich der Form erreichen. Wenn alle Hauptkomponenten verwendet werden, kann ASM eine beliebige Form darstellen, es wird jedoch keine Vorkenntnis der Form genutzt. Andererseits kann, wenn zu wenige Hauptkomponenten einbezogen werden, eine Eingabeform durch den Unterraum nicht gut repräsentiert werden. Daher gibt es eine obere Grenze für die Detektionsgenauigkeit, wenn eine spezielle Parameterauswahl vorgegeben ist. Sowohl ACM als auch ASM verwenden nur den Bildinhalt um die Formengrenzen herum, so dass sie für Formen mit starken Kanten mehr geeignet sind. Das aktive Aussehensmodell (AAM = active appearance model) ist eine natürliche Erweiterung des ASM, wo die Änderung des Aussehens ebenfalls auf einen Unterraum beschränkt ist.

Die Formenerkennung kann auch als ein Klassifizierungsproblem formuliert werden: ob ein vorgegebener Bildblock die Zielform enthält. Eine erschöpfende Suche in dem Ähnlichkeits-Transformationsraum wird oft verwendet, um die Translation, die Rotation und den Maßstab der Form in einem Eingabebild abzuschätzen. Beispielsweise kann der AdaBoost-Algorithmus für die Gesichtserkennung verwendet werden. Wenn eine große Menge an einfachen Merkmalen vorgegeben ist, kann AdaBoost einen kleinen Merkmalssatz und die entsprechenden optimalen Gewichtungen für die Klassifikation auswählen. Das neurale Verwölbungsnetzwerk (CNN = convolutional neural network) ist ein anderer auf der Klassifizierung basierender Ansatz, der die Merkmalextraktion, die Auswahl und das Klassifizierungstraining in dem gleichen Rahmen kombiniert. Als speziell ausgelegtes, neurales Netzwerk ist CNN besonders wirksam für zweidimensionale Bilder. Ein Nachteil dieser auf der Klassifizierung basierenden Ansätze ist es, dass nur die Ähnlichkeitsdeformation der Form abgeschätzt werden kann.

Da es schwierig ist, die Vorkenntnisse in einen Formenerfassungsrahmen einzuarbeiten, ist ein Verfahren bevorzugt, das die Expertenannotation der Zielform in einer großen Datenbank direkt auswertet. Ein bekannter Ansatz erlernt direkt eine Regressionsfunktion für die Positionen der Kontrollpunkte. Obwohl es einfach und elegant ist, ist das Ergebnis der Regression ein mehrdimensionaler Vektor (je nach dem Anwendungsfall oft in der Größenordnung von 100 bei der Formenerfassung). Da die Regression für mehrdimensionale Ergebnisse schwierig ist, wird PCA oft verwendet, um den Formendeformationsraum einzuschränken. Daher leidet es unter den gleichen Einschränkungen wie ASM und AAM. Ein anderer bekannter Ansatz verwendet ein Formen-Rückschlussverfahren, um die ähnlichste Form in der Datenbank zu suchen. Insbesondere wird der Trainingssatz in dem Formenraum in mehrere Cluster gruppiert. Ein Satz von Bildmerkmalen wird ausgewählt, um das Fischer-Trennkriterium auf ein Maximum zu bringen. Während der Formenerfassung werden die Eingabe- und Trainingsbilder in dem Merkmalsraum verglichen, um eine ähnliche Beispielsform für die Eingabe auszuwählen. Als heuristisches, metrisches System ist das Fischer-Trennkriterium optimal für sehr begrenzte Fälle, beispielsweise die Gauß-Verteilung mit derselben Kovarianzmatrix. Beide obigen Ansätze fordern einen Vorverarbeitungsschritt, um die grobe Position einer Form abzuschätzen, was oft durch Verwendung eines auf einer Klassifizierung basierenden Ansatzes realisiert wird.

Die vorliegende Erfindung ist auf ein Verfahren gerichtet, um eine Datenbank mit einem Satz von Bildern einer anatomischen Struktur zu bestücken. Die Datenbank wird verwendet, um eine Form einer anatomischen Struktur in einem Eingabebild zu identifizieren. Ein Satz von Bildern von anatomischen Strukturen wird empfangen. Jedes Bild wird mit einer Vielzahl von Kontrollpunkten annotiert, die eine Kontur der anatomischen Struktur identifizieren. Eine Referenzform wird für den Bildersatz identifiziert. Ein Verwölbungstemplate wird für jedes Bild in dem Bildersatz berechnet, das das Bild näherungsweise in die Referenzform verformt. Eine Matrix von Bildern wird erzeugt, indem jedes Verwölbungstemplate, das für jedes Bild in dem Bildersatz berechnet wurde, auf alle Bilder in dem Bildersatz angewendet wird. Eine Formabweichung für jedes Bild in der Matrix wird berechnet, indem eine Abstandsmessung zwischen jeder verformten Form und der Referenzform berechnet wird. Die Bilder werden auf der Grundlage der Abstandsmessung in eine Rangordnung gebracht. Ein Satz von Merkmalen, die den Bildern zugeordnet sind, wird identifiziert. Merkmalsbewertungen werden für jedes Bild in der Matrix berechnet. Ein Ranking-Boosing-Verfahren wird verwendet, um die Kombination der Merkmale auszuwählen, die Merkmalsbewertungen zur Folge haben, die einen Rang erzeugen, der mit dem dem verformten Bild zugeordneten Rang konsistent ist. Die annotierten Konturen der anatomischen Struktur, die Verwölbungstemplates und die ausgewählte Merkmalskombination werden in der Datenbank gespeichert.

Die vorliegende Erfindung ist auch auf ein System und ein Verfahren gerichtet, um eine Form einer anatomischen Struktur in einem Eingabebild zu identifizieren. Ein Eingabebild wird empfangen und unter Verwendung eines Satzes von Verwölbungstemplates einer Verformung unterworfen, woraus sich ein Satz von verformten Bildern ergibt. Ein Integralbild wird für jedes verformte Bild berechnet. Ausgewählte Merkmale werden auf der Grundlage des Integralbildes extrahiert. Eine Boost-Merkmalsbewertung wird für die kombinierten, ausgewählten Merkmale für jedes verformte Bild berechnet. Die verformten Bilder werden auf der Grundlage den Boost-Merkmalsbewertungen in einer Rangordnung angeordnet. Eine vorgegebene Anzahl von verformten Bildern wird ausgewählt, die die größten Boost-Merkmalsbewertungen haben. Jedes ausgewählte verformte Bild wird seinem entsprechenden Verwölbungstemplate zugeordnet, Die entsprechenden Verwölbungstemplates werden abgespeicherten Formenmodellen zugeordnet. Die Form des Eingabebilds wird auf der Grundlage eines gewichteten Mittelwertes der Formenmodelle identifiziert.

Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden unten im größeren Detail beschrieben, wobei gleiche Bezugszeichen die gleichen Elemente bezeichnen, unter Bezugnahme auf die beigefügten Zeichnungen:

1 ist eine beispielhafte Architektur eines Echokardiogrammsystems, das ein Verfahren zur Erfassung einer Form eines Objektes entsprechen der vorliegenden Erfindung verwendet;

2a2e zeigen die Bildverformung für einen Ultraschall-Herzdatensatz entsprechend der vorliegenden Erfindung;

3a und 3b zeigen die Grund-Wahrheits-Rangbestimmung gegenüber der gemittelten Rangbestimmung durch das Rank-Boost-Modell für die Erfassung der endokardialen Grenze des linken Ventrikels entsprechend der vorliegenden Erfindung;

4 zeigt Gewichtungsbilder, die durch Rank-Boost für die Erfassung der endokardialen Grenze des linken Ventrikels abgeleitet worden sind, und die Gesichtsmerkmalerfassung entsprechend der vorliegenden Erfindung;

5 zeigt ein Beispiel der Erfassung der endokardialen Grenze des linken Ventrikels entsprechend der vorliegenden Erfindung;

6 zeigt eine händische Markierung eines Gesichts zur Verwendung in einem Verfahren zur Gesichtserkennung entsprechend der vorliegenden Erfindung;

7 zeigt einen Satz von Trainingsbildern, die annotierte Formen haben, und eine resultierende, gemittelte Form entsprechen der vorliegenden Erfindung; und

8 zeigt einen Satz von verformten Trainingsbildern entsprechend der vorliegenden Erfindung.

Die vorliegende Erfindung ist auf einen neuartigen, auf einem Lernprozess basierenden Ansatz für die nicht-starre Formenerfassung gerichtet. Die vorliegende Erfindung kann ein verfeinertes Erkennungsergebnis ohne die Einschränkung auf die Ähnlichkeitsdeformation ausgeben. Ein Modell wird trainiert, das die größte Reaktion auf die Referenzform und eine kleinere Reaktion auf andere Formen hat. In den Beispielen, die beschrieben werden, ist die Referenzform die Durchschnittsform. Es ist jedoch für den Durchschnittsfachmann verständlich, dass die Referenzform für andere Anwendungsfälle anders definiert werden kann. Die Reaktion des Modells kann als ein Maß für den Abstand zwischen einer Form und der Referenzform gesehen werden. Während der Formenerfassung wird nach einer optimalen Deformation gesucht, für die die Reaktion des trainierten Modells zu einem Maximum wird. Die optimale Deformation entspricht dem optimalen Formenerfassungsergebnis. Als Ergebnis unterscheidet das trainierte Formenmodell die Referenzform von allen anderen Formen.

Die vorliegende Erfindung kann verwendet werden, um anatomische Strukturen zu erfassen. Ein Beispiel, wo solch ein Verfahren benutzt wird, ist die Erfassung von regionalen Wandbewegungsabnormalitäten in dem Herzen durch Erfassung und Segmentierung der endokardialen oder epikardialen Grenzen des Ventrikels durch ein Maschinenlernverfahren oder durch Klassifizierung und durch Identifizierung ähnlicher Fälle aus annotierten Datenbanken. Es ist für den Durchschnittsfachmann zu verstehen, dass die vorliegende Erfindung in anderen Anwendungsfällen verwendet werden kann, wo die Formenerkennung nützlich ist, beispielsweise, jedoch nicht beschränkt auf die Erkennung von menschlichen Merkmalen, beispielsweise Gesichtsmerkmalen oder anderen Körpermerkmalen. Die vorliegende Erfindung kann auch bei der zweidimensionalen, dreidimensionalen und vierdimensionalen (3D plus Zeit) Datenanalyse verwendet werden, beispielsweise einer medizinischen Analyse von anatomischen Strukturen, beispielsweise des Herzens, der Lungen oder von Tumoren, die sich über die Zeit hinweg entwickeln können.

Zum Zwecke der Beschreibung der vorliegenden Erfindung wird ein Beispiel zur Erfassung der endokardialen Wand des linken Ventrikels eines menschlichen Herzens beschrieben. 1 zeigt eine beispielhafte Architektur eines Elektrokardiogrammsystems, das ein Verfahren zur Erfassung der Form eines Gegenstandes entsprechend der vorliegenden Erfindung verwendet. Ein medizinischer Sensor 102, beispielsweise ein Ultraschallwandler, wird verwendet, um eine Untersuchung an einem Patienten durchzuführen. Der Sensor 102 wird verwendet, um medizinische Messungen zu erhalten, die mit einer speziellen medizinischen Untersuchung konsistent sind. Beispielsweise kann an einem Patienten, der Herzprobleme hat, ein Elektrokardiogramm durchgeführt werden, um dabei zu helfen die spezielle Herzerkrankung zu diagnostizieren. Ein Ultraschallsystem liefert zwei-, drei- und vier- (3D plus Zeit) dimensionale Bilder des Herzens aus verschiedenen Perspektiven.

Die durch den Sensor 102 erhaltene Information wird an einen Prozessor 104 weitergegeben, der eine Arbeitsstation oder ein Personalcomputer sein kann. Der Prozessor 104 setzt die Sensordaten in ein Bild um, das zu einer Anzeige 108 weitergegeben wird. Die Anzeige 108 kann auch andere grafische Information oder Tabelleninformation wiedergeben, die sich auf das Bild beziehen.

Zusätzlich zu den Daten von dem medizinischen Sensor 102 kann der Prozessor 104 andere Dateneingaben empfangen. Beispielsweise kann der Prozessor Daten von einer Datenbank 106 empfangen, die dem Prozessor 104 zugeordnet ist. Solche Daten können Bilder des linken Ventrikels umfassen, die für eine Vielzahl von Patienten repräsentativ sind, oder sie können durch den Computer erzeugte Modelle von Konturformen auf der Grundlage einer statistischen Information sein. Die Bilder können auch von anderen Bilderzeugungsmaschinen sein und durch andere Sonogrammeinrichtungen aufgenommen sein. Die Bilder werden alle durch Experten annotiert und durch den Prozessor 104 verarbeitet, wobei Verwölbungstemplates und das Boosting (Verstärken) verwendet werden, wie im Folgenden genauer beschrieben wird.

Entsprechend der vorliegenden Erfindung wird ein Modell trainiert, das die größte Reaktion auf die Referenzform und eine kleinere Reaktion auf alle anderen Formen hat. Die Modell-Reaktion wird als ein Maß für den relativen Abstand zwischen einer Form und der Referenzform genommen. Da die absolute Größe des Abstandsmaßes nicht relevant ist, wird das Lernen als Ranking-Problem formuliert. Wie in 7 gezeigt ist, werden ein Satz von Trainingsbildern I1, I2, ..., IM und entsprechende, annotierte Formen S1, S2, ...., SM verwendet. Jede Form Si wird durch N Kontrollpunkte P ni , n = 1, 2, ..., N, dargestellt. Die Referenzform kann beliebig sein.

Um die Verzerrung, die durch das Verformen eingeführt wird, zu reduzieren, wird eine gemittelte Form als Referenzform verwendet. Die gemittelte Form des Trainingssatzes ist S , die unter Verwendung der verallgemeinerten Prokrustes-Analyse berechnet werden kann. Für jede Form Si gibt es ein Verwölbungstemplate Wi, das eine Verformung von Si zu der gemittelten Form S durchführt. Mit einem vorgegeben Trainingsbild Ii können M verformte Bilder aufgebaut werden I 1i , I 2i , ..., I Mi unter jeweiliger Verwendung der Verwölbungstemplates W1, W2, ..., WM. Hier ist I ji das verformte Bild unter Verwendung des Bildes Ii und des Verwölbungstemlates Wj.

8 zeigt einen repräsentativen Satz von verformten Trainingsbildern entsprechend der vorliegenden Erfindung. Die Bilder I1, I2, ..., Im sind gezeigt. Die Verwölbungstemplates W1, W2, ... WM werden auf jedes Bild angewendet, woraus sich ein Satz von verformten Bildern ergibt, wie gezeigt ist. Die M synthetisierten Bilder I ji , j = 1, 2, ..., M, können in einer aufsteigenden Ordnung entsprechend dem Formenabstand Dij sortiert werden, der als mittlerer euklitischer Abstand zwischen entsprechenden Kontrollpunkten definiert ist.

Die synthetisieren Bilder können auch in dem deformierten Formenraum sortiert werden. Wen die Form eines verformten Bildes I ji gleich S ji ist, können die Bilder I ji für j = 1, 2, ..., M unter Verwendung des Abstandes zwischen S ji und der gemittelten Form sortiert werden. Da die in der vorliegenden Erfindung verwendete Verformung glatt ist, ist der Unterschied zwischen den beiden Verfahren bei den verformten Bildern klein, die in der Rangordnung oben liegen.

Das verformte Bild, das das perfekte Verwölbungstemplate I ii verwendet, sollte in der Rangordnung oben sein. Durch Wiederholung der Bildsynthese für alle Trainingsbilder werden M dem Rang nach geordnete Bilderlisten erhalten, die die folgenden zwei Charakteristiken haben. Als erstes haben alle synthetisierten Bilder, die das gleiche Bild verwenden, dasselbe Aussehen, jedoch eine unterschiedliche Form. Zweitens haben alle synthetisierten Bilder, die in ihren eigenen Listen in der Rangordnung oben liegen, die gleiche Form (die gemittelte Form S ), jedoch ein unterschiedliches Aussehen. 2 zeigt das Bildverformen für einen Ultraschall-Herzdatensatz entsprechend der vorliegenden Erfindung, wie genauer im Folgenden beschrieben wird.

Wenn eine Form gegeben ist, ist es erwünscht, ihre Verformung zu einer gemittelten Form zu berechnen. Ein Dünn-Platten-Spline-(TPS = thin plate spline)-Modell kann verwendet werden, um flexible Koordinatentransformationen darzustellen. Die Vorteile von TPS sind: 1) die Interpolation ist bei Ableitungen einer beliebigen Ordnung glatt, 2) das Modell hat keine freien Parameter, die von Hand abgestimmt werden müssen; 3) sie hat geschlossene Lösungen sowohl für das Verformen als auch für die Parameterabschätzung; und 4) es gibt eine physikalische Erklärung für seine Energiefunktion. Entsprechend der vorliegenden Erfindung werden zwei TPS-Modelle für eine zweidimensionale Koordinatentransformation verwendet. Wenn der Kontrollpunkt (xi, yi) zu (ui, vi) bei i = 1, 2, ..., N entspricht, sei zi = f(xi, yi) der Zielfunktionswert bei dem Ort (xi, yi). Eine kontinuierliche Transformation für jede Koordinate wird dadurch erhalten, dass zi der Reihe nach gleich ui und vi gesetzt wird. Die TPS-Interpolationsfunktion f(x, y) minimiert die folgende Biegungsenergie auf ein Minimum herab und hat die Lösung der Form wobei U(r) die Kernel-Funktion ist, die die Form von U(r) = r2 log r2 annimmt. Die Parameter der TPS-Modelle w und a sind die Lösung der folgenden, linearen Gleichung wobei Ki,j = U(||(xi, yi) – (xj, yj)||); die i-te Zeile von P gleich (1, xi, yi) ist; w und z Spaltenvektoren sind, die aus wi bzw. zi erstellt sind; und a der Spaltenvektor mit den Elementen ai, ax und ay ist.

Um Löcher in dem verformten Bild zu vermeiden, wird die Verformung von dem gemittelten Bild zu dem Eingabebild berechnet. Für jedes Pixel in dem Verwölbungsbild wird seine Position in dem Eingabebild berechnet. Um die Rechenvorgänge zu reduzieren, wird die einfache, sich auf das nächste Pixel beziehende Näherung verwendet, um die Verformungsposition gegenüber dem Ganzzahlengitter zu runden. Die Verformungsinformation kann als Nachschlagetabelle abgespeichert werden. Die teure Berechnung der Gleichung (3) wird nur einmal durchgeführt, und sie wird off-line gemacht.

Es wird zurück auf 2 Bezug genommen, wo ein Satz von Ultraschallbildern des linken Ventrikels und die Bildverformung für den Datensatz gezeigt ist. 2a ist ein Bild 202, das die gemittelte Form der endokardialen Grenze des linken Ventrikels in einem Ultraschall-Herzdatensatz zeigt, der unter Verwendung von 17 Kontrollpunkten markiert ist. Die benachbarten Kontrollpunkte sind miteinander verbunden, um die endokardiale Grenze klarer sichtbar zu machen. Die 2b und 2d zeigen zwei Bilder 204, 208, und die entsprechenden Bildformen sind in den 2c und 2e als 206, 210 gezeigt. Einige synthetisierte Bilder, die die Bilder 2b und 2d verwenden, sind in der zweiten bzw. der dritten (Zeile) Reihe 212, 214 gezeigt. Die Bilder sind entsprechend einer aufsteigenden Ordnung von links nach rechts sortiert, wobei der Abstand zwischen dem Eingabebild und den Verwölbungsformen verwendet wird. Die Ränge dieser Bilder von links nach rechts sind 1, 5, 10, 50 und 100.

Entsprechend der vorliegenden Erfindung wird ein Rank-Boost-Lernprozessansatz verwendet, um die Rangordnung des synthetisierten Bildes zu erkennen. Das Ziel des Rank-Boost-Lernprozessansatzes ist es, die gewichtete Anzahl von Paaren von Ereignissen, die ungeordnet sind, durch eine abschließende Rangordnung in Bezug auf eine vorgegebene Grundwahrheit zu minimieren. Die Grundwahrheit wird in Bezug auf die relative Rangordnung eines individuellen Paares von Ereignissen x0 und x1 angegeben. Wenn das Ereignis x1 in seinem Rang nicht oberhalb von x0 angeordnet ist, wird eine Strafe D(x0, x1) auferlegt. Eine gleichgewichtete Strafe D(x0, x1) = 1. Wenn es keinen Vorzug zwischen x0 und x1 gibt, ist die D(x0, x1) = 0. Die Strafgewichtungen D(x0, x1) können zu einer Wahrscheinlichkeitsverteilung normalisiert werden

Das Lernziel besteht darin, eine abschließende Ranking-Funktion H zu suchen, die den Ranking-Verlust minimiert.

Hier ist [[&pgr;]] so definiert, dass es 1 ist, wenn das Prädikat &pgr; hält, und sonst 0 ist. Die Ereignisse werden in einer abfallenden Reihenfolge in Bezug auf H sortiert. Der Rank-Boost-Algorithmus ist wie folgt:

Vorgegeben: anfängliche Verteilung D über X × X.

Initialisiere: D1 = D

Für t = 1, 2, ..., T

  • – Trainiere einen schwachen Lerner unter Verwendung der Verteilung Dt, um einen schwachen Rang ht: X → R zu erhalten.
  • – wähle &agr;i ∈ R
  • – aktualisiere
wobei Zt ein Normalisierungsfaktor ist (der so gewählt wird, dass Dt+i eine Verteilung ist).

Gebe die abschließende Rangordnung aus: H(x) = &Sgr; Tt=1 &agr;tht(x).

Eine Ranggrundwahrheit ist zweiteilig, wenn disjunkte Untersätze X0 und X1 von X existieren, so dass die Grundwahrheit alle Ereignisse von Xi in der Rangordnung oberhalb der Ereignisse in X0 einordnet und nichts über die anderen Paare aussagt. In einer Rangordnungs-Bildliste werden die oberen 1 Bilder in ihrer Rangordnung oberhalb von allen restlichen Bildern angeordnet. Da die relative Rangordnung der synthetisierten Bilder in unterschiedlichen Listen nicht wichtig ist, ist die Grundwahrheit selbst nicht zweiteilig sondern eine Einheit von zweiteiligen Sätzen. Natürlich sollte l = 1 verwendet werden. Entsprechend einem Ausführungsbeispiel der vorliegenden Erfindung wird das auf Beispielen beruhende Recherchieren zur Formenerfassung verwendet, und es wird im folgenden in weiterem Detail beschrieben. Einige der am nächsten oben liegenden Prototypen werden in der Datenbank ausgewählt. Der gewichtete Mittelwert der ausgewählten Formen wird als das Erfassungsergebnis ausgewählt. Ein etwas größeres 1 wird verwendet (1 = 5 in dem Ausführungsbeispiel).

Es gibt einen Obergrenzen-Ranking-Verlust rlossD(H) für den Trainingssatz. Zu dem Zeitpunkt t:

Der Ranking-Verlust von dem H für den Trainingssatz hat eine obere Grenze als: rlossD(H) ≤ &Pgr;Tt=1 Zt(8)

Für jede vorgegebene, schwache Ranking-Funktion ht kann gezeigt werden, dass Zt eine konvexe Funktion von &agr;t ist und ein einziges Minimum hat. Das optimale &agr;t kann numerisch unter Verwendung des Newton-Raphson-Verfahrens aufgefunden werden. Entsprechend der vorliegenden Erfindung verwendet jeder schwachere Lerner nur ein Merkmal. Für jedes Merkmal wird ein optimales &agr;t gesucht, um Zt zu minimieren. Das Merkmal mit dem kleinsten Zt-Wert wird als der schwachere Lerner ausgewählt. Somit wird das den schwacheren Lerner betreffende Training und das Suchen nach dem optimalen &agr;t in einem Schritt abgeschlossen.

Die 3a und 3b zeigen die Grundwahrheit-Rangordnung gegenüber der gemittelten Rangordnung durch das Rank-Boost-Modell für die Erfassung der endokardialen Grenze des linken Ventrikels. 3a zeigt die Ergebnisse, die von dem Trainingssatz erhalten wurden, und 3b zeigt die Ergebnisse von dem Testsatz. Wie zu ersehen ist, stimmt die Rangordnung des Rank-Boost-Modells gut mit der Grundwahrheit überein.

Bei der zweiteiligen Grundwahrheit ist das Ranking-Problem sehr ähnlich zu dem Klassifizierungsproblem. Als Klassifizierungsproblem formuliert bilden die Ereignisse X1 und X0 die positiven bzw. negativen Trainingsbeispiele. Es ist sehr leicht, zu verifizieren, dass die objektive Funktion rlossD(H) von Rank-Boost nach der Gleichung (6) äquivalent ist zu der Fehlerrate bei AdaBoost, das ebenfalls für Klassifizierungsprobleme verwendet werden kann. Entsprechend der vorliegenden Erfindung ist die Grundwahrheit nicht selbst zweiteilig, sondern eine Einheit aus zweiteiligen Untersätzen. Die Blickrichtung konzentriert sich auf die relative Rangordnung der synthetisierten Bilder, die unter Verwendung des gleichen Bildes jedoch unterschiedlicher Verwölbungstemplates, beispielsweise I mi und I ni bei m ≠ n, erzeugt werden. Die relative Rangordnung der zwei synthetisierten Bilder, die durch Verformen von unterschiedlichen Bildern erzeugt wurden, ist nicht relevant, beispielsweise I mi und I ni , wenn i ≠ j gilt. Aufgrund dieses Unterschieds ist unsere Rangordnungsformulierung nicht äquivalent zu einem klassischen Klassifizierungsproblem. Unter Verwendung unserer Formulierung konzentriert sich der Lernalgorithmus auf das Erlernen des Formunterschieds, da die in einer Rangordnung zu ordnenden Ereignisse das gleiche Aussehen, jedoch unterschiedliche Formen haben.

Ein Merkmalstemplate umfasst mehrere rechteckige Bereiche. Das Ansprechverhalten bzw. die Reaktion eines Merkmals wird als die Summe der Intensitäten einiger Rechtecke subtrahiert von der Summe der Intensitäten der anderen Rechtecke definiert. Durch Bewegen und Skalieren der Merkmalstemplates kann ein großer Merkmalspool (oft in der Größenordnung von 1 Million Merkmalen) erreicht werden. Die Merkmalsextraktion kann auf der Grundlage der Integralbilder wirksam implementiert werden.

Im Folgenden wird ein Verfahren zum Erfassen einer Form beschrieben, wenn ein Eingabebild mit unbekannter Form vorgegeben ist. Ein Eingabebild wird unter Verwendung eines Verwölbungstemplates Wi, wobei i = 1, 2, ..., M ist, einer Verformung unterworfen. Für jedes verformte Bild wird das Integralbild berechnet. Ausgewählte Merkmale werden auf der Grundlage des Integralbildes extrahiert. Als Nächstes wird die kombinierte Reaktion des trainierten Rank-Boost-Modells berechnet. Die oberen k Kandidaten mit den größten Reaktionen werden ausgewählt. Der Kernel-gewichtete Mittelwert wird als Formenerfassungsergebnis genommen.

Entsprechend der vorliegenden Erfindung wird ein Nadraya-Watson-Kernel-gewichteter Mittelwert als endgültiges Formenerfassungsergebnis verwendet. wobei

Da die Antwort Hi des Rank-Boost-Modells keine Abstandsmessung ist, wird sie in dem Bereich von [0,1] unter Verwendung der obigen Gleichung normalisiert. Für den Kernel Kk wird die quadratische Epanechnikov-Gleichung verwendet wobei k die Größe des Nachbarschaftsbereichs und d[k] den Abstand des oberen k-ten-Prototyps bedeutet. Unter Verendung einer Kernel-basierten Glättung, ist die erfasste Form nicht auf diejenigen beschränkt, die in dem Trainingsset dargestellt werden. Jede Form kann als eine ähnliche Kombination von einem Satz von Grundlageformen dargestellt werden, die den gesamten Formenraum voll überspannen.

Die hauptsächlichen Rechenvorgänge umfassen das Bildverformen, die Integralbildberechnung und die Merkmalsextraktion. Die Geschwindigkeit dieses Ansatzes hängt von der Größe des Eingabebildes und der Anzahl der Verwölbungstemplates ab. Für die Erfassung der Grenze des linken Ventrikels ist die Blockgröße des Eingabebildes 80 × 104 Pixel. Wenn 202 Verwölbungstemplates verwendet werden, benötigt die gesamte Berechnung, um die Form des eingegebenen Bildblockes zu erfassen, etwa 23,8 ms auf einem PC mit dualen 2.4GHz-Xeon-CPUs und einem 2GB-Speicher. Die aufgeteilte Rechenzeit für eine Eingabe ist 12,5 ms (52,8%) für die Bildverformung, 8,7 ms (36,8%) für die Berechnung des Integralbildes und 2,0 ms (8,4%) für die Merkmalsextraktion.

In dem Merkmalspool ist jedes Merkmal eine lineare Kombination der Intensitäten, und das Rank-Boost-Modell ist eine lineare Kombination der ausgewählten Merkmale, wie in dem Rank-Boost-Algorithmus oben gezeigt ist. Damit ist die gesamte Antwort des trainierten Rank-Boost-Modells eine lineare Kombination der Intensitäten. Die kombinierten Gewichtungen können als ein Bild organisiert werden. 4 zeigt Gewichtungsbilder, die durch Rank-Boost entsprechend der vorliegenden Erfindung erlernt wurden. Die obere Zeile 402 zeigt Gewichtsbilder der Erfassung der endokardialen Grenze des linken Ventrikels. Die untere Zeile 404 zeigt Gewichtsbilder für die Erfassung von Gesichtsmerkmalen. Die linke Spalte 406 zeigt die Gewichtsbilder, die mit gemittelten Formen ausgerichtet sind. Durch die Verwendung von Gewichtsbildern ist diese Formenerfassung äquivalent zu der Suche nach einem Verwölbungstemplate, um das Punkteprodukt des Verwölbungsbildes und des gewichteten Bildes auf ein Maximum zu bringen. Ŵ = argWi max Ii Iw(12)

Hier ist Ii das verformte Bild unter Verwendung des Verwölbungstemplates Wi, und Iw ist das Gewichtungsbild. Die Berechnung der Bildverformung und des Punktprodukts kann kombiniert werden, um eine effizientere Implementierung zu erreichen. Das Gewichtungsbild wird zurück verformt unter Benutzung jedes Verwölbungstemplate, und alle einer Rückverformung unterzogenen Gewichtsbilder werden gespeichert. Dieser Arbeitsgang kann off-line durchgeführt werden. In 4 zeigen die mittlere Spalte 408 und die rechte Spalte 410 zwei einer Rückverformung unterworfene Gewichtungsbilder. Bei der Formenerfassung wird das Punktprodukt des Eingabebildes und das einer Rückverformung unterworfene Gewichtsbild berechnet, um die Antwort ihres entsprechenden Verwölbungstemplates zu berechnen.

Neben der Erhöhung der Geschwindigkeit liefert der auf dem Gewichtungsbild basierende Ansatz auch mehr Flexibilität in dem Merkmaldesign und in der Verwölbungsinterpolation. Jedes Merkmal, das auf der linearen Kombination von Pixelintensitäten beruht, kann verwendet werden. Bei der Bildfaltung kann eine genauere Annäherung, beispielsweise eine bilineare Interpolation, verwendet werden, solange die Interpolation linear ist.

Ein Beispiel wird nun in Bezug auf die Erfassung der endokardialen Grenze des linken Ventrikels in Ultraschallbildern beschrieben. Die Messung des ventrikulären Blutvolumens und die Bewegung der ventrikulären Grenze während verschiedener Stadien des Herzzyklus sind Komponenten mit starker diagnostischer Kraft. Das linke Ventrikel ist von speziellem Interesse, weil es mit Sauerstoff angereichertes Blut an entfernt liegende Gewebe in dem gesamten Körper pumpt. Wie in 5 gezeigt ist, werden Ultraschallbilder oft durch Speckle-Rauschen, Signalausfall und Bildartefakte beeinflusst. In vielen Fällen gibt es keine klare Definition der Grenze. Die erste Spalte 502 zeigt die Eingabebilder. Die mittlere Spalte 504 zeigt die endokardiale Grenze, wie sie durch die Verwendung des Verfahrens der vorliegenden Erfindung erfasst wird. Die dritte Spalte zeigt eine von einem Experten gezeichnete Kontur. Wie zu ersehen ist, liefert die vorliegende Erfindung gute Erfassungsergebnisse.

Die vorliegende Erfindung kann auch für die Gesichtserkennung verwendet werden, wie in 6 gezeigt ist. Eine Datenbank enthält eine Vielzahl von Bildern von weiblichen und männlichen Subjekten. Mehrere Bilder von jedem Subjekt werden genommen, in denen das Subjekt Gesichter in Frontansicht mit unterschiedlichen Gesichtsausdrücken, Beleuchtungsbedingungen und Abdeckungen (beispielsweise Sonnenbrillen, Schal, usw.) zeigt. Jedes Bild wird durch einen Experten markiert. Die Datenbank kann trainiert werden, um verschiedene Gesichtscharakteristiken zu erfassen.

Nachdem die Ausführungsbeispiele eines Verfahrens zum Erlernen eines relativen Abstandes in einem Formenraum unter Verwendung von auf dem Bild basierenden Merkmalen beschrieben worden ist, wird bemerkt, dass Modifikationen und Abwandlungen von einem Durchschnittsfachmann im Hinblick auf die vorstehende Lehre gemacht werden können. Es ist daher zu verstehen, dass Änderungen in den speziellen Ausführungsbeispielen der offenbarten Erfindung gemacht werden können, die im Rahmen und im Geiste der Erfindung sind, wie sie durch die angefügten Ansprüche definiert ist. Nachdem die Erfindung auf diese Weise mit den Details und den Erfordernissen, die von dem Patentgesetz gefordert werden, beschrieben worden ist, wird das, was durch das Patent beansprucht und geschützt werden soll, in den angefügten Ansprüchen dargelegt.


Anspruch[de]
Verfahren zum Bestücken einer Datenbank mit einem Satz von Bildern einer anatomischen Struktur, wobei die Datenbank verwendet wird, um eine Form einer anatomischen Struktur in einem Eingabebild zu identifizieren, wobei das Verfahren folgende Schritte aufweist:

Empfangen eines Satzes von Bildern von anatomischen Strukturen, wobei jedes Bild mit einer Vielzahl von Kontrollpunkten annotiert wird, die eine Kontur der anatomischen Struktur identifizieren,

Identifizieren einer Referenzform für den Bildersatz;

Berechnen eines Verwölbungstemplates für jedes Bild in dem Bildersatz, das das Bild in ungefähr die Referenzform verformt;

Erzeugen einer Matrix von Bildern durch Anwenden jedes Verwölbungstemplates, das für jedes Bild in dem Bildersatz berechnet worden ist, auf alle Bilder in dem Bildersatz;

Errechnen einer Formdifferenz für jedes Bild in der Matrix, indem eine Abstandsmessung zwischen jeder verformten Form und der Referenzform berechnet wird;

Einordnen der Bilder in eine Rangordnung auf der Grundlage der Abstandsmessung;

Identifizieren eines Satzes von Merkmalen, die zu den Bildern gehören;

Berechnen von Merkmalsbewertungen für jedes Bild in der Matrix;

Verwenden eines Ranking-Boost-Prozesses, um diejenige Kombination von Merkmalen auszuwählen, die in Merkmalsbewertungen resultieren, die einen Rang erzeugen, der mit dem dem verformten Bild zugeordneten Rang konsistent ist; und

Speichern der annotierten Konturen der anatomischen Struktur, der Verwölbungstemplates und der ausgewählten Merkmalskombination in der Datenbank.
Verfahren nach Anspruch 1, bei dem der Schritt der Berechnung der Merkmalsbewertungen für jedes in der Bild in der Matrix ferner den Schritt eines Zuordnens einer Gewichtung zu jedem Merkmal aufweist. Verfahren nach Anspruch 1 oder 2, bei dem die Referenzform die gemittelte Form aller anatomischen Strukturen in dem Bildersatz ist. Verfahren nach einem der Ansprüche 1 bis 3, bei dem die Merkmale Haar-Merkmale sind. Verfahren nach einem der Ansprüche 1 bis 4, bei dem die anatomische Struktur ein linkes Ventrikel ist, und die Form die Kontur des linken Ventrikels ist. Verfahren nach einem der Ansprüche 1 bis 5, bei dem die Bilder Ultraschallbilder sind. Verfahren zum Identifizieren einer Form einer anatomischen Struktur in einem Eingabebild, wobei das Verfahren die Schritte aufweist:

Empfangen eines Eingabebildes;

Verformen des Eingabebildes unter Verwendung eines Satzes von Verformungstemplaten, was einen Satz von verformten Bildern zur Folge hat;

Berechnen eines Integralbildes für jedes verformte Bild;

Extrahieren ausgewählter Merkmale auf der Grundlage des Integralbildes;

Berechnen einer verstärkten Merkmalsbewertung für die kombinierten, ausgewählten Merkmale für jedes verformte Bild;

Erstellung einer Rangordnung der verformten Bilder auf der Grundlage der verstärkten Merkmalsbewertungen;

Auswählen einer vorgegebenen Anzahl von verformten Bildern, die die größten Merkmalsbewertungen haben;

Zuordnen von jedem ausgewählten verformten Bild zu seinem entsprechenden Verwölbungstemplate;

Zuordnen der entsprechenden Verwölbungstemplates zu gespeicherten Formenmodellen; und

Identifizieren der Form des Eingabebildes auf der Grundlage des gewichteten Druchschnitts der Formenmodelle.
Verfahren nach Anspruch 7, bei dem die Merkmale Haar-Merkmale sind. Verfahren nach Anspruch 7 oder 8, bei dem die anatomische Struktur das linke Ventrikel ist, und die Form die Kontur des linken Ventrikels ist. Verfahren nach einem der Ansprüche 7 bis 9, bei dem die Bilder Ultraschallbilder sind. System zur nicht-starren Formenerfassung einer anatomischen Struktur in einem Bild, wobei das System umfasst

eine Datenbank (106), die einen Satz von Bildern von anatomischen Strukturen speichert, wobei jedes Bild annotiert ist, um eine Kontur der Form der anatomischen Struktur anzugeben, wobei die Datenbank auch ausgewählte Merkmale und Kombinationsgewichtungen speichert;

einen Prozessor (104), der ein Eingabebild einer anatomischen Struktur empfängt, wobei der Prozessor die folgenden Schritte ausführt:

Unterwerfung des Eingabebildes einer Verformung unter Verwendung eines Verwölbungstemplates, was einen Satz von verformten Versionen des Eingabebildes zur Folge hat;

Berechnen eines Integralbildes für jedes verformte Bild;

Extrahieren ausgewählter Merkmale auf der Grundlage des Integralbildes;

Berechnen einer verstärkten Merkmalsbewertung für die kombinierten, ausgewählten Merkmale für jedes eingegebene verformte Bild;

Erstellen einer Rangordnung der verformten Bilder auf der Grundlage der verstärkten Merkmalsbewertungen;

Auswählen einer vorgegebenen Anzahl von verformten Bildern, die die größten Merkmalsbewertungen haben;

Zuordnung von jedem ausgewählten verformten Bild zu seinem entsprechenden Verwölbungstemplate,

Zuordnen der entsprechenden Verwölbungstemplates zu gespeicherten Formmodellen;

Identifizieren der Form des Eingabebildes auf der Grundlage des gewichteten Druchschnitts; und

eine Anzeige zum Anzeigen der identifizierten Form.
System nach Anspruch 11, bei dem die Merkmale Haar-Merkmale sind. System nach Anspruch 11 oder 12, bei dem die anatomische Struktur ein linkes Ventrikel ist und die Form die linken Ventrikels ist. System nach einem der Ansprüche 11 bis 13, bei dem die Bilder Ultraschallbilder sind.






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com