Seite 1  Seite      Textversion  Grafikversion    Übersicht

Kooperative Bildverarbeitung und Lokalisierung in

einem Team von Robotern

Norbert Oswald, Reinhard Lafrenz und Paul Levi

Universität Stuttgart,

Institut für parallele und verteilte Höchstleistungsrechner,

Praktische Informatik - Bildverstehen

1 Motivation und Einleitung

In der Bildverarbeitung lag der Schwerpunkt in den vergangenen Jahren auf der Anwendung des Paradigmas des aktiven Sehens [Baj88] [AWB87]. Das aktive Sehen umfaflt die Analyse von Modellierungs- und Steuerungsstrategien für die Wahrnehmung, d.h. Modellierung der Sensoren, Objekte, Umgebung und Interaktion für einen vorgegebenen Zweck, z.B. zur Manipulation, Bewegung oder Erkennung. Dieses Paradigma beschreibt jedoch ausnahmslos die Fähigkeiten eines einzelnen Beobachters. Gerade in natürlichen Umgebungen hängt die Qualität der Bildverarbeitungsergebnisse nicht zuletzt von der Aufnahmeposition ab, die auch mit dem aktiven Ansatz nicht beliebig ?wählbar? ist, insbesondere dann nicht, wenn sich das beobachtete Objekt bewegt. Durch die Verteilung der Sichtaufgabe auf mehrere räumlich getrennte Beobachter eines Teams kann die Zuverlässigkeitsrate bei der Erkennung gesteigert werden. Die Vorteile solch eines verteilten Sehens sind:

- Nutzung von potentiellem Wissen des Teams

- Simultane Analyse von Szenen mit statischen oder dynamischen Objekten

- Generierung robuster Hypothesen

Verteilt berechnete Daten lassen sich jedoch im allgemeinen nur dann kombinieren, wenn sie in Bezug zueinander gesetzt werden können. Das bedeutet, dafl für eine kooperative Bildverarbeitung jedem Teammitglied seine absolute Position bekannt sein mufl. Die Fähigkeit zur Selbstlokalisierung bildet damit eine Voraussetzung zur visuellen Kooperation. In der vorliegenden Arbeit wird zunächst untersucht, wie und in welcher Form visuelle Kooperation in einem Team von Beobachtern, z.B. Robotern, statt?nden kann. Nach einer kurzen Einführung in die Problemstellung der Selbstlokalisierung werden Anwendungsbeispiele mit visueller Kooperation aus der high-level Bildverarbeitung vorgestellt.

2 Kooperationsebenen für die Bildverarbeitung

Wie schon in der Einleitung erwähnt, sind an einer visuellen Kooperation in der Regel mehrere Beobachter beteiligt. Diese Art der Kooperation bezeichnen wir als externe Kooperation. Charakteristisches Merkmal der externen Kooperation ist das verteilte Sehen, also die simultane visuelle Wahrnehmung aus räumlich unterschiedlichen Positionen. Kooperation kann aber auch ausschliefllich innerhalb eines Beobachters auftreten. Eine solche Form der Kooperation bezeichnen wir als interne Kooperation. Hier kooperieren an Stelle mehrerer Beobachter mehrere verschiedene Verfahren miteinander. Unabhängig von der Art der visuellen Kooperation wird

1


Seite 1  Seite      Textversion  Grafikversion    Übersicht
Seite 2  Seite      Textversion  Grafikversion    Übersicht

mit Kooperation stets das Ziel verfolgt, eine Steigerung der Qualität der Ergebnisse zu erzielen oder diese überhaupt zu ermöglichen. Für visuelle Kooperation bzw. kooperative Bildverarbeitung müssen folgende Voraussetzungen gegeben sein:

- an der Ergebnis?ndung sind mehrere Beobachter (verteiltes Sehen/ extern) oder verschiedene Verfahren eines Beobachters (intern) beteiligt,

- zwischen den Beteiligten besteht die Möglichkeit zur Kommunikation,

- es existieren Mechanismen zur Kooperation und

- Methoden zur Fusionierung

Die Fusionsmethoden hängen davon ab, ob bei der Kooperation zwischen Beobachtern eine gemeinsame Sicht auf ein Objekt oder eine Szene existiert oder nicht (Abb. 1). Gibt es keine gemeinsame Sicht, handelt es sich um komplementäre Daten. Dann wird lediglich beliebige Information adaptiert, die von einem anderen Beobachter stammt. Das ist die einfachste Form der Fusion. Im Falle einer gemeinsamen Sicht sind die Daten partiell redundant und sollen zu einer kombinierten Sicht verwendet werden. Hier sind komplexere Fusionsmethoden erforderlich. Die Wahl der geeigneten Fusionsmethode hängt jedoch stark vom Abstraktionsgrad der ausgetauschten Daten ab. Es liegt daher nahe, einen Bezug zwischen der Kooperation und dem Schichtenmodell in der Bildverarbeitung [Rad93] herzustellen.

Im Schichtenmodell bestehend aus Rohbildebene, Merkmalsebene, Objektebene und

(a) (b) (c) (d)

Abbildung 1: Kooperation ohne gemeinsame Sicht (a) und mit gemeinsamer Sicht auf Merkmalsebene (b), Objektebene (c) und Szenenebene (d)

Szenenebene existieren unterschiedliche Voraussetzungen, Aufgaben und Ziele für jede Ebene. Diese werden in den folgenden Abschnitten näher beschrieben, wobei der Schwerpunkt auf der Bearbeitung redundanter Daten liegt.

2.1 Kooperation auf Rohbildebene

Auf der untersten Ebene des Schichtenmodells nach [Rad93] erfolgt die Bildvorverarbeitung. Typische Aufgaben sind Bildentzerrung, Bildverbesserung, Restauration oder Kodierung. Kooperation auf dieser Ebene erfolgt meist in Form von externer Kooperation ohne gemeinsame Sicht. Sie besteht darin, dafl Bildmaterial (s. Abb. 1 (a)) zwischen den räumlich verteilten Beobachtern ausgetauscht wird, die an einer Aufgabenlösung beteiligt sind.

2.2 Kooperation auf Merkmalsebene

Bei der Kooperation auf Merkmalsebene mit überlappendem Sichtfeld liegen zumindest partiell redundante Daten (vgl. Abb. 1 (b)) vor. Ziel und Aufgabe der

2


Seite 2  Seite      Textversion  Grafikversion    Übersicht
Seite 3  Seite      Textversion  Grafikversion    Übersicht

Kooperation auf dieser Ebene ist die Rekonstruktion von Objekt oder Szene in ein gemeinsames Koordinatensystem, wobei die Zuordnung der Daten ohne Objektmodellwissen erfolgt.

Die meisten Anwendungen in der Literatur, die sich mit visueller Kooperation befassen, sind dieser Ebene zuzuordnen. In der Vergangenheit wurden häu?g Anwendungen beschrieben, die der internen Kooperation zuzuordnen sind. Krotkov beispielsweise beschreibt in [Kro89] ein kooperatives Verfahren zur 3D-Rekonstruktion von Bildszenen mit Stereo und Fokus. Das Verfahren geht von einer unbekannten, statischen Szene mit beliebig strukturierten Objekten aus. Mithilfe einer Stereokamera wird für verschiedene Szenenpunkte sowohl mit einem Fokussierungs- als auch mit einem Stereoverfahren der Abstand von der Kamera berechnet. Dabei veri?zieren die beiden Techniken ihre Ergebnisse gegenseitig; mit der Fokussierung werden falsche Stereokorrespondenzen, durch die Stereotechnik werden falsche Fokussierungspunkte identi?ziert. Dies erhöht die Zuverlässigkeit im Vergleich zur alleinigen Anwendung eines der beiden Verfahren.

Ähnliches gilt für das Verfahren von [GST89], dafl per interner Kooperation die Rekonstruktion von 3D-Objekten oder ganzer 3D-Szenen beschreibt. Es setzt ebenfalls eine statische Bildszene voraus. Mithilfe zweier verschiedener Algorithmen werden aus einer Folge von Stereoaufnahmen Tiefenkarten berechnet und in eine Gesamtdarstellung integriert. Dabei handelt es sich um ein Stereoverfahren und ein Verfahren, das auf der Berechnung des optischen Flusses basiert. Zur Aufnahme der Stereobilder wird die Kamera kreisförmig mit konstantem Radius um einen Fixationspunkt bewegt, normalerweise die Mitte der Bildszene. Dabei sind die Kamerabewegungen bekannt und im voraus festgelegt.

2.3 Kooperation auf Objektebene

Auf dieser Ebene lassen sich Interpretationen zu einem Objekt von Beobachtern mit unterschiedlichen Beobachtungspositionen kombinieren (vgl. Abb. 1 (c)). Dazu ist eine Transformation auf ein einheitliches Koordinatensystem erforderlich. Liegt eine gemeinsame Sicht vor, können die Daten redundant oder komplementär sein. Es müssen jedoch alle Beobachter dasselbe Objekt beobachten, damit Kooperation auf dieser Ebene möglich ist.

Beispiele in der Literatur für Kooperation auf dieser Ebene sind in Anwendungen im Zusammenhang mit Multi-Perspective Interactive Video (kurz: MPI-Video) zu ?nden [JKS96], [KKK+95], [CJK+94] 1. MPI-Video-Systeme liefern interaktive und realistische Darstellungen realer Ereignisse, die gleichzeitig von mehreren Kameras an verschiedenen Orten aufgenommen werden. Sie ?nden Anwendung in verschiedenen Aufgaben wie interaktiven Fernsehübertragungen, Teletourismus, interaktive Filme, virtuelle Welten oder Leitsysteme. Im Unterschied zu herkömmlichem Video bietet ein MPI-Video-System viele Interaktionsmöglichkeiten, über die der Inhalt der gezeigten Videosequenzen und die Art der Darstellung gesteuert werden können wie z.B. in einer Sportübertragung die Wahl einer speziellen Perspektive oder die Auswahl eines bestimmten Objekts.

Sieht man einmal von den MPI-Anwendungen ab, gibt es in der Literatur zu dieser Ebene so gut wie keine Anwendungen. Das ist um so erstaunlicher, als dafl visuelle Kooperation auf dieser Ebene gerade in Multiroboteranwendungen von groflem Interesse sein sollte. Beobachter können auf dieser Ebene bereits selbständig Identi?zierungen von Objekten durchführen. Typischerweise ist dieser Vorgang in natürlichen Szenarien sehr anfällig gegenüber EinÄüssen wie Helligkeitsschwankungen,

1Je nach Anwendung in MPI gibt es auch Aufgaben der Kooperation, die der Merkmalsebene zugeordnet werden

3


Seite 3  Seite      Textversion  Grafikversion    Übersicht
Seite 4  Seite      Textversion  Grafikversion    Übersicht

Verdeckungen oder Abschattungen. Daher bietet es sich geradezu an, durch Kooperation mit mehreren Beobachtern zu einer robusteren Klassi?zierung zu gelangen. An unserem Institut wurde aus diesem Grunde der EinÄufl der visuellen Kooperation auf dieser Ebene untersucht. Zwei Fragen standen dabei im Vordergrund: welche Methoden zur Informationsintegration sind geeignet und welchen Nutzen bringt eine Kooperation auf dieser Ebene.

Ein Identi?zierungsverfahren liefert in der Regel eine Menge von möglichen Interpretationen für ein Objekt. Dabei kann es sich um vermutete Klassen- oder Ansichtszuordnungen handeln. Zur Fusionierung dieser Daten, die Hall [Hal92] als Identitätsfusion bezeichnet, eignen sich prinzipiell Techniken wie Kalman?lter, Methode der kleinsten Quadrate, Bayes'sche Beliefnetze, Dempster-Shafer, Fuzzy-Mengen oder neuronale Netze, um nur ein paar zu nennen. Im Gegensatz zur Positionsfusion mufl zwischen den aufgestellten Hypothesen der Objekterkennung jedoch keine Metrik existieren. In so einem Fall sind Techniken wie Kalman?lter oder Methode der kleinsten Quadrate nicht anwendbar. Andere Verfahren dagegen, wie die Bayes'schen Ansätze, neuronale Netze und Fuzzymethoden, erscheinen dagegen für die anstehende Aufgabe geeignet zu sein. Sie setzen voraus, dafl mit jedem Bearbeitungsschritt alle in Betracht kommenden Objekte und/ oder Ansichten zumindest implizit bewertet worden sind. Von den in frage kommenden Techniken hat sich gezeigt, dafl Bayes'sche Beliefnetze [Pea87] relativ robust gegenüber Störungen sind und das sie einigermaflen schnell auf Veränderungen reagieren können. Das ist insbesondere im Falle von Objektbewegung und daraus resultierendem ständigen Wechsel der Objektorientierung von Interesse. Zudem sind Bayes'sche Beliefnetze bei der Integration von Information unabhängig von der Anzahl der beteiligten Verfahren bzw. Beobachter. Im folgenden wird der Einsatz von Beliefnetzen für die Kooperation nach [OL99] [OL97] kurz erläutert.

Beliefnetze schätzen die Identität und/ oder die aktuelle Orientierung eines Zielobjekts, indem sie die Ergebnisse der Objekterkennung von mehreren Beobachtern bzw. Verfahren miteinander verknüpfen. Besteht eine Modellhierarchie, kann für jede Hierarchieebene ein separates Beliefnetz benutzt werden. Beliefnetze sind azyklisch gerichtete Graphen bestehend aus Knoten und Kanten, in denen die Knoten Hypothesenwerte repräsentieren und die Kanten direkte Abhängigkeiten zwischen verbundenen Kanten beschreiben. Ein einzelner Knoten ist mit einem oder mehreren Vorgängern und Nachfolgern verknüpft. Er repräsentiert zu jedem Zeitpunkt den Zustand des Beliefnetzes. Erworbenes Wissen eines Knotens kann sowohl zum Vorgänger als auch zum Nachfolger propagiert werden, in der Regel aber ist für diese Aufgabe nur eine top-down Propagierung sinnvoll. Abb. 2 (a) zeigt das Design eines Beliefknotens. Beliefknoten besitzen zwei Arten von Eingabe und Ausgabe, den causal support und den diagnostic support. In einem Beliefknoten Z wird der causal support ß(Zi) aus den propagierten Werten ßZ(Aj) seines Vorgängerknotens A mit den bedingten Wahrscheinlichkeiten P (ZijAj) berechnet mit

ß(Zi) =
N
X

j=1
P (ZijAj)ßZ(Aj); (1)

Dabei bezeichnet N die Anzahl der Modelle. Bei den bedingten Wahrscheinlichkeiten P (ZijAj) handelt es sich um ?a priori Wissen, das Auskunft gibt über Schätzungen zeitlicher Abhängigkeiten zwischen Modellen. Diese Schätzungen werden in sogenannten Transitionsmatrizen zusammengefaflt. Transitionsmatrizen können für jeden Beliefknoten verschieden sein, ihre Dimension hängt von der Anzahl der Modelle ab. Jedes Element in der Transitionsmatrix zeigt mit einer Wahrscheinlichkeit pi;j den Übergang von Modell Mi zu Modell Mj in einem Zeitintervall ?t an. Die Wahrscheinlichkeiten pi;j in der Transitionsmatrix können beliebig festgelegt wer-

4


Seite 4  Seite      Textversion  Grafikversion    Übersicht
Seite 5  Seite      Textversion  Grafikversion    Übersicht

2
E

3
E

1
E

4
E

pZ

B
p

nO

l

E

l

A

B

Z

(a)

HHHHH

tk?1
tk M1 M2 : : : Mn?1 Mn

M1 p1;1 p1;2 : : : p1;n?1 p1;n
M2 p2;1 p2;2 : : : p2;n?1 p2;n
M3 p3;1 p3;2 : : : p3;n?1 p3;n

... ... ... . . . ... ...

Mn pn;1 pn;2 : : : pn;n?1 pn;n

(b)

Abbildung 2: : Ein einzelner Beliefknoten Z (a) Transitionsmatrix mit Übergängen von Mi nach Mj im Zeitintervall ?t = tk ? tk?1 (b)

den, als Randbedingung mufl lediglich erfüllt sein, dafl sie zeilenweise aufsummiert den Wert 1 ergeben. Existiert kein Zusammenhang zwischen den Modellen, wird als Transitionsmatrix die Einheitsmatrix verwendet. Besteht ein Zusammenhang zwischen Modellen, z.B. wenn verschiedene Ansichten pro Modell betrachtet werden, bieten sich Verteilungsfunktionen wie die Gaufl- oder die Gleichverteilung an, um die Werte pi;j zu bestimmen.

Zu jedem Zeitschritt gelangen die Hypothesen der bis zu nO Beobachter (bzw. Verfahren) als diagnostic support >=(Ei) in den Beliefknoten Z. Aus diesen Hypothesen berechnet sich der totale diagostic support >=(Zi) mit

>=(Zi) =
Y

l
>=(El) (2)

Die Beliefwerte eines Beliefknoten berechnen sich aus causal support und diagnostic support sowie einer Normalisierungskonstante ff mit

BEL(Z) = ff>=(Zi)ß(Zi) (3)

Aus den Beliefwerten erhält man die Werte ßB(Z) zur top-down Propagierung mit ßB(Z) = BEL(Z). Bei der Objekterkennung wird also zu jedem Zeitschritt für jeden Knoten im Netz ein Vektor von Beliefwerten errechnet. Dieser Vektor gibt Auskunft über die Modell- oder Ansichtszuordnung eines Objekts und stellt damit das durch die Teammitglieder fusionierte Ergebnis des Erkennungsvorgangs dar.

2.4 Kooperation auf Szenenebene

Während es bei der Kooperation auf der dritten Ebene darum geht, ein einzelnes Objekt zu veri?zieren, sollen in der vierten Ebene alle beteiligten Objekte und deren Beziehung zueinander erfaflt werden. Typische Werkzeuge dafür sind relationale Strukturen, semantische Netze oder Grammatiken. Die so entstandene Beschreibung der Szene bildet die Grundlage für situationsbezogenes Handeln. Ziele der Kooperation auf dieser Ebene sind die Validierung der lokalen Sicht auf die Szene sowie der Aufbau einer konsistenten globalen Szenenkarte (vgl. Abb. 1 (d)), vorausgesetzt, es liegt eine gemeinsame Sicht vor.

3 Selbstlokalisierung

Bei der externen Kooperation mit gemeinsamer Sicht tauschen Beobachter eines Teams bereits ausgewertete Informationen untereinander aus. Damit diese Informationen verknüpft werden können, mufl die absolute Position der Beobachter bekannt

5


Seite 5  Seite      Textversion  Grafikversion    Übersicht
Seite 6  Seite      Textversion  Grafikversion    Übersicht

sein2. Die Bestimmung der absoluten Position ermittelt jeder einzelne Beobachter durch Selbstlokalisation. Typische Sensoren für die Selbstlokalisierung sind:

- Odometrie, also die Positionsbestimmung aus der Radbewegung

- Ultraschall

- Laser-Abstandssensoren (Laserscanner)

- Kamera

Die Odometrie liefert Informationen über die Bewegung der Räder, die meistens mittels Microcontroller ausgewertet und direkt in Positionsinformation umgerechnet wird. Schwäche dieses Sensors ist die sich mit der Zeit erhöhende Ungenauigkeit der Positionsschätzung, die auflerdem nur relativ zu einer initalen Position ist. Absolute Positionsschätzungen können stets mit Ultraschall, Laser oder Kamera ermittelt werden. Diese Sensoren liefern mit jeder Messung gemäfl ihrem Sensorsichtfeld einen Datensatz mit einem oder mehreren Abstandswerten.

Bei der Selbstlokalisierung wird versucht, eine Überdeckung von Sensordaten und Modell zu ?nden. Dies kann einerseits auf den Abstandsdaten direkt erfolgen, oder aber auf Linien, die aus den Abstandsdaten extrahiert wurden ([SC94]). Im folgenden soll ein iteratives Verfahren näher erläutert werden ([Cox90]). Der Messdatensatz wird solange gedreht und verschoben, bis die Summe der Abstandsquadrate zwischen den Messdaten und den zugeordneten Linien eine Schwelle unterschreitet. Bei diesem Verfahren ist eine Initialschätzung der Position erforderlich. Im ersten Schritt wird der Messdatensatz um die geschätzte Position verdreht und verschoben. Dann wird zu jedem Messpunkt die nächste Linie des Modells bestimmt und der Abstand berechnet. Über ein Gradientenverfahren lässt sich die Abweichung des Scans vom Modell berechnen. Die verbesserte Schätzung ergibt sich aus der ursprünglichen Schätzung und der Abweichung. Liegt die Abweichung unter einer vorgegebenen Schwelle, terminiert das Verfahren.

initiale

reale

Position

Pos.schätzung

(a) (b)

Abbildung 3: Selbstlokalisierung: (a) Laserscan, (b) Matching mit Linienmodell

Bei der Selbstlokalisierung wird häu?g versucht, den Suchraum einzuschränken. Beispielsweise kann mittels Odometrie eine grobe Positionsschätzung erfolgen, die dann durch Laser- oder Ultraschalldaten verbessert wird. Dies ist besonders dann nötig, wenn mehrere Situationen mit ähnlichen Sensorwerten zu erwarten sind, wie dies in Büroumgebungen mit gleichartig eingerichteten Räumen der Fall ist. Dann kann zwar die Position innerhalb des Raums bestimmt werden, nicht jedoch um welchen der Räume es sich handelt. Um dies zu bestimmen, kann ausgehend von einer Initialposition der Weg verfolgt werden, der eine grobe Orientierung mittels Odometrie

2Es wird angenommen, dafl die Kameraorientierung in der Selbstlokalisierung berücksichtigt ist

6


Seite 6  Seite      Textversion  Grafikversion    Übersicht
Seite 7  Seite      Textversion  Grafikversion    Übersicht

erlaubt.

Ein weiteres Problem ist die Symmetrie der Umgebung. So ist das Spielfeld beim Roboterfuflball symmetrisch aufgebaut, so dafl die Positionsschätzung immer zwei zum Mittelpunkt symmetrische Positionen liefert. Hier kann bei Berücksichtigung der Zeit der maximal mögliche Fahrweg und die maximale Drehung zwischen zwei Messungen errechnet werden. Folgen diese dicht genug aufeinander, können Fehllokalisierungen ausgeschlossen werden.

4 Kooperative Bildverarbeitung in der Anwendung

Die meisten Anwendungen mit kooperativer Bildverarbeitung benötigen Kenntnis über den Standort der Beobachter. Eine Ausnahme bildet dabei die interne Kooperation. Hier wird keine Kenntnis der absoluten Position in Weltkoordinaten benötigt, da sich alle an der Kooperation beteiligten Verfahren auf das gleiche Koordinatensystem beziehen. Bei der externen Kooperation geht es dagegen darum, Daten zu integrieren, die von einem anderen Blickwinkel erfaflt wurden. Liegt keine gemeinsame Sicht vor, so macht ein Informationsaustausch ohne Positionsangabe im allgemeinen keinen Sinn. Im Falle einer gemeinsamen Sicht auf eine Szene oder ein Objekt werden zwei grundsätzliche Kooperationsziele unterschieden, die Veri- ?kation und die Lokalisation. Die Veri?kation hat zum Ziel, Hypothesen mehrerer Beobachter zum Zwecke einer robusteren Erkennung zu kombinieren unter der Voraussetzung, dafl die beteiligten Beobachter ihre absolute Position kennen. Bei der Lokalisation besteht - im Unterschied zur Selbstlokalisierung - die Aufgabe darin, die relative räumliche Position anderer Beobachter zu erkennen. Dies setzt voraus, dafl alle beteiligten Beobachter in der Lage sind, selbständig robuste Hypothesen zu ermitteln. Veri?kation und Lokalisation sind im Prinzip auf jeder Ebene der Kooperation möglich. Für ein Team von Beobachtern sind jedoch erst Anwendungen interessant, die höheren Ebenen zugeordnet werden können. Im folgenden werden daher drei Anwendungen auf Objekt- bzw. Szenenebene beschrieben.

4.1 Veri?kation und Lokalisation auf Objektebene

In [OL99] wurde am Beispiel einer Referenzfahrt des mobilen Roboters Aramis der EinÄufl der Kooperation auf die Qualität der Erkennungsergebnisse gezeigt. Abb. 4 zeigt Ausschnitte der Referenzfahrt, die von den beiden statischen Beobachtern E1 und E2 verfolgt wurden. Der tatsächliche Orientierungswinkel, also der Winkel zwischen den optischen Achsen der beiden Beobachter, der zur Transformation der Hypothesen auf ein einheitliches Koordinatensystem benötigt wird, stammt im Falle der Veri?kation von den errechneten Selbstlokalisationen von E1 und E2. Bei der Lokalisation wird dieser Winkel dagegen ermittelt. Der tatsächliche Orientierungswinkel beträgt in diesem Szenario ca. 190ffi. Beide Beobachter sind in der Lage, neben der Identität des Objekts auch dessen Orientierung bzw. Ansicht zu bestimmen. Dazu vergleichen sie die Inhalte der konvexen Hüllen aus der Bildsequenz von Abb. 4 mit 5 Referenzobjekten einer Modelldatenbank, die aus jeweils 24 Ansichten in 15ffi-Schritten von 0ffi bis 360ffi bestehen.

Dieser Erkennungsprozefl liefert für jede Ansicht eine Bewertung und damit implizit auch eine Modellzuordnung. Die individuellen Erkennungsergebnisse bilden den Ausgangspunkt zur Untersuchung des EinÄufles der Kooperation. Abb. 5 (a) zeigt jeweils die maximal bewertete Hypothese für die 74 Bilder der Bildfolge. Die Erkennungsrate hängt stark von der Qualität der Eingabedaten ab, sie liegt bei E1 bei ca. 76%, bei E2 nur bei 56%.

Durch die Veri?kation kann diese Rate deutlich gesteigert werden, wie man an der

7


Seite 7  Seite      Textversion  Grafikversion    Übersicht
Seite 8  Seite      Textversion  Grafikversion    Übersicht

(a)

(b)

Abbildung 4: Die Bilder #1, #30 und #60 aus der Sicht der beiden Beobachter E1 (a) und E2 (b)

Verify-Kurve aus Abb. 5 (b) erkennt. Als Fusionmethode wurden die in Kap. 2.3 vorgestellten Beliefnetze verwendet. Zu jedem Zeitschritt gelangen die Hypothesen der beiden Beobachter simultan als diagnostic support in das Netz. Man erkennt deutlich, dafl im kooperativen Fall die Zuordnung zum Modell Aramis stets korrekt ist und die geschätzte Ansicht gar nicht oder nur minimal von der tatsächlichen abweicht.

Für die Lokalisation hat jeder Beobachter lokal die Qualität seiner Hypothesen durch Verwendung eines eigenen Beliefnetzes verbessert. Mit dieser kontinuierlichen Betrachtung der Hypothesen konnte die Erkennungsrate immerhin auf 80% bei E1 und 71% bei E2 verbessert werden. Der Orientierungswinkel zwischen den Beobachtern wurde in der Locate-Kurve aus Abb. 5 (b) durch einfache Mittelung der maximalen Hypothesen von E1 und E2 bestimmt. Wenn das Ergebnis der Lokalisation so robust wie in diesem Fall ist, kann es sogar zur Veri?zierung des Orientierungswinkels aus der Selbstlokalisierung verwendet werden.

(a)

Aramis

Athos

Digger

Spider

Gripper

0 10 20 30 40 50 60 70

Time step

360

180

0

E_1

E_2

(b)

0

30

60

90

120

150

180

210

240

270

300

330

10 20 30 40 50 60 70

View in degree

Time step

Verify

Locate

Abbildung 5: (a) Ausgangshypothesen für die Veri?kation durch die beiden Beobachter E1 und E2 (b) Ergebnisse der Veri?kation und Lokalisation

4.2 Selbstlokalisierung in einem Team von Robotern

Ein typisches Anwendungsbeispiel für Kooperation auf der dritten Ebene ohne gemeinsame Sicht auf ein Objekt ist die Selbstlokalisierung mit Hilfe eines oder mehre-

8


Seite 8  Seite      Textversion  Grafikversion    Übersicht
Seite 9  Seite      Textversion  Grafikversion    Übersicht

rer anderer Beobachter. In einer Büroumgebung mit gleichartigen Räumen wie z.B. in Abb. 6 (a) kann es vorkommen, dafl ein Beobachter sich nicht eindeutig lokalisieren kann und mehrere gleichwahrscheinliche Hypothesen erhält. Durch visuelle Kooperation in einem Team von Beobachtern kann diese Mehrdeutigkeit aufgelöst werden.

Dazu wird ein zweiter Beobachter, der seine absolute Position eindeutig bestimmen kann, beauftragt, Beobachter 1 zu identi?zieren. Der Identi?zierungsvorgang, der individuell ausgeführt wird, liefert eine Objekthypothese die keine Objektentfernung beinhalten mufl. Objekthypothese und absolute Position des Beobachter 2 werden Beobachter 1 mitgeteilt. Mit Hilfe dieser Information ist Beobachter 1 nun in der Lage, alle Hypothesen auflerhalb dieses Raumes zu verwerfen und eine korrekte Selbstlokalisation durchzuführen.

Beobachter 2

Positions-Hypothesen Beobachter 1

2

1

(a) (b)

(c) (d)

Abbildung 6: Selbstlokalisierung im Team (a), Kooperation auf Szenenebene (b), Sichten von Beobachter 1 (c) und Beobachter 2 (d)

4.3 Veri?kation auf Szenenebene

Aufgrund der Komplexität sind Realisierungen visueller Kooperation auf der Szenenebene bisher nur in relativ einfachen Szenarien möglich. Ein typisches Anwendungsgebiet sind fuflballspielende Roboter. Wegen des relativ einfachen Umfelds3 kann jeder Roboter für sich eine visuelle Szenenerkennung durchführen. Der EinÄufl der Kooperation auf die Szeneninterpretation im Roboterfuflball sei am Beispiel einer Spielsituation beschrieben, wie sie bei den CoPS4 Stuttgart realisiert wurde.

Angenommen, ein Spieler (in Abb. 6 (b) der Spieler mit der Nummer 1) soll situationsbezogen handeln: a) sofort stören, wenn Ball und Gegner in der eigenen Spielhälfte erkannt werden und der Gegner einen Torschufl beabsichtigt, b) einen

3In diesem Szenario existieren die folgenden Objekte: roter Ball, gelbes Tor, blaues Tor, grüner Boden, Gegner oder Mitspieler farblich markiert entweder in hellblau oder violett 4CoPS = Cooperative Soccer Playing Robots, Roboterfuflballteam am IPVR

9


Seite 9  Seite      Textversion  Grafikversion    Übersicht
Seite 10  Seite      Textversion  Grafikversion    Übersicht

gezielten Pafl auf einen Mitspieler spielen, falls nur der Ball, aber kein Gegner sichtbar ist ansonsten c) abwarten und nichts tun. In Abb. 6 (c) erkennt Spieler 1 in seiner Umgebung die gegnerischen Roboter, aber keinen Ball, weil dieser verdeckt ist. Folglich würde er nichts tun. Sein Mitspieler, der Spieler mit der Nummer 2, der die gleiche Szene aus einem anderen Blickwinkel beobachtet, ist in der Lage, Gegner und Ball zu erkennen (Abb. 6 (d)). Kooperation auf dieser Ebene bedeutet nun, dafl Spieler 2 sein Wissen Spieler 1 zur Verfügung stellt. Spieler 1 erhält durch Fusion seines lokalen Wissens mit dem übermittelten eine zusätzliche Information, die er nicht selbst ermitteln konnte. Mit der neuen Information ändert sich der Kontext aus seiner Sicht, so dafl Spieler 1 die Gefahrensituation erkennen und entsprechend handeln kann.

5 Zusammenfassung

In der vorliegenden Arbeit wurde der Begriö der visuellen Kooperation bzw. kooperativen Bildverarbeitung de?niert, analysiert und in Bezug gesetzt zum Schichtenmodell der Bildverarbeitung. Dabei hat sich gezeigt, dafl durch visuelle Kooperation auf allen Ebenen der Bildverarbeitung eine Steigerung der Qualität der Ergebnisse erreicht werden kann. Visuelle Kooperation ist einerseits zwischen verschiedenen Verfahren eines Beobachters möglich, andererseits durch Verteilung der Sichtaufgabe an mehrere Beobachter. Die Wahl einer geeigneten Fusionsmethode hängt von der Art der Kooperation ab, der Abstraktionsebene und davon, ob die Sichtweisen der Beobachter auf ein Objekt oder eine Szene redundant oder komplementär sind. Das Ziel der externen Kooperation besteht im allgemeinen darin, Hypothesen mehrerer Beobachter zum Zwecke einer robusteren Erkennung zu kombinieren. Eine solche Veri?kation ist nur dann möglich, wenn jeder Beobachter in der Lage ist, eine Selbstlokalisierung durchzuführen. Die Fähigkeit zur Selbstlokalisation bildet somit die Basis zur visuellen Kooperation in einem Team von Robotern.

Literatur

[AWB87] J. Aloimonos, I. Weiss, and A. Bandopadhay. Active vision. International Journal on Computer Vision, pages 333>=356, 1987.

[Baj88] R. Bajcsy. Active perception. Proceedings of the IEEE, 76(8), August 1988.

[CJK+94] S. Chatterjee, R. Jain, A. Katkere, P. Kelly, D.Y. Kuramura, and S. Moezzi. Modeling and interactivity in mpi-video. Technical Report VCL-94-103, Visual Computing Laboratory, University of California, San Diego, December 1994.

[Cox90] I.J. Cox. Blanche: Position estimation for an autonomous robot vehicle. In I.J. Cox and G.T. Wilfong, editors, Autonomous robot vehicles, pages 221>=228. Academic Press, New York, 1990.

[GST89] E. Grosso, G. Sandini, and M. Tistarelli. 3d object reconstruction using stereo and motion. IEEE Transaction on Systems, Man and Cybernetics, 19(6):1465>=1488, 1989.

[Hal92] D. Hall. Mathematical Techniques in Multi-sensor Fusion. Artech House Inc., 1992.

10


Seite 10  Seite      Textversion  Grafikversion    Übersicht