In der Fachliteratur gibt es im Rahmen der Bildverarbeitung eine Reihe von Begriffen, die oft auch fälschlich verwendet werden. Da uns die Bildverarbeitung auch im täglichen Leben immer wieder begegnet und sich viele Begriffe im täglichen Sprachgebrauch wieder finden möchte ich dem Leser vermitteln woher die Begriffe rund um die Bildverarbeitung stammen, und wie sie in dieser Arbeit verstanden und verwendet werden.
Zuallererst aber ein Hinweis über die Schreibweise von Zahlen in dieser Arbeit. Wenn nicht anders angegeben werden Zahlen immer in Dezimalschreibweise verstanden. Da in der Computertechnik jedoch das hexadezimale Zahlensystem sehr häufig verwendet wird, werden auch in dieser Arbeit Zahlen in diesem Zahlensystem gebraucht. Um Verwechslungen vorzubeugen, werden Hexadezimalzahlen immer mit einem vorangestellten „0x“ gekennzeichnet. Entlehnt wird diese Schreibweise aus der sehr weit verbreiteten Programmiersprache „C/C++“.
Da letztendlich immer der Mensch derjenige ist, der ein bearbeitetes Bild oder die Ergebnisse einer Bildverarbeitung interpretiert, sind viele Modelle wie etwa jene der Farbräume dem menschlichen Sehen entnommen oder zumindest an dasselbige angelehnt. Die Bild- oder Objekterkennung versucht letztendlich das menschliche Auge oder allgemeiner das menschliche Sehen als ganzes zu modellieren oder imitieren, wenn das derzeit auch nur bis zu einem gewissen Grad gelingen kann, da hinter dem menschlichen Sehen die Leistungsfähigkeit des menschlichen Gerhirnes sitzt, mit all seinem Wissen, seiner Lernfähigkeit und der Möglichkeit zur Abstraktion. Dinge, die nach heutigem Stand der Forschung auf dem Gebiet der künstlichen Intelligenz nur in sehr stark vereinfachten Modellen verstanden und umgesetzt werden können. Letztendlich ist die Modellierung des menschlichen Sehvermögens in seiner Gesamtheit das Fernziel der Entwicklungen auf dem Gebiet der künstlichen Intelligenz und der Bilderkennung. Beide Gebiete können nicht voneinander getrennt betrachtet werden.
Ich möchte darauf hinweisen, dass viele Begriffe oder Abkürzungen der Bildverarbeitung im allgemeinen Sprachgebrauch aber auch in der deutschen Fachliteratur auf englisch verwendet werden, weshalb ich in dieser Arbeit auch die englischen Begriffe aufführen werde und wo es mir sinnvoll erscheint auch jene anstelle der deutschen im weiteren Verlauf der Arbeit verwenden werde.
Das menschliche Sehen ist in seiner Gesamtheit sehr komplex und noch nicht gänzlich verstanden, da es eng verbunden ist mit der menschlichen „Intelligenz“. Die Interpretation der vom Auge stammenden Bildinformationen hängt sehr mit unseren Erfahrungen unserer Lernfähigkeit zusammen, umfasst also alle Bereiche des menschlichen Denkens. Es soll hier auch nur auf das Auge selbst eingegangen werden und anhand von dessen Aufbau die Aufnahme der Farb- und Helligkeitsinformationen erläutert werden, dessen Verständnis für mehr Anschaulichkeit bei vielen Begriffen der Bildverarbeitung beitragen kann.
Die Bildaufnahme und die Bildverarbeitung sind beim menschlichen Auge untrennbar verbunden, da bereits im Auge eine Vorverarbeitung stattfindet [STN93].
Das menschliche Auge hat einen Durchmesser von ca. 24 mm und liegt in einem Fettpolster eingebettet in der Augenhöhle geschützt durch die es umgebenden Schädelknochen.
Abbildung 2.1: Querschnitt durch den Augapfel
Abbildung 2.1 zeigt einen Querschnitt des menschlichen Auges und beschreibt die einzelnen Teile. Die Hülle des Augapfels besteht aus 3 Schichten. Die äußerste ist die Lederhaut die vorne in die durchsichtige Hornhaut (lateinische Bezeichnung Cornea) übergeht. Hinter der Hornhaut liegt die Pupille, eine Lichtdurchlässige Öffnung, die durch eine Veränderung ihres Durchmessers, eine Regulierung der Lichteintrittsmenge erlaubt und somit die Blende des menschlichen Auges darstellt. Direkt an die Pupille grenzt die Linse. Der rund ums sie anliegende Ziliarmuskel erlaubt eine Änderung der Linsenform, sodass damit die Lichtbrechung und letztendlich die Fokussierung verändert werden kann. Innen an die Lederhaut legt sich die Aderhaut, die für eine gute Durchblutung des Auges sorgt. Die innerste Schicht des Auges bildet die Netzhaut (lateinische Bezeichnung Retina), die hinten in den Sehnerv übergeht, der die Reize der Netzhaut an das Gehirn weiterleitet. Licht fällt durch Hornhaut und Pupille und erzeugt im hinteren Teil der Netzhaut ein auf dem Kopf stehendes reelles Bild [BVN96, STN93].
Die Netzhaut:
Spezielle Zellen an der Netzhaut wandeln das eintreffende sichtbare Licht in elektrische Reize um, die über den Sehnerv ins Gehirn geleitet werden. Unterschiedliche Zellen reagieren dabei unterschiedlich stark auf Wellenlänge und Intensität des einfallenden Lichts. Man unterscheidet grundsätzlich zwei unterschiedliche Zellentypen an der Netzhaut: die Stäbchen und die Zäpfchen. Sie liegen in der äußersten Schicht der Netzhaut, darunter liegen die Ganglienzellen angedockt an den Nervenfasern die letztendlich in den Sehnerv münden [BVN96, STN93]. Abbildung 2.2 zeigt einen Querschnitt durch die Netzhaut mit der Lage der Stäbchen und Zäpfchen.
Abbildung 2.2: Querschnitt durch die Netzhaut
Die Zäpfchen:
Sie sind die Farbsensoren des Menschen. Sie reagieren also vorwiegend auf Unterschiede in der Wellenlänge des Lichts. Der Mensch besitzt drei verschiedene Arten von Zäpfchen, die sich in ihrer spektralen Empfindlichkeit unterscheiden, das heißt, jede Zapfenart hat ihre maximale Empfindlichkeit in einem anderen Wellenlängebereich. Somit unterteilt man die drei Arten nach dem Maximum der Empfindlichkeit in blaue, rote und grüne Zäpfchen. In der Abbildung 2.3 ist die spektrale Empfindlichkeit bzw. der Absorptionsgrad der drei Arten dargestellt. Die Ordinate stellt die normierte Empfindlichkeit in % dar. Die Kurven der drei Zäpfchen bz für die blauen, rz für die rotempfindlichen und gz für die grünen, sind in dieser Grafik gleich stark gewichtet, was nicht ganz der Realität entspricht. Die blauen Zäpfchen weisen in Wahrheit eine etwas höhere Maximalempfindlichkeit auf [RDG93]. Für das Verständnis ist dies aber von geringerer Bedeutung. Die Zahlen am Scheitelpunkt der Kurven geben jeweils die Wellenlänge an, bei der der entsprechende Zäpfchentypus seine maximale Empfindlichkeit respektive den maximalen Absorptionsgrad hat. Deutlich erkennbar die starke Überlappung der rot- und grünempfindlichen Zäpfchen. Zum Gesamteindruck trägt aber nicht nur die Empfindlichkeit der drei Rezeptoren bei, sondern natürlich auch deren Verteilung auf der Netzhaut. So ist der Anteil der grünempfindlichen Zellen höher als der der blauen oder roten. Zusätzlich ist auch deren Verteilung auf der Netzhaut nicht konstant. Die größte Konzentration findet man im so genannten „Gelben Fleck“ [BVN96]. Die Summe dieser Faktoren bestimmt schlussendlich unser Farbsehen. In der Abbildung 2.4 ist die aufsummierte Gesamtempfindlichkeit für das Tag- und Nachtsehen in Abhängigkeit der Wellenlänge dargestellt. Tagsehen bedeutet in diesem Fall, die Beleuchtungsstärke reicht aus um die Zäpfchen anzuregen. Liegt sie unter einem bestimmten Schwellwert so spricht man von Nachtsehen, da nur mehr die Reize der Stäbchen (siehe unten) im Gehirn verarbeitet werden [RDG93]. In der Literatur wird die Hellempfindlichkeitskurve für Tagsehen auch als fotoptische spektrale Empfindlichkeit bezeichnet, jene für Nachtsehen als skotopische spektrale Empfindlichkeit [RDG93].
Abbildung 2.3: Spektrale Verteilung der Absorption der einzelnen Zäpfchentypen
Die maximale Empfindlichkeit für Tagsehen liegt bei etwa 555 nm. Das menschliche Auge besitzt somit für die Farbe „gelbgrün“ die größte Empfindlichkeit. Dieser wichtige Umstand findet in der Bildverarbeitung allgemein und auch im weiteren Verlauf dieser Arbeit Berücksichtigung.
Die Farbe „gelbgrün“ war in der frühen Periode der Menschheit die dominante Farbe bei der Suche nach pflanzlicher Nahrung. Eine Tatsache, die die Empfindlichkeit genau für diese Farbe evolutionstechnisch erklären könnte [RDG93].
Abbildung 2.4: Normierte spektrale Empfindlichkeit für das Tag- und Nachtsehen
Die Stäbchen:
Liegt die Beleuchtungsstärke unter einem bestimmten Schwellwert, so reagieren die Zäpfchen nicht mehr in ausreichendem Maße auf eintreffendes Licht. An ihrer Stelle treten dann die Stäbchen die einerseits in größerer Zahl auftreten, ca. 75 bis 150 Millionen im Gegensatz zu den 6 bis 7 Millionen Zäpfchen [STN93], andererseits sind auch immer mehrere Stäbchen mit einem Nerv verbunden, im Durchschnitt an die 130 [STN93]. Diesen zwei Faktoren verdanken wir es, dass die Empfindlichkeit der Stäbchen um einige Größenordnungen höher als jene der Zäpfchen liegt, wodurch sehen auch unterhalb des Schwellwertes bei dem...