Verfasser: Ursula Anna Bauer - Max-Planck

Technische Universität München
Lehrstuhl für Mensch-Maschine-Kommunikation
Prof. Dr. Ing. habil. G. Rigoll
Thema:
Datenreduktion mittels Neuronaler Netze zur
Satellitenübertragung
Verfasser: Ursula Anna Bauer
Oetz 9
83674 Gaissach
Matrikelnummer: 1890231
Betreuer: Dipl. Ing. Ralf Nieschulz
Prof. Christian Kiesling
Laborzeit: 5. November 2001 - 5. April 2002
Abgabetermin: . 13 Juni 2002
1
_______________________________________________________________________________________
0. Gliederung
0. Gliederung
1
1.Einleitung
3
1.1 Physikalischer Kontext
3
1.2 Technologische Neuerungen
5
1.3 Problemstellung
6
2. Methoden
8
2.1 Herkömmliche Datenbearbeitungsmethoden
8
2.2 Konzept der Neuronalen Netze
9
2.2.1 Einführung, Vor- und Nachteile
9
2.2.2 Multi-Layer-Perceptron und Back-Propagation-Algorithmus
11
3. Ergebnisse
21
3.1 Möglichkeiten
21
3.2 Verfügbare Daten
22
3.2.1 XMM-NEWTON
22
3.2.2 Monte-Carlo-Simulation
23
3.3 Training und Resultate
25
3.3.1 XMM-NEWTON
25
3.3.2 Monte-Carlo-Simulation
30
2
_______________________________________________________________________________________
4. Diskussion
38
4.1 Vergleich mit herkömmlichen Berechnungen
38
4.2 Ausblick auf weitere Entwicklungsmöglichkeiten
40
5. Zusammenfassung
42
6. Literaturverzeichnis
44
7. Anhang
46
7.1 Astrophysik
46
7.2 Technologie
49
7.3 Programmlistings
52
3
_______________________________________________________________________________________
1. Einleitung
In meiner Diplomarbeit „Datenreduktion mittels Neuronaler Netze zur Satellitenübertragung”
geht es um Probleme, die sich aus den Untersuchungen zu der für 2012 geplanten RöntgenSatellitenmission XEUS (X-Ray Evolving Universe Spectroscopy) der europäischen
Raumfahrtorganisation ESA ergeben.
Bild 1 XEUS Satelliten-Mission vor dem Hintergrund der Erde, vorne Detektormodul , hinten
Spiegelmodul (siehe auch [20])
1.1 Physikalischer Kontext
Die XEUS-Mission hat, wie der Name X-Ray Evolving Universe Spectroscopy besagt, die
Röntgenspektroskopische Untersuchung des sich entwickelnden Universums zum Ziel.
Um Einblicke in die Frühzeit und die fortlaufende Evolution des Universums und seiner
Objekte zu erlangen, muss man Bereiche des Weltalls untersuchen (siehe auch. [4], [18]), die
sich bis zu 10 Milliarden Lichtjahre entfernt von unserer Galaxie befinden. Dort entstandene
Strahlung benötigt sehr lange Zeit um diese Distanz zu überwinden und enthält so
Informationen über weit zurückliegende Ereignisse. Photonen dieser Strahlung tragen in ihrer
Energiesignatur Informationen über die Prozesse, die zu ihrer Entstehung führten, sowie über
die Zusammensetzung der Objekte aus denen sie stammen. Auf diese Weise kann man
Vorgänge, die zu Beginn des Universums stattfanden, rekonstruieren. Die im Kosmos bei
verschiedenen Vorgängen entstehende Strahlung erstreckt sich über den gesamten
Frequenzbereich des elektro-magnetischer Spektrums, von Radio- und Mikrowellen
(Wellenlängen beginnend bei etwa 103 – 102 m) über Infrarot, das sichtbare Licht, UV, bis hin
zu Röntgen- und Gammastrahlung (Wellenlängen bis zu 10-9 – 10-13 m) (vgl. auch [14]).
Letztere entstehen hauptsächlich unter besonders extremen Bedingungen, d.h. bei sehr hohen
4
_______________________________________________________________________________________
Temperaturen und unter Einfluss starker Felder. Die entstehenden Quanten sind
hochenergetisch (Wellenlänge, Frequenz und Energie der Strahlung hängen über
physikalische Gleichungen zusammen, je größer die Wellenlänge, desto kleiner die Frequenz
und desto geringer die Energie des Photons). Durch die hohe Konzentration der Materie nach
dem Urknall als das Universum sich gerade auszubreiten begann, war die Entstehung von
Röntgenstrahlung extrem begünstig. Sie stellt in den meisten Fällen die einzige Möglichkeit
dar, Informationen über Frühzeit des Universums zu erlangen. Seit der Entdeckung der ersten
Röntgenquellen im All, setzt man große Hoffnung in die Röntgenastronomie, da sie Einblicke
in zuvor nie erreichte Bereiche von Raum und Zeit bietet.
Schon bei den ersten Versuchen tiefer in das Weltall hineinzuschauen, fiel eine erstaunlich
starke Röntgenhintergrundstrahlung auf, zu deren Erklärung neue Theorien erstellt werden
mussten. Man hofft diese mit den Daten, die XEUS liefern wird, zu verifizieren. Eine
derartige Strahlung lässt sich nur durch die Existenz massiver und stark gravitativ wirkender
Objekte erklären. Bei der Entstehung derartiger Objekte besteht das Problem, dass genug
Masse, bestehend aus Wasserstoff- und Heliumgaswolken, zusammengebracht werden muss
um zu kollabieren und ein massives Objekt zu formen, dass aber gleichzeitig genug Energie
freigesetzt und abgegeben werden muss um zu verhindern, dass die sich verdichtende
Gaswolke gleich wieder explodiert. Bei der Sternenentstehung in unserer heutigen
Milchstrasse wird diese überschüssige Energie als Strahlung von Molekülen und
interstellarem Staub abgegeben. In der Frühzeit jedoch waren kaum größere Moleküle oder
Staub vorhanden, so dass die Theorie (vgl. [4])davon ausgeht, dass die ersten Objekte, die
entstanden gigantische Schwarze Löcher waren, in deren Umgebung starke Röntgenstrahlung
emittiert werden konnte, eine Erklärung für die Hintergrundstrahlung. XEUS wird
empfindlich genug sein diese Schwarzen Löcher, von denen die derzeitige Röntgenmission
XMM-Newton bereits einige ausmachen konnte, genauer zu untersuchen, bzw. noch viele
weitere zu entdecken um so die Richtigkeit der Theorien zu bestätigen. Durch die Analyse der
Strahlung wird man enträtseln können, welche Art von Material sich in der Umgebung des
Schwarzen Loches befindet, wie es in dieses fällt und wie emittierte Strahlung und Teile
herausgeschleuderter Massenströme die Elemententstehung und spätere Sternenformation
beeinflusst oder ermöglicht haben, bzw. es noch tun (siehe hierzu auch Anhang 7.1 und
[4],[18]).
Durch Vergleiche der Strahlung sehr früher Schwarzer Löcher mit den Röntgenemissionen
Schwarzer Löcher, die sich in den Zentren von uns näheren Galaxien befinden, will man den
Verlauf der Evolution von Galaxien besser verstehen. Daneben richtet sich das Augenmerk
der Forscher auch auf neue Erkenntnisse zur Elemententstehung, Gravitationstheorie und
Sternenevolution.
Die Beschäftigung mit sehr fernen Quellen wirft allerdings einige Probleme auf. Die
ankommende Strahlung ist, wegen der weiten Entfernungen, relativ schwach und stark mit
Hintergrundeffekten überlagert und deshalb gegen andere, nähere Objekte nur schwer
auszumachen. Dadurch werden Detektion, Abgrenzung und Analyse erschwert. Deshalb ist
eine sehr hohe Genauigkeit der Ortsauflösung erforderlich, die bei XEUS zwischen 5 bis 2
Winkelsekunden liegen muss. Eine gröbere Auflösung würde eine fehlerfreie
Quellenzuordnung unmöglich machen und den Einfluss der nicht verwertbaren
Hintergrundstrahlung so vergrößern, das kaum noch sinnvolle Studien anhand der Daten
machbar wären.
Die Energieauflösung stellt ebenfalls enorme Anforderungen. Zum einen ist es für die
späteren spektroskopischen Analysen notwendig, dass der Detektor in „Single-Photon-Mode“
arbeitet, also jedes einzelne einfallende Röntgenquant bezüglich Lage und Energie registriert
wird, damit daraus später genaue Spektren und Bilder für physikalische Untersuchungen
errechnet werden können. Zum anderen erstreckt sich der Bereich in dem der Detektor
empfindlich sein muss über einen Energiebereich von 10 eV bis ca. 30000 eV, da sich das
5
_______________________________________________________________________________________
Energiespektrum der Photonen, die man untersuchen will, unter dem Einfluss von Rot- und
Blauverschiebung, die sie durch die Ausdehnung des Universums, oder durch
Gravitationswirkungen von Objekten denen sie auf ihren Weg durch den Raum nahe
kommen, oder Rotation der sie erzeugenden Objekte, sehr verbreitert (siehe auch Anhang 7.1
Astrophysik und [4], [18]). Weil man die Auswirkungen genannter Effekte aber zu
Untersuchungen nützen will, kann man die Breite des Detektorspektrums nicht vermindern.
Schließlich gilt für die Detektoren zu berücksichtigen, dass sie einerseits für geringe Zählraten
geeignet sein sollen, da interessante Phänomenen oft nur wenige Photonen pro Sekunde
emittieren, andererseits aber zugleich robust gegenüber den hohen Zählraten sehr aktiver
Quellen sein müssen.
1.2 Technologische Neuerungen
Um die erwähnten Probleme zu lösen sind große Anforderungen an die Weiterentwicklung
der Technik gestellt. Man setzt dabei sowohl auf die Weiterentwicklung der bereits für die
derzeitige Röntgenmission der ESA, XMM-Newton, entwickelten und erprobten Techniken,
als auch auf die Erstellung neuer zukunftsfähiger Konzepte. Durch die Erfahrungen mit
XMM-Newton hat man dabei den Vorteil potentielle Fehlerquellen und besonders
beanspruchte Komponenten bereits zu kennen und ein breites Fundament an technischen
Know-how für die Herstellung der meisten Teile zu besitzen.
Ein Röntgensatellit für eine Mission wie XEUS oder XMM-Newton besteht aus zwei
Hauptkomponenten, dem Abbildungssystem und dem Detektorsystem. Da Röntgenstrahlen
mittels Linsen nur wenig bis gar nicht abgelenkt werden können, benutzt man zur
Fokussierung ein System von Spiegeln unter Ausnutzung der streifenden Bragg Reflektion.
Die Güte der Abbildung und damit des Satelliten hängt dabei von der effektiven
Sammelfläche der Spiegel ab, die aber wegen der streifenden und von der Photonenergie
abhängenden Reflexion nicht mit der Spiegelfläche gleichgesetzt werden darf (siehe auch
Anhang 7.2 Technologie und [19])
Um die fernen, teils sehr schwachen Quellen nicht nur entdecken, wie es mit XMM-Newton
erfolgt, sondern auch studieren zu können, ist es unabdingbar die effektive Sammelfläche des
Satelliten bei XEUS zu erhöhen. Diese beträgt bei XMM-Newton gerade mal 0,5m2 für den
Bereich um 1 keV und wird in den beiden für XEUS geplanten Stufen zuerst auf 6m 2, später
auf 30m2 erhöht werden. Dies macht eine Spiegelkonstruktion mit einen äußeren
Durchmesser von 4,5m bzw. 10m erforderlich, sowie eine Fokallänge von 50m für das
abbildende System. Bei XMM-Newton waren es nur 0,5m Durchmesser und 7,5m
Fokallänge. Durch diese Notwendigkeit ergibt sich von selbst die erste große Neuerung im
Konzept, nämlich Abbildungs- und Detektorsystem zu trennen und in zwei Satelliten
aufzuteilen, da ein geschlossenes Einsatellitensystem derartiger Länge von der Stabilität her
gesehen nicht zu gewährleisten ist. Die beiden Satelliten werden mittels innovativer
Telemetrie-Einrichtungen und eines aktiven Positionierungssystems stets mit einer
Genauigkeit von 100μm zueinander ausgerichtet sein. Außerdem erlaubt das
Positionierungssystem die Vereinigung der beiden Satelliten, welche dann an die
Internationale Raumstation ISS andocken zu können, wie es für die Erweiterung der Spiegel
nach ca. fünf Jahren vorgesehen ist. Allein die immensen Ausmaßen von XEUS lassen
ermessen, welche Erhöhung an gesammelten Daten zu erwarten ist im Vergleich zu früheren,
wesentlich kleineren Missionen (siehe auch [7]).
Um die Verbesserung der Optik ausnützen zu können, braucht man eine angepasste,
empfindliche und scharfauflösende Sensorik, die gleichzeitig robust gegen die extremen
Bedingungen im Weltall, z.B. Temperaturschwankungen, Einschlag von ionisierenden
Teilchen oder Minimeteoriten, etc., ist. Für Untersuchungen über die gesamte Sammelfläche
6
_______________________________________________________________________________________
und ein breites Energiespektrum haben sich im Bereich der Röntgenastronomie Pixel-ArrayCCD`s als Methode der Wahl herausgestellt. Sie bieten sowohl eine gute Auflösung bezüglich
des Ortes und der Energie als auch eine adequate Zeitauflösung, was besonders bei der
Untersuchung schnell feuernder Quellen von großer Bedeutung ist, denn nur so ist die
Trennbarkeit einzelner Photonen sicher gestellt, die für die spektrale Untersuchung nötig ist.
Die Zeitauflösung hängt hauptsächlich von der Auslesezeit des CCD`s ab und ist, neben der
Verfeinerung der Ortsauflösung, einer der Hauptbereiche der Optimierung bei der
Konstruktion der neuen Detektortechnik. Neben der Verbesserung der bisher verwendeten pnCCD`s befinden sich CCD`s in der Erprobung die auf dem neuen DEPFET-Prinzip (Depleted
Field Effekt Transistor) beruhen und noch weit größere Möglichkeiten bezüglich Zeit,
Effizienz und Rauscharmut bieten (siehe auch Anhang 7.2 Technologie und [7], [10], [16]).
Wegen der Modifikationen von Sammelfläche und Fokallänge muss die Detektorfläche
vergrößert werden, zugleich ist aber eine Verkleinerung der Pixelgröße notwendig, um die
Auflösung zu verbessern. Die Kantenlänge der Pixel wird von 150μm auf 75 μm
heruntergesetzt, wodurch die Fläche eines XEUS-Pixels nur ein Viertel der Größe der zur Zeit
bei XMM-Newton verwendeten haben wird. In Verbindung mit der nötigen Vergrößerung der
Gesamtfläche wird XEUS mehr als sechs Mal so viele Pixel besitzen als XMM-Newton, was
mit einen enormen Zuwachs an Datenerwarten lässt. Um das CCD trotzdem schnell auslesen
zu können, werden die Pixel in innovativer Weise zu einer aktiven Pixel Matrix verschaltet.
Dies ist ein neues Konzept bei dem der Ladungstransfer beim Auslesen des CCD`s, wie er bei
derzeitigen Technologien notwendig ist, entfällt, da jede Reihe separat ausgelesen werden
kann.
Vergleich XMM-Newton und XEUS
Energiebereich
Fokallänge
Winkel-/Ortsauflösung
Ortsauflösung in der Fokalebene
Sichtfeld
Sammelfläche bei 1keV
Sammelfläche bei 8keV
Arbeitstemperatur
Zeitauflöung für einen Rahmen
Pixelzahl des CCD-Detektors
XMM-Newton
XEUS
Aufgaben
0.1 bis 15keV
7.5 m
15 arcsec
30m
30 arcmin
0.5 m²
0.05 m²
130 bis 180 K
70 ms
384 x 400
Erhöhung der Schichtdicke von 300 auf 500 m
0.1 bis 20 keV
50 m
1 bis 2 arcsec
250m
Verkleinerung der Pixelfläche auf (75m)²
5 bis 10 arcmin Vergrößerung der Detektorfläche auf 7X7cm²
6 m², später 30 m²
3 m²
>180 K
Erhöhung der Arbeitstemperatur
1 bis 5 ms
Erhöhung der Auslesegeschwindigkeit
1024 x 1024
Tabelle1 Vergleich XMM-Newton/XEUS technologische Anforderungen (vgl. a. [10])
Zieht man nun die Pixelzahl von 1024 x1024, eine Auslesezeit im Mikrosekundenbereich und
eine 16-Bit-Analog-Digitalwandlung in Betracht, so lässt sich leicht berechnen, dass man
wahrscheinlich Datenraten der Dimension 1 Gigabyte pro Sekunde aus dem Detektor erhalten
wird. Bei XMM-Newton waren und sind die Datenraten mit etwa 10-20 KiloByte/s
wesentlich geringer. Die extreme Erhöhung der Rohdatenrate bei XEUS wird zum Problem,
da die Sendeleistung zur Erde, wegen der nur beschränkten Verfügbarkeit von Energie aus
den Sonnensegeln, stark begrenzt ist.
1.3 Problemstellung
Die Funkrate, die für den Transfer der Daten aus dem CCD vorgesehen ist, wird 50 Kilobyte
pro Sekunde kaum übersteigen, sie liegt also etwa 106 Größenordnungen niedriger als die
Rohdatenrate die mit etwa 1 GigaByte/s angesetzt wird . Man wird die Daten so verarbeiten
müssen, dass alles entfernt wird das nicht zur eigentlichen Information gehört. Die dann noch
übrigen Daten werden eventuell noch mal weiterbearbeitet werden müssen um das wichtigste
zu selektieren und lediglich das zu senden. Zudem muss man im Auge behalten, dass die für
7
_______________________________________________________________________________________
die Datenverarbeitung zur Verfügung stehende Zeit äußerst begrenzt ist, da das CCD in
Mikrosekundetakt Daten liefert. Zusammenfassend stellt sich das Problem so dar, dass eine
Möglichkeit gefunden werden muss eine Datenmenge in der Größenordnung von einem
Gigabyte/s in wenigen Mikrosekunden so zu verarbeiten, dass die informationstragenden
Muster herausselektiert und derart codiert werden, dass sie mit wenigen Kilobyte/s gesendet
werden können ohne dass dabei wesentliche Information verloren geht.
8
_______________________________________________________________________________________
2. Methoden
2.1 Herkömmliche Datenbearbeitungsmethoden
Für die Behandlung der Satellitendaten werden derzeit vor allem konventionelle Techniken
verwendet, Prozessoren, Spezialchips für besondere Rechenoperationen, Programme, die eine
serielle Verarbeitung steuern. In den Missionen vor XEUS erlaubte die geringere Datenmenge
Selektion und Verarbeitung auf der Erde durchzuführen. An Bord des Satelliten im Weltall
wurden nur einfache Vorverarbeitungsschritte durchgeführt, wie die Verwendung von Filtern,
Festlegung der Rauschschwellen, etc.. Die Behandlung der Daten auf der Erde hat den
Vorteil, dass man stets den aktuellen Stand der Technik nützen kann, da
Systemerweiterungen, sowie fortlaufende Wartungs- und Reparaturarbeiten, ohne
übertriebenen Aufwand, jederzeit möglich sind. Da bereits langjährige Erfahrungen mit
diesen Techniken bestehen, wird ihr Einsatz natürlich auch bei XEUS erwogen, auch deshalb,
weil man davon ausgeht, dass die Daten, wenn auch in Auflösung und Menge enorm
gesteigert, von der Struktur her denen, die derzeit, v.a. mit XMM-Newton, gewonnen werden,
ähnlich sind.
Ein Einsatz im All stellt jedoch extreme Anforderungen an die Technik, die bedacht werden
müssen. Starke Strahlung und Temperaturschwankungen beanspruchen alle Komponenten
sehr, doch eine Reparatur oder gar ein Austausch defekter Teile im All ist extrem teuer bis
unmöglich. Ein Datenverarbeitungssystem auf einem Satelliten muss deshalb besonders
robust, ausfallsicher und möglichst auch bei Ausfall einzelner Teile noch funktionsfähig sein.
Bei herkömmlicher Computertechnik ist das nur durch Einsatz redundanter Komponenten
erreichbar. Bei Weltraummissionen entsteht dabei durch die Begrenztheit der Ressourcen oft
ein Problem. Größe und Gewicht des Satelliten sind durch die Kapazität der Trägerrakete
festgelegt und somit nicht beliebig erweiterbar. Außerdem ist die Energie, die für den Betrieb
der elektronischen Einrichtungen bereitgestellt werden kann, durch den Wirkungsgrad der
Sonnensegel beschränkt. Derartige Randbedingungen führen dazu, dass redundante
Komponenten nur in begrenztem Maß eingesetzt werden können. Die absolut notwendigen
Tests der Ausrüstung stellen zudem schon jetzt klar, dass maximal Technik, die heute aktuell
ist, in 10 Jahren im Weltall zum Einsatz kommen kann und Hoffnungen noch
leistungsfähigerer Komponenten, die bis dahin vielleicht noch entwickelt werden, müßig sind.
Die Datenverarbeitung für XEUS stellt besonders hohe Anforderungen an die Schnelligkeit,
ein weiteres Problem beim Gebrauch serieller Technik. Wie bereits dargelegt, sind der
Beschleunigung von der Hardwareseite her starke Begrenzungen auferlegt. Eine schnellere
Bearbeitung muss demnach durch die verwendeten Algorithmen erreicht werden. Diese
hängen von den zu erledigenden Arbeiten ab. Neben gewöhnlichen Aufgaben der
Vorverarbeitung der Rohdaten, wie Abziehen der Rauschschwelle, Clustering und Korrektur
von Verfälschungen durch den Detektor und den Ausleseprozess, müssen bei XEUS sehr
komplexe Aufgaben erledigt werden. Zur Abtrennung des Hintergrundes muss erkannt
werden welche Muster zu diesem gehören und welche informationstragend sind. Dies wird
bei XEUS dadurch erschwert, dass die verkleinerte Pixelfläche Effekte wie die Aufspaltung
von Photonen, sogenannte Split-Photon-Events, begünstigt. Hierbei regt ein einfallendes
Röntgenquant nicht in einen einzigen Pixel des CCD`s die Entstehung von Ladung, mittels
der es detektierbar wird, an, sondern die Ladungserzeugung verteilt sich auf mehrere Pixel,
die dann jedes nur einen Bruchteil der Ladung anzeigen. Durch die Vielzahl und Diffusität der
Ladungsmuster wird die Aufgabe so sehr komplex. Da programmierte Algorithmen exakt
arbeiten, muss man genau spezifizieren welche Muster verworfen werden sollen. Dieser, trotz
Einführung von Konfidenzintervallen, harte Schnitt, führt oft zu erheblichem Verlust an
Information. Die nach der Entfernung des Hintergrunds und sonstiger Störeffekte, wie z.B.
9
_______________________________________________________________________________________
sogenannter „Bad Pixel“, die durch Strahlungsschäden oder Einschlag von Minimeteoriten
zerstört wurden, verbleibenden Muster müssen noch weiter verarbeitet und reduziert werden.
Hierzu bietet es sich beispielsweise an aus Pixelverbänden die durch Photonspaltung
entstanden sind, die Gesamtladung (korreliert mit der Energie des aufgetroffenen Photons)
und Einfallsort des eingefallenen Photons zu rekonstruieren und nur noch diese Informationen
zu senden. Gerade hier treten Schwierigkeiten zu Tage, da die Rekonstruktion von Ladung
und Lage bei vielen verschiedenen Mustern nicht trivial ist. Die derzeit beste Möglichkeit ist
eine Summation der Ladungen eines Pixelclusters, die über der Rauschschwelle liegen, zur
Ladungsrekonstruktion und die Berechnung der Ortskoordinaten über die Bestimmung des
Massenzentrums eventuell unter Einbeziehung einer vorher ermittelten Korrektur-Tabelle,
wie sie auch zu Vergleichszwecken hier verwendet wurden. Während sich die Ladung, wie
später noch gezeigt wird, mit der genannten Methode sehr gut rekonstruieren lässt - was nicht
erstaunt wenn man in Betracht zieht, dass Ladung nicht aus Nichts entstehen kann - weist die
Ortsbestimmung, trotz der aufwendig erstellten Korrekturtabellen Mängel auf. Ob die
konventionelle Verarbeitung mit der geforderten Zeitbegrenzung im Mikrosekundenbereich
Schritt halten kann, wird noch zu prüfen sein.
Trotzdem hat dieser Ansatz unbestreitbare Vorteile. Das Zustandekommen der Ergebnisse ist
jederzeit exakt nachvollziehbar und somit kann man auch eventuelle Berechnungsfehler
relativ schnell erkennen und beheben. Technisch sind die langen Erfahrungen positiv zu
vermerken, die man mit dieser Technik hat, wodurch Entwurf, Bau und Programmierung
effizient, kostengünstig und sicher durchgeführt werden können.
2.2 Konzept der Neuronalen Netze
2.2.1 Einführung, Vor und Nachteile
Einen alternativen Ansatz zum Umgang mit dem Datenverarbeitungsproblem bietet der
Einsatz Neuronaler Netze.
Neuronale Netze stellen den Versuch dar Strukturen und Fähigkeiten des menschlichen
Gehirns mit technischen Mitteln nachzuvollziehen. Dabei sollte man im Auge behalten, dass
technische Systeme keineswegs vollkommene Imitationen des lebenden Organismus sind. Es
gibt viele verschiedene Versuche die von der Informationsverarbeitung im menschlichen oder
tierischen Nervensystem abgeleiteten Grundkonzepte umzusetzen Diese sind jeweils für die
verschieden zu lösenden Probleme in Technik oder Forschung optimiert.
Das Gehirn besteht aus einen hochkomplexen Netzwerk einfacher Grundbausteine, der
Neuronen, auch Nervenzellen genannt. Die erstaunliche Leistungsfähigkeit des Menschen was
das Erkennen von Mustern, das Einordnen von auch unbekannten Ereignissen und Objekten
in Klassen, die Selektion wichtiger Information aus einer Menge ungeordneter Daten,etc.
betrifft, ist technisch unerreicht und beruht auf der Netzstruktur der Gehirnzellen, die eine
massiv parallele Verarbeitung von Information ermöglichen, sowie auf der Fähigkeit Struktur
und Parameter so zu modifizieren, dass ein Leben lang auch neue Informationen
berücksichtigt und genutzt werden können, was man gemeinhin Lernen nennt.
Die grundlegenden Konzepte die Neuronale Netze nutzen und die deren Besonderheit
ausmachen sind dementsprechend:
-einfache Grundbausteine,
-parallele und vernetze Struktur,
-Lernregeln zur Modifikation von Struktur und Parametern der Bausteine.
Konzepte die auf diesen Grundlagen aufbauen, haben sich als besonders schnell und
leistungsfähig in dem Bereichen Mustererkennung und –rekonstruktion, Klassifikation, und
assoziative Speicherung erwiesen.
10
_______________________________________________________________________________________
Durch die Parallelität der Bausteine ist die Funktion des Gesamtnetzes, wie durch
Untersuchungen bewiesen wurde, selbst bei Ausfall von über 25% der Grundbausteine noch
gegeben, zwar nicht mehr optimal, aber doch noch relativ gut (vgl. [2], Seite 27). Schon dies
allein ist ein immenser Vorteil bei Weltraumeinsätzen. Dadurch dass die Rechenoperationen,
die in den einzelnen Teilen durchgeführt werden müssen, sehr einfach sind - meist kommt
man mit Addition und Multiplikation aus - und gleichzeitig ausgeführt werden können, lassen
sich mit Neuronalen Netzen sehr große Verarbeitungsgeschwindigkeiten erreichen. Ein
weiterer Vorteil ist, dass zu Konstruktion und Optimierung eines Netzes die Kenntnis von
Beispielen der Daten genügt. Man muss nicht unbedingt die exakten Regeln kennen denen sie
folgen oder unterworfen werden sollen, wie etwa bei der Erstellung eines Programms.
Natürlich kann das auch zum Nachteil werden, wenn man keine ausreichende Menge an
Daten besitzt, oder diese zu wenig Informationen, also Variationen, enthält oder falls die für
das überwachte Lernen notwendige Vorklassifizierung der Trainingsdaten fehlerhaft ist.
Wegen der starken Abhängigkeit der Leistung des Netzwerkes von der Modellbildung anhand
der Daten in der Trainingsphase, ist es von größter Bedeutung hohe Sorgfalt bei der Auswahl
der Daten für die Lernphase walten zu lassen. Hat man einen Trainingsdatensatz mit den
richtigen Spezifikationen ausgewählt oder generiert (ausreichende Anzahl der Beispiele,
Repräsentativität dieser für die Gesamtmenge, ausreichende Varianz zusammen- gehörender
Muster untereinander,..), wird das trainierte Netz in der Lage sein, sowohl genau zuzuordnen,
als auch abweichende Beispiele zu behandeln, die in der Trainingsmenge nicht vorkamen und
somit generalisierungsfähig sein. Auf diese Weise ist es möglich, auch verrauschte,
unvollständige oder unbekannte Muster zu klassifizieren und/oder zu rekonstruieren und das
ohne komplizierte Berechnungen anstellen zu müssen.
Um die volle Leistungsfähigkeit und Schnelligkeit eines Neuronalen Netzes nützen zu
können, ist die Verwendung von neuronaler Hardware nötig, da eine Implementation in
Software verständlicherweise durch die serielle Abarbeitung in normalen Computern
behindert wird. Es existieren jedoch inzwischen eine Vielzahl von analogen und digitalen
Neuro-Chips, wodurch das Problem der Verfügbarkeit adäquater Hardware, das früher
bestand, besser gelöst ist.
Das Training des Netzes ist ein integraler Bestandteil bei der Konstruktion eines Neuronalen
Netzes und zugleich eine der Schwierigkeiten, da es relativ viel Zeit beansprucht und keine
eindeutigen Regeln für das Vorgehen dabei existieren. Das Lernen und Anpassen ist vielmehr
ein heuristischer Vorgang mit einer graduellen Annäherung an die beste Lösung. Auch die
Entscheidung welche als solche zu bezeichnen und wann sie erreicht ist, ist schwer zu treffen,
da die Lösungen, die das Netz findet, keinen auf den ersten Blick nachvollziehbaren
Berechnungen folgen. Die einzige Möglichkeit zu testen ob das Netz richtig arbeitet, bietet
die sogenannte Validierung Dies bedeutet. dass dem Netz eine unabhängige Menge von
Testdaten präsentiert und protokolliert wird, wie das Netz sie zuordnet. Der Haken an dieser
Methode ist, dass auch bei ihr die Ergebnisse von der Auswahl der Testmenge abhängen. Ist
diese schlecht ausgesucht, ist der Test wertlos. Wenn z.B. nur der Trainingsmenge und
einander sehr ähnliche Beispiele gewählt wurden, kann so ein Versuch keine Aussage darüber
machen, wie das Netz auf Abweichungen oder Ausreißer reagiert. Dies wäre jedoch oft die
wichtigere Information. Was bei Neuronalen Netzen zusätzlich irritiert, ist die Tatsache, dass
schon bei einfachen Beispielen nicht nachzuvollziehen ist wie und welche Lösung erreicht
wird. Es gibt nämlich nicht nur einen einziges, mögliches Ergebnis, sondern abhängig von
den Startvoraussetzungen verschiedene, durchaus gleichwertige. Dies macht das Konzept
vielen suspekt.
Für XEUS zieht man den Einsatz einer neuronalen Lösung besonders wegen ihrer
Schnelligkeit in Betracht. Man hat in der Hochenergiephysik bereits Erfahrungen mit einem
neuronalen Netzwerk-Trigger gemacht. Dort offenbarte sich bei einer ähnlichen Problematik
die erstaunliche Leistungsfähigkeit
dieser Methode. Bei Experimenten im
11
_______________________________________________________________________________________
Teilchenbeschleuniger fallen ähnlich hohe Datenraten an, wie man sie von XEUS erwartet
(im Bereich von GigaByte/s), und diese müssen, wie auch bei XEUS, in wenigen
Mikrosekunden verarbeitet werden. Die positiven Resultate, die sich beim Einsatz in der
Hochenergiephysik zeigten, geben Anlass zu großer Hoffnung.
Für die Problemstellungen bei XEUS bietet sich eine neuronale Lösung förmlich an, da
Mustererkennung, Klassifikation, Rekonstruktion und dadurch erfolgende Reduktion von
Daten genau in das Gebiet fallen, in dem die besonderen Stärken der Neuronalen Netze
liegen. Aus vorhergehenden Missionen hat man grundsätzliche Informationen über die
Struktur der zu erwartenden Daten und Wissen über die Detektorvorgänge. Das ermöglicht
die Generierung von Trainings- und Testdaten mittels Monte-Carlo-Simulation, ähnlich
denen, die man aus dem All erwarten kann, was den Einsatz einer datengetriebenen Methode
gestattet.
2.2.2 Multi-Layer-Perceptron und Back-Propagation-Algorithmus
Unter den Begriff Neuronale Netze fallen eine große Anzahl verschiedener Ansätze. Sie
unterschieden sich z.B. durch die Art der Vernetzung - hierarchisch oder vollverbunden,
rückgekoppelt oder nicht -, der des Lernens - überwacht oder nicht, Einsatz welcher
Lernregel, Auswahl der Bewertungsfunktionen, Lernparameter etc.- aus der Vielzahl der
Möglichkeiten gilt es die für XEUS passenden auszuwählen.
Eine fundamentale Entscheidung ist dabei die zwischen überwachtem und nicht überwachtem
Lernen, auch Lernen mit oder ohne Lehrer genannt. Beim Lernen mit Lehrer sind für die
Daten der Trainingsphase Aussagen über die erwünschte Ausgabe des Netzes vorhanden. In
der Lernphase wird aus diesen Eingangsdaten unter Verwendung der augenblicklichen
Netzparameter der Ausgabewert berechnet. Diesen vergleicht man mit der erwarteten
Ausgabe und ändert anschließend die Parameter derart, dass die Abweichung zwischen Sollund Ist-Wert der Ausgabe minimiert wird. Das unüberwachte Lernen erfolgt assoziativ. Da
keine zusätzlichen Informationen oder Vorgaben existieren, ändert jeder angelegte Datensatz
die Parameter in einer Weise, dass ähnliche Muster ähnliche Ausgaben ergeben, dies erfolgt
z.B. dadurch dass bei einer digitalen „on/off“ oder 1/0 - Repräsentation des Trainingsmuster
nur genau die Eingänge verstärkt werden, die im Muster auf „on“ bzw. 1 gesetzt sind. Auf
diese Weise bildet das fertigtrainierte Netz zusammengehörende, weil einander ähnliche
Eingabemuster in die gleiche Ausgabeklasse ab. Diese Ansatz ist selbstorganisierend. Das
Problem bei diesem Modells ist, dass es noch komplizierter ist zu überprüfen, ob das Netz
wirklich in der Weise funktioniert, wie man es sich erhofft. Da weniger Vorinformation über
die verwendeten Daten eingebracht wird, kann es leicht geschehen, dass eine Aufteilung der
Muster in Bereiche erfolgt, die nicht erwünscht ist, da das Netz bestrebt ist die größten
Gemeinsamkeiten der Daten zu finden. Diese müssen nicht unbedingt die sein, die die meiste
oder die interessierende Information tragen.
Weil man, wie bereits erwähnt, schon Informationen über die von XEUS zu erwartenden
Daten besitzt und auch Zielvorgaben darüber spezifiziert sind, was genau von der
Datenverarbeitung und -reduktion geleistet werden soll, fiel die Entscheidung zugunsten eines
überwacht lernenden Systems.
Das am häufigsten benutzte Konzept im Bereich „Lernen mit Lehrer“ ist das Mehr-LagenPerzeptron, besser bekannt unter dem Englischen Namen „Multi-Layer-Perceptron (MLP)“ Es
ist einfach, doch sehr erfolgreich. Es zählt zu den hierarchischen, vorwärtsgekoppelten
Netzen, d.h. die Struktur des Netzes legt fest, dass Information nur in eine Richtung, vom
Eingang zum Ausgang, bewegt wird. Das Multi-Layer-Perceptron besteht aus einer Lage
Eingangsknoten (Input Units), einer oder mehreren versteckten Lagen (Hidden units) und
einer Ausgangslage (Output Units). Das folgende Bild zeigt den Aufbau:
12
_______________________________________________________________________________________
Bild 2 Schema des Multi-Layer-Perceptron (Mehr-Lagen-Perzeptron)
Der Grundbaustein ist das Perzeptron, ein vereinfachtes Analogon einer menschlichen
Nervenzelle.
Bild 3 Menschliche Nervenzelle (biologisches Neuron)
13
_______________________________________________________________________________________
Bild4 Perzeptron-Modell (künstliches Neuron)
Die Eingänge (Inputs) des Perzeptrons werden mit Gewichten (Weights), deren Größe im
Lernprozess für das jeweilige Problem optimiert wird, multipliziert, ähnlich wie im
menschlichen Neuron die Menge der ausgeschütteten Neurotransmitter im synaptischen Spalt
den Beitrag eines eingehenden Impulses bestimmen. Die gewichteten Eingänge werden
aufsummiert. In der Nervenzelle überlagern sich die elektrischen Impulse, was der Addition
entspricht. Schließlich wird eine nichtlineare Funktion (Activation function) auf die Summe
angewandt, ähnlich dem Alles-oder-Nichts Gesetz, das bei der Reizweiterleitung im Neuron
nur dann ein Aktionspotential erzeugt und weiterschickt, wenn die Summe der Impulse eine
bestimmte Schwelle überschreitet. Auch beim Perzeptron wird oft eine einfache SprungFunktion verwendet, was einer scharfen Trennung in zwei Klassen entspricht, doch sind auch
andere Funktionen möglich. Beim Mehr-Lagen-Perzeptron wird - besonders in den
versteckten Lagen - oft die Sigmoid-Funktion statt der Sprung-Funktion verwendet, weil so
eine bessere Anpassung an komplexe Musterräume möglich wird, was vor allem bei nicht
exakt trennbaren Aufgaben und bei der Funktionsapproximation benötigt wird.
Bild 4 Übertragungsfunktionen (Bewertungsfunktionen)
14
_______________________________________________________________________________________
Das Lernen des Perzeptrons erfolgt durch Adaption. Ein Trainingsmuster wird an die
Eingangsknoten gelegt und mit den jeweiligen Gewichten multipliziert. Diese werden zu
Beginn mit einem Zufallswert zwischen 0 und 1 initialisiert und im Verlauf des Trainings
angepasst. Die gewichteten Eingänge werden summiert. Je nach Problemstellung wird auch
noch ein Schwellwert dazu gerechnet. Schließlich wird darauf die Sprung-Funktion (beim
klassischen Perzeptron, ansonsten sind rein theoretisch auch andere nichtlineare Funktionen
möglich) angewandt, die die Entscheidung trifft welcher Klasse das Muster bei dieser
Gewichtskonfiguration zugeordnet werden würde. Nun wird diese Ausgabe mit der erwarteten
verglichen. Stimmen sie überein, bleiben die Gewichte unverändert, divergieren sie, errechnet
man bei welcher Änderung der Gewichte die Zuordnung den richtigen Wert erhalten würde
und ändert sie entsprechend. Mit den Perzeptron ist aber lediglich eine Aufteilung in zwei
linear trennbare Klassen möglich. Linear trennbar bedeutet dabei, dass die Klassen in 2-D
durch eine Gerade, bzw. in höheren Dimensionen durch nur eine Hyperebene, getrennt
werden können. Ein Beispiel für ein mit dem Perzeptron trennbares Problem ist die ANDVerknüpfung, die eine Aufspaltung in zwei Klassen nach folgender Tabelle bewirkt.
x1 x2 y
0
0
1
1
0
1
0
1
0
0
0
1
Tabelle 2 AND-Verknüpfung
Bild 5 Musterraum und Perzeptronlösung der AND-Verknüpfung
Im 2-D Musterraum angeordnet sieht man deutlich die lineare Trennbarkeit durch eine
Gerade. Ein Perzeptron mit den Gewichten 1 für beide Eingänge und einer Sprung-Funktion
mit Sprung bei 1,5 bietet ein Lösungsmodell.
x1
0
0
1
1
x2
0
1
0
1
Σ
0
1
1
2
0 für  wi * xi  1.5
y
1 für  wi * xi  1.5
Tabelle 3 Gewichtete Summe mit Gewichten = 1 und Sprungfunktion für AND
15
_______________________________________________________________________________________
Der Perzeptron-Ansatz allein ist sehr beschränkt, Probleme , die nicht linear trennbar sind wie
das XOR-Problem erfordern eine Erweiterung des Modells. Auch wenn die XORVerknüpfung, wie die Tabelle zeigt, eine Aufspaltung in nur zwei Klassen vornimmt, sieht
man doch am Musterraum, dass diese in 2-D nicht linear trennbar sind, da zwei Geraden für
eine Aufteilung notwendig sind.
x1 x2 y
0
0
1
1
0
1
0
1
0
1
1
0
Tabelle 4 XOR-Verknüpfung
Bild 6 Musterraum der XOR-Verknüpfung
Die XOR-Verknüpfung ist also mit dem vorhergehenden Ansatz nicht sofort lösbar. Um
dennoch eine Lösung mit einem einfachen Perzeptron zu erzielen, gibt es verschiedene
Möglichkeiten, man kann z.B. durch weitere Eingänge (entspricht Mehrinformation) ein
neues Merkmal generieren, das bewirkt, dass Problem in einer höheren Dimension linear
trennbar wird, oder man kann eine kompliziertere Entscheidungsfunktion wählen. Beides
widerspricht allerdings dem neuronalen Konzept der Einfachheit der Grundkomponenten.
Eine zum neuronale Ansatz passende Lösung des Problems bietet die Verwendung mehrerer
Perzeptrone, das Konzept des Mehr-Lagen-Perzeptrons. Zur Lösung des XOR-Problems
benötigt man beispielsweise drei Perzeptrone aufgeteilt in zwei Lagen wie in Bild 7.
16
_______________________________________________________________________________________
Bild 7 MLP-Lösung für die XOR-Verknüpfung
Verwendete Sprungfunktion f
0 für  wi * xi  0.5
   y  1 für

w * x
i
i
 0.5
x1 x2 Σ1 f(Σ1)
0 0 0 0
0 1 1 1
1 0 -1 0
1 1 0 0
Tabelle 5 Perzeptron P1: Σ1 = -x1+x2
x1 x2 Σ2 f(Σ2)
0 0 0 0
0 1 -1 0
1 0 1 1
1 1 0 0
Tabelle 6 Perzeptron P2: Σ2 = x1-x2
f(Σ1) f(Σ2) y
0
0
0
1
0
1
0
1
1
0
0
0
Tabelle 7 Perzeptron P3: y = f(f(Σ1)+f(Σ2))
Wie man an obiger Lösung des XOR-Problems sieht, erhöht sich schon bei einfachen,
mehrlagigen Ansätzen die Zahl der anzupassenden Gewichte und die Abhängigkeit dieser
17
_______________________________________________________________________________________
untereinander und der Ausgabe von ihnen wird komplexer. Das einfache Perzeptron-Lernen
ist damit schnell überfordert.
Zum Lernen des Mehr-Lagen-Perzeptrons wird deshalb der Back-Propagation-Algorithmus
verwendet, der bei komplizierteren Topologien die Adaption der Gewichte besser ermöglicht.
Dabei wird je ein Trainingsdatensatz an die Eingangsknoten gelegt, der Ausgang berechnet,
mittels einer Fehlerfunktion die Abweichung vom bekannten, gewünschten Resultat
errechnet, und schließlich der Beitrag jedes einzelnen Gewichtes des Netzes zu diesen Fehler
zurückgerechnet und die Gewichte so verändert, dass der Endfehler minimiert wird. Dies wird
für alle Trainingsdaten und in mehreren Zyklen wiederholt und so nach und nach ein
optimales Ergebnis erreicht. Den Fortgang der Anpassung und die Güte des Netzwerkes
überprüft man dabei durch eine unabhängige Testmenge deren gewünschter Ausgang bekannt
ist. Das Ende des Trainings ist erreicht, wenn entweder eine bestimmte Anzahl von
Trainingszyklen durchlaufen wurde, oder ein bestimmtes Fehlermaß oder ein anderes vorher
festgelegtes Abbruchkriterium erreicht wurde.
Die Bestimmung der Parameter, wie Gewichte, Schwellwerte, Knotenzahl durch den BackPropagation-Algorithmus wird meist in Software durchgeführt, da die augenblicklichen
Hardware-Optionen (für die Gewichte werden z.B. EEPROM`s verwendet) ein derart
häufiges Ändern der Komponenten, wie es beim Training notwendig ist, nicht unterstützen
oder ohne Degradation ertragen.
Der Back-Propagation-Algorithmus zielt auf eine schrittweise Annäherung an die gewünschte
Lösung. Dies bedeutet beim MLP, die Gewichte des Netzes derart zu konfigurieren, dass eine
optimale Trennung, bzw. Rekonstruktion der Daten möglich ist, d.h. dass die Zahl der
Fehlzuordnungen minimal ist.
Für einen kurze Einführung in die Anwendung des Back-Propagation-Algorithmus beim
Mehr-Lagen-Perzeptron zuerst einige Festlegungen.
Bild 8 Lagen- und Knotenbezeichnung des MLP
Das Bild zeigt das Schema eines Mehr-Lagen-Perzeptrons Es gibt n Lagen. Jede Lage besitzt
eine Anzahl Knoten, diese variiert normalerweise von Lage zu Lage. Innerhalb einer Lage
verwenden wir jeweils die Laufvariable „i“ für den i-ten Knoten dieser Lage. Zwischen zwei
aufeinanderfolgenden Lagen k und k+1 befinden sich die Gewichte w, dabei bedeutet wij das
Gewicht der Verbindung zwischen dem Knoten j der Lage k und dem Knoten i der
darauffolgenden Lage k+1. Die Gesamtheit der im Knoten i der k+1 ten Lage eingehenden
Gewichte wird mit wik bezeichnet. Die Ausgabe x des Knotens i der k+1 ten Lage ergibt sich
dann als
xik 1  g
 w * x  ,
j
k
ij
k
j
18
_______________________________________________________________________________________
wobei j die Laufvariable der Knoten der vorhergehenden Lage k ist. g( )ist die
Übertragungsfunktion. Sie könnte wie beim Perzeptron eine Sprung-Funktion sein, meist
verwendet man aber die Sigmoid-Funktion, da diese den Vorteil hat, differenzierbar zu sein.
Da man beim Back-Propagation-Algorithmus ein Gradientenabstiegsverfahren zur
Optimierung benutzt ist die Differenzierbarkeit der Übertragungsfunktion eigentlich
unverzichtbar.
Die Durchführung des Algorithmus beginnt mit der Initialisierung der Gewichte auf einen
kleinen Wert zwischen 0 und 1. Hierzu wird meist, wie auch bei der hier verwendeten
Softwarelösung, ein Zufallszahlengenerator verwendet. Die von diesen erzeugten Zahlen
hängen, da es eigentlich ein Pseudo-Zufallszahlengenerator ist, von der Eingabe der „Seed“Zahl ab. Weil jedoch die Gewichtsanpassung auch von den Startwerten der Gewichte abhängt,
kann die Initialisierung durchaus Einfluss auf die Güte der Lösung haben. Aus diesem Grund
ist es immer ratsam bei Untersuchungen diesen Einfluss mitzuberücksichtigen. Nun wird aus
der Trainingsdatenmenge ein Mustervektor ausgewählt und an die Eingangsknoten gelegt.
Diese benutzen als Übertragungsfunktion die Identität, d. h. sie geben die Werte einfach
weiter, die Ausgangswerte xi1 entsprechen den Eingabewerten des Mustervektors. In den
folgenden Schichten wird dann die Ausgabe nach den oben genannten Formeln errechnet, bis
als Ausgang der letzten Lage die Werte yi ,bzw. der Ausgangsvektor y , erreicht ist. Für jedes
Muster existiert ein Vektor mit Angaben über die erwünschte Ausgabe
 
y  yi .
i
Mittels einer Fehlerfunktion bestimmt man die Abweichung der errechneten Ausgabe von der
erwünschten. Hier wurde die Formel:
2
1 l
E  *  yi  yi
2 i 1
verwendet. Ziel ist den so kalkulierten Fehler durch Veränderung der Gewichte zu
minimieren.
E
Es soll dabei:
 0 erreicht werden, für k=1,...,n-1, wenn n die Zahl der Lagen ist.
wijk


Da E über yi nicht-linear von wij abhängt, kann dieses Gleichungssystem im allgemeinen nur
iterativ durch Suche nach dem globalen Minimum gelöst werden. Um dieses zu erreichen,
werden die Gewichte wijk durch Addition des Faktor
wijk  
E
wijk
korrigiert.
E
 k gibt dabei die Abhängigkeit des Fehlers E vom jeweiligen Gewicht an.
wij
 nennt man den Lernparameter, seine Größe im Bereich 0..1, bestimmt die
Lerngeschwindigkeit, also die Schrittgröße des Abstieges in Richtung globales Minimum.
Von der richtigen Wahl von  hängt auch die Güte der Anpassung. Verwendet man ein  das
relativ groß ist, erfolgt ein schneller Abstieg, dies ist vor allem zu Beginn des Trainings von
Vorteil, da so Zeit gespart werden kann. Nähert sich die Anpassung aber einer Lösung, kann
es geschehen, dass durch einen zu großen Lernparameter diese gar nicht erreicht wird,
sondern dass der Algorithmus zu einer Oszillation der Gewichtswerte führt statt das Optimum
zu erreichen. Um dies zu vermeiden empfiehlt es sich mit Fortschreiten des Trainings den
Lernparameter  zu verkleinern. Eine weiteres Problem besteht darin, dass es oft nicht nur
ein globales Minimum gibt, sondern noch weitere, lokale Minima. Um zu vermeiden, dass der
19
_______________________________________________________________________________________
graduelle Abstieg in Richtung der optimalen Lösung in einem solchen stecken bleibt, führt
man einen weiteren Term in die Anpassungsregel ein, indem man die Größe der vorherigen
Gewichtsänderung, mit einem weiteren Lernparameter  gewichtet, einbezieht. Auf diese
Weise kann ein lokales Minimum überwunden werden.
Die optimale Anpassung eines Netzes hängt natürlich auch von der korrekten Wahl der
Knotenzahl in den versteckten Lagen ab, eine Größe die man durch Vergleichen ermitteln
muss.
Bild 9 Schematischer Ablauf des Back-Propagation-Algorithmus
Für das zu dieser Arbeit verwendete Software-Paket ROOT, einem C++ Framework das
besonders zur Datendarstellung und -bearbeitung in physikalischen Aufgaben entwickelt
wurde, war ein bereits in weiten Teilen verwendbares, programmiertes MLP vorhanden, bzw.
die objektorientierten Klassen dazu. Die verwendete Bibliotheksdatei NeuNet.cxx findet sich
im Anhang.
20
_______________________________________________________________________________________
3. Ergebnisse
3.1 Möglichkeiten
Nach der Entscheidung für das Multi-Layer-Perceptron, besteht der nächste Schritt darin, sich
klar zu werden welche Untersuchungen sich, abhängig von den vorhandenen Daten, anbieten
um die Chancen die ein neuronaler Ansatz bietet zu untersuchen.
Das Endziel ist, wie schon dargelegt, die Reduktion des Datenstroms. Zuerst ist deshalb zu
überprüfen wie gut ein Neuronales Netz Hintergrundereignisse von verwertbarer Information
trennen kann, denn dies stellt schon eine erhebliche Verringerung der Datenmenge dar. Zum
Hintergrund zählen z.B. hochenergetische Teilchen oder Ereignisse, die durch beschädigte
Pixel entstehen, auch Bad-Pixel-Ereignisse genannt. Diese entstehen beispielsweise, wie man
bei XMM-Newton gesehen hat, durch den Einschlag von Minimeteoriten. Als Hintergrund
sollen aber auch die Ereignisse verworfen werden bei denen keine eindeutige Information
über Energie und Lage der eingefallenen Photonen gewonnen werden kann. Ohne diese
Information kann eine sinnvolle Auswertung der Daten nicht stattfinden und so würden diese
Ereignisse nur Datenrate belegen ohne Nutzen zu bringen. Solche Ereignisse entstehen
einerseits dadurch, dass mehrere Photonen in so kurzen Abständen in einem Pixel eintreffen,
dass nur eine einzige, sehr große Ladung registriert werden kann oder aber, was der
wichtigere, weil häufigere, Fall ist, dadurch, dass zwei oder mehrere Photonen, die in nahe
beieinanderliegenden Pixeln eintreffen, ihre Energien über mehrere Pixel verteilen und sich
dabei überlagern. Diesen Effekt, dass die Energie eines einfallenden Photons Ladungen in
mehreren benachbarten Pixeln erzeugt, nennt man auch Shared-Pixel- oder Split-Photon
Effekt. Es ist besonders wichtig ihn bei XEUS zu berücksichtigen, da das Auftreten dieses
Effektes stark von der Pixelgrösse abhängt, d.h. je kleiner die Fläche pro Pixel, desto häufiger
wird ein Photon durch seine Energie Ladung in mehreren benachbarten Pixel erzeugen. Ein
Pixel wird bei XEUS nur noch ein Viertel so groß wie bei XMM-Newton sein und dadurch
werden bei XEUS also weit mehr Pixelcluster als bei XMM-Newton auftreten, also
Ereignisse an denen mehrere benachbarte Pixel beteiligt sind.
Bild 10 Vergleich der Pixelgröße bei XMM-Newton und XEUS mit einfallendem Photon
Würde man pauschal eine hohe Anzahl von solchen Ereignissen verwerfen, könnte man
natürlich eine sehr hohe Reduktionsrate erzielen, doch zugleich auch einen Großteil der
gewünschten Informationen verlieren. Es ist besser und effektiver schon an Bord des
Satelliten zu entscheiden welche Ereignisse zu den sie erzeugenden Photonen zurückverfolgt
werden können und welche zu stark interagieren um sie zu trennen. Rekonstruiert man aus
den als trennbar erkannten Pixelclustern anschließend die Photonen , d.h. Lage und Ladung
des eingefallenen Röntgenquants, braucht man statt der vielen Pixel nur noch diese Werte zu
senden, eine weitere Möglichkeit der Datenreduktion, bei der wichtige Information erhalten
bleibt.
21
_______________________________________________________________________________________
Demnach empfehlen sich folgende grundlegenden Untersuchungen zur Feststellung der
Fähigkeiten des Neuronalen Ansatzes:
•Trennbarkeit von Hintergrund und nichtverwertbaren Ereignissen von informationstragender
•Ermittlung der Anzahl der eingefallenen Photonen in Pixelclustern, die durch Shared-PixelEffekt entstanden sind
•Analyse der Möglichkeiten der Rekonstruktion von Lage und Ladung des/der eingefallenen
Photonen aus diesen Pixelclustern
Dabei ist auch jeweils die beste Netzlösung mit anderen Methoden zu vergleichen.
3.2 Verfügbare Daten
Ein Neuronales Netz kann immer nur so gut sein wie es die Trainingsdaten erlauben. Aus
diesem Grund ist die Auswahl und Aufbereitung der Daten, die für das Netzwerktraining
benutzt werden sollen, von äußerster Wichtigkeit.
3.2.1 XMM-Newton
Die ersten Datensätze, die für die Untersuchungen zur Verfügung standen, stammten aus dem
derzeit in Dienst stehenden Röntgensatelliten XMM-Newton. Da XEUS technologisch auf der
bei diesem Satelliten benutzen Technik aufbaut und ähnliche, wenn auch weit besser
aufgelöste, Rohdaten erwartet werden, boten die Daten von XMM-Newton eine gute
Möglichkeit für erste Tests, und um die notwendigen Werkzeuge in Software, zu entwerfen
und zu testen.
Die Daten waren vorverarbeitet, d.h. benachbarte Pixel zu Clustern zusammengefasst,
Rauschen entfernt, etc., sowie vorklassifiziert in Hintergrund und Information, auch Physik
genannt. Die Klassifikation erfolgte nach Anzahl und Anordnung der Pixel. Dabei wurden
alle Ereignisse bei denen mehr als vier Pixel „on“ waren automatisch dem Hintergrund zu
geordnet und auch alle die zwar vier oder weniger Pixel besaßen aber ein Muster aufwiesen
das nicht gültig war Dies ist eine sehr simple Klassifikation, doch sie wird bei der
Verarbeitung der XMM-Newton-Daten auch wirklich verwendet.
Gültige Muster:
0 0 0
0 x 0
0 0 0
0 0 0
0 x 1
0 0 0
0 1 0
0 x 1
0 0
0 1 1
0 x 1
0 0 0
x = Pixel mit der Maximalen Ladung, 1 = weitere Teilladung.
Auch alle Rotationen dieser Muster sind gültig.
Das Datenformat besteht aus einem Header mit Angaben zum Inhalt der einzelnen Spalten
und anschließender Tabelle, wie der folgende Auszug:
Each line represents one pixel "cluster".
The pixel containing the maximum charge is listed first.
Filter:
NHIT > 1
Columns:
1 - single chip ID (1 ... 12)
2 - frame number
3 - valid pattern flag (1-valid; 0-invalid; XMM SAS notion)
22
_______________________________________________________________________________________
4
5
6
7
8
-
pattern type (XMM)
number of pixels in "cluster" (NHIT)
column / x pixel number (1 .. 64)
row
/ y pixel number (1 .. 200)
charge (ADU; .. 4095)
6 .. 8 are repeated NHIT times
1
2 3
4
5
6
7
8
------------------------------------4
151 1
1
2 , 27 50 204 , 27 51
46
4
385 1
1
2 , 4 18 203 , 4 19
28
4
581 1
1
2 , 37 67 120 , 37 68
51
4
590 1
1
2 , 44 13
24 , 44 12
24
4
596 1
4
2 , 16 87 593 , 15 87
22
4
741 0 107 16 , 57 85
59 , 60 85
56 , 58 85
56 , 56 85
51 , 59 85
50 , 53 85
38 , 54 85
38 , 55 85
37 , 50 85
33 ,
60 86
32 , 52 85
32 , 51 85
30 , 57 86
22 , 58 86
20 , 58
84
20 , 56 86
20
4
741 1
1
2 , 41 85
58 , 41 86
26
4
742 0 113 22 , 6 14
87 , 6 13
77 , 6 12
76 , 6 15
73 , 6 17
63 , 6 16
58 , 6 19
57 , 6 18
55 , 6 20
55 ,
6 21
54 , 6 23
46 , 6 24
41 , 6 22
39 , 6 29
35 , 6 32
31 , 6 26
30 , 6 25
28 , 6 27
27 , 6 31
26 , 6 33
22 ,
6 28
22 , 6 30
20
4
1079 0
0
2 , 1 140 2303 , 1 139 1493
4
1270 1
4
2 , 38 65 190 , 37 65 115
4
1443 1
1
2 , 57 117
32 , 57 118
25
4
1452 1
1
2 , 13 12
32 , 13 13
31
Obwohl sich diese Daten für erste Versuche, gerade durch die Einfachheit ihrer
Klassifikation, durchaus eigneten, erlaubte der Mangel an noch vorhandener Information
keine komplexeren Untersuchungen. Vor allem die fehlenden Informationen über die
Photonen, die die Ladungen erzeugten, verhinderten dies.
3.2.2 Monte-Carlo-Simulation
Für die weiteren Versuche wurden Daten mit einer Monte-Carlo-Simulation (MC) generiert.
Dies erlaubte die Arbeit mit verschiedeneren Datensätzen. Auf diese Weise war es möglich
unterschiedliche Phänomene getrennt oder gleichzeitig zu untersuchen. Da auch die
Simulation einem Entwicklungsprozess unterliegt, änderte sich auch das Datenformat in dem
sie bereitgestellt wurden, was immer wieder Modifikationen an den Einleseroutinen
erforderlich machte.
Der erste (MC) Datensatz war noch mit der Pixelgröße von XMM-Newton ((150μm)2)
generiert. Die Daten enthielten nur Ein-Photon-Ereignisse und Hintergrund. Angegeben
waren die Klassifikation in gut/schlecht, der genaue Auftreffort des Photons als x/yKoordinaten, sowie ein 3 x 3 Gitter mit der Angabe der Ladungswerte des Pixels, zentriert auf
das Pixel des Clusters, das die höchste Ladung aufwies. Ein Beispiel zeigt folgender Auszug:
x
y
134.0725 135.0279
77.0269
212.0056
3 x 3-Gitter
-4.8346
57.3371
50.5059
4.2044
825.6799
669.6693
3.6954
1.8175
0.4650
39.2369
567.3036
-3.5525
62.8820
906.7276
-5.7191
-4.6688
-2.1987
3.3737
23
_______________________________________________________________________________________
Die folgenden Datensätze mit denen gearbeitet wurde, waren mit der Pixelgröße erzeugt, die
bei XEUS verwendet werden wird (75 μm)2,. Das hat natürlich Einfluss auf die Häufigkeit des
Auftretens von Shared-Pixel-Ereignissen. Zunächst gab es Datensätze, die nur Ein-PhotonEreignisse und Hintergrund zusammen mit verschiedenen Zusatzangaben enthielten. Die
Pixelinformation wurde hierbei wieder in einem 3 x 3 Gitter bereitgestellt und auf die höchste
Ladung
zentriert.
Die
zusätzlichen
Informationen
waren
in
wechselnden
Zusammensetzungen:
• Lage des eingefallenen Photons in x/y Koordinaten
• Ladung (entspricht der Energie des eingefallenen Photons)
• Randlage des Clusters oder ausgefallene Pixel (Werte im Gitter auf 0.00 gesetzt)
• Rauschen (mit Angabe der Rauschschwelle)
Das Format des Datensatzes ändert sich leicht je nachdem welche Informationen noch dabei
sind. Im folgenden ein Auszug aus einem typischen Datensatz:
P
x
y
Ladung
2
6.0719, 2.8211, 1619.9
2
2.2137, 16.7800, 1598.7
3
6.6930, 5.9724, 1620.3
4
13.1149, 1.7946, 1746.9
1
15.7863, 16.2375, 1591.2
3 x 3-Gitter
-2.3
-4.6
-0.7 914.5
10.6 646.4
0.8
10.6
-6.3 1455.9
2.9
1.7
-1.6
168.6
-1.1 1402.0
-0.2
-4.7
0.6
-7.0
1.3 858.5
-3.4 269.4
-4.8
8.3
7.6 1565.0
4.3
-0.6
1.0
24.3
13.2
-8.0
130.4
-10.1
3.7
34.1
-1.7
-5.2
473.3
147.9
-0.7
2.5
5.8
p steht dabei für die Anzahl der Pixel die über der Rauschschwelle liegen
Die Formatierung lässt die Muster deutlicher werden:
Datensätze, die auch Mehr-Photon-Ereignisse enthalten, liefern die Pixelcluster in einem 5 x 5
Gitter. Da sich Ereignisse bei denen sich mehr als zwei Photonen überlagern, kaum trennen
lassen, enthalten die Datensätze maximal die Angaben über die x/y Koordinaten und die
Ladung für zwei Photonen, d.h. fallen mehr als diese ein wird der Cluster dem Hintergrund
zugerechnet. Bei Ein-Photon-Ereignissen werden die Angaben zu x2, y2, c2 (=Ladung) auf 0.0
gesetzt. Im folgenden eine Beispiel dieser Datensätze:
P
x1
5 x 5-Gitter
2
4
0.1979
-3.5
-1.9
6.0
3.9
3.3
0.1109
6.8
3.0
9.4
-4.6
y1
0.2485
-3.1
-2.2
2.1
-2.4
4.5
0.0933
41.3
357.3
-1.5
-2.1
c1
x2
411.6 0.0000
2.5
4.4
26.1
379.7
0.1
400.6 0.2648
6.0
2.0
-2.9
1.3
y2
c2
0.0000
4.0
-0.7
3.8
13.1
3.4
0.2214
1.3
4.6
237.8
161.2
0.0
-4.0
-0.0
0.6
0.1
2.0
399.7
-12.9
2.2
5.1
2.7
24
_______________________________________________________________________________________
1
3
5
3.8
0.2718
-0.3
2.8
1.0
-2.6
-7.2
0.1235
-3.4
64.4
-0.8
-3.9
0.6
0.2173
-1.5
0.1
1.1
-1.8
0.5
-0.1
0.2671
1.6
-0.2
-2.8
-3.7
-0.3
0.1126
5.2
714.4
14.2
0.1
-6.3
0.2248
-1.7
6.4
13.0
361.3
3.0
-0.7
410.8 0.0000
-4.6
2.2
0.4
1.6
3.1
417.7 0.0885
-1.1
16.5
4.0
0.9
-1.1
420.4 0.1281
3.4
-0.1
155.0
171.7
-5.1
5.9
0.0000
4.4
5.7
-0.7
396.9
5.5
0.1220
-3.9
-4.8
-4.5
-0.1
-7.0
0.2517
1.3
-1.4
65.8
59.8
3.1
-6.7
0.0
0.3
4.8
-3.3
15.9
-8.4
398.5
1.1
3.7
-1.0
9.4
-5.8
406.2
-0.8
-0.9
0.4
-2.7
6.8
Wie man sieht sind die Datenformate immer wieder leicht variiert, da die notwendigen
Zusatzinformationen erst in Experiment ermittelt wurden. Die Einleseroutinen wurden aber
nicht nur an die unterschiedlichen Datenformate adaptiert, sondern ermöglichten es auch
verschiedene Normalisierungen der Gitterwerte (global/lokal) ohne großen Aufwand zu
testen.
3.3 Training und Resultate
3.3.1 XMM-Newton
Für die ersten Versuche und die Entwicklung der notwendigen Programme wurden die XMMNewton Daten verwendet. Die vorausgehende Datenanalyse ergab, dass die Klassifikation
fehlerhaft war. Nach den Angaben sollte die Zuordnung gut/schlecht nach den Kriterien
Anzahl der Pixel, Anordnung der Pixel und Randlage erfolgen, doch war dies nicht ganz
gelungen. Nachdem das kleine Problem behoben war, wurde beschlossen die Pixelcluster in
ein 5 x 5-Gitter einzupassen, da alle guten Ereignisse maximal 4 Pixel enthalten. Zur
Zentrierung des Gitters boten sich entweder die höchste Ladung oder das Massenzentrum an,
beides wurde getestet. Die Gitterlösung bietet sich an, da so ein konstante Anzahl von
Eingangsknoten gewährleistet werden kann, was die Mustererkennung verbessert, da so die
Zahl der Varianten kleiner gehalten werden kann. Die Werte im Gitter wurden zu Beginn auf
den maximal möglichen Ladungswert 4095 ADU (analog digital unit) normiert. Weil Cluster
bei denen der höchste Ladungswert am Rand des CCD`s liegt automatisch dem Hintergrund
zu gerechnet werden, da man nicht weis wie die Teile des Musters aussehen, die nicht
aufgezeichnet werden konnten, ist es notwendig zu den 25 Knoten, die die Ladungswerte aus
dem Gitter enthalten, noch weitere 4 zuzufügen um dem Netz auch Informationen zur Lage
des Pixelclusters auf dem CCD bereitzustellen. Der erste Versuch nutze hierzu die Angabe
der maximalen und minimalen x und y Koordinaten des 5 x 5-Gitters. Da die einzige mit
diesem Datensatz mögliche Klassifikation in der Erkennung von „guten“ Ereignissen bestand,
war ein Ausgangsknoten für die Entscheidung ausreichend. Für erste Untersuchungen dazu
wie viele Knoten in der versteckten Lage sinnvoll sind, wurden Trainings mit nur einem
Lernparameter, η =0.8, und ohne Momentumparameter μ getestet. Es zeigte sich dass bei
dieser einfachen Konfiguration von Daten und Parametern 15 Knoten das beste Ergebnis
lieferten.
25
_______________________________________________________________________________________
Bild 11 Lernkurve und Ausgabe mit 8 versteckten Knoten. Die Ausgabe zeigt die Zuordnung
zu Information (grau/blau = Training/Validierung) und Hintergrund (hellrot/rot =
Training/Validierung)
Bild 12 Lernkurve und Ausgabe mit 15 versteckten Knoten.
Bild 13 Lernkurve und Ausgabe mit 20 versteckten Knoten.
Wie ein Vergleich der Bilder zeigt ist der Lernerfolg, bzw. die Trennung für 15 Knoten die
Beste, bei ansonsten gleichen Parametern.
Es folgten Versuche mit Variationen der Zahl der Trainingszyklen (ein Zyklus bedeutet alle
Muster des Trainingsdatensatzes wurden einmal dargeboten), sowie des Seeds für den
Zufallszahlengenerator. Etwa 1000 Trainingszyklen erwiesen sich als besonders erfolgreich.
Mehr verbesserte das Endergebnis zwar etwas, doch im Verhältnis zum Mehraufwand an
Rechenzeit und –kapazität, erwiesen sich andere Methoden als erfolgreicher..
26
_______________________________________________________________________________________
Bild 14 Lernkurve und Ausgabe mit 15 versteckten Knoten und 5000 Trainingszyklen.
Der Einfluss der Wahl des Zufallszahlenausgangswertes für die Initialisierung zeigte sich
schon hier, was es ratsam erscheinen ließ auch in späteren Untersuchungen immer wieder
Stichproben mit verschiedenen Zahlen zu machen um die Lösung zu verbessern.
Bild 15 Ausgaben für verschiedene Seed-Werte
Ein allgemein bester Wert ist nicht ermittelbar, da Änderungen an anderen Parametern auch
Einfluss darauf haben welcher Wert die schnellste und beste Lösung liefert.
Ein weiterer Vergleich erfolgte zwischen den Resultaten die das Training lieferte wenn man
bei gleichen sonstigen Parametern das Gitter der 5 x 5 Werte statt auf die maximale Ladung
auf das Massenzentrum des Pixelclusters zentrierte. Die Tests zeigten, dass der Mehraufwand
dieser Berechnung keine besseren Ergebnisse brachte, teils war sogar eine Verschlechterung
zu sehen, da durch die Rechnungen und eventuelle Rundungen ähnliche aber nicht identische
Muster in stärker variierender Form in das Gitter eingepasst wurden.
27
_______________________________________________________________________________________
Bild 16 Lernkurve und Ausgabe mit 15 versteckten Knoten und Zentrierung auf das
Massenzentrum des jeweiligen Pixelclusters
Da anfangs die Erkennung von Ereignissen die Randlage aufwiesen nicht optimal war,
wurden bei den Gitterwerten, die außerhalb des CCD`s lagen (Randlage), nach der
Normierung die 0 mit denen sie aufgefüllt waren durch –1 ersetzt. Da dies ein Wert ist der
ansonsten nicht vorkam, verbesserten sich so die Klassifikationseigenschaften. Der Grund
hierfür ist einfach. Durch die globale Normierung auf den absoluten Maximalwert werden
kleine Werte bis auf die Nähe von 0 skaliert, wodurch Muster entstehen, die in normierter
Form den Ereignisse mit Randlage sehr ähnlich sind.
Bild 17 Ausgaben für –1 Randlage, 8 und 10 Knoten
Wie die Bilder zeigen verbessern sich die Ergebnisse mit –1 so, dass man mit weniger
versteckten Knoten auskommt.
Statt den Eingangsknoten die jeweiligen x/y Minimal-/Maximalwerten als Information
bezüglich der Lage und Ausdehnung eines Clusters zu geben, ist ein zweiter Ansatz in
booleschen Werten 1 und 0 anzugeben ob Randlage vorliegt und zusätzlich die Länge je in xund y-Richtung zuzuweisen. Dies ist eine Vereinfachung der Eingabewerte, da so die Anzahl
der möglichen Werte abnimmt ohne dass wichtige Information verloren geht. Die booleschen
Werte sind nur zwei und die Längenausdehnung der Cluster überschreitet selbst im
schlechtesten Fall kaum den Wert 20 Pixel, liegt aber meist im Bereich 2 bis 5, ein Vielfaches
weniger als die 200 mal 64 Pixel, die das CCD hat. Wie erwartet liefern diese einfacheren
Daten eine exaktere Klassifikation, da die Voraussetzungen für das Training simpler sind und
auch die Anzahl der benötigten versteckten Knoten kann auf 8 bis 10 gesenkt bleiben.
28
_______________________________________________________________________________________
Bild 18 Lernkurve und Ausgabe für 8 Knoten und boolesche Angaben
Bild 19 Lernkurve und Ausgabe für 10 Knoten und boolesche Angaben
Da die Versuche mit den XMM-Newton Daten besonders der Erstellung und Überprüfung
von Werkzeugen und Methoden dienten, bestand der nächste Schritt darin herauszufinden
welche Kombination von Lernparametern η,μ und einen Parameter fse (flat spot elemination,
ein Parameter zu Verringerung langer Plateaus der Lernkurve) besonders gute und schnelle
Lernerfolge bringt. Dabei ging es auch darum die Parameter schrittweise zu verringern um
eine passende Annäherung zu erreichen. Als sehr erfolgreicher Parametersatz für
verschiedene Kombinationen von Knoten- und Zyklenzahl erwies sich folgender, künftig
Standard-Parametersatz genannt:
Für η äquidistante Änderung in 10 Schritten :
0.9, 0.8, 0.7, 0.6, 0.5, 0.4, 0.3, 0.2, 0.15, 0.1
dazu ein fse-Parameter 0.03
und auch für μ äquidistante Änderung in 10 Schritten
0.6, 0.55, 0.5, 0.45, 0.4, 0.35, 0.3, 0.25, 0.2, 0.15
Weil verwertbare Muster bei den XMM-Newton Daten maximal 4 Pixel in einer
quadratischen Anordnung besitzen kann man statt einem 5 x 5 Gitter auch ein 3 x 3 Gitter
ausprobieren. Der Vorteil ist, dass man dann mit einer wesentlich geringeren Knotenzahl in
der Eingangs- und in der versteckten Lage auskommt und das Training deshalb auch einfacher
wird. 9 Eingangsknoten für die Gitterwerte plus 4 für Lage und Ausdehnung gibt 13 statt 29
und statt 15 versteckter Knoten reichen 8. Bei dieser Gittergröße wurde getestet wie sich eine
lokale Normierung auf das Training auswirkt. Das Gitter besaß im Zentrum wieder den
maximalen Ladungswert des Clusters. Die Werte der umgebenden 8 Pixel wurden nun jeweils
auf den augenblicklichen Maximalwert skaliert und nur diese auf den globalen Maximalwert
4095 ADU. Wie auch die Vereinfachung der Lage und Ausdehnungsangaben diente dies der
Verminderung der Unterschiede ähnlicher Muster. Dadurch konnten bereits mit 4 versteckten
Knoten ziemlich gut Resultate erzielt werden.
29
_______________________________________________________________________________________
Bild 20 Lernkurve und Ausgabe für 3x3-Gitter, 8 Knoten und globale Normierung.
Bild 21 Lernkurve und Ausgabe für 3x3-Gitter, 4 Knoten und lokale Normierung
Die Ausgaben sind im logarithmisch aufgetragen um zu verdeutlichen wie sich die
Erkenntnisleistung bei lokaler Normierung verbessert.
Die Ergebnisse der Arbeit mit den XMM-Newton Daten waren Programme, die als
Grundtypen auch als Werkzeuge zur Untersuchung der Simulationsdaten geeignet waren,
bzw. für diese adaptiert werden konnten, sowie Erkenntnisse über die Auswirkungen der
verschiedenen Normalisierungen, der Wahl des Seed-Wertes, der Zyklenzahl, sowie mehrere
Lernparametersätze, darunter der Standardparametersatz. Die gewonnenen Erfahrungen
bildeten die Grundlage der weiteren Versuche.
3.3.2 Monte-Carlo-Simulation
Wie bereits bei der Einführung der Daten erwähnt, wurden die ersten Simulationsdaten mit
der Pixelgröße der XMM-Newton Mission generiert, die das vierfache an Fläche aufweist wie
XEUS. Die Daten waren bereits als 3 x 3 Gitter, zentriert auf die Maximalladung,
bereitgestellt, und im Gegensatz zu den vorherigen Daten lieferte die Simulation auch
Aussagen über den genauen Einfallsort des Photons. Als Kriterium für die Zugehörigkeit zum
Hintergrund galten wieder die Randlage, sowie „Bad Pixel“, d.h. defekte Pixel. Diese waren
durch den Wert 0.0 gekennzeichnet, der sonst wegen des zugefügten Rauschens nicht auftrat.
Die Rauschschwelle war mit 28,5 ADU angegben. Die Normierung erfolgte global auf den
maximal möglichen Wert 2000. Wegen des gelieferten Datenformats reichten 9
Eingangsknoten aus. In den ersten Versuchen ging es um die Rekonstruktion des Ortes an
dem das ladungserzeugende Photon eingefallen war. Besonders im Fall von Split-PhotonEreignissen eine wichtige Aufgabe. Bei Verwendung des Standardparametersatzes, 1000
Zyklen und zwei Ausgangsknoten für x und y zeigt sich, dass bereits 4 versteckte Knoten eine
akzeptable Rekonstruktion ermöglichten. Das Ergebnis blieb jedoch etwas hinter den
30
_______________________________________________________________________________________
Erwartungen zurück. Als Gründe hierfür ergaben sich zum einen, dass die Anzahl der
Ereignisse in denen eine Aufspaltung der erzeugten Ladung über mehrere Pixel auftrat bei
dieser Pixelgröße relativ gering ist, so dass die Daten für das Training nicht ganz geeignet
waren und zum anderen, dass das Netz, da keine Vorselektion in Hintergrund und Information
erfolgt war, versuchte auch Ereignisse zu rekonstruieren, bei denen das gar nicht möglich war
weil sie zum Hintergrund gehörten. Waren die Daten so vorverarbeitet, dass dieser bereits
abgetrennt war, konnten die Resultate beträchtlich verbessert werden.
Bild 22 Abweichung der rekonstruierten x (links) und y (rechts) Koordinaten vom wahren
Wert. Blau=Trainingsdaten, Grau=Validierungsdaten, ohne vorherige Entfernung der
Hintergrund-Ereignisse
Bild 23 Abweichung der rekonstruierten x und y Koordinaten vom wahren Wert.
Blau=Trainingsdaten, Grau=Validierungsdaten, bei vorheriger Entfernung der HintergrundEreignisse
Die Bilder machen deutlich, dass eine Vorselektion auf sinnvolle, d.h. wirklich
rekonstruierbare Ereignisse eine klare Verbesserung bringt. Diese Vorselektion lässt sich auch
mittels eines Netzes lösen, doch wegen der Überprüfbarkeit und um Adaptionen in dieser
Selektion einfacher zu halten erfolgte sie innerhalb der Einleseroutinen data2input....C.
Die Abtrennung des Hintergrundes mit einem Netz mit nur einem Ausgangsknoten
funktioniert, wie angesichts der Einfachheit des Problems nicht anders zu erwarten,
reibungslos.
Bild 24 Ausgabe für als gut erkannte Ereignisse, vollständige Erkennung dieser
31
_______________________________________________________________________________________
Es stellt sich die Frage ob ein endgültiges Konzept eventuell eine hierarchische Verarbeitung
vorsehe sollte, bei dem ein Rekonstruktionsnetz auf ein Klassifikationsnetz folgt.
Die weiteren Daten hatten durch die Berücksichtigung der kleineren Pixel bei XEUS eine viel
höhere Anzahl an Split-Ereignissen, was die Ergebnisse verbesserte. Der erste Datensatz
ermöglichte dabei einen direkten Vergleich mit den vorhergehenden Resultaten, da bis auf die
geänderte Pixelgröße Simulation und Datenformat analog waren. Für eine perfekte Trennung
in Hintergrund und Information erwies es sich als sinnvoll aus den zur Verfügung stehenden
Daten einen Trainingsdatensatz auszuwählen der eine 1:1 Verteilung aufwies, da in den
eigentlichen Daten das Verhältnis Information zu Hintergrund mit 3:1 bestenfalls, sehr zu
ungunsten des Hintergrundes ausfällt. Ein starkes Ungleichgewicht führt aber leicht zu
Fehlern im Lernzyklus und damit zu Fehlklassifikationen.
Bild 25 Lernkurve und Ausgabe für Trennung von Hintergrund und Information bei 1:1
Verteilung im Trainingsdatensatz
Wie schon vorher zeigte sich auch hier, dass bereits eine Anzahl von 4 versteckten Knoten
eine gut Rekonstruktion der x/y Werte erbrachte, auch wenn das Ergebnis mit 10 Knoten
nochmals leicht verbessert wurde.
Bild 26 Abweichung der rekonstruierten x (links) und y (rechts) Koordinaten vom wahren
Wert. 4 Knoten, beachte die Auflösung der x-Achse!
32
_______________________________________________________________________________________
Bild 27 Abweichung der rekonstruierten x (links) und y (rechts) Koordinaten vom wahren
Wert. 4 Knoten, beachte die Auflösung der x-Achse!
Tests verschiedener Lernparametersätze ergaben, dass der standardmäßig verwendete die
besten Resultate erzielte.
Die weiteren Datensätze enthielten als zusätzliche Information die Gesamtladung, welche
auch rekonstruiert wurde. Diese Rekonstruktion erwies sich als sehr gut und einfach. Zum
einen wurde ein Netz mit 3 Ausgangsknoten für x, y und die Ladung ausprobiert, das bei 18
versteckten Knoten sein Optimum erreichte, zum anderen zwei einzelne Netze , eines zur
Rekonstruktion der Koordinaten und eines für die Ladung, die beide mit 10 Knoten
auskamen. Die Resultate erwiesen sich bei der Rekonstruktion von Ein-Photon-Ereignissen
als fast äquivalent, doch bei Clustern mit zwei Photonen zeigten sich die getrennten Netze als
erfolgreicher.
Bild 28 Vergleich der Abweichungen der rekonstruierten x Koordinaten vom wahren Wert,
links ein Netz, rechts zwei Netze für Ort und Ladung
Bild 29 Vergleich der Abweichungen der rekonstruierten y Koordinaten vom wahren Wert,
links ein Netz, rechts zwei Netze für Ort und Ladung
33
_______________________________________________________________________________________
Bild 30 Vergleich der Abweichungen der rekonstruierten Ladung vom wahren Wert, links ein
Netz, rechts zwei Netze für Ort und Ladung
Bis zu diesem Punkt ging es nur um die Verarbeitung von Ein-Photon-Ereignissen. Ein
größeres Problem bieten jedoch Cluster bei denen zwei oder mehr Photonen zeitlich und
räumlich sehr nahe beieinander einfielen und sich teilweise überlagerten. Die nächsten
Untersuchungen behandeln auch diesen Fall. Die von der Simulation gelieferten Daten
enthalten dabei zu Anfang lediglich Ladungswerte die zu der für Studien wichtigen
Eisenlinien gehören. Dies erleichtert die Lernprozedur, da die möglichen Ladungswerte nicht
sehr weit gestreut sind. Statt einem 3 x 3 Gitter wurden die Daten hierfür in einem 5 x 5 Gitter
bereitgestellt. Dies erhöht die Zahl der benötigten Knoten wieder. Orts- und
Ladungsrekonstruktion erfolgen getrennt. Die Resultate für die x- und y-Koordinaten fielen
schlechter aus als für den Fall von Ein-Photon-Ereignissen, dies liegt an der Erhöhung der
Zahl der möglichen Muster. Um diese etwas zu kontrollieren wurden die Daten so bearbeitet,
dass das links liegende Photon immer als Nummer eins gilt. Die Rekonstruktion erfolgt relativ
präzise, doch wegen der Beschränkung der Ladungswerte nur bedingt aussagekräftig.
Bild 31 Vergleich der Abweichungen der rekonstruierten x1 (links) und x2 (rechts)
Koordinaten vom wahren Wert. Beachte die Änderungen in der Skalierung der Ordinate
Bild 32 Vergleich der Abweichungen der rekonstruierten y1 (links) und y2 (rechts)
Koordinaten vom wahren Wert. Beachte die Änderungen in der Skalierung der Ordinate, die
34
_______________________________________________________________________________________
y-Werte werden schlechter rekonstruiert als die x-Werte, da sie größeren Variationen
unterliegen, da die Ordnung nach der x-Lage (am weitesten links) erfolgt.
Bild 33 Vergleich der Abweichungen der rekonstruierten Ladungen c1(links) und c2 (rechts)
vom wahren Wert.
Die letzten untersuchten Daten zeigen das volle Energiespektrum, sogar mit Berücksichtigung
von Detektoreffekten wie der verminderten Empfindlichkeit im Bereich sehr hoher Energien.
Nach der Durchführung der Standarduntersuchungen wie zuvor, wurde besonders das
Verhalten bei der Wiederherstellung des Ortes und der Gesamtladung von nicht trennbaren
Zwei-Photon-Ereignissen untersucht, da dies mit herkömmlichen Methoden besondere
Schwierigkeiten bereitet. Für die Koordinaten ergab sich die beste Rekonstruktion mit 15 bis
20 Knoten bei Verwendung von lokaler Normierung und des Standardparametersatzes bei
1000 Zyklen
Bild 34 Vergleich der Abweichungen der rekonstruierten x1-Koordinaten bei Verwendung
von 15 (links) und 20 (rechts)Knoten
Bild 35 Vergleich der Abweichungen der rekonstruierten x2-Koordinaten bei Verwendung
von 15 (links) und 20 (rechts)Knoten
35
_______________________________________________________________________________________
Bild 36 Vergleich der Abweichungen der rekonstruierten y1-Koordinaten bei Verwendung
von 15 (links) und 20 (rechts)Knoten
Bild 37 Vergleich der Abweichungen der rekonstruierten y2-Koordinaten bei Verwendung
von 15 (links) und 20 (rechts)Knoten
Das beste Ergebnis für die Ladung ergab sich bei Verwendung von lokaler Normierung, 10
versteckten Knoten und dem Standardparametersatz bei 1000 Zyklen.
Bild 38 Vergleich der Abweichungen der rekonstruierten Gesamtladung c1 bei Verwendung
von 15 (links) und 20 (rechts)Knoten
Bild 39 Vergleich der Abweichungen der rekonstruierten Gesamtladung c1 bei Verwendung
von 15 (links) und 20 (rechts)Knoten
36
_______________________________________________________________________________________
Die gesamten Untersuchungen erfolgten in Software. Die Ausgangsdaten wurden zuerst mit
einem Programm (data2input....C, Variationen für verschiedene Daten und Fragestellungen)
in einen Daten“tree“ gepackt, ein „tree“ ist ein Datenformat des ROOT-Frameworks in dem
die Programme ausgeführt wurden. Zugleich konnten in diesen Programmen die
Normalisierungen geändert und Vorselektionen durchgeführt werden. Bei Ausführung
generierte das Programm eine neue Datei deren Namen bei der Ausführung des Trainings mit
angegeben werden musste. Die Lernprozedur erfolgte mit dem Programm train.C. Neben der
genannten Datei konnten dabei, Knotenzahl der versteckten Lage, Seed-Werte, Zyklenzahl
und Parametersatz angegeben und geändert werden. Nach Ablauf des Trainings konnten mit
verschiedenen Evaluierungs- und Analyseprogrammen der Trainingserfolg sowie Vergleiche
mit anderen Methoden angezeigt werden. Wichtiger Code findet sich in Anhang.
37
_______________________________________________________________________________________
4. Diskussion
4.1 Vergleich mit herkömmlichen Methoden
Vergleicht man die Trennung von Hintergrund und Information für die XMM-Newton Daten
mit der Klassifikation, die derzeit zur Selektion dieser Daten verwendet wird, sieht man, dass,
wie nicht anders zu erwarten, die Resultate relativ gleich sind. Dies ist kein Wunder, denn die
Aufgabe und die Eigenschaften nach denen selektiert wurde, sind relativ trivial. Lediglich
Pixelzahl, Randlage des Musters und Anordnung der Pixel entscheiden über die
Zugehörigkeit eines Ereignisses zu einer beiden Möglichkeiten „Hintergrund“ oder
„Information“. Hierzu ein neuronales Netz zu verwenden ist etwas überdimensioniert, doch
waren das ja auch nur einführende Versuche.
Die Trennung von Hintergrund und Information wurde auch bei den Simulationsdaten sehr
gut erledigt, da die Klassifikation relativ einfach war. Die Spezifikationen für Hintergrund
waren Randlage des Clusters, Bad Pixel und Muster die von mehr als zwei Photonen erzeugt
wurden. Bei Verwendung eines kontinuierlichen Energiespektrums der Photonen ist die
Erkennungsrate etwas schlechter als bei den ladungsbegrenzten Anfangsbeispielen.
Die Bestimmung der Lage des eingefallenen Photons war mit dem Netz bis auf Genauigkeiten
innerhalb der einzelnen Pixel möglich. Für Versuche bei denen nur die Koordinaten von EinPhoton-Ereignissen rekonstruiert wurden, waren die Resultate besser als für Tests bei denen
zwei Photonen rückermittelt wurden. Dies hängt damit zusammen, dass es bei zwei Photonen
die relative Lage zueinander eine Rolle spielt und durch das größere Gitter das verwendet
werden muss eine größere Anzahl von Variationen der Eingangsmuster vorhanden sind. Dies
verbessert zwar die Generalisierungsfähigkeiten des Systems, doch vermindert es unter
Umständen die Genauigkeit. Trotzdem ist die Leistung des Netzes in allen Fällen den
alternativen Berechnungen überlegen. Die konventionelle Berechnung besteht aus der
Ermittlung des Massenzentrums, wobei zur Verbesserung des Ergebnisses nach eine
Korrekturtabelle mit eingerechnet wird.
Bild 40 Vergleich der Abweichungen der rekonstruierten x und y Koordinaten, Netzlösung,
Massenzentrum, Massenzentrum unter Berücksichtigung einer Korrekturtabelle
(Repräsentative Abbildung)
38
_______________________________________________________________________________________
Bild 41 Abweichungen im Bezug auf die Lage des eingefallenen Photons, d.h. Pixellänge
entspricht 1. Oben die Werte für Massenzentrumsrekonstruktion (rot )gegen Netzlösung
(grau/blau), unten Massenzentrumsrekonstruktion mit Korrekturtabelle. Man sieht, dass
besonders wenn das Photon sehr zentral im Pixel eingefallen ist und sich aufgespalten hat das
Netz eine bessere Lagerekonstruktion liefert (Repräsentative Abbildung).
Die Ladungsrekonstruktion die das Netz liefert wird mit der augenblicklich gebräuchlichen
Summationsmethode verglichen. Hierbei werden einfach die Werte der Pixel eines Clusters
addiert, die über der vorher definierten Rauschschwelle liegen. In diesem Fall sind sich beide
Methoden weitgehend ebenbürtig, wobei man allerdings bedenken sollte dass das Netz
zugleich auch noch die Anzahl der Photonen ermittelt.
Bild 42 Abweichungen der rekonstruierten Ladung von der wahren. Oben Rekonstruktion mit
Summationsmethode, unten Netzlösung. Die Netzlösung ist dabei noch etwas besser, wie man
daran sieht, dass die Pyramide etwas höher und schmaler ist (Repräsentative Abbildung).
Im einzelnen Vergleich zu den einzelnen konventionellen Methoden mag der Vorteil des
neuronalen Ansatzes nicht sehr groß und beeindruckend aussehen, doch überlegt man welche
39
_______________________________________________________________________________________
kombinierten Möglichkeiten die Methode bietet, so wird Nutzen des Konzeptes deutlich. All
die einzelnen Fähigkeiten können in einem, einfachen Plan integriert werden.
4.2 Ausblick auf weitere Entwicklungsmöglichkeiten
Die bisherigen Untersuchungen haben gezeigt, dass die Verwendung von Neuronalen Netzen
mindestens ebenso gute, wenn nicht bessere Ergebnisse liefert wie die Vergleichsmethoden.
Die Versuche die durchgeführt wurden, zielten darauf ab zu klären ob sich ein neuronaler
Ansatz überhaupt lohnt und welche Art von Problemen sich damit behandeln lassen, sowie
die Frage wie ein entsprechendes Netz topologisch und von den Parametern her gesehen
konfiguriert werden muss um ein möglichst gutes Ergebnis zu liefern. Die analysierten
Beispiele waren grundsätzlicher Art. Nachdem nun diese Versuche erfolgreich abgeschlossen
wurden, gilt es darauf aufbauend durch weiterführende Tests und Entwicklung ein
vollständiges Konzept aus Software und Hardware zu schaffen.
Nachdem die Tests im Augenblick ausschließlich mit Daten aus Monte-Carlo-Simulationen
gemacht wurden wird es notwendig sein später auch Kontrolluntersuchungen mit realen
Datensätzen zu machen. Da sich aber das CCD noch in Entwicklung befindet und Tests der
Detektortechnik im Teilchenbeschleuniger noch nicht durchgeführt werden konnten, wird dies
erst zu einem späteren Zeitpunkt machbar sein.
Die Entscheidung wie viel und welche Vorverarbeitung vor der Einspeisung der Daten in das
Neuronale Netz nötig und sinnvoll ist, muss ebenfalls noch getroffen werden. Dazu sind
einerseits weitere Tests mit verschieden stark bearbeiteten Daten erforderlich, andererseits
auch noch mehr Wissen über das Verhalten des realen CCD`s um auch den Ausgleich
eventueller Detektorschwächen in das System integrieren zu können.
Wie in dieser Arbeit geprüft wurde, gibt es für die einzelnen Probleme, Hintergrund
Entfernung, Photon Trennung und Rekonstruktion eine Netzlösung die den
Vergleichsverfahren gleichwertig , meist sogar überlegen ist. Für ein einsatzfähiges Konzept
gilt es diese Einzellösungen in ein Gehsamtkonzept zu integrieren. Es hat sich gezeigt, dass
besonders die Rekonstruktion ihre volle Leistungsfähigkeit erst dann entfalten kann, wenn die
Eingangsdaten so vorselektiert wurden, dass nur sinnvolle Ereignisse dargeboten werden,
sprich Ereignisse, die wirklich auf dem Einfall von ein oder zwei Photonen beruhen. Dies
bringt die Frage auf wie sich eine derartige Vorselektion bewerkstelligen lässt. Eine
Möglichkeit bietet eine Art hierarchisches Netz, indem eine eigene Netzkomponente zuerst
die ungültigen Ereignisse erkennt und verwirft und anschließend in einer zweiten
Komponente die verbliebenen Daten rekonstruiert und somit nochmals reduziert werden. Bei
den Untersuchungen zu dieser Arbeit wurde diese Ansatz verwendet, wobei allerdings bei den
Netztrainings zur Rekonstruktion das vorausgehende Klassifikationsnetz mittels einer
Einleseroutine simuliert wurde.
40
_______________________________________________________________________________________
Bild 43 Ablaufdiagramm für verwendete hierarchische Lösung
Ein anderer Ansatz wäre die beiden Netze (Klassifikation und Rekonstruktion) parallel zu
schalten und in einem Komparator die rekonstruierten Daten zu verwerfen, die vom zweiten
Netz als nutzlos Klassifiziert wurden. Dieser Ansatz würde natürlich der Neuronalen Idee von
möglichst großer Parallelität der Verarbeitung weit mehr entsprechen. Der Entschluss welche
System man wählen wird hängt dabei aber auch davon ab auf welche Weise sich die Konzepte
umsetzen lassen und wie es um Schnelligkeit und Resultate bestellt ist. Dies erfordert noch
ausführliche Studien und auch Tests in Hardware.
Wenn die Tests in Software und die konzeptionelle Entscheidung abgeschlossen sind steht,
wird man die Realisierung in Hardware angehen. Derzeit sind eine Vielzahl von
kommerziellen und nicht-kommerziellen Neuro-Chips auf dem Markt. Es gibt dabei sowohl
analoge als auch digitale Modelle so dass die Auswahl ausführliche Vergleiche ratsam
erscheinen lässt. Die besonderen Anforderungen für einen Einsatz im Weltall müssen dürfen
dabei keinesfalls vernachlässigt werden, wie z.B. geringer Energieverbrauch, Robustheit
gegen Strahlung und Kompatibilität mit den anderen Systemen. Dies könnte eventuell eine
eigene Chipentwicklung geraten sein lassen, z.B. aufbauend auf dem CYNAPS-Chip der in
der Hochenergiephysik verwendet wurde.
Zur Überprüfung der Funktionsfähigkeit des Systems und um die Qualität der Klassifikation,
Rekonstruktion und Selektion sicherzustellen benötigt man des weiteren ein Speicherkonzept,
das es ermöglicht immer wieder Stichproben von Rohdaten zu archivieren um sie in Zeiten
geringer Auslastung zur Erde Funken zu können damit dort durch Vergleiche Fehlfunktionen
und Schäden rechtzeitig erkannt und behandelt werden können, z.B. durch Einrechnung von
Korrekturwerten in der Analyse oder Ähnliches.
Auch die Umsetzung in Hardware wird umfangreiche Tests erfordern und weitere
Verbesserungen hinsichtlich der Effizienz und Schnelligkeit bringen, da man erst in
geeigneter Hardware das volle Potential eines Neuronalen Netzes ausschöpfen kann.
41
_______________________________________________________________________________________
5.Zusammenfassung
Um weitreichende, neue Erkenntnisse über die Entstehung und Entwicklung unseres
Universums zu gewinnen, plant die Europäische Raumfahrtorganisation ESA eine innovative
und überaus leistungsfähige neue Weltraummission namens XEUS. Diese wird sich mit der
Untersuchung sehr weit entfernter und extrem schwacher Röntgenquellen aus der Frühzeit des
Weltalls beschäftigen. Zu diesen Quellen zählen beispielsweise die ersten schwarzen Löcher.
Um die interessierenden Objekte studieren zu können, ist eine hohe Empfindlichkeit der
Sensorik nötig, da die Strahlung wegen der großen Entfernung der Objekte sehr schwach ist.
Die Feinheit der Detektortechnik hat jedoch den unvermeidlichen Nachteil, dass nähere,
stärkere Quellen, die im selben Spektrum senden, die aufgenommene Datenrate stark erhöhen.
Da die für die Datenübertragung zur Verfügung stehende Energie durch die Kapazitäten der
Sonnensegel und der Energiespeichermedien begrenzt ist, entsteht durch die enorme
Steigerung der Menge an detektierten Daten ein Problem. Es ist unmöglich die gesamten
Informationen so relativ gering vorverarbeitet zu übertragen, wie es in bisherigen Missionen
getan wurde und wird. Man benötigt neue leistungsfähige Verarbeitungs- und
Selektionsmöglichkeiten um bereits im All eine radikale Reduktion der Datenmenge zu
ermöglichen, wie sie derzeit erst bei der Auswertung der Informationen auf der Erde erfolgt.
Man überlegt Neuronalen Netze zur Datenverarbeitung und Reduktion einzusetzen. Gründe
dafür sind Schnelligkeit, Ausfallsicherheit und Generalisierungsfähigkeit, die es erlaubt auch
etwas von den Erwartungen abweichende Informationen noch bestmöglich einzuordnen, die
diese bieten. Da ein derartiges Konzept in diesem Zusammenhang bisher noch nicht
eingesetzt wurde, ist eine detaillierte Untersuchung darüber notwendig, was es zu leisten
vermag und wie die Leistungen im Vergleich zum herkömmlichen Vorgehen einzuordnen
sind.
Die zu bearbeitenden Daten wird ein CCD-Pixel-Array liefern, das bei XEUS als RöntgenDetektor eingesetzt wird. Dieses registriert jedes einzelne, eingefallene Photon bezüglich
Energie und Lage. Die Auslesezeit liegt im Bereich von wenigen Mikrosekunden, was eine
ebenso schnelle Behandlung verlangt. Nur so kann die Trennbarkeit einzelner Photonen
sichergestellt werden. Die grundlegenden Untersuchungen, die im Rahmen dieser Arbeit
angestellt wurden, zielten vor allem darauf ab die Fähigkeiten optimierter Netze zu testen
durch Erkennung und Klassifizierung interessante und informationstragende Photonereignisse
von Hintergrundeinflüssen, Detektorfehlern und unverwertbaren Ereignissen zu trennen,
sowie aus Ereignissen bei denen ein oder mehrere Photonen ihre Energie statt auf ein Pixel
auf mehrere verteilen und überlagern das/die Photon/en bezüglich Lage und Ladung zu
rekonstruieren. Letzteres lässt sich für eine Reduktion der Daten nützen, indem man statt
Information zu 25 oder mehr Pixeln lediglich Lage und Energie der erzeugenden Photonen
überträgt.
Für die Untersuchungen wurde ein Mehr-Lagen-Perzeptron Modell verwendet. Das ist ein
hierarchisches, vorwärtsgekoppeltes Netz, das überwacht durch Fehlerminimierung lernt. Es
wurde der Back-Propagation-Algorithmus, ein Gradientenabstiegsverfahren als Lernregel
angewandt um die optimalen Netzparameter zu ermitteln. Dieser wurde in Software
implementiert und benutzt.
Die Ergebnisse zeigen, dass der neuronale Ansatz mindestens gleichgute , meist jedoch
bessere Resultate liefert wie vergleichbare, einfache Berechnungen in serieller Technik. Der
Einsatz von Neuronalen Netzen ist erfolgversprechend und weitere Untersuchungen
besonders auch im Hinblick auf eine Umsetzung in Hardware ratsam.
Da sich viele weitere Komponenten der XEUS-Mission noch in Entwicklung befinden, sind
noch keine endgültigen Entscheidungen über Rohdatenformat aus dem CCD und
Vorverarbeitungsprozeduren, die sich besser oder schneller durch Hardwareprozessoren
42
_______________________________________________________________________________________
abdecken lassen, getroffen. Weitere Tests werden sich demnach damit beschäftigen müssen,
welche Schritte vor der Einspeisung der Daten in das Netz, sowie welches Datenformat
sinnvoll ist um die Leistungsfähigkeit des Netzes hinsichtlich Effizienz und Schnelligkeit
bestmöglich auszunützen. Zur Optimierung der Effizienz müssen auch Tests in Hardware
erfolgen. Dabei gilt es unter der Vielzahl der Hardwareansätze den richtigen Neuro-Chip zu
wählen oder aufbauend auf vorhandenem Wissen einen maßgeschneiderten zu entwickeln.
43
_______________________________________________________________________________________
6.Literaturverzeichnis
[1] Beale, R. / Jackson, T.: Neural Computing: An Introduction. Bristol, Philadelphia, New
York: Adam Hilger 1990
[2] Berns, K. / Kolb, T.: Neuronale Netze für technische Anwendungen. Berlin, Heidelberg,
New York: Springer Verlag 1994
[3] Engel, Stefan / Woitzik, Andreas (Hrsg.): Die Diplomarbeit. Stuttgart: Schäffer-Pöschel
1997
[4] ESA Science: About XEUS, http://sci.esa.int/content/doc/de/2526_.htm
[5] Herder Lexikon Weltraumphysik: 2. Auflage, Freiburg, Basel, Wien, Herder 1980
[6] Hoffmann, N.: Kleines Handbuch Neuronale Netze. Braunschweig, Wiesbaden: Vieweg
1993
[7] Holl P. et al.: Active Pixel Matrix for X-Ray Satellite-Missions, IEEE, Transactions on
Nuclear Science, Vol 47, No. 4, Aug 2000; www.hll.mpg.de/publications
[8] Kiesling, C.: Neuronale Netze und Parallel Processing, Vorlesungsskript, WS 2001/2002
[9] Kratzer, K.: Neuronale Netze. 2. durchgesehene Auflage, München: Hanser 1993
[10]
Lutz
G.:
Silicon
Pixel-Detectors
ltp.web.psi.ch/VERTEX2001/slides/lutz.pdf
for
X-Ray
Astronomy
(Folien),
[11] Max-Planck-Institut für Physik, Werner-Heisenberg-Institut, Jahresbericht 2000,
München
[12] Max-Planck-Institut für extraterrestrische Physik, Jahresbericht 2000, München
[13] Root Manual, http://root.cern.ch/root/RootDoc.html
[14] Schäfer, H.: Elektromagnetische Strahlung--Information aus dem Weltall. Braunschweig,
Wiesbaden: Vieweg 1985
[15] Sexl, R. und H.: Weiße Zwerge-Schwarze Löcher. 2. erweiterte Auflage, Braunschweig,
Wiesbaden: Vieweg 1990
[16] Strüder.L. et al.: Imaging Spectrometers
http://www.hll.mpg.de/publications/2001/spie01a.pdf
for
future
X-Ray
Missions,
[17] Swingler, Kevin: Applying Neural Networks, A Practical Guide. London: Academic
Press 1996
[18] X-Ray Evolving Universe Spectroscopy, The XEUS Science Case,
http://astro.esa.int/SA-general/Projects/XEUS7mission/mission-04.htm, ESA SP-1253
44
_______________________________________________________________________________________
[19] X-Ray Evolving Universe Spectroscopy, The XEUS Telescope, http://astro.esa.int/SAgeneral/Projects/XEUS7mission/mission-04.htm, ESA SP-1238
[20] X-Ray Evolving Universe Spectroscopy, The XEUS Mission Summary,
http://astro.esa.int/SA-general/Projects/XEUS7mission/mission-04.htm, ESA SP-1242
45
_______________________________________________________________________________________
7.Anhang
7.1 Astrophysik
Bild 44 Entwicklungsstadien des Universums und Missionen zur Frühzeit(s.a. [4])
In Bild 44 sieht man eine grobe Übersicht über die Entwicklung des Universums und
derzeitige oder geplante Forschungsziele und Missionen. Neben XEUS, einer Mission, die
sich mit Untersuchungen im Röntgenspektralbereich beschäftigt, sieht man noch NGST,
FIRST und Planck, die sich mit der Erforschung anderer Teile des elektro-magnetischen
Spektrums beschäftigen. Obwohl alle vier Missionen darauf abzielen neue Informationen über
das sogenannte „dunkle“ Zeitalter (Dark Age), des Universums zu sammeln, über das bisher
nur Theorien existieren, ist XEUS die einzige, die sich dabei mit den Vorgängen und
Objekten, die aus „heißer“, d.h. besonders energiereicher Materie resultieren, beschäftigt.
Dabei geht es vor allem um sehr frühe und sehr große Schwarze Löcher über die erst wenig
bekannt oder bewiesen ist. Da man jedoch glaubt, dass sie starken Einfluss auf die Entstehung
schwerer Elemente und die Galaxieentwicklung hatten und evtl. noch haben, besteht ein
großes Interesse daran mehr über sie zu erfahren (s.a. [4], [18]).
46
_______________________________________________________________________________________
Bild 45 Übersicht zur gegenwärtigen Theorie zur Evolution des Universums [18]
DM: Dark Matter = Dunkle Materie
Baryonen: Schwere Elementarteilchen wie Protonen und Neutronen
MBH: Massive Black Holes = Sehr große Schwarze Löcher
IGM: Intergalactical Matter = Materie zwischen Galaxien
ICM: Intercluster Matter = Materie zwischen Clustern von z.B. Galaxien
Rotverschiebung (Redshift) wird zur Berechnung des Alters astrophysikalischer Objekte
benutzt
Die Theorie ([4] und [18]) geht davon aus, dass das Weltall sich nach dem Urknall
auszubreiten begann. Die Materie bestehend aus Elementarteilchen sowie Wasserstoff und
Helium verteilte sich dabei jedoch nicht gleichmäßig. Sie begann sich um
47
_______________________________________________________________________________________
Kondensationskeime zu sammeln und nichtlinear zu wachsen. Ab einer gewissen Masse
begannen entstandene Strukturen zu kollabieren, dann wenn sie so groß wurden, dass die
Abstoßungskräfte, z.B. durch Ladungen, die den Kollaps entgegenwirkten, kleiner als die
Gravitationskräfte die durch die Massenansammlung entstanden und eine immer dichtere
Zusammenballung bewirkten, wurden. In Fällen wo bei diesem Vorgang eine Abkühlung der
Materie durch Energieabgabe an umgebenden Staub oder Moleküle möglich war, konnten
Sterne entstehen. Auf die gleiche Weise erfolgt die Sternenformation auch heute noch. War
Abkühlung jedoch nicht möglich, und man geht davon aus, dass das in der Frühzeit des
Universums oft der Fall war, da noch kaum Moleküle oder sonstige größere Teilchen
existierten, die die überschüssige Energie hätten aufnehmen können, explodierten kleinere
Ansammlungen nach dem Kollaps bald wieder, während größere zu gigantischen Schwarzen
Löchern wurden. Diesen sehr großen und massiven Schwarzen Löchern schreibt man großen
Einfluss auf die Entstehung schwerer Elemente und die Ausformung anderer Objekte im All
zu, sowie auf die Verteilung von Materie im intergalaktischen Raum.
Durch die Ausbreitung des Universums kommt es zur sogenannten Rotverschiebung des
Energiespektrums abgestrahlter Photonen. Die Rotverschiebung ist eine Art optischer
Dopplereffekt. Durch die Entfernung (Auseinanderbewegung von Quelle und Betrachter)
vergrößert sich die Wellenlänge der ankommenden Strahlung. Indem man die Größe dieser
Verschiebung gegenüber dem normalen Spektrum berechnet, kann man die Entfernung und
das Alter von Objekten bestimmen.
Bild 46 Schwarzes Loch mit Materie, die um es zirkuliert und beim Fall in das Schwarze
Loch Röntgenstrahlen (X-Ray) emittiert, die Verschiebungen unterliegen [4]
Rotverschiebung entsteht nicht nur durch die Ausbreitung des Universums, sondern auch
durch andere Vorgänge. Bild 46 zeigt die Entstehung von Rot- und Blauverschiebung durch
Zirkulation. Gas oder Moleküle, die in ein Schwarzes Loch fallen, beginnen vorher um dieses
zu kreisen. Währenddessen emittierte Röntgenstrahlung erfährt dadurch die gezeigten
Verschiebungen in den Wellenlängen. Da Schwarze Löcher, die deshalb „Schwarz“ heißen,
weil sie an sich nicht sichtbar sind, sich nur durch die Effekte der in sie fallenden Materie
detektieren lassen, sind diese Verschiebungen wichtiger Teil der Studien an Schwarzen
Löcher.(s.a. [4], [18])
48
_______________________________________________________________________________________
Bild 47 Doppelt gehörnte Eisenlinie [4]
Ein Beispiel zum Einfluss der Rot- und Blauverschiebung zeigt Bild 47, die „doppelt
gehörnte“ Eisenlinie (double horned Iron line). Eisen ist eines der häufigsten Elemente im
Universum. Der Grund dafür ist, dass Eisenatome relativ gesehen, die höchste
Bindungsenergie pro Nukleon aufweisen und deshalb nicht von sich aus zerfallen. Einmal
gebildete Eisenatome können nur unter Zufuhr großer Mengen Energie in andere Elemente
umgewandelt werden. Deshalb bietet die Eisenlinie ein gutes Studienobjekt. Die eigentlich
schmale Emissionslinie der Eisenatome zeigt sich hier beträchtlich verbreitert. Diese
Verbreiterung, sowie die charakteristische Form erhält sie durch mehrere Effekte, die Rotund Blauverschiebung durch die Bewegung (velocity) sowie eine zusätzliche
Rotverschiebung durch den Einfluss der Gravitation, der die Strahlung im Umfeld des
Schwarzen Loches ausgesetzt ist. (s.a. [4], [18]) Zur Strahlungsentstehung und weiteren
astrophysikalischen Effekten findet sich mehr in [5], [14], [15] des Literaturverzeichnisses.
7.2 Technologie
Bild 48 Spiegelform Wolter Type I und Aufbau eines runden Spiegels aus Segmenten zur
Fokussierung von Röntgenstrahlung [19]
Da sich Röntgenstrahlen aufgrund ihrer Kurzwelligkeit durch Linsen kaum ablenken lassen,
benutzt man um sie zu fokussieren streifende Reflexion (Totalreflexion und Bragg Reflexion).
Die Strahlen treffen beinahe parallel zur Spiegelfläche auf. Die Form der Spiegelflächen folgt
dem sogenannten „Wolter Type I“, d. h. die Flächen gehen von einer parabelförmigen Form
49
_______________________________________________________________________________________
in eine hyperbelförmige über, vgl. Bild 48 a, was eine bestmögliche Fokussierung bewirkt.
Bild 48 b zeigt die ringförmige Anordnung der einzelnen Spiegelsegmente, wie sie bei XEUS
eingesetzt werden wird um einen Spiegel mit 4,5 bzw.10 m Durchmesser ins All
transportieren und bauen zu können.
Bild 49 Aufbau der einzelnen Spiegelsegmente [19]
Um die Abbildungseigenschaften des Siegels für XEUS weiter zu verbessern, werden
einzelne Wolter Type I Spiegel hintereinander gestaffelt um die Sammelfläche zu erhöhen. Da
sich ein solches Spiegelkonzept mit einem Durchmesser von 4,5 m, bzw. 10 m in der zweiten
Phase, nicht mehr als geschlossener Ring bauen und ins All transportieren lässt, besteht der
XEUS-Spiegelsatellit aus Segmenten, den „petals“, die erst im All zusammengesetzt werden.
Bild 49 zeigt den geplanten Aufbau
Bild 50 Größenvergleich zwischen der geschlossenen Spiegelkonstruktion wie sie derzeit bei
XMM-Newton im Einsatz ist (Zylinder in der Mitte) und den Segmenten für XEUS( zur
Technik der Spiegel siehe auch [19]).
50
_______________________________________________________________________________________
Bild 51 Abbildung eines Ausschnitts des Weltalls wie ihn XMM-Newton liefert [4].
Bild 52 Abbildung des gleichen Bereichs durch XEUS (Ziel). Man sieht deutlich die
Verbesserungen in der Auflösung der einzelnen Objekte [4]
51
_______________________________________________________________________________________
Bild 53 Layout für CCD-Detektor-Chip für XEUS
Das CCD-Pixel Array befindet sich noch der Entwicklung. Bild 52 zeigt ein Schema, wie man
sich die Verschaltung zur „Active Pixel Matrix“ und das Auslesesystem vorzustellen hat.
Nähere Informationen dazu und zu den neuen CCD Konzepten, die für den Einsatz bei XEUS
entwickelt werden, finden sich in [7], [10]und [16].
7.3 Programmlistings
/xmm_nn/
data2frames.C
(Ausdruck)
frames2grids_a.C
(Diskette)
frames2grids_b.C
(Diskette)
frames2grids_c.C
(Diskette)
frames2grids_d.C
(Diskette)
frames2grids_e.C
(Diskette)
frames2grids_f.C
(Ausdruck, 3x3 Gitter, Randlage in Booleschen Werten, Ausdehnung),
repräsentativ, andere analog
nn.C
(Ausdruck)
testnn.C
(Ausdruck)
analyzenn.C
(Ausdruck)
/nn/
train.C
netout.C
eval_bool.C
eval_real.C
searchseed.C
(Ausdruck)
(Ausdruck)
(Ausdruck)
(Ausdruck)
(Ausdruck)
52
_______________________________________________________________________________________
/nn/xmm/
data2frames.C
(Ausdruck)
frames2input1.C (Diskette)
frames2input2.C (Diskette)
frames2input3.C (Diskette)
frames2input4.C (Diskette)
frames2input5.C (Diskette)
frames2input6.C (Ausdruck)(Lokale Normierung, Randereignisse und Hintergrund (bad)
werden ausselektiert
analyzeout1.C
(Diskette)
analyzeout2.C
(Diskette)
analyzeout3.C
(Diskette)
analyzeout4.C
(Diskette)
analyzeout5.C
(Diskette)
analyzeout6.C
(Ausdruck) (Anzeige der fehlklassifizierten Cluster für Daten aus
frames2input6.C)
/nn/moca/
data2input1.C
(Diskette)
data2input2.C
(Diskette)
data2input3.C
(Diskette)
data2input4.C
(Diskette)
data2input5.C
(Diskette)
data2input6.C
(Diskette)
data2input7.C
(Diskette)
data2input8.C
(Diskette)
data2input9.C
(Diskette)
data2input10.C
(Diskette)
data2input11.C
(Ausdruck) (Liefert Eingangsdaten für Training mit zwei sich
überlagernden Photon-Clustern bei originaler Energieverteilung
data2input12.C
(Diskette)
data2input13.C
(Diskette)
analyzeout1.C
(Diskette)
analyzeout2.C
(Diskette)
analyzeout3.C
(Diskette)
analyzeout6.C (Ausdruck) (Anzeige der fehlklassifizierten Cluster für Daten aus
data2input6.C
plotdeltas3.C
(Diskette)
plotdeltas4.C
(Diskette)
plotdeltas5.C
(Diskette)
plotdeltas6.C (Ausdruck) (Vergleich der Netzrekonstruktion mit einer Rekonstruktion
mittels Massenzentrumsberechnung und Korrekturtabelle)
NeuNet.cxx
(Diskette)