Technische Universität München Lehrstuhl für Mensch-Maschine-Kommunikation Prof. Dr. Ing. habil. G. Rigoll Thema: Datenreduktion mittels Neuronaler Netze zur Satellitenübertragung Verfasser: Ursula Anna Bauer Oetz 9 83674 Gaissach Matrikelnummer: 1890231 Betreuer: Dipl. Ing. Ralf Nieschulz Prof. Christian Kiesling Laborzeit: 5. November 2001 - 5. April 2002 Abgabetermin: . 13 Juni 2002 1 _______________________________________________________________________________________ 0. Gliederung 0. Gliederung 1 1.Einleitung 3 1.1 Physikalischer Kontext 3 1.2 Technologische Neuerungen 5 1.3 Problemstellung 6 2. Methoden 8 2.1 Herkömmliche Datenbearbeitungsmethoden 8 2.2 Konzept der Neuronalen Netze 9 2.2.1 Einführung, Vor- und Nachteile 9 2.2.2 Multi-Layer-Perceptron und Back-Propagation-Algorithmus 11 3. Ergebnisse 21 3.1 Möglichkeiten 21 3.2 Verfügbare Daten 22 3.2.1 XMM-NEWTON 22 3.2.2 Monte-Carlo-Simulation 23 3.3 Training und Resultate 25 3.3.1 XMM-NEWTON 25 3.3.2 Monte-Carlo-Simulation 30 2 _______________________________________________________________________________________ 4. Diskussion 38 4.1 Vergleich mit herkömmlichen Berechnungen 38 4.2 Ausblick auf weitere Entwicklungsmöglichkeiten 40 5. Zusammenfassung 42 6. Literaturverzeichnis 44 7. Anhang 46 7.1 Astrophysik 46 7.2 Technologie 49 7.3 Programmlistings 52 3 _______________________________________________________________________________________ 1. Einleitung In meiner Diplomarbeit „Datenreduktion mittels Neuronaler Netze zur Satellitenübertragung” geht es um Probleme, die sich aus den Untersuchungen zu der für 2012 geplanten RöntgenSatellitenmission XEUS (X-Ray Evolving Universe Spectroscopy) der europäischen Raumfahrtorganisation ESA ergeben. Bild 1 XEUS Satelliten-Mission vor dem Hintergrund der Erde, vorne Detektormodul , hinten Spiegelmodul (siehe auch [20]) 1.1 Physikalischer Kontext Die XEUS-Mission hat, wie der Name X-Ray Evolving Universe Spectroscopy besagt, die Röntgenspektroskopische Untersuchung des sich entwickelnden Universums zum Ziel. Um Einblicke in die Frühzeit und die fortlaufende Evolution des Universums und seiner Objekte zu erlangen, muss man Bereiche des Weltalls untersuchen (siehe auch. [4], [18]), die sich bis zu 10 Milliarden Lichtjahre entfernt von unserer Galaxie befinden. Dort entstandene Strahlung benötigt sehr lange Zeit um diese Distanz zu überwinden und enthält so Informationen über weit zurückliegende Ereignisse. Photonen dieser Strahlung tragen in ihrer Energiesignatur Informationen über die Prozesse, die zu ihrer Entstehung führten, sowie über die Zusammensetzung der Objekte aus denen sie stammen. Auf diese Weise kann man Vorgänge, die zu Beginn des Universums stattfanden, rekonstruieren. Die im Kosmos bei verschiedenen Vorgängen entstehende Strahlung erstreckt sich über den gesamten Frequenzbereich des elektro-magnetischer Spektrums, von Radio- und Mikrowellen (Wellenlängen beginnend bei etwa 103 – 102 m) über Infrarot, das sichtbare Licht, UV, bis hin zu Röntgen- und Gammastrahlung (Wellenlängen bis zu 10-9 – 10-13 m) (vgl. auch [14]). Letztere entstehen hauptsächlich unter besonders extremen Bedingungen, d.h. bei sehr hohen 4 _______________________________________________________________________________________ Temperaturen und unter Einfluss starker Felder. Die entstehenden Quanten sind hochenergetisch (Wellenlänge, Frequenz und Energie der Strahlung hängen über physikalische Gleichungen zusammen, je größer die Wellenlänge, desto kleiner die Frequenz und desto geringer die Energie des Photons). Durch die hohe Konzentration der Materie nach dem Urknall als das Universum sich gerade auszubreiten begann, war die Entstehung von Röntgenstrahlung extrem begünstig. Sie stellt in den meisten Fällen die einzige Möglichkeit dar, Informationen über Frühzeit des Universums zu erlangen. Seit der Entdeckung der ersten Röntgenquellen im All, setzt man große Hoffnung in die Röntgenastronomie, da sie Einblicke in zuvor nie erreichte Bereiche von Raum und Zeit bietet. Schon bei den ersten Versuchen tiefer in das Weltall hineinzuschauen, fiel eine erstaunlich starke Röntgenhintergrundstrahlung auf, zu deren Erklärung neue Theorien erstellt werden mussten. Man hofft diese mit den Daten, die XEUS liefern wird, zu verifizieren. Eine derartige Strahlung lässt sich nur durch die Existenz massiver und stark gravitativ wirkender Objekte erklären. Bei der Entstehung derartiger Objekte besteht das Problem, dass genug Masse, bestehend aus Wasserstoff- und Heliumgaswolken, zusammengebracht werden muss um zu kollabieren und ein massives Objekt zu formen, dass aber gleichzeitig genug Energie freigesetzt und abgegeben werden muss um zu verhindern, dass die sich verdichtende Gaswolke gleich wieder explodiert. Bei der Sternenentstehung in unserer heutigen Milchstrasse wird diese überschüssige Energie als Strahlung von Molekülen und interstellarem Staub abgegeben. In der Frühzeit jedoch waren kaum größere Moleküle oder Staub vorhanden, so dass die Theorie (vgl. [4])davon ausgeht, dass die ersten Objekte, die entstanden gigantische Schwarze Löcher waren, in deren Umgebung starke Röntgenstrahlung emittiert werden konnte, eine Erklärung für die Hintergrundstrahlung. XEUS wird empfindlich genug sein diese Schwarzen Löcher, von denen die derzeitige Röntgenmission XMM-Newton bereits einige ausmachen konnte, genauer zu untersuchen, bzw. noch viele weitere zu entdecken um so die Richtigkeit der Theorien zu bestätigen. Durch die Analyse der Strahlung wird man enträtseln können, welche Art von Material sich in der Umgebung des Schwarzen Loches befindet, wie es in dieses fällt und wie emittierte Strahlung und Teile herausgeschleuderter Massenströme die Elemententstehung und spätere Sternenformation beeinflusst oder ermöglicht haben, bzw. es noch tun (siehe hierzu auch Anhang 7.1 und [4],[18]). Durch Vergleiche der Strahlung sehr früher Schwarzer Löcher mit den Röntgenemissionen Schwarzer Löcher, die sich in den Zentren von uns näheren Galaxien befinden, will man den Verlauf der Evolution von Galaxien besser verstehen. Daneben richtet sich das Augenmerk der Forscher auch auf neue Erkenntnisse zur Elemententstehung, Gravitationstheorie und Sternenevolution. Die Beschäftigung mit sehr fernen Quellen wirft allerdings einige Probleme auf. Die ankommende Strahlung ist, wegen der weiten Entfernungen, relativ schwach und stark mit Hintergrundeffekten überlagert und deshalb gegen andere, nähere Objekte nur schwer auszumachen. Dadurch werden Detektion, Abgrenzung und Analyse erschwert. Deshalb ist eine sehr hohe Genauigkeit der Ortsauflösung erforderlich, die bei XEUS zwischen 5 bis 2 Winkelsekunden liegen muss. Eine gröbere Auflösung würde eine fehlerfreie Quellenzuordnung unmöglich machen und den Einfluss der nicht verwertbaren Hintergrundstrahlung so vergrößern, das kaum noch sinnvolle Studien anhand der Daten machbar wären. Die Energieauflösung stellt ebenfalls enorme Anforderungen. Zum einen ist es für die späteren spektroskopischen Analysen notwendig, dass der Detektor in „Single-Photon-Mode“ arbeitet, also jedes einzelne einfallende Röntgenquant bezüglich Lage und Energie registriert wird, damit daraus später genaue Spektren und Bilder für physikalische Untersuchungen errechnet werden können. Zum anderen erstreckt sich der Bereich in dem der Detektor empfindlich sein muss über einen Energiebereich von 10 eV bis ca. 30000 eV, da sich das 5 _______________________________________________________________________________________ Energiespektrum der Photonen, die man untersuchen will, unter dem Einfluss von Rot- und Blauverschiebung, die sie durch die Ausdehnung des Universums, oder durch Gravitationswirkungen von Objekten denen sie auf ihren Weg durch den Raum nahe kommen, oder Rotation der sie erzeugenden Objekte, sehr verbreitert (siehe auch Anhang 7.1 Astrophysik und [4], [18]). Weil man die Auswirkungen genannter Effekte aber zu Untersuchungen nützen will, kann man die Breite des Detektorspektrums nicht vermindern. Schließlich gilt für die Detektoren zu berücksichtigen, dass sie einerseits für geringe Zählraten geeignet sein sollen, da interessante Phänomenen oft nur wenige Photonen pro Sekunde emittieren, andererseits aber zugleich robust gegenüber den hohen Zählraten sehr aktiver Quellen sein müssen. 1.2 Technologische Neuerungen Um die erwähnten Probleme zu lösen sind große Anforderungen an die Weiterentwicklung der Technik gestellt. Man setzt dabei sowohl auf die Weiterentwicklung der bereits für die derzeitige Röntgenmission der ESA, XMM-Newton, entwickelten und erprobten Techniken, als auch auf die Erstellung neuer zukunftsfähiger Konzepte. Durch die Erfahrungen mit XMM-Newton hat man dabei den Vorteil potentielle Fehlerquellen und besonders beanspruchte Komponenten bereits zu kennen und ein breites Fundament an technischen Know-how für die Herstellung der meisten Teile zu besitzen. Ein Röntgensatellit für eine Mission wie XEUS oder XMM-Newton besteht aus zwei Hauptkomponenten, dem Abbildungssystem und dem Detektorsystem. Da Röntgenstrahlen mittels Linsen nur wenig bis gar nicht abgelenkt werden können, benutzt man zur Fokussierung ein System von Spiegeln unter Ausnutzung der streifenden Bragg Reflektion. Die Güte der Abbildung und damit des Satelliten hängt dabei von der effektiven Sammelfläche der Spiegel ab, die aber wegen der streifenden und von der Photonenergie abhängenden Reflexion nicht mit der Spiegelfläche gleichgesetzt werden darf (siehe auch Anhang 7.2 Technologie und [19]) Um die fernen, teils sehr schwachen Quellen nicht nur entdecken, wie es mit XMM-Newton erfolgt, sondern auch studieren zu können, ist es unabdingbar die effektive Sammelfläche des Satelliten bei XEUS zu erhöhen. Diese beträgt bei XMM-Newton gerade mal 0,5m2 für den Bereich um 1 keV und wird in den beiden für XEUS geplanten Stufen zuerst auf 6m 2, später auf 30m2 erhöht werden. Dies macht eine Spiegelkonstruktion mit einen äußeren Durchmesser von 4,5m bzw. 10m erforderlich, sowie eine Fokallänge von 50m für das abbildende System. Bei XMM-Newton waren es nur 0,5m Durchmesser und 7,5m Fokallänge. Durch diese Notwendigkeit ergibt sich von selbst die erste große Neuerung im Konzept, nämlich Abbildungs- und Detektorsystem zu trennen und in zwei Satelliten aufzuteilen, da ein geschlossenes Einsatellitensystem derartiger Länge von der Stabilität her gesehen nicht zu gewährleisten ist. Die beiden Satelliten werden mittels innovativer Telemetrie-Einrichtungen und eines aktiven Positionierungssystems stets mit einer Genauigkeit von 100μm zueinander ausgerichtet sein. Außerdem erlaubt das Positionierungssystem die Vereinigung der beiden Satelliten, welche dann an die Internationale Raumstation ISS andocken zu können, wie es für die Erweiterung der Spiegel nach ca. fünf Jahren vorgesehen ist. Allein die immensen Ausmaßen von XEUS lassen ermessen, welche Erhöhung an gesammelten Daten zu erwarten ist im Vergleich zu früheren, wesentlich kleineren Missionen (siehe auch [7]). Um die Verbesserung der Optik ausnützen zu können, braucht man eine angepasste, empfindliche und scharfauflösende Sensorik, die gleichzeitig robust gegen die extremen Bedingungen im Weltall, z.B. Temperaturschwankungen, Einschlag von ionisierenden Teilchen oder Minimeteoriten, etc., ist. Für Untersuchungen über die gesamte Sammelfläche 6 _______________________________________________________________________________________ und ein breites Energiespektrum haben sich im Bereich der Röntgenastronomie Pixel-ArrayCCD`s als Methode der Wahl herausgestellt. Sie bieten sowohl eine gute Auflösung bezüglich des Ortes und der Energie als auch eine adequate Zeitauflösung, was besonders bei der Untersuchung schnell feuernder Quellen von großer Bedeutung ist, denn nur so ist die Trennbarkeit einzelner Photonen sicher gestellt, die für die spektrale Untersuchung nötig ist. Die Zeitauflösung hängt hauptsächlich von der Auslesezeit des CCD`s ab und ist, neben der Verfeinerung der Ortsauflösung, einer der Hauptbereiche der Optimierung bei der Konstruktion der neuen Detektortechnik. Neben der Verbesserung der bisher verwendeten pnCCD`s befinden sich CCD`s in der Erprobung die auf dem neuen DEPFET-Prinzip (Depleted Field Effekt Transistor) beruhen und noch weit größere Möglichkeiten bezüglich Zeit, Effizienz und Rauscharmut bieten (siehe auch Anhang 7.2 Technologie und [7], [10], [16]). Wegen der Modifikationen von Sammelfläche und Fokallänge muss die Detektorfläche vergrößert werden, zugleich ist aber eine Verkleinerung der Pixelgröße notwendig, um die Auflösung zu verbessern. Die Kantenlänge der Pixel wird von 150μm auf 75 μm heruntergesetzt, wodurch die Fläche eines XEUS-Pixels nur ein Viertel der Größe der zur Zeit bei XMM-Newton verwendeten haben wird. In Verbindung mit der nötigen Vergrößerung der Gesamtfläche wird XEUS mehr als sechs Mal so viele Pixel besitzen als XMM-Newton, was mit einen enormen Zuwachs an Datenerwarten lässt. Um das CCD trotzdem schnell auslesen zu können, werden die Pixel in innovativer Weise zu einer aktiven Pixel Matrix verschaltet. Dies ist ein neues Konzept bei dem der Ladungstransfer beim Auslesen des CCD`s, wie er bei derzeitigen Technologien notwendig ist, entfällt, da jede Reihe separat ausgelesen werden kann. Vergleich XMM-Newton und XEUS Energiebereich Fokallänge Winkel-/Ortsauflösung Ortsauflösung in der Fokalebene Sichtfeld Sammelfläche bei 1keV Sammelfläche bei 8keV Arbeitstemperatur Zeitauflöung für einen Rahmen Pixelzahl des CCD-Detektors XMM-Newton XEUS Aufgaben 0.1 bis 15keV 7.5 m 15 arcsec 30m 30 arcmin 0.5 m² 0.05 m² 130 bis 180 K 70 ms 384 x 400 Erhöhung der Schichtdicke von 300 auf 500 m 0.1 bis 20 keV 50 m 1 bis 2 arcsec 250m Verkleinerung der Pixelfläche auf (75m)² 5 bis 10 arcmin Vergrößerung der Detektorfläche auf 7X7cm² 6 m², später 30 m² 3 m² >180 K Erhöhung der Arbeitstemperatur 1 bis 5 ms Erhöhung der Auslesegeschwindigkeit 1024 x 1024 Tabelle1 Vergleich XMM-Newton/XEUS technologische Anforderungen (vgl. a. [10]) Zieht man nun die Pixelzahl von 1024 x1024, eine Auslesezeit im Mikrosekundenbereich und eine 16-Bit-Analog-Digitalwandlung in Betracht, so lässt sich leicht berechnen, dass man wahrscheinlich Datenraten der Dimension 1 Gigabyte pro Sekunde aus dem Detektor erhalten wird. Bei XMM-Newton waren und sind die Datenraten mit etwa 10-20 KiloByte/s wesentlich geringer. Die extreme Erhöhung der Rohdatenrate bei XEUS wird zum Problem, da die Sendeleistung zur Erde, wegen der nur beschränkten Verfügbarkeit von Energie aus den Sonnensegeln, stark begrenzt ist. 1.3 Problemstellung Die Funkrate, die für den Transfer der Daten aus dem CCD vorgesehen ist, wird 50 Kilobyte pro Sekunde kaum übersteigen, sie liegt also etwa 106 Größenordnungen niedriger als die Rohdatenrate die mit etwa 1 GigaByte/s angesetzt wird . Man wird die Daten so verarbeiten müssen, dass alles entfernt wird das nicht zur eigentlichen Information gehört. Die dann noch übrigen Daten werden eventuell noch mal weiterbearbeitet werden müssen um das wichtigste zu selektieren und lediglich das zu senden. Zudem muss man im Auge behalten, dass die für 7 _______________________________________________________________________________________ die Datenverarbeitung zur Verfügung stehende Zeit äußerst begrenzt ist, da das CCD in Mikrosekundetakt Daten liefert. Zusammenfassend stellt sich das Problem so dar, dass eine Möglichkeit gefunden werden muss eine Datenmenge in der Größenordnung von einem Gigabyte/s in wenigen Mikrosekunden so zu verarbeiten, dass die informationstragenden Muster herausselektiert und derart codiert werden, dass sie mit wenigen Kilobyte/s gesendet werden können ohne dass dabei wesentliche Information verloren geht. 8 _______________________________________________________________________________________ 2. Methoden 2.1 Herkömmliche Datenbearbeitungsmethoden Für die Behandlung der Satellitendaten werden derzeit vor allem konventionelle Techniken verwendet, Prozessoren, Spezialchips für besondere Rechenoperationen, Programme, die eine serielle Verarbeitung steuern. In den Missionen vor XEUS erlaubte die geringere Datenmenge Selektion und Verarbeitung auf der Erde durchzuführen. An Bord des Satelliten im Weltall wurden nur einfache Vorverarbeitungsschritte durchgeführt, wie die Verwendung von Filtern, Festlegung der Rauschschwellen, etc.. Die Behandlung der Daten auf der Erde hat den Vorteil, dass man stets den aktuellen Stand der Technik nützen kann, da Systemerweiterungen, sowie fortlaufende Wartungs- und Reparaturarbeiten, ohne übertriebenen Aufwand, jederzeit möglich sind. Da bereits langjährige Erfahrungen mit diesen Techniken bestehen, wird ihr Einsatz natürlich auch bei XEUS erwogen, auch deshalb, weil man davon ausgeht, dass die Daten, wenn auch in Auflösung und Menge enorm gesteigert, von der Struktur her denen, die derzeit, v.a. mit XMM-Newton, gewonnen werden, ähnlich sind. Ein Einsatz im All stellt jedoch extreme Anforderungen an die Technik, die bedacht werden müssen. Starke Strahlung und Temperaturschwankungen beanspruchen alle Komponenten sehr, doch eine Reparatur oder gar ein Austausch defekter Teile im All ist extrem teuer bis unmöglich. Ein Datenverarbeitungssystem auf einem Satelliten muss deshalb besonders robust, ausfallsicher und möglichst auch bei Ausfall einzelner Teile noch funktionsfähig sein. Bei herkömmlicher Computertechnik ist das nur durch Einsatz redundanter Komponenten erreichbar. Bei Weltraummissionen entsteht dabei durch die Begrenztheit der Ressourcen oft ein Problem. Größe und Gewicht des Satelliten sind durch die Kapazität der Trägerrakete festgelegt und somit nicht beliebig erweiterbar. Außerdem ist die Energie, die für den Betrieb der elektronischen Einrichtungen bereitgestellt werden kann, durch den Wirkungsgrad der Sonnensegel beschränkt. Derartige Randbedingungen führen dazu, dass redundante Komponenten nur in begrenztem Maß eingesetzt werden können. Die absolut notwendigen Tests der Ausrüstung stellen zudem schon jetzt klar, dass maximal Technik, die heute aktuell ist, in 10 Jahren im Weltall zum Einsatz kommen kann und Hoffnungen noch leistungsfähigerer Komponenten, die bis dahin vielleicht noch entwickelt werden, müßig sind. Die Datenverarbeitung für XEUS stellt besonders hohe Anforderungen an die Schnelligkeit, ein weiteres Problem beim Gebrauch serieller Technik. Wie bereits dargelegt, sind der Beschleunigung von der Hardwareseite her starke Begrenzungen auferlegt. Eine schnellere Bearbeitung muss demnach durch die verwendeten Algorithmen erreicht werden. Diese hängen von den zu erledigenden Arbeiten ab. Neben gewöhnlichen Aufgaben der Vorverarbeitung der Rohdaten, wie Abziehen der Rauschschwelle, Clustering und Korrektur von Verfälschungen durch den Detektor und den Ausleseprozess, müssen bei XEUS sehr komplexe Aufgaben erledigt werden. Zur Abtrennung des Hintergrundes muss erkannt werden welche Muster zu diesem gehören und welche informationstragend sind. Dies wird bei XEUS dadurch erschwert, dass die verkleinerte Pixelfläche Effekte wie die Aufspaltung von Photonen, sogenannte Split-Photon-Events, begünstigt. Hierbei regt ein einfallendes Röntgenquant nicht in einen einzigen Pixel des CCD`s die Entstehung von Ladung, mittels der es detektierbar wird, an, sondern die Ladungserzeugung verteilt sich auf mehrere Pixel, die dann jedes nur einen Bruchteil der Ladung anzeigen. Durch die Vielzahl und Diffusität der Ladungsmuster wird die Aufgabe so sehr komplex. Da programmierte Algorithmen exakt arbeiten, muss man genau spezifizieren welche Muster verworfen werden sollen. Dieser, trotz Einführung von Konfidenzintervallen, harte Schnitt, führt oft zu erheblichem Verlust an Information. Die nach der Entfernung des Hintergrunds und sonstiger Störeffekte, wie z.B. 9 _______________________________________________________________________________________ sogenannter „Bad Pixel“, die durch Strahlungsschäden oder Einschlag von Minimeteoriten zerstört wurden, verbleibenden Muster müssen noch weiter verarbeitet und reduziert werden. Hierzu bietet es sich beispielsweise an aus Pixelverbänden die durch Photonspaltung entstanden sind, die Gesamtladung (korreliert mit der Energie des aufgetroffenen Photons) und Einfallsort des eingefallenen Photons zu rekonstruieren und nur noch diese Informationen zu senden. Gerade hier treten Schwierigkeiten zu Tage, da die Rekonstruktion von Ladung und Lage bei vielen verschiedenen Mustern nicht trivial ist. Die derzeit beste Möglichkeit ist eine Summation der Ladungen eines Pixelclusters, die über der Rauschschwelle liegen, zur Ladungsrekonstruktion und die Berechnung der Ortskoordinaten über die Bestimmung des Massenzentrums eventuell unter Einbeziehung einer vorher ermittelten Korrektur-Tabelle, wie sie auch zu Vergleichszwecken hier verwendet wurden. Während sich die Ladung, wie später noch gezeigt wird, mit der genannten Methode sehr gut rekonstruieren lässt - was nicht erstaunt wenn man in Betracht zieht, dass Ladung nicht aus Nichts entstehen kann - weist die Ortsbestimmung, trotz der aufwendig erstellten Korrekturtabellen Mängel auf. Ob die konventionelle Verarbeitung mit der geforderten Zeitbegrenzung im Mikrosekundenbereich Schritt halten kann, wird noch zu prüfen sein. Trotzdem hat dieser Ansatz unbestreitbare Vorteile. Das Zustandekommen der Ergebnisse ist jederzeit exakt nachvollziehbar und somit kann man auch eventuelle Berechnungsfehler relativ schnell erkennen und beheben. Technisch sind die langen Erfahrungen positiv zu vermerken, die man mit dieser Technik hat, wodurch Entwurf, Bau und Programmierung effizient, kostengünstig und sicher durchgeführt werden können. 2.2 Konzept der Neuronalen Netze 2.2.1 Einführung, Vor und Nachteile Einen alternativen Ansatz zum Umgang mit dem Datenverarbeitungsproblem bietet der Einsatz Neuronaler Netze. Neuronale Netze stellen den Versuch dar Strukturen und Fähigkeiten des menschlichen Gehirns mit technischen Mitteln nachzuvollziehen. Dabei sollte man im Auge behalten, dass technische Systeme keineswegs vollkommene Imitationen des lebenden Organismus sind. Es gibt viele verschiedene Versuche die von der Informationsverarbeitung im menschlichen oder tierischen Nervensystem abgeleiteten Grundkonzepte umzusetzen Diese sind jeweils für die verschieden zu lösenden Probleme in Technik oder Forschung optimiert. Das Gehirn besteht aus einen hochkomplexen Netzwerk einfacher Grundbausteine, der Neuronen, auch Nervenzellen genannt. Die erstaunliche Leistungsfähigkeit des Menschen was das Erkennen von Mustern, das Einordnen von auch unbekannten Ereignissen und Objekten in Klassen, die Selektion wichtiger Information aus einer Menge ungeordneter Daten,etc. betrifft, ist technisch unerreicht und beruht auf der Netzstruktur der Gehirnzellen, die eine massiv parallele Verarbeitung von Information ermöglichen, sowie auf der Fähigkeit Struktur und Parameter so zu modifizieren, dass ein Leben lang auch neue Informationen berücksichtigt und genutzt werden können, was man gemeinhin Lernen nennt. Die grundlegenden Konzepte die Neuronale Netze nutzen und die deren Besonderheit ausmachen sind dementsprechend: -einfache Grundbausteine, -parallele und vernetze Struktur, -Lernregeln zur Modifikation von Struktur und Parametern der Bausteine. Konzepte die auf diesen Grundlagen aufbauen, haben sich als besonders schnell und leistungsfähig in dem Bereichen Mustererkennung und –rekonstruktion, Klassifikation, und assoziative Speicherung erwiesen. 10 _______________________________________________________________________________________ Durch die Parallelität der Bausteine ist die Funktion des Gesamtnetzes, wie durch Untersuchungen bewiesen wurde, selbst bei Ausfall von über 25% der Grundbausteine noch gegeben, zwar nicht mehr optimal, aber doch noch relativ gut (vgl. [2], Seite 27). Schon dies allein ist ein immenser Vorteil bei Weltraumeinsätzen. Dadurch dass die Rechenoperationen, die in den einzelnen Teilen durchgeführt werden müssen, sehr einfach sind - meist kommt man mit Addition und Multiplikation aus - und gleichzeitig ausgeführt werden können, lassen sich mit Neuronalen Netzen sehr große Verarbeitungsgeschwindigkeiten erreichen. Ein weiterer Vorteil ist, dass zu Konstruktion und Optimierung eines Netzes die Kenntnis von Beispielen der Daten genügt. Man muss nicht unbedingt die exakten Regeln kennen denen sie folgen oder unterworfen werden sollen, wie etwa bei der Erstellung eines Programms. Natürlich kann das auch zum Nachteil werden, wenn man keine ausreichende Menge an Daten besitzt, oder diese zu wenig Informationen, also Variationen, enthält oder falls die für das überwachte Lernen notwendige Vorklassifizierung der Trainingsdaten fehlerhaft ist. Wegen der starken Abhängigkeit der Leistung des Netzwerkes von der Modellbildung anhand der Daten in der Trainingsphase, ist es von größter Bedeutung hohe Sorgfalt bei der Auswahl der Daten für die Lernphase walten zu lassen. Hat man einen Trainingsdatensatz mit den richtigen Spezifikationen ausgewählt oder generiert (ausreichende Anzahl der Beispiele, Repräsentativität dieser für die Gesamtmenge, ausreichende Varianz zusammen- gehörender Muster untereinander,..), wird das trainierte Netz in der Lage sein, sowohl genau zuzuordnen, als auch abweichende Beispiele zu behandeln, die in der Trainingsmenge nicht vorkamen und somit generalisierungsfähig sein. Auf diese Weise ist es möglich, auch verrauschte, unvollständige oder unbekannte Muster zu klassifizieren und/oder zu rekonstruieren und das ohne komplizierte Berechnungen anstellen zu müssen. Um die volle Leistungsfähigkeit und Schnelligkeit eines Neuronalen Netzes nützen zu können, ist die Verwendung von neuronaler Hardware nötig, da eine Implementation in Software verständlicherweise durch die serielle Abarbeitung in normalen Computern behindert wird. Es existieren jedoch inzwischen eine Vielzahl von analogen und digitalen Neuro-Chips, wodurch das Problem der Verfügbarkeit adäquater Hardware, das früher bestand, besser gelöst ist. Das Training des Netzes ist ein integraler Bestandteil bei der Konstruktion eines Neuronalen Netzes und zugleich eine der Schwierigkeiten, da es relativ viel Zeit beansprucht und keine eindeutigen Regeln für das Vorgehen dabei existieren. Das Lernen und Anpassen ist vielmehr ein heuristischer Vorgang mit einer graduellen Annäherung an die beste Lösung. Auch die Entscheidung welche als solche zu bezeichnen und wann sie erreicht ist, ist schwer zu treffen, da die Lösungen, die das Netz findet, keinen auf den ersten Blick nachvollziehbaren Berechnungen folgen. Die einzige Möglichkeit zu testen ob das Netz richtig arbeitet, bietet die sogenannte Validierung Dies bedeutet. dass dem Netz eine unabhängige Menge von Testdaten präsentiert und protokolliert wird, wie das Netz sie zuordnet. Der Haken an dieser Methode ist, dass auch bei ihr die Ergebnisse von der Auswahl der Testmenge abhängen. Ist diese schlecht ausgesucht, ist der Test wertlos. Wenn z.B. nur der Trainingsmenge und einander sehr ähnliche Beispiele gewählt wurden, kann so ein Versuch keine Aussage darüber machen, wie das Netz auf Abweichungen oder Ausreißer reagiert. Dies wäre jedoch oft die wichtigere Information. Was bei Neuronalen Netzen zusätzlich irritiert, ist die Tatsache, dass schon bei einfachen Beispielen nicht nachzuvollziehen ist wie und welche Lösung erreicht wird. Es gibt nämlich nicht nur einen einziges, mögliches Ergebnis, sondern abhängig von den Startvoraussetzungen verschiedene, durchaus gleichwertige. Dies macht das Konzept vielen suspekt. Für XEUS zieht man den Einsatz einer neuronalen Lösung besonders wegen ihrer Schnelligkeit in Betracht. Man hat in der Hochenergiephysik bereits Erfahrungen mit einem neuronalen Netzwerk-Trigger gemacht. Dort offenbarte sich bei einer ähnlichen Problematik die erstaunliche Leistungsfähigkeit dieser Methode. Bei Experimenten im 11 _______________________________________________________________________________________ Teilchenbeschleuniger fallen ähnlich hohe Datenraten an, wie man sie von XEUS erwartet (im Bereich von GigaByte/s), und diese müssen, wie auch bei XEUS, in wenigen Mikrosekunden verarbeitet werden. Die positiven Resultate, die sich beim Einsatz in der Hochenergiephysik zeigten, geben Anlass zu großer Hoffnung. Für die Problemstellungen bei XEUS bietet sich eine neuronale Lösung förmlich an, da Mustererkennung, Klassifikation, Rekonstruktion und dadurch erfolgende Reduktion von Daten genau in das Gebiet fallen, in dem die besonderen Stärken der Neuronalen Netze liegen. Aus vorhergehenden Missionen hat man grundsätzliche Informationen über die Struktur der zu erwartenden Daten und Wissen über die Detektorvorgänge. Das ermöglicht die Generierung von Trainings- und Testdaten mittels Monte-Carlo-Simulation, ähnlich denen, die man aus dem All erwarten kann, was den Einsatz einer datengetriebenen Methode gestattet. 2.2.2 Multi-Layer-Perceptron und Back-Propagation-Algorithmus Unter den Begriff Neuronale Netze fallen eine große Anzahl verschiedener Ansätze. Sie unterschieden sich z.B. durch die Art der Vernetzung - hierarchisch oder vollverbunden, rückgekoppelt oder nicht -, der des Lernens - überwacht oder nicht, Einsatz welcher Lernregel, Auswahl der Bewertungsfunktionen, Lernparameter etc.- aus der Vielzahl der Möglichkeiten gilt es die für XEUS passenden auszuwählen. Eine fundamentale Entscheidung ist dabei die zwischen überwachtem und nicht überwachtem Lernen, auch Lernen mit oder ohne Lehrer genannt. Beim Lernen mit Lehrer sind für die Daten der Trainingsphase Aussagen über die erwünschte Ausgabe des Netzes vorhanden. In der Lernphase wird aus diesen Eingangsdaten unter Verwendung der augenblicklichen Netzparameter der Ausgabewert berechnet. Diesen vergleicht man mit der erwarteten Ausgabe und ändert anschließend die Parameter derart, dass die Abweichung zwischen Sollund Ist-Wert der Ausgabe minimiert wird. Das unüberwachte Lernen erfolgt assoziativ. Da keine zusätzlichen Informationen oder Vorgaben existieren, ändert jeder angelegte Datensatz die Parameter in einer Weise, dass ähnliche Muster ähnliche Ausgaben ergeben, dies erfolgt z.B. dadurch dass bei einer digitalen „on/off“ oder 1/0 - Repräsentation des Trainingsmuster nur genau die Eingänge verstärkt werden, die im Muster auf „on“ bzw. 1 gesetzt sind. Auf diese Weise bildet das fertigtrainierte Netz zusammengehörende, weil einander ähnliche Eingabemuster in die gleiche Ausgabeklasse ab. Diese Ansatz ist selbstorganisierend. Das Problem bei diesem Modells ist, dass es noch komplizierter ist zu überprüfen, ob das Netz wirklich in der Weise funktioniert, wie man es sich erhofft. Da weniger Vorinformation über die verwendeten Daten eingebracht wird, kann es leicht geschehen, dass eine Aufteilung der Muster in Bereiche erfolgt, die nicht erwünscht ist, da das Netz bestrebt ist die größten Gemeinsamkeiten der Daten zu finden. Diese müssen nicht unbedingt die sein, die die meiste oder die interessierende Information tragen. Weil man, wie bereits erwähnt, schon Informationen über die von XEUS zu erwartenden Daten besitzt und auch Zielvorgaben darüber spezifiziert sind, was genau von der Datenverarbeitung und -reduktion geleistet werden soll, fiel die Entscheidung zugunsten eines überwacht lernenden Systems. Das am häufigsten benutzte Konzept im Bereich „Lernen mit Lehrer“ ist das Mehr-LagenPerzeptron, besser bekannt unter dem Englischen Namen „Multi-Layer-Perceptron (MLP)“ Es ist einfach, doch sehr erfolgreich. Es zählt zu den hierarchischen, vorwärtsgekoppelten Netzen, d.h. die Struktur des Netzes legt fest, dass Information nur in eine Richtung, vom Eingang zum Ausgang, bewegt wird. Das Multi-Layer-Perceptron besteht aus einer Lage Eingangsknoten (Input Units), einer oder mehreren versteckten Lagen (Hidden units) und einer Ausgangslage (Output Units). Das folgende Bild zeigt den Aufbau: 12 _______________________________________________________________________________________ Bild 2 Schema des Multi-Layer-Perceptron (Mehr-Lagen-Perzeptron) Der Grundbaustein ist das Perzeptron, ein vereinfachtes Analogon einer menschlichen Nervenzelle. Bild 3 Menschliche Nervenzelle (biologisches Neuron) 13 _______________________________________________________________________________________ Bild4 Perzeptron-Modell (künstliches Neuron) Die Eingänge (Inputs) des Perzeptrons werden mit Gewichten (Weights), deren Größe im Lernprozess für das jeweilige Problem optimiert wird, multipliziert, ähnlich wie im menschlichen Neuron die Menge der ausgeschütteten Neurotransmitter im synaptischen Spalt den Beitrag eines eingehenden Impulses bestimmen. Die gewichteten Eingänge werden aufsummiert. In der Nervenzelle überlagern sich die elektrischen Impulse, was der Addition entspricht. Schließlich wird eine nichtlineare Funktion (Activation function) auf die Summe angewandt, ähnlich dem Alles-oder-Nichts Gesetz, das bei der Reizweiterleitung im Neuron nur dann ein Aktionspotential erzeugt und weiterschickt, wenn die Summe der Impulse eine bestimmte Schwelle überschreitet. Auch beim Perzeptron wird oft eine einfache SprungFunktion verwendet, was einer scharfen Trennung in zwei Klassen entspricht, doch sind auch andere Funktionen möglich. Beim Mehr-Lagen-Perzeptron wird - besonders in den versteckten Lagen - oft die Sigmoid-Funktion statt der Sprung-Funktion verwendet, weil so eine bessere Anpassung an komplexe Musterräume möglich wird, was vor allem bei nicht exakt trennbaren Aufgaben und bei der Funktionsapproximation benötigt wird. Bild 4 Übertragungsfunktionen (Bewertungsfunktionen) 14 _______________________________________________________________________________________ Das Lernen des Perzeptrons erfolgt durch Adaption. Ein Trainingsmuster wird an die Eingangsknoten gelegt und mit den jeweiligen Gewichten multipliziert. Diese werden zu Beginn mit einem Zufallswert zwischen 0 und 1 initialisiert und im Verlauf des Trainings angepasst. Die gewichteten Eingänge werden summiert. Je nach Problemstellung wird auch noch ein Schwellwert dazu gerechnet. Schließlich wird darauf die Sprung-Funktion (beim klassischen Perzeptron, ansonsten sind rein theoretisch auch andere nichtlineare Funktionen möglich) angewandt, die die Entscheidung trifft welcher Klasse das Muster bei dieser Gewichtskonfiguration zugeordnet werden würde. Nun wird diese Ausgabe mit der erwarteten verglichen. Stimmen sie überein, bleiben die Gewichte unverändert, divergieren sie, errechnet man bei welcher Änderung der Gewichte die Zuordnung den richtigen Wert erhalten würde und ändert sie entsprechend. Mit den Perzeptron ist aber lediglich eine Aufteilung in zwei linear trennbare Klassen möglich. Linear trennbar bedeutet dabei, dass die Klassen in 2-D durch eine Gerade, bzw. in höheren Dimensionen durch nur eine Hyperebene, getrennt werden können. Ein Beispiel für ein mit dem Perzeptron trennbares Problem ist die ANDVerknüpfung, die eine Aufspaltung in zwei Klassen nach folgender Tabelle bewirkt. x1 x2 y 0 0 1 1 0 1 0 1 0 0 0 1 Tabelle 2 AND-Verknüpfung Bild 5 Musterraum und Perzeptronlösung der AND-Verknüpfung Im 2-D Musterraum angeordnet sieht man deutlich die lineare Trennbarkeit durch eine Gerade. Ein Perzeptron mit den Gewichten 1 für beide Eingänge und einer Sprung-Funktion mit Sprung bei 1,5 bietet ein Lösungsmodell. x1 0 0 1 1 x2 0 1 0 1 Σ 0 1 1 2 0 für wi * xi 1.5 y 1 für wi * xi 1.5 Tabelle 3 Gewichtete Summe mit Gewichten = 1 und Sprungfunktion für AND 15 _______________________________________________________________________________________ Der Perzeptron-Ansatz allein ist sehr beschränkt, Probleme , die nicht linear trennbar sind wie das XOR-Problem erfordern eine Erweiterung des Modells. Auch wenn die XORVerknüpfung, wie die Tabelle zeigt, eine Aufspaltung in nur zwei Klassen vornimmt, sieht man doch am Musterraum, dass diese in 2-D nicht linear trennbar sind, da zwei Geraden für eine Aufteilung notwendig sind. x1 x2 y 0 0 1 1 0 1 0 1 0 1 1 0 Tabelle 4 XOR-Verknüpfung Bild 6 Musterraum der XOR-Verknüpfung Die XOR-Verknüpfung ist also mit dem vorhergehenden Ansatz nicht sofort lösbar. Um dennoch eine Lösung mit einem einfachen Perzeptron zu erzielen, gibt es verschiedene Möglichkeiten, man kann z.B. durch weitere Eingänge (entspricht Mehrinformation) ein neues Merkmal generieren, das bewirkt, dass Problem in einer höheren Dimension linear trennbar wird, oder man kann eine kompliziertere Entscheidungsfunktion wählen. Beides widerspricht allerdings dem neuronalen Konzept der Einfachheit der Grundkomponenten. Eine zum neuronale Ansatz passende Lösung des Problems bietet die Verwendung mehrerer Perzeptrone, das Konzept des Mehr-Lagen-Perzeptrons. Zur Lösung des XOR-Problems benötigt man beispielsweise drei Perzeptrone aufgeteilt in zwei Lagen wie in Bild 7. 16 _______________________________________________________________________________________ Bild 7 MLP-Lösung für die XOR-Verknüpfung Verwendete Sprungfunktion f 0 für wi * xi 0.5 y 1 für w * x i i 0.5 x1 x2 Σ1 f(Σ1) 0 0 0 0 0 1 1 1 1 0 -1 0 1 1 0 0 Tabelle 5 Perzeptron P1: Σ1 = -x1+x2 x1 x2 Σ2 f(Σ2) 0 0 0 0 0 1 -1 0 1 0 1 1 1 1 0 0 Tabelle 6 Perzeptron P2: Σ2 = x1-x2 f(Σ1) f(Σ2) y 0 0 0 1 0 1 0 1 1 0 0 0 Tabelle 7 Perzeptron P3: y = f(f(Σ1)+f(Σ2)) Wie man an obiger Lösung des XOR-Problems sieht, erhöht sich schon bei einfachen, mehrlagigen Ansätzen die Zahl der anzupassenden Gewichte und die Abhängigkeit dieser 17 _______________________________________________________________________________________ untereinander und der Ausgabe von ihnen wird komplexer. Das einfache Perzeptron-Lernen ist damit schnell überfordert. Zum Lernen des Mehr-Lagen-Perzeptrons wird deshalb der Back-Propagation-Algorithmus verwendet, der bei komplizierteren Topologien die Adaption der Gewichte besser ermöglicht. Dabei wird je ein Trainingsdatensatz an die Eingangsknoten gelegt, der Ausgang berechnet, mittels einer Fehlerfunktion die Abweichung vom bekannten, gewünschten Resultat errechnet, und schließlich der Beitrag jedes einzelnen Gewichtes des Netzes zu diesen Fehler zurückgerechnet und die Gewichte so verändert, dass der Endfehler minimiert wird. Dies wird für alle Trainingsdaten und in mehreren Zyklen wiederholt und so nach und nach ein optimales Ergebnis erreicht. Den Fortgang der Anpassung und die Güte des Netzwerkes überprüft man dabei durch eine unabhängige Testmenge deren gewünschter Ausgang bekannt ist. Das Ende des Trainings ist erreicht, wenn entweder eine bestimmte Anzahl von Trainingszyklen durchlaufen wurde, oder ein bestimmtes Fehlermaß oder ein anderes vorher festgelegtes Abbruchkriterium erreicht wurde. Die Bestimmung der Parameter, wie Gewichte, Schwellwerte, Knotenzahl durch den BackPropagation-Algorithmus wird meist in Software durchgeführt, da die augenblicklichen Hardware-Optionen (für die Gewichte werden z.B. EEPROM`s verwendet) ein derart häufiges Ändern der Komponenten, wie es beim Training notwendig ist, nicht unterstützen oder ohne Degradation ertragen. Der Back-Propagation-Algorithmus zielt auf eine schrittweise Annäherung an die gewünschte Lösung. Dies bedeutet beim MLP, die Gewichte des Netzes derart zu konfigurieren, dass eine optimale Trennung, bzw. Rekonstruktion der Daten möglich ist, d.h. dass die Zahl der Fehlzuordnungen minimal ist. Für einen kurze Einführung in die Anwendung des Back-Propagation-Algorithmus beim Mehr-Lagen-Perzeptron zuerst einige Festlegungen. Bild 8 Lagen- und Knotenbezeichnung des MLP Das Bild zeigt das Schema eines Mehr-Lagen-Perzeptrons Es gibt n Lagen. Jede Lage besitzt eine Anzahl Knoten, diese variiert normalerweise von Lage zu Lage. Innerhalb einer Lage verwenden wir jeweils die Laufvariable „i“ für den i-ten Knoten dieser Lage. Zwischen zwei aufeinanderfolgenden Lagen k und k+1 befinden sich die Gewichte w, dabei bedeutet wij das Gewicht der Verbindung zwischen dem Knoten j der Lage k und dem Knoten i der darauffolgenden Lage k+1. Die Gesamtheit der im Knoten i der k+1 ten Lage eingehenden Gewichte wird mit wik bezeichnet. Die Ausgabe x des Knotens i der k+1 ten Lage ergibt sich dann als xik 1 g w * x , j k ij k j 18 _______________________________________________________________________________________ wobei j die Laufvariable der Knoten der vorhergehenden Lage k ist. g( )ist die Übertragungsfunktion. Sie könnte wie beim Perzeptron eine Sprung-Funktion sein, meist verwendet man aber die Sigmoid-Funktion, da diese den Vorteil hat, differenzierbar zu sein. Da man beim Back-Propagation-Algorithmus ein Gradientenabstiegsverfahren zur Optimierung benutzt ist die Differenzierbarkeit der Übertragungsfunktion eigentlich unverzichtbar. Die Durchführung des Algorithmus beginnt mit der Initialisierung der Gewichte auf einen kleinen Wert zwischen 0 und 1. Hierzu wird meist, wie auch bei der hier verwendeten Softwarelösung, ein Zufallszahlengenerator verwendet. Die von diesen erzeugten Zahlen hängen, da es eigentlich ein Pseudo-Zufallszahlengenerator ist, von der Eingabe der „Seed“Zahl ab. Weil jedoch die Gewichtsanpassung auch von den Startwerten der Gewichte abhängt, kann die Initialisierung durchaus Einfluss auf die Güte der Lösung haben. Aus diesem Grund ist es immer ratsam bei Untersuchungen diesen Einfluss mitzuberücksichtigen. Nun wird aus der Trainingsdatenmenge ein Mustervektor ausgewählt und an die Eingangsknoten gelegt. Diese benutzen als Übertragungsfunktion die Identität, d. h. sie geben die Werte einfach weiter, die Ausgangswerte xi1 entsprechen den Eingabewerten des Mustervektors. In den folgenden Schichten wird dann die Ausgabe nach den oben genannten Formeln errechnet, bis als Ausgang der letzten Lage die Werte yi ,bzw. der Ausgangsvektor y , erreicht ist. Für jedes Muster existiert ein Vektor mit Angaben über die erwünschte Ausgabe y yi . i Mittels einer Fehlerfunktion bestimmt man die Abweichung der errechneten Ausgabe von der erwünschten. Hier wurde die Formel: 2 1 l E * yi yi 2 i 1 verwendet. Ziel ist den so kalkulierten Fehler durch Veränderung der Gewichte zu minimieren. E Es soll dabei: 0 erreicht werden, für k=1,...,n-1, wenn n die Zahl der Lagen ist. wijk Da E über yi nicht-linear von wij abhängt, kann dieses Gleichungssystem im allgemeinen nur iterativ durch Suche nach dem globalen Minimum gelöst werden. Um dieses zu erreichen, werden die Gewichte wijk durch Addition des Faktor wijk E wijk korrigiert. E k gibt dabei die Abhängigkeit des Fehlers E vom jeweiligen Gewicht an. wij nennt man den Lernparameter, seine Größe im Bereich 0..1, bestimmt die Lerngeschwindigkeit, also die Schrittgröße des Abstieges in Richtung globales Minimum. Von der richtigen Wahl von hängt auch die Güte der Anpassung. Verwendet man ein das relativ groß ist, erfolgt ein schneller Abstieg, dies ist vor allem zu Beginn des Trainings von Vorteil, da so Zeit gespart werden kann. Nähert sich die Anpassung aber einer Lösung, kann es geschehen, dass durch einen zu großen Lernparameter diese gar nicht erreicht wird, sondern dass der Algorithmus zu einer Oszillation der Gewichtswerte führt statt das Optimum zu erreichen. Um dies zu vermeiden empfiehlt es sich mit Fortschreiten des Trainings den Lernparameter zu verkleinern. Eine weiteres Problem besteht darin, dass es oft nicht nur ein globales Minimum gibt, sondern noch weitere, lokale Minima. Um zu vermeiden, dass der 19 _______________________________________________________________________________________ graduelle Abstieg in Richtung der optimalen Lösung in einem solchen stecken bleibt, führt man einen weiteren Term in die Anpassungsregel ein, indem man die Größe der vorherigen Gewichtsänderung, mit einem weiteren Lernparameter gewichtet, einbezieht. Auf diese Weise kann ein lokales Minimum überwunden werden. Die optimale Anpassung eines Netzes hängt natürlich auch von der korrekten Wahl der Knotenzahl in den versteckten Lagen ab, eine Größe die man durch Vergleichen ermitteln muss. Bild 9 Schematischer Ablauf des Back-Propagation-Algorithmus Für das zu dieser Arbeit verwendete Software-Paket ROOT, einem C++ Framework das besonders zur Datendarstellung und -bearbeitung in physikalischen Aufgaben entwickelt wurde, war ein bereits in weiten Teilen verwendbares, programmiertes MLP vorhanden, bzw. die objektorientierten Klassen dazu. Die verwendete Bibliotheksdatei NeuNet.cxx findet sich im Anhang. 20 _______________________________________________________________________________________ 3. Ergebnisse 3.1 Möglichkeiten Nach der Entscheidung für das Multi-Layer-Perceptron, besteht der nächste Schritt darin, sich klar zu werden welche Untersuchungen sich, abhängig von den vorhandenen Daten, anbieten um die Chancen die ein neuronaler Ansatz bietet zu untersuchen. Das Endziel ist, wie schon dargelegt, die Reduktion des Datenstroms. Zuerst ist deshalb zu überprüfen wie gut ein Neuronales Netz Hintergrundereignisse von verwertbarer Information trennen kann, denn dies stellt schon eine erhebliche Verringerung der Datenmenge dar. Zum Hintergrund zählen z.B. hochenergetische Teilchen oder Ereignisse, die durch beschädigte Pixel entstehen, auch Bad-Pixel-Ereignisse genannt. Diese entstehen beispielsweise, wie man bei XMM-Newton gesehen hat, durch den Einschlag von Minimeteoriten. Als Hintergrund sollen aber auch die Ereignisse verworfen werden bei denen keine eindeutige Information über Energie und Lage der eingefallenen Photonen gewonnen werden kann. Ohne diese Information kann eine sinnvolle Auswertung der Daten nicht stattfinden und so würden diese Ereignisse nur Datenrate belegen ohne Nutzen zu bringen. Solche Ereignisse entstehen einerseits dadurch, dass mehrere Photonen in so kurzen Abständen in einem Pixel eintreffen, dass nur eine einzige, sehr große Ladung registriert werden kann oder aber, was der wichtigere, weil häufigere, Fall ist, dadurch, dass zwei oder mehrere Photonen, die in nahe beieinanderliegenden Pixeln eintreffen, ihre Energien über mehrere Pixel verteilen und sich dabei überlagern. Diesen Effekt, dass die Energie eines einfallenden Photons Ladungen in mehreren benachbarten Pixeln erzeugt, nennt man auch Shared-Pixel- oder Split-Photon Effekt. Es ist besonders wichtig ihn bei XEUS zu berücksichtigen, da das Auftreten dieses Effektes stark von der Pixelgrösse abhängt, d.h. je kleiner die Fläche pro Pixel, desto häufiger wird ein Photon durch seine Energie Ladung in mehreren benachbarten Pixel erzeugen. Ein Pixel wird bei XEUS nur noch ein Viertel so groß wie bei XMM-Newton sein und dadurch werden bei XEUS also weit mehr Pixelcluster als bei XMM-Newton auftreten, also Ereignisse an denen mehrere benachbarte Pixel beteiligt sind. Bild 10 Vergleich der Pixelgröße bei XMM-Newton und XEUS mit einfallendem Photon Würde man pauschal eine hohe Anzahl von solchen Ereignissen verwerfen, könnte man natürlich eine sehr hohe Reduktionsrate erzielen, doch zugleich auch einen Großteil der gewünschten Informationen verlieren. Es ist besser und effektiver schon an Bord des Satelliten zu entscheiden welche Ereignisse zu den sie erzeugenden Photonen zurückverfolgt werden können und welche zu stark interagieren um sie zu trennen. Rekonstruiert man aus den als trennbar erkannten Pixelclustern anschließend die Photonen , d.h. Lage und Ladung des eingefallenen Röntgenquants, braucht man statt der vielen Pixel nur noch diese Werte zu senden, eine weitere Möglichkeit der Datenreduktion, bei der wichtige Information erhalten bleibt. 21 _______________________________________________________________________________________ Demnach empfehlen sich folgende grundlegenden Untersuchungen zur Feststellung der Fähigkeiten des Neuronalen Ansatzes: •Trennbarkeit von Hintergrund und nichtverwertbaren Ereignissen von informationstragender •Ermittlung der Anzahl der eingefallenen Photonen in Pixelclustern, die durch Shared-PixelEffekt entstanden sind •Analyse der Möglichkeiten der Rekonstruktion von Lage und Ladung des/der eingefallenen Photonen aus diesen Pixelclustern Dabei ist auch jeweils die beste Netzlösung mit anderen Methoden zu vergleichen. 3.2 Verfügbare Daten Ein Neuronales Netz kann immer nur so gut sein wie es die Trainingsdaten erlauben. Aus diesem Grund ist die Auswahl und Aufbereitung der Daten, die für das Netzwerktraining benutzt werden sollen, von äußerster Wichtigkeit. 3.2.1 XMM-Newton Die ersten Datensätze, die für die Untersuchungen zur Verfügung standen, stammten aus dem derzeit in Dienst stehenden Röntgensatelliten XMM-Newton. Da XEUS technologisch auf der bei diesem Satelliten benutzen Technik aufbaut und ähnliche, wenn auch weit besser aufgelöste, Rohdaten erwartet werden, boten die Daten von XMM-Newton eine gute Möglichkeit für erste Tests, und um die notwendigen Werkzeuge in Software, zu entwerfen und zu testen. Die Daten waren vorverarbeitet, d.h. benachbarte Pixel zu Clustern zusammengefasst, Rauschen entfernt, etc., sowie vorklassifiziert in Hintergrund und Information, auch Physik genannt. Die Klassifikation erfolgte nach Anzahl und Anordnung der Pixel. Dabei wurden alle Ereignisse bei denen mehr als vier Pixel „on“ waren automatisch dem Hintergrund zu geordnet und auch alle die zwar vier oder weniger Pixel besaßen aber ein Muster aufwiesen das nicht gültig war Dies ist eine sehr simple Klassifikation, doch sie wird bei der Verarbeitung der XMM-Newton-Daten auch wirklich verwendet. Gültige Muster: 0 0 0 0 x 0 0 0 0 0 0 0 0 x 1 0 0 0 0 1 0 0 x 1 0 0 0 1 1 0 x 1 0 0 0 x = Pixel mit der Maximalen Ladung, 1 = weitere Teilladung. Auch alle Rotationen dieser Muster sind gültig. Das Datenformat besteht aus einem Header mit Angaben zum Inhalt der einzelnen Spalten und anschließender Tabelle, wie der folgende Auszug: Each line represents one pixel "cluster". The pixel containing the maximum charge is listed first. Filter: NHIT > 1 Columns: 1 - single chip ID (1 ... 12) 2 - frame number 3 - valid pattern flag (1-valid; 0-invalid; XMM SAS notion) 22 _______________________________________________________________________________________ 4 5 6 7 8 - pattern type (XMM) number of pixels in "cluster" (NHIT) column / x pixel number (1 .. 64) row / y pixel number (1 .. 200) charge (ADU; .. 4095) 6 .. 8 are repeated NHIT times 1 2 3 4 5 6 7 8 ------------------------------------4 151 1 1 2 , 27 50 204 , 27 51 46 4 385 1 1 2 , 4 18 203 , 4 19 28 4 581 1 1 2 , 37 67 120 , 37 68 51 4 590 1 1 2 , 44 13 24 , 44 12 24 4 596 1 4 2 , 16 87 593 , 15 87 22 4 741 0 107 16 , 57 85 59 , 60 85 56 , 58 85 56 , 56 85 51 , 59 85 50 , 53 85 38 , 54 85 38 , 55 85 37 , 50 85 33 , 60 86 32 , 52 85 32 , 51 85 30 , 57 86 22 , 58 86 20 , 58 84 20 , 56 86 20 4 741 1 1 2 , 41 85 58 , 41 86 26 4 742 0 113 22 , 6 14 87 , 6 13 77 , 6 12 76 , 6 15 73 , 6 17 63 , 6 16 58 , 6 19 57 , 6 18 55 , 6 20 55 , 6 21 54 , 6 23 46 , 6 24 41 , 6 22 39 , 6 29 35 , 6 32 31 , 6 26 30 , 6 25 28 , 6 27 27 , 6 31 26 , 6 33 22 , 6 28 22 , 6 30 20 4 1079 0 0 2 , 1 140 2303 , 1 139 1493 4 1270 1 4 2 , 38 65 190 , 37 65 115 4 1443 1 1 2 , 57 117 32 , 57 118 25 4 1452 1 1 2 , 13 12 32 , 13 13 31 Obwohl sich diese Daten für erste Versuche, gerade durch die Einfachheit ihrer Klassifikation, durchaus eigneten, erlaubte der Mangel an noch vorhandener Information keine komplexeren Untersuchungen. Vor allem die fehlenden Informationen über die Photonen, die die Ladungen erzeugten, verhinderten dies. 3.2.2 Monte-Carlo-Simulation Für die weiteren Versuche wurden Daten mit einer Monte-Carlo-Simulation (MC) generiert. Dies erlaubte die Arbeit mit verschiedeneren Datensätzen. Auf diese Weise war es möglich unterschiedliche Phänomene getrennt oder gleichzeitig zu untersuchen. Da auch die Simulation einem Entwicklungsprozess unterliegt, änderte sich auch das Datenformat in dem sie bereitgestellt wurden, was immer wieder Modifikationen an den Einleseroutinen erforderlich machte. Der erste (MC) Datensatz war noch mit der Pixelgröße von XMM-Newton ((150μm)2) generiert. Die Daten enthielten nur Ein-Photon-Ereignisse und Hintergrund. Angegeben waren die Klassifikation in gut/schlecht, der genaue Auftreffort des Photons als x/yKoordinaten, sowie ein 3 x 3 Gitter mit der Angabe der Ladungswerte des Pixels, zentriert auf das Pixel des Clusters, das die höchste Ladung aufwies. Ein Beispiel zeigt folgender Auszug: x y 134.0725 135.0279 77.0269 212.0056 3 x 3-Gitter -4.8346 57.3371 50.5059 4.2044 825.6799 669.6693 3.6954 1.8175 0.4650 39.2369 567.3036 -3.5525 62.8820 906.7276 -5.7191 -4.6688 -2.1987 3.3737 23 _______________________________________________________________________________________ Die folgenden Datensätze mit denen gearbeitet wurde, waren mit der Pixelgröße erzeugt, die bei XEUS verwendet werden wird (75 μm)2,. Das hat natürlich Einfluss auf die Häufigkeit des Auftretens von Shared-Pixel-Ereignissen. Zunächst gab es Datensätze, die nur Ein-PhotonEreignisse und Hintergrund zusammen mit verschiedenen Zusatzangaben enthielten. Die Pixelinformation wurde hierbei wieder in einem 3 x 3 Gitter bereitgestellt und auf die höchste Ladung zentriert. Die zusätzlichen Informationen waren in wechselnden Zusammensetzungen: • Lage des eingefallenen Photons in x/y Koordinaten • Ladung (entspricht der Energie des eingefallenen Photons) • Randlage des Clusters oder ausgefallene Pixel (Werte im Gitter auf 0.00 gesetzt) • Rauschen (mit Angabe der Rauschschwelle) Das Format des Datensatzes ändert sich leicht je nachdem welche Informationen noch dabei sind. Im folgenden ein Auszug aus einem typischen Datensatz: P x y Ladung 2 6.0719, 2.8211, 1619.9 2 2.2137, 16.7800, 1598.7 3 6.6930, 5.9724, 1620.3 4 13.1149, 1.7946, 1746.9 1 15.7863, 16.2375, 1591.2 3 x 3-Gitter -2.3 -4.6 -0.7 914.5 10.6 646.4 0.8 10.6 -6.3 1455.9 2.9 1.7 -1.6 168.6 -1.1 1402.0 -0.2 -4.7 0.6 -7.0 1.3 858.5 -3.4 269.4 -4.8 8.3 7.6 1565.0 4.3 -0.6 1.0 24.3 13.2 -8.0 130.4 -10.1 3.7 34.1 -1.7 -5.2 473.3 147.9 -0.7 2.5 5.8 p steht dabei für die Anzahl der Pixel die über der Rauschschwelle liegen Die Formatierung lässt die Muster deutlicher werden: Datensätze, die auch Mehr-Photon-Ereignisse enthalten, liefern die Pixelcluster in einem 5 x 5 Gitter. Da sich Ereignisse bei denen sich mehr als zwei Photonen überlagern, kaum trennen lassen, enthalten die Datensätze maximal die Angaben über die x/y Koordinaten und die Ladung für zwei Photonen, d.h. fallen mehr als diese ein wird der Cluster dem Hintergrund zugerechnet. Bei Ein-Photon-Ereignissen werden die Angaben zu x2, y2, c2 (=Ladung) auf 0.0 gesetzt. Im folgenden eine Beispiel dieser Datensätze: P x1 5 x 5-Gitter 2 4 0.1979 -3.5 -1.9 6.0 3.9 3.3 0.1109 6.8 3.0 9.4 -4.6 y1 0.2485 -3.1 -2.2 2.1 -2.4 4.5 0.0933 41.3 357.3 -1.5 -2.1 c1 x2 411.6 0.0000 2.5 4.4 26.1 379.7 0.1 400.6 0.2648 6.0 2.0 -2.9 1.3 y2 c2 0.0000 4.0 -0.7 3.8 13.1 3.4 0.2214 1.3 4.6 237.8 161.2 0.0 -4.0 -0.0 0.6 0.1 2.0 399.7 -12.9 2.2 5.1 2.7 24 _______________________________________________________________________________________ 1 3 5 3.8 0.2718 -0.3 2.8 1.0 -2.6 -7.2 0.1235 -3.4 64.4 -0.8 -3.9 0.6 0.2173 -1.5 0.1 1.1 -1.8 0.5 -0.1 0.2671 1.6 -0.2 -2.8 -3.7 -0.3 0.1126 5.2 714.4 14.2 0.1 -6.3 0.2248 -1.7 6.4 13.0 361.3 3.0 -0.7 410.8 0.0000 -4.6 2.2 0.4 1.6 3.1 417.7 0.0885 -1.1 16.5 4.0 0.9 -1.1 420.4 0.1281 3.4 -0.1 155.0 171.7 -5.1 5.9 0.0000 4.4 5.7 -0.7 396.9 5.5 0.1220 -3.9 -4.8 -4.5 -0.1 -7.0 0.2517 1.3 -1.4 65.8 59.8 3.1 -6.7 0.0 0.3 4.8 -3.3 15.9 -8.4 398.5 1.1 3.7 -1.0 9.4 -5.8 406.2 -0.8 -0.9 0.4 -2.7 6.8 Wie man sieht sind die Datenformate immer wieder leicht variiert, da die notwendigen Zusatzinformationen erst in Experiment ermittelt wurden. Die Einleseroutinen wurden aber nicht nur an die unterschiedlichen Datenformate adaptiert, sondern ermöglichten es auch verschiedene Normalisierungen der Gitterwerte (global/lokal) ohne großen Aufwand zu testen. 3.3 Training und Resultate 3.3.1 XMM-Newton Für die ersten Versuche und die Entwicklung der notwendigen Programme wurden die XMMNewton Daten verwendet. Die vorausgehende Datenanalyse ergab, dass die Klassifikation fehlerhaft war. Nach den Angaben sollte die Zuordnung gut/schlecht nach den Kriterien Anzahl der Pixel, Anordnung der Pixel und Randlage erfolgen, doch war dies nicht ganz gelungen. Nachdem das kleine Problem behoben war, wurde beschlossen die Pixelcluster in ein 5 x 5-Gitter einzupassen, da alle guten Ereignisse maximal 4 Pixel enthalten. Zur Zentrierung des Gitters boten sich entweder die höchste Ladung oder das Massenzentrum an, beides wurde getestet. Die Gitterlösung bietet sich an, da so ein konstante Anzahl von Eingangsknoten gewährleistet werden kann, was die Mustererkennung verbessert, da so die Zahl der Varianten kleiner gehalten werden kann. Die Werte im Gitter wurden zu Beginn auf den maximal möglichen Ladungswert 4095 ADU (analog digital unit) normiert. Weil Cluster bei denen der höchste Ladungswert am Rand des CCD`s liegt automatisch dem Hintergrund zu gerechnet werden, da man nicht weis wie die Teile des Musters aussehen, die nicht aufgezeichnet werden konnten, ist es notwendig zu den 25 Knoten, die die Ladungswerte aus dem Gitter enthalten, noch weitere 4 zuzufügen um dem Netz auch Informationen zur Lage des Pixelclusters auf dem CCD bereitzustellen. Der erste Versuch nutze hierzu die Angabe der maximalen und minimalen x und y Koordinaten des 5 x 5-Gitters. Da die einzige mit diesem Datensatz mögliche Klassifikation in der Erkennung von „guten“ Ereignissen bestand, war ein Ausgangsknoten für die Entscheidung ausreichend. Für erste Untersuchungen dazu wie viele Knoten in der versteckten Lage sinnvoll sind, wurden Trainings mit nur einem Lernparameter, η =0.8, und ohne Momentumparameter μ getestet. Es zeigte sich dass bei dieser einfachen Konfiguration von Daten und Parametern 15 Knoten das beste Ergebnis lieferten. 25 _______________________________________________________________________________________ Bild 11 Lernkurve und Ausgabe mit 8 versteckten Knoten. Die Ausgabe zeigt die Zuordnung zu Information (grau/blau = Training/Validierung) und Hintergrund (hellrot/rot = Training/Validierung) Bild 12 Lernkurve und Ausgabe mit 15 versteckten Knoten. Bild 13 Lernkurve und Ausgabe mit 20 versteckten Knoten. Wie ein Vergleich der Bilder zeigt ist der Lernerfolg, bzw. die Trennung für 15 Knoten die Beste, bei ansonsten gleichen Parametern. Es folgten Versuche mit Variationen der Zahl der Trainingszyklen (ein Zyklus bedeutet alle Muster des Trainingsdatensatzes wurden einmal dargeboten), sowie des Seeds für den Zufallszahlengenerator. Etwa 1000 Trainingszyklen erwiesen sich als besonders erfolgreich. Mehr verbesserte das Endergebnis zwar etwas, doch im Verhältnis zum Mehraufwand an Rechenzeit und –kapazität, erwiesen sich andere Methoden als erfolgreicher.. 26 _______________________________________________________________________________________ Bild 14 Lernkurve und Ausgabe mit 15 versteckten Knoten und 5000 Trainingszyklen. Der Einfluss der Wahl des Zufallszahlenausgangswertes für die Initialisierung zeigte sich schon hier, was es ratsam erscheinen ließ auch in späteren Untersuchungen immer wieder Stichproben mit verschiedenen Zahlen zu machen um die Lösung zu verbessern. Bild 15 Ausgaben für verschiedene Seed-Werte Ein allgemein bester Wert ist nicht ermittelbar, da Änderungen an anderen Parametern auch Einfluss darauf haben welcher Wert die schnellste und beste Lösung liefert. Ein weiterer Vergleich erfolgte zwischen den Resultaten die das Training lieferte wenn man bei gleichen sonstigen Parametern das Gitter der 5 x 5 Werte statt auf die maximale Ladung auf das Massenzentrum des Pixelclusters zentrierte. Die Tests zeigten, dass der Mehraufwand dieser Berechnung keine besseren Ergebnisse brachte, teils war sogar eine Verschlechterung zu sehen, da durch die Rechnungen und eventuelle Rundungen ähnliche aber nicht identische Muster in stärker variierender Form in das Gitter eingepasst wurden. 27 _______________________________________________________________________________________ Bild 16 Lernkurve und Ausgabe mit 15 versteckten Knoten und Zentrierung auf das Massenzentrum des jeweiligen Pixelclusters Da anfangs die Erkennung von Ereignissen die Randlage aufwiesen nicht optimal war, wurden bei den Gitterwerten, die außerhalb des CCD`s lagen (Randlage), nach der Normierung die 0 mit denen sie aufgefüllt waren durch –1 ersetzt. Da dies ein Wert ist der ansonsten nicht vorkam, verbesserten sich so die Klassifikationseigenschaften. Der Grund hierfür ist einfach. Durch die globale Normierung auf den absoluten Maximalwert werden kleine Werte bis auf die Nähe von 0 skaliert, wodurch Muster entstehen, die in normierter Form den Ereignisse mit Randlage sehr ähnlich sind. Bild 17 Ausgaben für –1 Randlage, 8 und 10 Knoten Wie die Bilder zeigen verbessern sich die Ergebnisse mit –1 so, dass man mit weniger versteckten Knoten auskommt. Statt den Eingangsknoten die jeweiligen x/y Minimal-/Maximalwerten als Information bezüglich der Lage und Ausdehnung eines Clusters zu geben, ist ein zweiter Ansatz in booleschen Werten 1 und 0 anzugeben ob Randlage vorliegt und zusätzlich die Länge je in xund y-Richtung zuzuweisen. Dies ist eine Vereinfachung der Eingabewerte, da so die Anzahl der möglichen Werte abnimmt ohne dass wichtige Information verloren geht. Die booleschen Werte sind nur zwei und die Längenausdehnung der Cluster überschreitet selbst im schlechtesten Fall kaum den Wert 20 Pixel, liegt aber meist im Bereich 2 bis 5, ein Vielfaches weniger als die 200 mal 64 Pixel, die das CCD hat. Wie erwartet liefern diese einfacheren Daten eine exaktere Klassifikation, da die Voraussetzungen für das Training simpler sind und auch die Anzahl der benötigten versteckten Knoten kann auf 8 bis 10 gesenkt bleiben. 28 _______________________________________________________________________________________ Bild 18 Lernkurve und Ausgabe für 8 Knoten und boolesche Angaben Bild 19 Lernkurve und Ausgabe für 10 Knoten und boolesche Angaben Da die Versuche mit den XMM-Newton Daten besonders der Erstellung und Überprüfung von Werkzeugen und Methoden dienten, bestand der nächste Schritt darin herauszufinden welche Kombination von Lernparametern η,μ und einen Parameter fse (flat spot elemination, ein Parameter zu Verringerung langer Plateaus der Lernkurve) besonders gute und schnelle Lernerfolge bringt. Dabei ging es auch darum die Parameter schrittweise zu verringern um eine passende Annäherung zu erreichen. Als sehr erfolgreicher Parametersatz für verschiedene Kombinationen von Knoten- und Zyklenzahl erwies sich folgender, künftig Standard-Parametersatz genannt: Für η äquidistante Änderung in 10 Schritten : 0.9, 0.8, 0.7, 0.6, 0.5, 0.4, 0.3, 0.2, 0.15, 0.1 dazu ein fse-Parameter 0.03 und auch für μ äquidistante Änderung in 10 Schritten 0.6, 0.55, 0.5, 0.45, 0.4, 0.35, 0.3, 0.25, 0.2, 0.15 Weil verwertbare Muster bei den XMM-Newton Daten maximal 4 Pixel in einer quadratischen Anordnung besitzen kann man statt einem 5 x 5 Gitter auch ein 3 x 3 Gitter ausprobieren. Der Vorteil ist, dass man dann mit einer wesentlich geringeren Knotenzahl in der Eingangs- und in der versteckten Lage auskommt und das Training deshalb auch einfacher wird. 9 Eingangsknoten für die Gitterwerte plus 4 für Lage und Ausdehnung gibt 13 statt 29 und statt 15 versteckter Knoten reichen 8. Bei dieser Gittergröße wurde getestet wie sich eine lokale Normierung auf das Training auswirkt. Das Gitter besaß im Zentrum wieder den maximalen Ladungswert des Clusters. Die Werte der umgebenden 8 Pixel wurden nun jeweils auf den augenblicklichen Maximalwert skaliert und nur diese auf den globalen Maximalwert 4095 ADU. Wie auch die Vereinfachung der Lage und Ausdehnungsangaben diente dies der Verminderung der Unterschiede ähnlicher Muster. Dadurch konnten bereits mit 4 versteckten Knoten ziemlich gut Resultate erzielt werden. 29 _______________________________________________________________________________________ Bild 20 Lernkurve und Ausgabe für 3x3-Gitter, 8 Knoten und globale Normierung. Bild 21 Lernkurve und Ausgabe für 3x3-Gitter, 4 Knoten und lokale Normierung Die Ausgaben sind im logarithmisch aufgetragen um zu verdeutlichen wie sich die Erkenntnisleistung bei lokaler Normierung verbessert. Die Ergebnisse der Arbeit mit den XMM-Newton Daten waren Programme, die als Grundtypen auch als Werkzeuge zur Untersuchung der Simulationsdaten geeignet waren, bzw. für diese adaptiert werden konnten, sowie Erkenntnisse über die Auswirkungen der verschiedenen Normalisierungen, der Wahl des Seed-Wertes, der Zyklenzahl, sowie mehrere Lernparametersätze, darunter der Standardparametersatz. Die gewonnenen Erfahrungen bildeten die Grundlage der weiteren Versuche. 3.3.2 Monte-Carlo-Simulation Wie bereits bei der Einführung der Daten erwähnt, wurden die ersten Simulationsdaten mit der Pixelgröße der XMM-Newton Mission generiert, die das vierfache an Fläche aufweist wie XEUS. Die Daten waren bereits als 3 x 3 Gitter, zentriert auf die Maximalladung, bereitgestellt, und im Gegensatz zu den vorherigen Daten lieferte die Simulation auch Aussagen über den genauen Einfallsort des Photons. Als Kriterium für die Zugehörigkeit zum Hintergrund galten wieder die Randlage, sowie „Bad Pixel“, d.h. defekte Pixel. Diese waren durch den Wert 0.0 gekennzeichnet, der sonst wegen des zugefügten Rauschens nicht auftrat. Die Rauschschwelle war mit 28,5 ADU angegben. Die Normierung erfolgte global auf den maximal möglichen Wert 2000. Wegen des gelieferten Datenformats reichten 9 Eingangsknoten aus. In den ersten Versuchen ging es um die Rekonstruktion des Ortes an dem das ladungserzeugende Photon eingefallen war. Besonders im Fall von Split-PhotonEreignissen eine wichtige Aufgabe. Bei Verwendung des Standardparametersatzes, 1000 Zyklen und zwei Ausgangsknoten für x und y zeigt sich, dass bereits 4 versteckte Knoten eine akzeptable Rekonstruktion ermöglichten. Das Ergebnis blieb jedoch etwas hinter den 30 _______________________________________________________________________________________ Erwartungen zurück. Als Gründe hierfür ergaben sich zum einen, dass die Anzahl der Ereignisse in denen eine Aufspaltung der erzeugten Ladung über mehrere Pixel auftrat bei dieser Pixelgröße relativ gering ist, so dass die Daten für das Training nicht ganz geeignet waren und zum anderen, dass das Netz, da keine Vorselektion in Hintergrund und Information erfolgt war, versuchte auch Ereignisse zu rekonstruieren, bei denen das gar nicht möglich war weil sie zum Hintergrund gehörten. Waren die Daten so vorverarbeitet, dass dieser bereits abgetrennt war, konnten die Resultate beträchtlich verbessert werden. Bild 22 Abweichung der rekonstruierten x (links) und y (rechts) Koordinaten vom wahren Wert. Blau=Trainingsdaten, Grau=Validierungsdaten, ohne vorherige Entfernung der Hintergrund-Ereignisse Bild 23 Abweichung der rekonstruierten x und y Koordinaten vom wahren Wert. Blau=Trainingsdaten, Grau=Validierungsdaten, bei vorheriger Entfernung der HintergrundEreignisse Die Bilder machen deutlich, dass eine Vorselektion auf sinnvolle, d.h. wirklich rekonstruierbare Ereignisse eine klare Verbesserung bringt. Diese Vorselektion lässt sich auch mittels eines Netzes lösen, doch wegen der Überprüfbarkeit und um Adaptionen in dieser Selektion einfacher zu halten erfolgte sie innerhalb der Einleseroutinen data2input....C. Die Abtrennung des Hintergrundes mit einem Netz mit nur einem Ausgangsknoten funktioniert, wie angesichts der Einfachheit des Problems nicht anders zu erwarten, reibungslos. Bild 24 Ausgabe für als gut erkannte Ereignisse, vollständige Erkennung dieser 31 _______________________________________________________________________________________ Es stellt sich die Frage ob ein endgültiges Konzept eventuell eine hierarchische Verarbeitung vorsehe sollte, bei dem ein Rekonstruktionsnetz auf ein Klassifikationsnetz folgt. Die weiteren Daten hatten durch die Berücksichtigung der kleineren Pixel bei XEUS eine viel höhere Anzahl an Split-Ereignissen, was die Ergebnisse verbesserte. Der erste Datensatz ermöglichte dabei einen direkten Vergleich mit den vorhergehenden Resultaten, da bis auf die geänderte Pixelgröße Simulation und Datenformat analog waren. Für eine perfekte Trennung in Hintergrund und Information erwies es sich als sinnvoll aus den zur Verfügung stehenden Daten einen Trainingsdatensatz auszuwählen der eine 1:1 Verteilung aufwies, da in den eigentlichen Daten das Verhältnis Information zu Hintergrund mit 3:1 bestenfalls, sehr zu ungunsten des Hintergrundes ausfällt. Ein starkes Ungleichgewicht führt aber leicht zu Fehlern im Lernzyklus und damit zu Fehlklassifikationen. Bild 25 Lernkurve und Ausgabe für Trennung von Hintergrund und Information bei 1:1 Verteilung im Trainingsdatensatz Wie schon vorher zeigte sich auch hier, dass bereits eine Anzahl von 4 versteckten Knoten eine gut Rekonstruktion der x/y Werte erbrachte, auch wenn das Ergebnis mit 10 Knoten nochmals leicht verbessert wurde. Bild 26 Abweichung der rekonstruierten x (links) und y (rechts) Koordinaten vom wahren Wert. 4 Knoten, beachte die Auflösung der x-Achse! 32 _______________________________________________________________________________________ Bild 27 Abweichung der rekonstruierten x (links) und y (rechts) Koordinaten vom wahren Wert. 4 Knoten, beachte die Auflösung der x-Achse! Tests verschiedener Lernparametersätze ergaben, dass der standardmäßig verwendete die besten Resultate erzielte. Die weiteren Datensätze enthielten als zusätzliche Information die Gesamtladung, welche auch rekonstruiert wurde. Diese Rekonstruktion erwies sich als sehr gut und einfach. Zum einen wurde ein Netz mit 3 Ausgangsknoten für x, y und die Ladung ausprobiert, das bei 18 versteckten Knoten sein Optimum erreichte, zum anderen zwei einzelne Netze , eines zur Rekonstruktion der Koordinaten und eines für die Ladung, die beide mit 10 Knoten auskamen. Die Resultate erwiesen sich bei der Rekonstruktion von Ein-Photon-Ereignissen als fast äquivalent, doch bei Clustern mit zwei Photonen zeigten sich die getrennten Netze als erfolgreicher. Bild 28 Vergleich der Abweichungen der rekonstruierten x Koordinaten vom wahren Wert, links ein Netz, rechts zwei Netze für Ort und Ladung Bild 29 Vergleich der Abweichungen der rekonstruierten y Koordinaten vom wahren Wert, links ein Netz, rechts zwei Netze für Ort und Ladung 33 _______________________________________________________________________________________ Bild 30 Vergleich der Abweichungen der rekonstruierten Ladung vom wahren Wert, links ein Netz, rechts zwei Netze für Ort und Ladung Bis zu diesem Punkt ging es nur um die Verarbeitung von Ein-Photon-Ereignissen. Ein größeres Problem bieten jedoch Cluster bei denen zwei oder mehr Photonen zeitlich und räumlich sehr nahe beieinander einfielen und sich teilweise überlagerten. Die nächsten Untersuchungen behandeln auch diesen Fall. Die von der Simulation gelieferten Daten enthalten dabei zu Anfang lediglich Ladungswerte die zu der für Studien wichtigen Eisenlinien gehören. Dies erleichtert die Lernprozedur, da die möglichen Ladungswerte nicht sehr weit gestreut sind. Statt einem 3 x 3 Gitter wurden die Daten hierfür in einem 5 x 5 Gitter bereitgestellt. Dies erhöht die Zahl der benötigten Knoten wieder. Orts- und Ladungsrekonstruktion erfolgen getrennt. Die Resultate für die x- und y-Koordinaten fielen schlechter aus als für den Fall von Ein-Photon-Ereignissen, dies liegt an der Erhöhung der Zahl der möglichen Muster. Um diese etwas zu kontrollieren wurden die Daten so bearbeitet, dass das links liegende Photon immer als Nummer eins gilt. Die Rekonstruktion erfolgt relativ präzise, doch wegen der Beschränkung der Ladungswerte nur bedingt aussagekräftig. Bild 31 Vergleich der Abweichungen der rekonstruierten x1 (links) und x2 (rechts) Koordinaten vom wahren Wert. Beachte die Änderungen in der Skalierung der Ordinate Bild 32 Vergleich der Abweichungen der rekonstruierten y1 (links) und y2 (rechts) Koordinaten vom wahren Wert. Beachte die Änderungen in der Skalierung der Ordinate, die 34 _______________________________________________________________________________________ y-Werte werden schlechter rekonstruiert als die x-Werte, da sie größeren Variationen unterliegen, da die Ordnung nach der x-Lage (am weitesten links) erfolgt. Bild 33 Vergleich der Abweichungen der rekonstruierten Ladungen c1(links) und c2 (rechts) vom wahren Wert. Die letzten untersuchten Daten zeigen das volle Energiespektrum, sogar mit Berücksichtigung von Detektoreffekten wie der verminderten Empfindlichkeit im Bereich sehr hoher Energien. Nach der Durchführung der Standarduntersuchungen wie zuvor, wurde besonders das Verhalten bei der Wiederherstellung des Ortes und der Gesamtladung von nicht trennbaren Zwei-Photon-Ereignissen untersucht, da dies mit herkömmlichen Methoden besondere Schwierigkeiten bereitet. Für die Koordinaten ergab sich die beste Rekonstruktion mit 15 bis 20 Knoten bei Verwendung von lokaler Normierung und des Standardparametersatzes bei 1000 Zyklen Bild 34 Vergleich der Abweichungen der rekonstruierten x1-Koordinaten bei Verwendung von 15 (links) und 20 (rechts)Knoten Bild 35 Vergleich der Abweichungen der rekonstruierten x2-Koordinaten bei Verwendung von 15 (links) und 20 (rechts)Knoten 35 _______________________________________________________________________________________ Bild 36 Vergleich der Abweichungen der rekonstruierten y1-Koordinaten bei Verwendung von 15 (links) und 20 (rechts)Knoten Bild 37 Vergleich der Abweichungen der rekonstruierten y2-Koordinaten bei Verwendung von 15 (links) und 20 (rechts)Knoten Das beste Ergebnis für die Ladung ergab sich bei Verwendung von lokaler Normierung, 10 versteckten Knoten und dem Standardparametersatz bei 1000 Zyklen. Bild 38 Vergleich der Abweichungen der rekonstruierten Gesamtladung c1 bei Verwendung von 15 (links) und 20 (rechts)Knoten Bild 39 Vergleich der Abweichungen der rekonstruierten Gesamtladung c1 bei Verwendung von 15 (links) und 20 (rechts)Knoten 36 _______________________________________________________________________________________ Die gesamten Untersuchungen erfolgten in Software. Die Ausgangsdaten wurden zuerst mit einem Programm (data2input....C, Variationen für verschiedene Daten und Fragestellungen) in einen Daten“tree“ gepackt, ein „tree“ ist ein Datenformat des ROOT-Frameworks in dem die Programme ausgeführt wurden. Zugleich konnten in diesen Programmen die Normalisierungen geändert und Vorselektionen durchgeführt werden. Bei Ausführung generierte das Programm eine neue Datei deren Namen bei der Ausführung des Trainings mit angegeben werden musste. Die Lernprozedur erfolgte mit dem Programm train.C. Neben der genannten Datei konnten dabei, Knotenzahl der versteckten Lage, Seed-Werte, Zyklenzahl und Parametersatz angegeben und geändert werden. Nach Ablauf des Trainings konnten mit verschiedenen Evaluierungs- und Analyseprogrammen der Trainingserfolg sowie Vergleiche mit anderen Methoden angezeigt werden. Wichtiger Code findet sich in Anhang. 37 _______________________________________________________________________________________ 4. Diskussion 4.1 Vergleich mit herkömmlichen Methoden Vergleicht man die Trennung von Hintergrund und Information für die XMM-Newton Daten mit der Klassifikation, die derzeit zur Selektion dieser Daten verwendet wird, sieht man, dass, wie nicht anders zu erwarten, die Resultate relativ gleich sind. Dies ist kein Wunder, denn die Aufgabe und die Eigenschaften nach denen selektiert wurde, sind relativ trivial. Lediglich Pixelzahl, Randlage des Musters und Anordnung der Pixel entscheiden über die Zugehörigkeit eines Ereignisses zu einer beiden Möglichkeiten „Hintergrund“ oder „Information“. Hierzu ein neuronales Netz zu verwenden ist etwas überdimensioniert, doch waren das ja auch nur einführende Versuche. Die Trennung von Hintergrund und Information wurde auch bei den Simulationsdaten sehr gut erledigt, da die Klassifikation relativ einfach war. Die Spezifikationen für Hintergrund waren Randlage des Clusters, Bad Pixel und Muster die von mehr als zwei Photonen erzeugt wurden. Bei Verwendung eines kontinuierlichen Energiespektrums der Photonen ist die Erkennungsrate etwas schlechter als bei den ladungsbegrenzten Anfangsbeispielen. Die Bestimmung der Lage des eingefallenen Photons war mit dem Netz bis auf Genauigkeiten innerhalb der einzelnen Pixel möglich. Für Versuche bei denen nur die Koordinaten von EinPhoton-Ereignissen rekonstruiert wurden, waren die Resultate besser als für Tests bei denen zwei Photonen rückermittelt wurden. Dies hängt damit zusammen, dass es bei zwei Photonen die relative Lage zueinander eine Rolle spielt und durch das größere Gitter das verwendet werden muss eine größere Anzahl von Variationen der Eingangsmuster vorhanden sind. Dies verbessert zwar die Generalisierungsfähigkeiten des Systems, doch vermindert es unter Umständen die Genauigkeit. Trotzdem ist die Leistung des Netzes in allen Fällen den alternativen Berechnungen überlegen. Die konventionelle Berechnung besteht aus der Ermittlung des Massenzentrums, wobei zur Verbesserung des Ergebnisses nach eine Korrekturtabelle mit eingerechnet wird. Bild 40 Vergleich der Abweichungen der rekonstruierten x und y Koordinaten, Netzlösung, Massenzentrum, Massenzentrum unter Berücksichtigung einer Korrekturtabelle (Repräsentative Abbildung) 38 _______________________________________________________________________________________ Bild 41 Abweichungen im Bezug auf die Lage des eingefallenen Photons, d.h. Pixellänge entspricht 1. Oben die Werte für Massenzentrumsrekonstruktion (rot )gegen Netzlösung (grau/blau), unten Massenzentrumsrekonstruktion mit Korrekturtabelle. Man sieht, dass besonders wenn das Photon sehr zentral im Pixel eingefallen ist und sich aufgespalten hat das Netz eine bessere Lagerekonstruktion liefert (Repräsentative Abbildung). Die Ladungsrekonstruktion die das Netz liefert wird mit der augenblicklich gebräuchlichen Summationsmethode verglichen. Hierbei werden einfach die Werte der Pixel eines Clusters addiert, die über der vorher definierten Rauschschwelle liegen. In diesem Fall sind sich beide Methoden weitgehend ebenbürtig, wobei man allerdings bedenken sollte dass das Netz zugleich auch noch die Anzahl der Photonen ermittelt. Bild 42 Abweichungen der rekonstruierten Ladung von der wahren. Oben Rekonstruktion mit Summationsmethode, unten Netzlösung. Die Netzlösung ist dabei noch etwas besser, wie man daran sieht, dass die Pyramide etwas höher und schmaler ist (Repräsentative Abbildung). Im einzelnen Vergleich zu den einzelnen konventionellen Methoden mag der Vorteil des neuronalen Ansatzes nicht sehr groß und beeindruckend aussehen, doch überlegt man welche 39 _______________________________________________________________________________________ kombinierten Möglichkeiten die Methode bietet, so wird Nutzen des Konzeptes deutlich. All die einzelnen Fähigkeiten können in einem, einfachen Plan integriert werden. 4.2 Ausblick auf weitere Entwicklungsmöglichkeiten Die bisherigen Untersuchungen haben gezeigt, dass die Verwendung von Neuronalen Netzen mindestens ebenso gute, wenn nicht bessere Ergebnisse liefert wie die Vergleichsmethoden. Die Versuche die durchgeführt wurden, zielten darauf ab zu klären ob sich ein neuronaler Ansatz überhaupt lohnt und welche Art von Problemen sich damit behandeln lassen, sowie die Frage wie ein entsprechendes Netz topologisch und von den Parametern her gesehen konfiguriert werden muss um ein möglichst gutes Ergebnis zu liefern. Die analysierten Beispiele waren grundsätzlicher Art. Nachdem nun diese Versuche erfolgreich abgeschlossen wurden, gilt es darauf aufbauend durch weiterführende Tests und Entwicklung ein vollständiges Konzept aus Software und Hardware zu schaffen. Nachdem die Tests im Augenblick ausschließlich mit Daten aus Monte-Carlo-Simulationen gemacht wurden wird es notwendig sein später auch Kontrolluntersuchungen mit realen Datensätzen zu machen. Da sich aber das CCD noch in Entwicklung befindet und Tests der Detektortechnik im Teilchenbeschleuniger noch nicht durchgeführt werden konnten, wird dies erst zu einem späteren Zeitpunkt machbar sein. Die Entscheidung wie viel und welche Vorverarbeitung vor der Einspeisung der Daten in das Neuronale Netz nötig und sinnvoll ist, muss ebenfalls noch getroffen werden. Dazu sind einerseits weitere Tests mit verschieden stark bearbeiteten Daten erforderlich, andererseits auch noch mehr Wissen über das Verhalten des realen CCD`s um auch den Ausgleich eventueller Detektorschwächen in das System integrieren zu können. Wie in dieser Arbeit geprüft wurde, gibt es für die einzelnen Probleme, Hintergrund Entfernung, Photon Trennung und Rekonstruktion eine Netzlösung die den Vergleichsverfahren gleichwertig , meist sogar überlegen ist. Für ein einsatzfähiges Konzept gilt es diese Einzellösungen in ein Gehsamtkonzept zu integrieren. Es hat sich gezeigt, dass besonders die Rekonstruktion ihre volle Leistungsfähigkeit erst dann entfalten kann, wenn die Eingangsdaten so vorselektiert wurden, dass nur sinnvolle Ereignisse dargeboten werden, sprich Ereignisse, die wirklich auf dem Einfall von ein oder zwei Photonen beruhen. Dies bringt die Frage auf wie sich eine derartige Vorselektion bewerkstelligen lässt. Eine Möglichkeit bietet eine Art hierarchisches Netz, indem eine eigene Netzkomponente zuerst die ungültigen Ereignisse erkennt und verwirft und anschließend in einer zweiten Komponente die verbliebenen Daten rekonstruiert und somit nochmals reduziert werden. Bei den Untersuchungen zu dieser Arbeit wurde diese Ansatz verwendet, wobei allerdings bei den Netztrainings zur Rekonstruktion das vorausgehende Klassifikationsnetz mittels einer Einleseroutine simuliert wurde. 40 _______________________________________________________________________________________ Bild 43 Ablaufdiagramm für verwendete hierarchische Lösung Ein anderer Ansatz wäre die beiden Netze (Klassifikation und Rekonstruktion) parallel zu schalten und in einem Komparator die rekonstruierten Daten zu verwerfen, die vom zweiten Netz als nutzlos Klassifiziert wurden. Dieser Ansatz würde natürlich der Neuronalen Idee von möglichst großer Parallelität der Verarbeitung weit mehr entsprechen. Der Entschluss welche System man wählen wird hängt dabei aber auch davon ab auf welche Weise sich die Konzepte umsetzen lassen und wie es um Schnelligkeit und Resultate bestellt ist. Dies erfordert noch ausführliche Studien und auch Tests in Hardware. Wenn die Tests in Software und die konzeptionelle Entscheidung abgeschlossen sind steht, wird man die Realisierung in Hardware angehen. Derzeit sind eine Vielzahl von kommerziellen und nicht-kommerziellen Neuro-Chips auf dem Markt. Es gibt dabei sowohl analoge als auch digitale Modelle so dass die Auswahl ausführliche Vergleiche ratsam erscheinen lässt. Die besonderen Anforderungen für einen Einsatz im Weltall müssen dürfen dabei keinesfalls vernachlässigt werden, wie z.B. geringer Energieverbrauch, Robustheit gegen Strahlung und Kompatibilität mit den anderen Systemen. Dies könnte eventuell eine eigene Chipentwicklung geraten sein lassen, z.B. aufbauend auf dem CYNAPS-Chip der in der Hochenergiephysik verwendet wurde. Zur Überprüfung der Funktionsfähigkeit des Systems und um die Qualität der Klassifikation, Rekonstruktion und Selektion sicherzustellen benötigt man des weiteren ein Speicherkonzept, das es ermöglicht immer wieder Stichproben von Rohdaten zu archivieren um sie in Zeiten geringer Auslastung zur Erde Funken zu können damit dort durch Vergleiche Fehlfunktionen und Schäden rechtzeitig erkannt und behandelt werden können, z.B. durch Einrechnung von Korrekturwerten in der Analyse oder Ähnliches. Auch die Umsetzung in Hardware wird umfangreiche Tests erfordern und weitere Verbesserungen hinsichtlich der Effizienz und Schnelligkeit bringen, da man erst in geeigneter Hardware das volle Potential eines Neuronalen Netzes ausschöpfen kann. 41 _______________________________________________________________________________________ 5.Zusammenfassung Um weitreichende, neue Erkenntnisse über die Entstehung und Entwicklung unseres Universums zu gewinnen, plant die Europäische Raumfahrtorganisation ESA eine innovative und überaus leistungsfähige neue Weltraummission namens XEUS. Diese wird sich mit der Untersuchung sehr weit entfernter und extrem schwacher Röntgenquellen aus der Frühzeit des Weltalls beschäftigen. Zu diesen Quellen zählen beispielsweise die ersten schwarzen Löcher. Um die interessierenden Objekte studieren zu können, ist eine hohe Empfindlichkeit der Sensorik nötig, da die Strahlung wegen der großen Entfernung der Objekte sehr schwach ist. Die Feinheit der Detektortechnik hat jedoch den unvermeidlichen Nachteil, dass nähere, stärkere Quellen, die im selben Spektrum senden, die aufgenommene Datenrate stark erhöhen. Da die für die Datenübertragung zur Verfügung stehende Energie durch die Kapazitäten der Sonnensegel und der Energiespeichermedien begrenzt ist, entsteht durch die enorme Steigerung der Menge an detektierten Daten ein Problem. Es ist unmöglich die gesamten Informationen so relativ gering vorverarbeitet zu übertragen, wie es in bisherigen Missionen getan wurde und wird. Man benötigt neue leistungsfähige Verarbeitungs- und Selektionsmöglichkeiten um bereits im All eine radikale Reduktion der Datenmenge zu ermöglichen, wie sie derzeit erst bei der Auswertung der Informationen auf der Erde erfolgt. Man überlegt Neuronalen Netze zur Datenverarbeitung und Reduktion einzusetzen. Gründe dafür sind Schnelligkeit, Ausfallsicherheit und Generalisierungsfähigkeit, die es erlaubt auch etwas von den Erwartungen abweichende Informationen noch bestmöglich einzuordnen, die diese bieten. Da ein derartiges Konzept in diesem Zusammenhang bisher noch nicht eingesetzt wurde, ist eine detaillierte Untersuchung darüber notwendig, was es zu leisten vermag und wie die Leistungen im Vergleich zum herkömmlichen Vorgehen einzuordnen sind. Die zu bearbeitenden Daten wird ein CCD-Pixel-Array liefern, das bei XEUS als RöntgenDetektor eingesetzt wird. Dieses registriert jedes einzelne, eingefallene Photon bezüglich Energie und Lage. Die Auslesezeit liegt im Bereich von wenigen Mikrosekunden, was eine ebenso schnelle Behandlung verlangt. Nur so kann die Trennbarkeit einzelner Photonen sichergestellt werden. Die grundlegenden Untersuchungen, die im Rahmen dieser Arbeit angestellt wurden, zielten vor allem darauf ab die Fähigkeiten optimierter Netze zu testen durch Erkennung und Klassifizierung interessante und informationstragende Photonereignisse von Hintergrundeinflüssen, Detektorfehlern und unverwertbaren Ereignissen zu trennen, sowie aus Ereignissen bei denen ein oder mehrere Photonen ihre Energie statt auf ein Pixel auf mehrere verteilen und überlagern das/die Photon/en bezüglich Lage und Ladung zu rekonstruieren. Letzteres lässt sich für eine Reduktion der Daten nützen, indem man statt Information zu 25 oder mehr Pixeln lediglich Lage und Energie der erzeugenden Photonen überträgt. Für die Untersuchungen wurde ein Mehr-Lagen-Perzeptron Modell verwendet. Das ist ein hierarchisches, vorwärtsgekoppeltes Netz, das überwacht durch Fehlerminimierung lernt. Es wurde der Back-Propagation-Algorithmus, ein Gradientenabstiegsverfahren als Lernregel angewandt um die optimalen Netzparameter zu ermitteln. Dieser wurde in Software implementiert und benutzt. Die Ergebnisse zeigen, dass der neuronale Ansatz mindestens gleichgute , meist jedoch bessere Resultate liefert wie vergleichbare, einfache Berechnungen in serieller Technik. Der Einsatz von Neuronalen Netzen ist erfolgversprechend und weitere Untersuchungen besonders auch im Hinblick auf eine Umsetzung in Hardware ratsam. Da sich viele weitere Komponenten der XEUS-Mission noch in Entwicklung befinden, sind noch keine endgültigen Entscheidungen über Rohdatenformat aus dem CCD und Vorverarbeitungsprozeduren, die sich besser oder schneller durch Hardwareprozessoren 42 _______________________________________________________________________________________ abdecken lassen, getroffen. Weitere Tests werden sich demnach damit beschäftigen müssen, welche Schritte vor der Einspeisung der Daten in das Netz, sowie welches Datenformat sinnvoll ist um die Leistungsfähigkeit des Netzes hinsichtlich Effizienz und Schnelligkeit bestmöglich auszunützen. Zur Optimierung der Effizienz müssen auch Tests in Hardware erfolgen. Dabei gilt es unter der Vielzahl der Hardwareansätze den richtigen Neuro-Chip zu wählen oder aufbauend auf vorhandenem Wissen einen maßgeschneiderten zu entwickeln. 43 _______________________________________________________________________________________ 6.Literaturverzeichnis [1] Beale, R. / Jackson, T.: Neural Computing: An Introduction. Bristol, Philadelphia, New York: Adam Hilger 1990 [2] Berns, K. / Kolb, T.: Neuronale Netze für technische Anwendungen. Berlin, Heidelberg, New York: Springer Verlag 1994 [3] Engel, Stefan / Woitzik, Andreas (Hrsg.): Die Diplomarbeit. Stuttgart: Schäffer-Pöschel 1997 [4] ESA Science: About XEUS, http://sci.esa.int/content/doc/de/2526_.htm [5] Herder Lexikon Weltraumphysik: 2. Auflage, Freiburg, Basel, Wien, Herder 1980 [6] Hoffmann, N.: Kleines Handbuch Neuronale Netze. Braunschweig, Wiesbaden: Vieweg 1993 [7] Holl P. et al.: Active Pixel Matrix for X-Ray Satellite-Missions, IEEE, Transactions on Nuclear Science, Vol 47, No. 4, Aug 2000; www.hll.mpg.de/publications [8] Kiesling, C.: Neuronale Netze und Parallel Processing, Vorlesungsskript, WS 2001/2002 [9] Kratzer, K.: Neuronale Netze. 2. durchgesehene Auflage, München: Hanser 1993 [10] Lutz G.: Silicon Pixel-Detectors ltp.web.psi.ch/VERTEX2001/slides/lutz.pdf for X-Ray Astronomy (Folien), [11] Max-Planck-Institut für Physik, Werner-Heisenberg-Institut, Jahresbericht 2000, München [12] Max-Planck-Institut für extraterrestrische Physik, Jahresbericht 2000, München [13] Root Manual, http://root.cern.ch/root/RootDoc.html [14] Schäfer, H.: Elektromagnetische Strahlung--Information aus dem Weltall. Braunschweig, Wiesbaden: Vieweg 1985 [15] Sexl, R. und H.: Weiße Zwerge-Schwarze Löcher. 2. erweiterte Auflage, Braunschweig, Wiesbaden: Vieweg 1990 [16] Strüder.L. et al.: Imaging Spectrometers http://www.hll.mpg.de/publications/2001/spie01a.pdf for future X-Ray Missions, [17] Swingler, Kevin: Applying Neural Networks, A Practical Guide. London: Academic Press 1996 [18] X-Ray Evolving Universe Spectroscopy, The XEUS Science Case, http://astro.esa.int/SA-general/Projects/XEUS7mission/mission-04.htm, ESA SP-1253 44 _______________________________________________________________________________________ [19] X-Ray Evolving Universe Spectroscopy, The XEUS Telescope, http://astro.esa.int/SAgeneral/Projects/XEUS7mission/mission-04.htm, ESA SP-1238 [20] X-Ray Evolving Universe Spectroscopy, The XEUS Mission Summary, http://astro.esa.int/SA-general/Projects/XEUS7mission/mission-04.htm, ESA SP-1242 45 _______________________________________________________________________________________ 7.Anhang 7.1 Astrophysik Bild 44 Entwicklungsstadien des Universums und Missionen zur Frühzeit(s.a. [4]) In Bild 44 sieht man eine grobe Übersicht über die Entwicklung des Universums und derzeitige oder geplante Forschungsziele und Missionen. Neben XEUS, einer Mission, die sich mit Untersuchungen im Röntgenspektralbereich beschäftigt, sieht man noch NGST, FIRST und Planck, die sich mit der Erforschung anderer Teile des elektro-magnetischen Spektrums beschäftigen. Obwohl alle vier Missionen darauf abzielen neue Informationen über das sogenannte „dunkle“ Zeitalter (Dark Age), des Universums zu sammeln, über das bisher nur Theorien existieren, ist XEUS die einzige, die sich dabei mit den Vorgängen und Objekten, die aus „heißer“, d.h. besonders energiereicher Materie resultieren, beschäftigt. Dabei geht es vor allem um sehr frühe und sehr große Schwarze Löcher über die erst wenig bekannt oder bewiesen ist. Da man jedoch glaubt, dass sie starken Einfluss auf die Entstehung schwerer Elemente und die Galaxieentwicklung hatten und evtl. noch haben, besteht ein großes Interesse daran mehr über sie zu erfahren (s.a. [4], [18]). 46 _______________________________________________________________________________________ Bild 45 Übersicht zur gegenwärtigen Theorie zur Evolution des Universums [18] DM: Dark Matter = Dunkle Materie Baryonen: Schwere Elementarteilchen wie Protonen und Neutronen MBH: Massive Black Holes = Sehr große Schwarze Löcher IGM: Intergalactical Matter = Materie zwischen Galaxien ICM: Intercluster Matter = Materie zwischen Clustern von z.B. Galaxien Rotverschiebung (Redshift) wird zur Berechnung des Alters astrophysikalischer Objekte benutzt Die Theorie ([4] und [18]) geht davon aus, dass das Weltall sich nach dem Urknall auszubreiten begann. Die Materie bestehend aus Elementarteilchen sowie Wasserstoff und Helium verteilte sich dabei jedoch nicht gleichmäßig. Sie begann sich um 47 _______________________________________________________________________________________ Kondensationskeime zu sammeln und nichtlinear zu wachsen. Ab einer gewissen Masse begannen entstandene Strukturen zu kollabieren, dann wenn sie so groß wurden, dass die Abstoßungskräfte, z.B. durch Ladungen, die den Kollaps entgegenwirkten, kleiner als die Gravitationskräfte die durch die Massenansammlung entstanden und eine immer dichtere Zusammenballung bewirkten, wurden. In Fällen wo bei diesem Vorgang eine Abkühlung der Materie durch Energieabgabe an umgebenden Staub oder Moleküle möglich war, konnten Sterne entstehen. Auf die gleiche Weise erfolgt die Sternenformation auch heute noch. War Abkühlung jedoch nicht möglich, und man geht davon aus, dass das in der Frühzeit des Universums oft der Fall war, da noch kaum Moleküle oder sonstige größere Teilchen existierten, die die überschüssige Energie hätten aufnehmen können, explodierten kleinere Ansammlungen nach dem Kollaps bald wieder, während größere zu gigantischen Schwarzen Löchern wurden. Diesen sehr großen und massiven Schwarzen Löchern schreibt man großen Einfluss auf die Entstehung schwerer Elemente und die Ausformung anderer Objekte im All zu, sowie auf die Verteilung von Materie im intergalaktischen Raum. Durch die Ausbreitung des Universums kommt es zur sogenannten Rotverschiebung des Energiespektrums abgestrahlter Photonen. Die Rotverschiebung ist eine Art optischer Dopplereffekt. Durch die Entfernung (Auseinanderbewegung von Quelle und Betrachter) vergrößert sich die Wellenlänge der ankommenden Strahlung. Indem man die Größe dieser Verschiebung gegenüber dem normalen Spektrum berechnet, kann man die Entfernung und das Alter von Objekten bestimmen. Bild 46 Schwarzes Loch mit Materie, die um es zirkuliert und beim Fall in das Schwarze Loch Röntgenstrahlen (X-Ray) emittiert, die Verschiebungen unterliegen [4] Rotverschiebung entsteht nicht nur durch die Ausbreitung des Universums, sondern auch durch andere Vorgänge. Bild 46 zeigt die Entstehung von Rot- und Blauverschiebung durch Zirkulation. Gas oder Moleküle, die in ein Schwarzes Loch fallen, beginnen vorher um dieses zu kreisen. Währenddessen emittierte Röntgenstrahlung erfährt dadurch die gezeigten Verschiebungen in den Wellenlängen. Da Schwarze Löcher, die deshalb „Schwarz“ heißen, weil sie an sich nicht sichtbar sind, sich nur durch die Effekte der in sie fallenden Materie detektieren lassen, sind diese Verschiebungen wichtiger Teil der Studien an Schwarzen Löcher.(s.a. [4], [18]) 48 _______________________________________________________________________________________ Bild 47 Doppelt gehörnte Eisenlinie [4] Ein Beispiel zum Einfluss der Rot- und Blauverschiebung zeigt Bild 47, die „doppelt gehörnte“ Eisenlinie (double horned Iron line). Eisen ist eines der häufigsten Elemente im Universum. Der Grund dafür ist, dass Eisenatome relativ gesehen, die höchste Bindungsenergie pro Nukleon aufweisen und deshalb nicht von sich aus zerfallen. Einmal gebildete Eisenatome können nur unter Zufuhr großer Mengen Energie in andere Elemente umgewandelt werden. Deshalb bietet die Eisenlinie ein gutes Studienobjekt. Die eigentlich schmale Emissionslinie der Eisenatome zeigt sich hier beträchtlich verbreitert. Diese Verbreiterung, sowie die charakteristische Form erhält sie durch mehrere Effekte, die Rotund Blauverschiebung durch die Bewegung (velocity) sowie eine zusätzliche Rotverschiebung durch den Einfluss der Gravitation, der die Strahlung im Umfeld des Schwarzen Loches ausgesetzt ist. (s.a. [4], [18]) Zur Strahlungsentstehung und weiteren astrophysikalischen Effekten findet sich mehr in [5], [14], [15] des Literaturverzeichnisses. 7.2 Technologie Bild 48 Spiegelform Wolter Type I und Aufbau eines runden Spiegels aus Segmenten zur Fokussierung von Röntgenstrahlung [19] Da sich Röntgenstrahlen aufgrund ihrer Kurzwelligkeit durch Linsen kaum ablenken lassen, benutzt man um sie zu fokussieren streifende Reflexion (Totalreflexion und Bragg Reflexion). Die Strahlen treffen beinahe parallel zur Spiegelfläche auf. Die Form der Spiegelflächen folgt dem sogenannten „Wolter Type I“, d. h. die Flächen gehen von einer parabelförmigen Form 49 _______________________________________________________________________________________ in eine hyperbelförmige über, vgl. Bild 48 a, was eine bestmögliche Fokussierung bewirkt. Bild 48 b zeigt die ringförmige Anordnung der einzelnen Spiegelsegmente, wie sie bei XEUS eingesetzt werden wird um einen Spiegel mit 4,5 bzw.10 m Durchmesser ins All transportieren und bauen zu können. Bild 49 Aufbau der einzelnen Spiegelsegmente [19] Um die Abbildungseigenschaften des Siegels für XEUS weiter zu verbessern, werden einzelne Wolter Type I Spiegel hintereinander gestaffelt um die Sammelfläche zu erhöhen. Da sich ein solches Spiegelkonzept mit einem Durchmesser von 4,5 m, bzw. 10 m in der zweiten Phase, nicht mehr als geschlossener Ring bauen und ins All transportieren lässt, besteht der XEUS-Spiegelsatellit aus Segmenten, den „petals“, die erst im All zusammengesetzt werden. Bild 49 zeigt den geplanten Aufbau Bild 50 Größenvergleich zwischen der geschlossenen Spiegelkonstruktion wie sie derzeit bei XMM-Newton im Einsatz ist (Zylinder in der Mitte) und den Segmenten für XEUS( zur Technik der Spiegel siehe auch [19]). 50 _______________________________________________________________________________________ Bild 51 Abbildung eines Ausschnitts des Weltalls wie ihn XMM-Newton liefert [4]. Bild 52 Abbildung des gleichen Bereichs durch XEUS (Ziel). Man sieht deutlich die Verbesserungen in der Auflösung der einzelnen Objekte [4] 51 _______________________________________________________________________________________ Bild 53 Layout für CCD-Detektor-Chip für XEUS Das CCD-Pixel Array befindet sich noch der Entwicklung. Bild 52 zeigt ein Schema, wie man sich die Verschaltung zur „Active Pixel Matrix“ und das Auslesesystem vorzustellen hat. Nähere Informationen dazu und zu den neuen CCD Konzepten, die für den Einsatz bei XEUS entwickelt werden, finden sich in [7], [10]und [16]. 7.3 Programmlistings /xmm_nn/ data2frames.C (Ausdruck) frames2grids_a.C (Diskette) frames2grids_b.C (Diskette) frames2grids_c.C (Diskette) frames2grids_d.C (Diskette) frames2grids_e.C (Diskette) frames2grids_f.C (Ausdruck, 3x3 Gitter, Randlage in Booleschen Werten, Ausdehnung), repräsentativ, andere analog nn.C (Ausdruck) testnn.C (Ausdruck) analyzenn.C (Ausdruck) /nn/ train.C netout.C eval_bool.C eval_real.C searchseed.C (Ausdruck) (Ausdruck) (Ausdruck) (Ausdruck) (Ausdruck) 52 _______________________________________________________________________________________ /nn/xmm/ data2frames.C (Ausdruck) frames2input1.C (Diskette) frames2input2.C (Diskette) frames2input3.C (Diskette) frames2input4.C (Diskette) frames2input5.C (Diskette) frames2input6.C (Ausdruck)(Lokale Normierung, Randereignisse und Hintergrund (bad) werden ausselektiert analyzeout1.C (Diskette) analyzeout2.C (Diskette) analyzeout3.C (Diskette) analyzeout4.C (Diskette) analyzeout5.C (Diskette) analyzeout6.C (Ausdruck) (Anzeige der fehlklassifizierten Cluster für Daten aus frames2input6.C) /nn/moca/ data2input1.C (Diskette) data2input2.C (Diskette) data2input3.C (Diskette) data2input4.C (Diskette) data2input5.C (Diskette) data2input6.C (Diskette) data2input7.C (Diskette) data2input8.C (Diskette) data2input9.C (Diskette) data2input10.C (Diskette) data2input11.C (Ausdruck) (Liefert Eingangsdaten für Training mit zwei sich überlagernden Photon-Clustern bei originaler Energieverteilung data2input12.C (Diskette) data2input13.C (Diskette) analyzeout1.C (Diskette) analyzeout2.C (Diskette) analyzeout3.C (Diskette) analyzeout6.C (Ausdruck) (Anzeige der fehlklassifizierten Cluster für Daten aus data2input6.C plotdeltas3.C (Diskette) plotdeltas4.C (Diskette) plotdeltas5.C (Diskette) plotdeltas6.C (Ausdruck) (Vergleich der Netzrekonstruktion mit einer Rekonstruktion mittels Massenzentrumsberechnung und Korrekturtabelle) NeuNet.cxx (Diskette)