ppp Universität Karlsruhe (TH) IEKP-KA/2004-3 Separation von Photonen und Protonen beim AMS-02 Detektor mit Hilfe eines Neuronalen Netzes Michael Schneider Diplomarbeit an der Fakultät für Physik der Universität Karlsruhe Institut für Experimentelle Kernphysik Referent: Prof. Dr. W. De Boer Korreferent: Prof. Dr. J. Blümer 03. Februar 2004 Inhaltsverzeichnis 1 Einleitung 1 2 Das Standardmodell der Teilchenphysik 2.1 Das Teilchenspektrum des Standardmodells 2.2 Eichtheorien . . . . . . . . . . . . . . . . . . 2.2.1 Globale und lokale Symmetrien . . . 2.2.2 Quantenelektrodynamik (QED) . . . 2.2.3 Die elektroschwache Wechselwirkung 2.2.4 Quantenchromodynamik (QCD) . . 2.3 Die Symmetriegruppe des Standardmodells 2.4 Grenzen des Standardmodells . . . . . . . . 2.4.1 GUT – Grand Unified Theories . . . 2.4.2 Supersymmetrie (SUSY) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 6 7 8 8 10 11 12 12 13 3 Grundlagen moderner Kosmologie 3.1 Grundlegende Gleichungen . . . . . . . . . . 3.2 Die drei Stützen der Urknall-Theorie . . . . 3.2.1 Das Hubble’sche Gesetz . . . . . . . 3.2.2 Die primordiale Nukleosynthese . . . 3.2.3 Die kosmische Hintergrundstrahlung 3.3 Die kosmologische Konstante . . . . . . . . 3.4 Dunkle Materie . . . . . . . . . . . . . . . . 3.4.1 Evidenz für dunkle Materie . . . . . 3.4.2 Die Natur der dunklen Materie . . . 3.5 Nachweis dunkler Materie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 15 16 17 18 19 20 21 23 26 29 . . . . . . 31 32 33 34 34 35 36 4 Der 4.1 4.2 4.3 4.4 4.5 4.6 AMS-02 Detektor Übergangsstrahlungs-Detektor (TRD) Flugzeit-Detektor (ToF) . . . . . . . . Silizium-Spurdetektor (Tracker) . . . . Der supraleitende Magnet . . . . . . . Cerenkov-Zähler (RICH) . . . . . . . . Elektromagnetisches Kalorimeter . . . i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii INHALTSVERZEICHNIS 5 Neuronale Netze 5.1 Der Zusammenhang mit der Biologie . . . . . 5.2 Netzwerk-Topologie . . . . . . . . . . . . . . . 5.3 Lernen in Neuronalen Netzen . . . . . . . . . 5.3.1 Kostenfunktion . . . . . . . . . . . . . 5.3.2 Gradientenabstieg . . . . . . . . . . . 5.3.3 Der Backpropagation-Lernalgorithmus 5.4 NeuroBayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 37 38 40 41 41 42 43 6 Die 6.1 6.2 6.3 6.4 Simulation Simulation des AMS-02 Detektors Rekonstruktion . . . . . . . . . . . Elektromagnetische Schauer . . . . Hadronische Schauer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 47 50 51 54 7 Die Analyse 7.1 Das Analyse-Framework . . . . . . . . . . . 7.1.1 ROOT TTree . . . . . . . . . . . . . 7.1.2 Funktionsweise des Frameworks . . . 7.2 Statistische Methoden . . . . . . . . . . . . 7.3 Klassische Schnitte . . . . . . . . . . . . . . 7.3.1 Vorselektion . . . . . . . . . . . . . . 7.3.2 Schnitte auf Kalorimeter-Variablen . 7.3.3 Ergebnisse der klassischen Analyse . 7.4 Neuronales Netz . . . . . . . . . . . . . . . 7.5 Vergleich und Interpretation der Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 58 58 58 60 61 62 62 66 68 70 . . . . . . . . . . . . . . . . 8 Zusammenfassung und Ausblick 75 Literaturverzeichnis 77 Abbildungsverzeichnis 2.1 Kopplungen im SM verglichen mit SUSY 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 Geometrie des Raumes . . . . . . . . . . . . . . . Hubble Diagramm . . . . . . . . . . . . . . . . . Kosmische Hintergrundstrahlung . . . . . . . . . Supernovae Cosmology Project . . . . . . . . . . Leistungsspektrum WMAP . . . . . . . . . . . . Koinfidenzgebiete . . . . . . . . . . . . . . . . . . Rotationskurve der Spiralgalaxie NGC 6503 . . . Röntgenemission des Galaxienhaufens Abell 3582 Gravitationslinse . . . . . . . . . . . . . . . . . . Elementhäufigkeiten . . . . . . . . . . . . . . . . MACHO-Helligkeitsverlauf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 17 19 21 22 22 24 25 26 27 28 4.1 4.2 4.3 4.4 4.5 4.6 4.7 Der AMS-02 Detektor . . . . . . . . . Transition Radiation Detector (TRD) Time of Flight Detector (ToF) . . . . Silizium-Spurdetektor . . . . . . . . . Der supraleitende Magnet . . . . . . . Cerenkov-Zähler (RICH) . . . . . . . . Elektromagnetisches Kalorimeter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 33 33 34 35 35 36 5.1 5.2 5.3 5.4 5.5 5.6 5.7 Biologisches Neuron . . . . . . . . . . Sigmoidfunktion . . . . . . . . . . . . Feedforward-Netzwerk . . . . . . . . . Fehlerfläche als Funktion der Gewichte Backpropagation . . . . . . . . . . . . Beispiel einer Teacher-Ausgabe . . . . Verhältnis Signal zu Gesamtzahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 39 40 41 42 44 45 6.1 6.2 6.3 6.4 6.5 6.6 Anzahl der simulierten Events . . . . . . . . . . . . . . . . . . . . . . . . . . . Rekonstruktion am Beispiel einer Teilchenspur im TRD . . . . . . . . . . . . Wirkungsquerschnitt als Funktion der Photonen-Energie . . . . . . . . . . . . Strahlungsverlust eines Elektrons/Positrons in Materie . . . . . . . . . . . . . Energieverlust eines geladenen, massiven Teilchens in Materie . . . . . . . . . Vergleich eines elektromagnetischen (links) und eines hadronischen Schauers (rechts) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 51 52 53 55 iii . . . . . . . . . . . . . . . . . . . . 14 55 iv ABBILDUNGSVERZEICHNIS 7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 7.10 7.11 7.12 7.13 7.14 7.15 7.16 7.17 7.18 7.19 Kosmischer Teilchenfluss in Abhängigkeit der Energie . . . . . . . . . . . . Relative Energie-Ablagerung . . . . . . . . . . . . . . . . . . . . . . . . . . Lage des Schauer-Maximums und χ2 -Fit . . . . . . . . . . . . . . . . . . . . Rear Leak und DifoSum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sphericity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Vorselektion Ergebnisse (S1 + S2 + S3 ) . . . . . . . . . . . . . . . . . . . . . Illustration der Energieabhängigeit des χ2 -Fits . . . . . . . . . . . . . . . . Molière Radius Ergebnisse (S4 ) . . . . . . . . . . . . . . . . . . . . . . . . . Molière Radius Ergebnisse (S5 ) . . . . . . . . . . . . . . . . . . . . . . . . . Lage des Schauer-Maximums Ergebnisse (S6 ) . . . . . . . . . . . . . . . . . Longitudinaler Querschnitts-Fit Ergebnisse(S7 ) . . . . . . . . . . . . . . . . Rear Leak Ergebnisse (S8 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . Transversale Streuung Ergebnisse(S9 ) . . . . . . . . . . . . . . . . . . . . . Sphericity Ergebnisse (S10 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . Auswahl der Schnitte für neuronales Netz . . . . . . . . . . . . . . . . . . . Effizienz und Verunreinigung der Vorselektion für neuronales Netz . . . . . Ausgabe des Teachers für Teilchenenergien von 32 GeV . . . . . . . . . . . Effizienz und Verunreinigung der klassischen Analyse . . . . . . . . . . . . . Effizienz und Verunreinigung der Analyse mit Hilfe eines neuronalen Netzes . . . . . . . . . . . . . . . . . . . 57 63 64 65 66 66 67 68 68 69 69 70 70 71 71 72 73 73 74 Kapitel 1 Einleitung Die Entwicklungen in der Kosmologie können ohne Frage zu den größten Errungenschaften des zwanzigsten Jahrhunderts gezählt werden. Zu dessen Beginn konnte sie nur sehr schwer als wissenschaftliche Disziplin bezeichnet werden, jedoch an seinem Ende steht eine vielfältig anerkannte Theorie über den Ursprung und die Entwicklung des frühen Universums: die Urknall- oder auch Big Bang Theorie. Teleskope wie das Hubble Space Telescope sind in der Lage, Licht von Galaxien zu empfangen, die so weit entfernt sind, dass ihr Licht fast die Dauer des Alters des Universums benötigte, um uns zu erreichen. Die kosmische MikrowellenHintergrundstrahlung, ein Relikt aus einer Zeit, als das Universum sowohl heißer als auch dichter war, wird mittlerweile routinemäßig gemessen und ihre Eigenschaften können genau untersucht werden. Die Tatsache, dass unser Universum zur Zeit expandiert, scheint ohne Zweifel bestätigt zu sein. Die Urknalltheorie wird mittlerweile von einer so breiten Zahl von Befürwortern getragen, dass man sie heute als das Standardmodell der Kosmologie bezeichnet. Eckpfeiler dieses Modells ist das so genannte kosmologische Prinzip, also der Glaube, dass sich der Platz im Universum, an dem wir uns befinden, in keiner Weise auszeichnet. Diese Erkenntnis war allerdings keineswegs immer schon in der Geschichte der Menschheit vorhanden: Das geozentrische Weltbild war im klassischen Altertum in Griechenland und auch in China weit verbreitet. Es basiert auf der insbesondere in der Antike formulierten Ansicht, dass die Erde und damit implizit der Mensch Zentrum des Universums sei und dass sich alle Himmelskörper auf ’perfekten’ Kreisbahnen bewegten. Die wichtigste Begründung für die Annahme des geozentrischen Weltbildes war die Beobachtung der Schwerkraft, die sich damit erklären ließ, dass alles Schwere seinem ’natürlichen’ Ort, dem Mittelpunkt der Welt, zustrebe. Von der Sonne und den Planeten nahm man dagegen an, sie bestünden aus einem himmlischen fünften Element, dessen natürliche Bewegung die Kreisbahn sei. Um 150 n.Chr. erweiterte Ptolemäus das geozentrische Weltbild, indem er so genannte Epizyklen einführte: Um astronomische Beobachtungen mit diesem System in Einklang bringen zu können, war es notwendig, alle Himmelskörper auf ihren Bahnen weiter Kreise ziehen zu lassen und teilweise auch wieder Kreise um diese Bahnen. Durch den Einsatz von ca. 80 solcher Bahnen konnte Ptolemäus die Beobachtungen in Einklang mit seinem Modell bringen. Das ptolemäische Weltbild war in der Genauigkeit seiner Bahnvorhersage auch dem heliozentrischen Weltbild des Nikolaus Kopernikus (1473 – 1543) überlegen, welches fälschlicherweise davon ausging, die Planeten umliefen die Sonne auf Kreisbahnen. Erst die Entdeckung von Johannes Kepler (1571 – 1630), dass die Planeten die Sonne auf Ellipsenbahnen um1 2 KAPITEL 1. EINLEITUNG laufen, führte zu einem genaueren Modell und letztendlich zur Annahme unseres heutigen kopernikanischen Weltbildes. Lange Jahre konnte die Kosmologie danach jedoch keine großen Erfolge verbuchen. Erst die 1915 veröffentlichte bahnbrechende Arbeit Albert Einsteins (1879 – 1955), die Allgemeine Relativitätstheorie und die als Spezialfall aus den Einstein’schen Feldgleichungen resultierenden Friedmann Gleichungen (1922) des russischen Mathematikers und Physikers Alexander Friedmann (1888 – 1925) leiteten den Beginn der aus heutiger Sicht modernen Kosmologie ein. Eine echte Initialzündung erlebte die Kosmologie im Folgenden jedoch erst wieder im späten 20. Jahrhundert, als die beiden Radioastronomen Arno Penzias (*1933) und Robert Wilson (*1941) 1965 durch einen Zufall die kosmische Hintergrundstrahlung entdeckten, die zwar schon über 20 Jahre zuvor von George Gamow (1904 – 1968) als Relikt aus dem Urknall vorhergesagt wurde, bis dahin aber nicht nachgewiesen werden konnte. Ihre Entdeckung gilt neben der durch Edwin Hubble (1889 – 1953) 1929 experimentell bestätigten Expansion des heutigen Universums und der primordialen Nukleosynthese als größte Stütze der Urknall Theorie. Zur Jahrtausendwende erlebten wir das immer stärker werdende Zusammenwachsen der Kosmologie mit einer weiteren Disziplin: der Teilchenphysik. Ohne die Kenntnisse über das, was die Welt im Kleinsten zusammenhält, so das neue Bewusstsein, wird man nie gänzlich verstehen können, wie sich die großräumigen Strukturen, die das Erscheinungsbild unseres heutigen Universums prägen, entwickelt haben. Eine historische und theoretische Einführung in diese beiden Teilgebiete der Physik wird in den nächsten beiden Kapiteln der hier vorliegenden Diplomarbeit gegeben: Das zweite Kapitel befasst sich mit dem Standardmodell der Teilchenphysik und dessen Grenzen, eine kurze Zusammenfassung über wichtige Grundprinzipien heutiger Kosmologie wird im dritten Kapitel gegeben. Kapitel 4 stellt den AMS-02 Detektor vor, der ab Juni 2007 an Bord der internationalen Raumstation ISS für drei Jahre kosmische Teilchenströme registrieren und mit dem Ziel auswerten wird, einer Lösung zweier großer Probleme moderner Teilchenastrophysik näher zu kommen: Zum einen ist dies die Frage nach Antimaterie im Universum, zum anderen die noch ungeklärte Zusammensetzung so genannter dunkler Materie. Bevor das eigentliche Experiment startet, ist es sinnvoll und notwendig, die durch die aktuelle Theorie zu erwartenden Teilchenströme im Detektor zu simulieren, um später diese Erwartungen mit den tatsächlichen Messergebnissen vergleichen zu können. Anhand der simulierten Daten kann beispielsweise auch getestet werden, mit welcher Effizienz oder welcher Verunreinigung man für ein bestimmtes Signal zu rechnen hat. Einer der Hauptaufgaben dieser Arbeit bestand in der Programmierung eines Frameworks1 in der Sprache C++, mit Hilfe dessen es möglich sein sollte, solch simulierte Daten auszuwerten und zu analysieren. Hierbei soll der spätere Benutzer die Wahl zwischen zwei verschiedenen Analyse-Methoden haben: Zum einen die ’klassische’ Methode, bei der man anhand der rekonstruierten Verteilungen der einzelnen relevanten Variablen (wie z.B. dem Impuls) manuell Schnitte setzt und zum anderen die Verwendung eines neuronalen Netzes. Die Funktionstüchtigkeit des Frameworks sollte schließlich anhand einer Analyse gezeigt werden, die ausschließlich auf der Benutzung eines einzigen Subdetektors, des Kalorimeters, beruht. Unter der Annahme, dass bei unerwarteten Problemen Teile des AMS-02 Detektors nicht wie 1 engl. Rahmen, Gerüst 3 gewünscht arbeiten könnten, sollte untersucht werden, in wie weit eine Separation von Photonen aus dem umgebenden Teilchenhintergrund lediglich unter Benutzung des recht robusten und fehlerunanfälligen Kalorimeters möglich ist. Die Funktionsweise eines neuronalen Netzes wird in Kapitel 5 erläutert, das sechste Kapitel dreht sich um die AMS-02 Simulations-Software mit einem Blick auf die für die Simulation und Rekonstruktion wichtigen Wechselwirkungs-Eigenschaften des Photons. Die durchgeführte Analyse wird im siebten Kapitel präsentiert, außerdem liefert es einen Überblick der erhaltenden Resultate und einen Vergleich der beiden verwendeten Analyse-Methoden. 4 KAPITEL 1. EINLEITUNG Kapitel 2 Das Standardmodell der Teilchenphysik Das Standardmodell der Elementarteilchenphysik beschreibt die fundamentalen Teilchen der Materie und deren Wechselwirkungen. Bis heute sind vier fundamentale Wechselwirkungen bekannt: die Gravitation, die elektromagnetische, die schwache und die starke Kraft. Die Gravitation wird durch Albert Einsteins Allgemeine Relativitätstheorie beschrieben, auf der für Elementarteilchen relevanten mikroskopischen Skala ist sie ist jedoch im Vergleich zu den anderen Fundamentalkräften zu vernachlässigen. Sie ist kein Teil des Standardmodells. 2.1 Das Teilchenspektrum des Standardmodells Unter Elementarteilchen versteht man die punktförmigen, d.h. elementaren Bausteine der Materie ohne Unterstruktur (Radius < 10−18 − 10−19 m) [1]. Nach dem Standardmodell besteht die gesamte uns bekannte Materie aus so genannten Fermionen, das sind Teilchen mit halbzahligem Spin. Diese lassen sich in zwei Kategorien einteilen: Auf der einen Seite die Quarks und auf der anderen die Leptonen, von denen jeweils sechs bekannt sind. Entsprechend ihrer Quantenzahlen ordnet man sie in drei Familien oder auch Generationen an. Die Teilchen einer Generation unterscheiden sich dann lediglich noch in ihrer Masse. Die Wechselwirkungen zwischen Quarks und Leptonen werden im Modell durch den Austausch spezieller Teilchen, den so genannten Feldquanten oder auch Bosonen, die ganzzahligen Spin besitzen, vermittelt. Dies wird in Tabelle 2.1 veranschaulicht. Die Verteilung von Fermionen auf die verschiedenen erlaubten Zustände eines quantenmechanischen Systems wird durch die Fermi-Dirac-Statistik beschrieben, die von Bosonen durch die Bose-Einstein-Statistik [2]. Die Fermi-Dirac-Statistik ist eine direkte Folge des Ausschließungsprinzips von Wolfgang Pauli, das besagt, dass die Wellenfunktion eines Systems identischer Spin 1/2-Teilchen antisymmetrisch bei Vertauschung von zwei Teilchen sein muss. Als Konsequenz hieraus folgt, dass jeder durch einen vollständigen Satz von Quantenzahlen beschriebene Zustand nur von jeweils einem Fermion besetzt werden kann. Für Bosonen gilt diese Restriktion nicht. 5 6 KAPITEL 2. DAS STANDARDMODELL DER TEILCHENPHYSIK Fermionen Spin = 1/2 2. Gen. 3. Gen. 1. Gen. µ Quarks µ Leptonen u d0 uR dR νe e eR ¶ L ¶ Wechselwirkung elektromagnetische schwache starke µ L µ c s0 cR sR νµ µ µR ¶ µ L ¶ µ L t b0 tR bR ντ τ τR ¶ Q 2/3 −1/3 2/3 −1/3 L ¶ L Bosonen Spin = 1 Boson γ Z0 W± g1···8 0 −1 −1 Q 0 0 ±1 0 Y I3 1/3 4/3 −2/3 −1 −2 Y 1/2 −1/2 0 0 1/2 −1/2 0 I3 0 0 − 0 0 0 ±1 0 Tabelle 2.1: Das Teilchenspektrum des Standardmodells. Die Fermionen werden in linkshändige Dubletts und rechtshändige Singuletts eingeteilt. Das Neutrino hat eine definierte Händigkeit und wird in Experimenten nur linkshändig beobachtet. Die Striche an den linkshändigen down-type“-Quarks sollen anzeigen, dass es sich hierbei nicht um die ” physikalischen Masseneigenzustände handelt. Q bezeichnet die elektrische Ladung, Y die schwache Hyperladung und I3 die dritte Komponente des schwachen Isospins. 2.2 Eichtheorien Alle modernen Elementarteilchentheorien sind Eichtheorien [3]. Fundamentales Prinzip einer Eichtheorie ist die Eichfreiheit bestimmter Größen. Aus der Forderung nach solchen eichbaren, physikalisch nicht festgelegten Größen wird die Existenz und Struktur einer Wechselwirkung festgelegt. Auch das Standardmodell beruht auf dem Eichprinzip, nachdem alle Kräfte durch die Wechselwirkung mit sogenannten Eichfeldern einer entsprechenden Eichgruppe erzeugt werden. Die diesen Eichfeldern entsprechenden Austauschteilchen sind die im letzten Abschnitt erwähnten Bosonen, die deshalb auch Eichbosonen genannt werden. Allgemein kann eine Eichtransformation für SU (N ) Symmetrien geschrieben werden als à U Ψ = exp i 2 −1 NX ! θa (x)Ta Ψ , (2.1) a=1 wobei die Ta die Generatoren vorliegenden Symmetriegruppe (siehe nächster Abschnitt) und die θa die kontinuierlichen Parameter der Transformation bezeichnen. 2.2. EICHTHEORIEN 2.2.1 7 Globale und lokale Symmetrien Die Existenz von Symmetrien spielt eine bedeutende Rolle in der Teilchenphysik. Eine Symmetrie liegt vor, wenn das betrachtete physikalische System invariant unter der Transformation U bleibt, d.h. wenn der Hamiltonoperator invariant ist: U HU + = H. Die unabhängigen Erzeugenden einer Symmetrie bilden die algebraische Struktur einer Gruppe. Man spricht dann von Symmetriegruppen. Die im Standardmodell enthaltenen Symmetriegruppen gehören zu den kontinuierlichen Symmetrien, d.h. die Parameter nehmen im Gegensatz zu diskreten Symmetrien kontinuierliche Werte an. Globale Symmetrien In der Quantenmechanik wird ein physikalischer Zustand durch seine Wellenfunktion Ψ(x, t) beschrieben, als Messgröße tritt allerdings nur das Betragsquadrat | Ψ(x, t) |2 in Erscheinung. Neben Ψ(x, t) selbst stellen somit auch globale Phasentransformationen 0 Ψ (x, t) = e−iθ Ψ(x, t) , (2.2) mit einer reellen, orts- und zeitunabhängigen Konstanten θ Lösungen der Schrödinger-Gleichung dar. Bezogen auf diese Orts- und Zeitunabhängigkeit von α spricht man von einer globalen Symmetrie. Eine wichtige Größe im Zusammenhang mit Symmetrien ist die Lagrangedichte L(φ, ∂µ φ), aus der sich die Bewegungsgleichungen mit Hilfe des Prinzips der kleinsten Wirkung herleiten lassen. Die relativistische Bewegungsgleichung für die Wellenfunktion eines geladenen Teilchens, die Dirac-Gleichung iγ µ ∂µ Ψ(x, t) − mΨ(x, t) = 0 (2.3) ist unter solch einer globalen Transformation (2.2) invariant. Für reelle Skalarfelder φ(x) mit der zugehörigen freien Lagrangedichte 1 L(φ, ∂µ φ) = (∂µ φ∂ µ φ − m2 φ2 ) 2 (2.4) kann der Zusammenhang zwischen globalen Symmetrien und Erhaltungssätzen in großer Allgemeinheit formuliert werden: Jede einparametriege Schar von Transformationen, unter denen die Wirkung invariant ist, führt zu einer Erhaltungsgröße [4]. Dieser Zusammenhang wurde von der Mathematikerin Emmy Noether (1882 – 1935) abgeleitet und ist seither als das Noether-Theorem bekannt. So bedeutet beispielsweise die Invarianz gegenüber Zeit-, Translations- und Rotationstransformationen die Erhaltung von Energie, Impuls und Drehimpuls. Lokale Symmetrien Im Gegensatz zu den globalen Symmetrien hängen bei den lokalen Symmetrien die kontinuierlichen Parameter θa der Transformation (2.1) explizit von den Raum-Zeit-Koordinaten ab. Aufgrund ihres Modellcharakters als Eichtheorie soll nun im folgenden Abschnitt zunächst die Quantenelektrodynamik (QED) als Beispiel dienen, die der Gruppe U (1) zuzuordnen ist, bevor anschließend auch nicht-abelsche Eichtheorien besprochen werden. 8 2.2.2 KAPITEL 2. DAS STANDARDMODELL DER TEILCHENPHYSIK Quantenelektrodynamik (QED) Verzichtet man also in 2.2 auf die Forderung nach Orts- und Zeitabhängigkeit von θ, so bleibt bei unitären Transformationen aus der Gruppe U (1) der Art 0 Ψ (x, t) = eiqθ(x,t) Ψ(x, t) (2.5) die Dirac-Gleichung (2.3) nicht mehr invariant: 0 (iγ µ ∂µ − m)Ψ (x, t) = eiqθ(x,t) [(iγ µ ∂µ − m)Ψ(x, t) + q(∂µ θ(x, t))γ µ Ψ(x, t)] 0 = e(∂µ θ(x, t))γ µ Ψ (x, t) 6= 0 (2.6) Durch das Einführen eines Eichfeldes Aµ , welches sich gerade so transformiert, dass es den Zusatzterm in 2.6 kompensiert, ist es möglich, die ursprüngliche Invarianz wiederherzustellen. Ersetzt man alle vorkommenden partiellen Ableitungen ∂µ durch die kovariante Ableitung Dµ = ∂µ − iqAµ , (2.7) so lautet die Dirac-Gleichung: iγ µ Dµ Ψ(x, t) = iγ µ (∂µ − iqAµ )Ψ(x, t) = mΨ(x, t) . (2.8) Man erkennt, dass die Invarianz der Dirac-Gleichung wiederhergestellt werden kann, falls sich das Eichfeld transformiert gemäß Aµ → Aµ + ∂µ θ(x, t) . (2.9) Die Forderung nach Invarianz unter lokaler Eichtransformation führt hier zu einer Kopplung des Feldes Ψ, also beispielsweise von Elektronen, und dem Eichfeld Aµ , das in diesem Fall dem Photon entspricht – oder anders: Die Existenz und Wechselwirkung des Photons folgt in der QED aus der geforderten lokalen Eichsymmetrie. Es lässt sich so die gesamte Elektrodynamik als Folge der Invarianz der Lagrangedichte bzw. der Bewegungsgleichungen unter Phasentransformationen beschreiben. Die daraus folgende Erhaltungsgröße ist die Ladung q, also der Generator der Symmetriegruppe. Darin liegt die große Bedeutung der Eichthorien, die, auch bei der starken und elektroschwachen Wechselwirkung die Austauschbosonen, ihre Wechselwirkungen und deren Selbstwechselwirkung vorhersagen. 2.2.3 Die elektroschwache Wechselwirkung Die schwache Wechselwirkung ist eine nicht-abelsche Eichtheorie. Bei nicht-abelschen Theorien vertauschen die Generatoren nicht mehr miteinander. Ein Beispiel sind die Paulischen Spinmatrizen σi , die folgende Kommutatorrelation erfüllen: [σi , σj ] = ih̄σh . (2.10) Allgemein besitzen SU (N ) Gruppen N 2 − 1 Generatoren. Betrachtet man Hadronen ähnlicher Massen, so scheinen sich diese in verschiedenen Familien anzuordnen, so zum Beispiel {p, n} oder auch {π + , π 0 , π − }, innerhalb derer sich die Massen nicht wesentlich unterscheiden, meist nur in der Größenordnung von wenigen MeV [5]. Außer den verschiedenen Ladungen sieht es fast so aus, als handele es sich um jeweils die 2.2. EICHTHEORIEN 9 gleichen Teilchen, die sich lediglich in einem anderen Zustand befinden. Möchte man diese Familien gruppentheoretisch klassifizieren, so bietet sich die SU (2) Gruppe an. Eine Darstellung der SU (2)-Gruppe sind alle unitären 2× 2-Matrizen mit einer Determinanten von +1 [3]. Generatoren der SU (2) sind die in 2.10 vorgestellten Pauli-Matrizen. Da die Pauli-Matrizen auch Generatoren des ’normalen’ Spins sind, nennt man die hier auftretenden verschiedenen Teilchenzustände ’Isospin-Zustände’. Nehmen wir als Beispiel ein Proton und ein Neutron, die bezüglich ihrer schwachen Wechselwirkung identisch sind, so kann man beide Teilchen in einem Dublett anordnen und Transformationen schreiben gemäß µ ¶0 µ ¶ Ψp (x) Ψp (x) = U (x) . Ψn (x) Ψn (x) (2.11) U (x) muss hierbei so konstruiert werden, dass die Unitarität gewährleistet ist (U + U = E) und dass det U = 1. Eine mögliche Darstellung von U , die dies erfüllt, ist i U (~a(x)) = e 2 ~a(x)·~σ , (2.12) wenn ~a(x) den Drehwinkel der Transformation und ~σ die Pauli-Matrizen (2.10) bezeichnen. Nimmt man nun wieder die Dirac-Gleichung (2.3) und ersetzt analog zur Vorgehensweise im vorangegangenen Abschnitt über die QED die einzelnen partiellen Ableitungen durch kovariante Ableitungen, das eindimensionale Eichfeld Aµ durch ein dreidimensionales (entsprechend ~ µ , sowie die Ladung q durch eine Kopplungskonstante g, N 2 − 1) Vektorfeld W Dµ = ∂µ + ig ~ Wµ (x) · ~σ 2 , (2.13) so findet man keine Eichinvarianz. Erst Transformationen der Eichfelder gemäß ~ µ × ~a(x) ~ µ0 = W ~ µ + 1 ∂µ~a(x) − W W g (2.14) bringen die gewünschte Invarianz [3]. Im Gegensatz zur QED, wo das Austauschteilchen, das Photon, keine Ladung trägt, verursacht die Nicht-Vertauschbarkeit der Generatoren, dass auch die Austauschteilchen selbst ’Ladung’ tragen können. Dies hat unter anderem auch eine Selbstkopplung der Austauschfelder zur Folge. Die SU (2)-Symmetrie ist keine exakte Symmetrie ist, da z.B. die Massen von Neutron und Proton sind nicht exakt gleich. Die Massendifferenz innerhalb des Multipletts ist ein Indikatot für die Symmetriebrechung. Die Vereinigung der elektromagnetischen- und der schwachen- zur elektroschwachen Wechselwirkung gelang Glashow, Salam und Weinberg 1964 mit ihrem Glashow-Weinberg-SalamModell (GWS): Zur Beschreibung der elektroschwachen Wechselwirkung wird die Symmetriegruppe SU (2)L × U (1)Y benutzt. Der Index L berücksichtigt die Ergebnisse des Wu-Experiments [6]: Nur die linkshändigen Quarks und Leptonen sind diesbezüglich in Dubletts angeordnet, während die rechtshändigen Teilchen als Singulett fungieren, dies bezeichnet man auch als Paritätsverletzung. Der Index Y steht für die schwache Hyperladung Y . Die SU (2)L × U (1)Y -Gruppe hat vier Generatoren, drei sind die SU (2)L -Generatoren der schwachen Wechselwirkung, Ti = σ2i , also die Pauli-Matrizen (2.10). Der vierte ist der U (1)Y -Generator, Y /2. Zur Beschreibung der Fermionen werden also neben der elektrischen Ladung Q und der dritten Komponente des schwachen Isospins I3 , sowie die schwache Hyperladung Y 10 KAPITEL 2. DAS STANDARDMODELL DER TEILCHENPHYSIK benutzt. Den Zusammenhang zwischen diesen drei ’Ladungen’ gibt die Gell-Mann-NishijimaRelation: 1 Q = I3 + Y . (2.15) 2 Die den Generatoren zugehörigen Eichbosonen heißen Wµi , i = 1, 2, 3 (SU (2)L ) und Bµ (U (1)Y ). Die Lagrangedichte läßt sich analog zur Vorgehensweise bei der QED und der schwachen Wechselwirkung konstruieren. Erneut wird die kovariante Ableitung eingeführt, wobei diesmal aufgrund der Paritätsverletzung zwischen links- und rechtshändig unterschieden werden muss: ~σ ~ 0Y Dµ(L) = ∂µ − ig W Bµ µ + ig 2 2 0Y Dµ(R) = ∂µ + ig Bµ 2 (2.16) (2.17) 0 Hier treten nun zwei Kopplungskonstanten auf, g und g , wobei g die Kopplungskonstante 0 der SU (2)L aus 2.13 ist und g entsprechend der U (1)Y zugehörig ist. Die physikalisch beobachtbaren Eichbosonen Wµ± , Zµ und Aµ (Photon), also die Masseneigenzustände, erhält man aus den elektroschwachen Eigenzuständen durch Rotation der nicht-diagonalen Massenmatrix um den schwachen Winkel θW : 1 Wµ± = √ (Wµ1 ∓ iWµ2 ) 2 µ ¶ µ ¶ Aµ cos θw sin θw = − sin θw cos θw Zµ (2.18) (2.19) Über den sogenannten Weinbergwinkel θw sind auch die schwachen Kopplungskonstanten g 0 und g verknüpft: 0 g tan θw = . (2.20) g Auch die Kopplungskonstante der QED, die elektrische Ladung e, steht über den Weinbergwinkel mit den schwachen Kopplungskonstanten in direktem Zusammenhang: g= bzw. 0 g = e sin θw (2.21) e cos θw (2.22) Durch genaue Messung des Weinbergwinkels kann man also die schwachen Kopplungskonstanten und damit zwei der fundamentalen Parameter der elektroschwachen Theorie fixieren [3]. 2.2.4 Quantenchromodynamik (QCD) Die Quantenchromodynamik (QCD) basiert auf der Eichsymmetrie der starken Wechselwirkung, genauer der lokalen Transformation im dreidimensionalen Farbraum, welche die Lagrangedichte invariant lässt [1]. Die Eichgruppe, die durch diese Farbtransformation erzeugt wird, ist die nicht-abelsche Lie-Gruppe SU (3)C . Der Index C steht hier für ’color’, also 2.3. DIE SYMMETRIEGRUPPE DES STANDARDMODELLS 11 die ’Ladung’ der drei möglichen Farbzustände der Quarks. Die Eichbosonen dieser Symmetrie sind die sogenannten Gluonen, von denen es gemäß der Anzahl der SU (3)-Generatoren (32 − 1) = 8 verschiedene gibt. Die weitere Vorgehensweise ist analog zu denen der QED und vor allem (da es sich dabei auch um eine nicht-abelsche Gruppe handelt) der schwachen Wechselwirkung. Die lokale Eichtransformation lautet hier: 0 qr (x) qr (x) λ qg (x) = eiθα (x) 2 qg (x) (2.23) qb (x) qb (x) Dabei sind die λα /2 die Generatoren der Gruppe SU (3)C , α = 1, 2, ..., 8, die sogenannten GellMann-Matrizen. Die Indizes r, g und b stehen für die drei möglichen ’Farben’ der Quarks, also rot, gelb und blau. Erneut wird die kovariante Ableitung mit Kopplung des Gluonfeldes Gαµ eingeführt: λα Dµ = ∂µ − igS Gαµ (2.24) 2 Die Transformation des Gluonfeldes wird auch hier so gewählt, dass die lokale Eichinvarianz gewährleistet ist: 1 Gαµ → Gαµ − ∂µ θα + f αβγ θβ Gµγ (2.25) gs Dabei wurde eine Kopplungskonstante der starken Wechselwirkung, gs , eingeführt. In Gemeinsamkeit mit dem Eichfeld der schwachen Wechselwirkung und im Gegensatz zum Photonfeld der QED enthält 2.25 aufgrund der nicht verschwindenen Strukturkonstanten f αβγ einen Selbstkopplungsterm des Gluonfeldes. Dies führt dazu, dass alle Teilchen, die Farbe tragen, miteinander wechselwirken können, die Gluonen also auch mit sich selbst. Die Gluonen sind zugleich Träger und Teil des Farbfeldes, im Unterschied zu den Photonen, die das Photonenfeld zwar erzeugen, aber nicht mit ihm wechselwirken können. 2.3 Die Symmetriegruppe des Standardmodells Aufbauend auf den Überlegungen der vorangehenden Abschnitte über die Quantenelektrodynamik (QED), die Quatenchronodynamik (QCD) und die elektroschwache Wechselwirkung wird es leicht erkenntlich, dass das Standardmodell gruppentheoretisch einer SU (3)C ⊕ SU (2)L ⊕ U (1)Y -Gruppe entspricht. Vergleicht man die Reichweiten und Stärken der drei Wechselwirkungen, beobachtet man ein sehr unterschiedliches Verhalten, entsprechend der Eigenschaften der Austauschbosonen. Das masselose Photon bedingt die unendliche Reichweite der elektromagnetischen Wechselwirkung, die sehr kurze Reichweite der schwachen Wechselwirkung (∼ 10−18 m) korrespondiert mit dem Austausch massiver Bosonen. Die starke Wechselwirkung hat keine unendliche Reichweite, wie der Austausch masseloser Bosonen zunächst impliziert. Die zusätzliche Eigenschaft des confinement führt hier zu einer endlichen Reichweite in der Größenordnung ∼ 10−15 m. Die Stärke der elektromagnetischen Wechselwirkung wird durch die Kopplungskonstante e oder äquivalent α beschrieben, wobei α bei niedrigen Energien durch die Feinstrukturkonstante gegeben ist, α = e2 /4π²0 h̄c = 1/137. Die Stärke der schwachen Wechselwirkung ist bei ebenfalls niedrigen Energien gegeben durch die Fermikonstante GF = 1, 167 · 10−5 GeV−2 [1]. Der Name der starken Wechselwirkung rührt von der vergleichsweise stärkeren Kopplung, 12 KAPITEL 2. DAS STANDARDMODELL DER TEILCHENPHYSIK gegeben durch die Kopplungskonstante gs bzw. αS , die bei kleinen Energien etwa den Wert 1 annimmt. Das letzte Limit bedeutet, dass Quarks sich wie frei Teilchen verhalten, wenn man sie bei sehr hohen Energien, gleichbedeutend mit sehr kurzen Distanzen, beobachtet. Dieses Verhalten wird auch als asymptotische Freiheit bezeichnet. 2.4 Grenzen des Standardmodells Das Standardmodell der Teilchenphysik ist in der Lage, die beobachtbaren Fermionen, Eichbosonen und die drei fundamentalen Wechselwirkungen (abgesehen von der Gravitation) in eine physikalisch-mathematische Theorie zu verpacken, die hochpräzise Tests überaus erfolgreich besteht. Trotzdem bleiben noch viele Fragen offen, darunter: [7]: • Das Gauge-Problem Warum gibt es genau drei unabhängige Symmetriegruppen? • Das Parameter-Problem Wie kann die Zahl der freien Parameter im Standardmodell reduziert werden? • Das Fermion-Problem Warum gibt es genau drei Generationen? Wo rührt die Symmetrie zwischen Quarks und Leptonen her? Sind diese Teilchen fundamental? • Das Ladungsproblem Warum sind die elektrischen Ladungen von Proton und Elektron exakt entgegengesetzt? • Das Hierarchie-Problem Warum ist die schwache Skala relativ gesehen so klein? Warum ist mW mP lanck ≈ 10−17 ? Es sind bereits eine Reihe von Alternativen formuliert worden, keine liefert bislang allerdings ein absolut konsistentes Bild und vor allem fehlt für jede dieser alternativen Theorien jeglicher experimenteller Beweis. 2.4.1 GUT – Grand Unified Theories Ein Hauptproblem beim Verständnis der fundamentalen Wechselwirkungen liegt in deren Zahl und der verschiedenen Kopplungen. Die elektroschwache Theorie postuliert eine einzige Wechselwirkung zur Beschreibung elektromagnetischer und schwacher Prozesse und der spontanen Symmetriebrechung, um die unterschiedlichen scheinbaren Stärken in den Energiebereichen unterhalb der Massen der Austauschbosonen zu berücksichtigen. Die GUT postuliert nun weitere Symmetriebrechungsprozesse, um die relativ große Stärke der starken Wechselwirkung bei niedrigen Energien mit einer einzigen intrinsischen Kopplung für alle drei Wechselwirkungen an der Vereinigungsschwelle zu vertragen. In Abbildung 2.1 (links) ist der Verlauf der Kopplungen in Abhängigkeit der Energie gezeigt. Führt man die Extrapolation bis zum Schnitt der drei Graphen durch, erreicht man Energien in der Größenordnung 1014 −1015 GeV, an denen nur eine Kopplung, deshalb auch nur eine fundamentale Wechselwirkung existieren soll. Der GUT sollte also eine sehr hohe Symmetrie zugrunde liegen, die bei niedrigen Energien gebrochen ist und das derzeitige Teilchenmodell enthält. Im einfachsten Fall liefert die Gruppe SU(5) diese Symmetrie, die entsprechend der 24 Generatoren auch 24 Eichbosonen verlangt. 12 davon sind die bereits bekannten 8 Gluonen, 2.4. GRENZEN DES STANDARDMODELLS Superf. Gaugef. Ga Vk V0 Matterf. Li Ei Qi Ui Di Higgsf. H1 H2 Bosonen Wk Fermionen ga (W ± , Z0 ) B/γ ½ L̃i = (ν̃, ẽ)L Ẽi = ẽR ˜L Q̃i = (ũ, d) Squarks Ũ = ũR i D̃i = d˜R Sleptons ½ Higgs 13 w̃k g̃ a (w̃± , z̃0 ) b̃ / γ̃ ½ Li = (ν, e)L Leptons Ei = eR Qi = (u, d)L Ui = uR Quarks Di = d R H1 H2 ½ Higgsinos H̃1 H̃2 SU (3)C SU (2)L U (1)Y 8 1 1 0 3 1 0 0 0 1 1 3 3 3 2 1 2 1 1 −1 2 1/3 −4/3 2/3 1 1 2 2 −1 1 Tabelle 2.2: Die Teilchen des MSSM. Die Teilchen sind in Super-Multipletts angeordnet, zusammen mit ihren supersymmetrischen Partnern. W + , W − , Z und das Photon. In dieser Theorie kommen zusätzlich noch die sogenannten Leptoquarks hinzu YR , YG und YB mit Ladung Q = −1/3, sowie XR , XG , und XB mit Q = −4/3 plus die jeweiligen Antiteilchen [1]. Das Besondere an den Leptoquarks ist, dass sie Quarks und Leptonen ineinander umwandeln können, was die Frage verwirft, warum es eigentlich diese zwei verschiedenen Arten von Materieteilchen in der Natur gibt. Diese relativ einfache und elegante Vereinigungstheorie wird jedoch durch ein einfaches Experiment inkonsistent. So hätte die Umwandlung der Quarks in Leptonen den Zerfall des Protons als Konsequenz. Das Proton könnte unter Berücksichtigung der Erhaltungssätze in ein Meson und ein Lepton zerfallen, beispielsweise in ein Pion und ein Positron. Berechnet man die Protonlebensdauer in diesem Modell (die Kopplung und die Massen der Leptoquarks werden am Vereinigungspunkt angenommen: MX,Y ∝ 1014 GeV), so ergibt sich τp ≈ 2 · 1028 − 6 · 1030 Jahre, während aktuelle Messungen (z.B. Kamiokande) eine untere Grenze von τp = 1030 − 1032 Jahren nahelegen [2]. 2.4.2 Supersymmetrie (SUSY) Diese einfachste Version einer Vereinigungstheorie führt also nicht zum Ziel, eine genauere Betrachtung der Extrapolation der drei Kopplungen bis zur Vereinigungsenergie zeigt zudem, dass sich die drei Kurven gar nicht in einem Punkt schneiden, wenn man den Teilcheninhalt des Standardmodells zugrunde legt. Einen großen Schritt zur Lösung dieses Problems macht die Theorie der Supersymmetrie (SUSY). Hier werden neue Teilchen postuliert, die Teilchenanzahl wird verdoppelt. Im einzelnen erhält jedes Fermion einen supersymmetrischen Bosonpartner und jedes Boson einen supersymmetrischen Fermionpartner. Die Namen dieser Partner werden dadurch konstruiert, daß man ein ’s’ vor die Namen der Fermionen setzt und ein ’ino’ hinter die Bosonnamen. Tabelle 2.2 zeigt einen Überblick über die so gebildeten neuen Teilchen. In Abbildung 2.1 ist der Verlauf der Kopplungen im Standardmodell mit dem im SUSYModell verglichen. 14 KAPITEL 2. DAS STANDARDMODELL DER TEILCHENPHYSIK Abbildung 2.1: Verlauf der Kopplungskonstanten. Links das minimale Standardmodell, rechts mit den Erweiterungen durch SUSY. Da in dem theoretisch berechneten Verhalten der Kopplungen die Anzahl der Strahlungskorrekturen mit neuen Teilchen eingeht, ändert sich der Verlauf der Kopplungen im SUSYModell und man erreicht einen Schnitt aller drei Kurven in einem Punkt. Im Rahmen der Supersymmetrie wird eine neue Quantenzahl, die R-Parität eingeführt. Die alten Teilchen haben R = +1, die neuen supersymmetrischen Teilchen R = -1. Das Produkt der R-Paritäten bleibt erhalten. Daraus folgt eine wichtige Konsequenz, die beim Auffinden der bislang rein hypothetischen SUSY-Teilchen behilflich ist. So kann ein schweres supersymmetrisches Teilchen A in ein leichteres B und seinen ’normalen’ Partner A zerfallen. Dabei wird die R-Parität nicht verletzt. Das leichteste supersymmetrische Teilchen B kann nicht in ein anderes supersymmetrisches Teilchen zerfallen, kann aber wegen der R-Paritätserhaltung auch nicht in normale Teilchen zerfallen. Das bedeutet, dass das leichteste supersymmetrische Teilchen stabil sein muss, was es zu einem idealen Kandidaten für dunkle Materie macht (siehe Kapitel 3.4 ’Dunkle Materie’). Theoretisch ist es schwer zu entscheiden, welches das leichteste SUSY-Teilchen ist, man nimmt aber an, dass es neutral und schwach wechselwirkend ist, sonst hätte man es schon entdeckt. Ein möglicher Kandidat ist das Neutralino. Das SUSY-Modell ist tatsächlich ein aussichtsreicher Kandidat, um hinter die Grenzen des Standardmodells zu blicken. Leider fehlt aber aktuell noch jeglicher experimentelle Beweis. Experimente wie auch AMS hoffen, hier einen Beitrag zur Erkenntnisgewinnung beitragen zu können. Kapitel 3 Grundlagen moderner Kosmologie Im ersten Teil dieses Kapitels wird eine kurze Einführung über die historische Entwicklung der Kosmologie gegeben, der zweite Teil befasst sich mit der für das AMS Experiment wichtigen Frage nach Dunkler Materie. 3.1 Grundlegende Gleichungen Albert Einstein ging in seiner Allgemeinen Relativitätstheorie dem damaligen Erkenntnisstand folgend von einem statischen, stationären Universum aus. Seine Feldgleichungen der Gravitation lauten: 8πG 1 Rνµ − gνµ R = 4 Tνµ (3.1) 2 c Tνµ ist der Energie-Impuls-Tensor, welcher die Materieverteilung beschreibt und Rνµ der RicciTensor, der ein Maß für die Abweichung des Raumes von einem Minkowski-Raum darstellt. gνµ ist der Metrische Tensor, er beschreibt die Geometrie der Raumzeit. Eine besondere Rolle in der Geschichte der Kosmologie nimmt die kosmologische Konstante Λ ein. Um ein statisches Universum gewährleisten zu können, dass nicht durch die gravitative Anziehung in sich selbst zusammenfällt, war es nötig, eine ’Gegenkraft’ zu postulieren, eine ’Antigravitation’. Grundlage der modernen Kosmologie sind die so genannten Friedmann Gleichungen des russischen Mathematikers Alexander Friedmann. Friedmann untersuchte als erster die vollen Einsteinschen Gleichungen mit nichtstationären Lösungen für kosmologische Modelle. Zu seiner Zeit hatte man nur vage Hinweise auf eine kosmische Expansion, erst einige Jahre nach Friedmanns Tod konnte die Expansion, also eine Zeitabhängigkeit des Weltalls, 1929 von Edwin Hubble durch astronomische Beobachtung nachgewiesen werden. Durch die Einführung einer Expansion konnte Friedmann auf Einsteins kosmologische Konstante verzichten. Vorraussetzung für Friedmanns Modell ist das kosmologische Prinzip, also die Forderung nach einem homogenen und isotropen Kosmos. Um ein homogenes und expandierendes Universum allgemein beschreiben zu können, kombiniert man die einfache Metrik des dreidimensionalen homogen gekrümmten Raums mit einer variablen Ausdehnung, dem so genannten Skalenfaktor S(t) und der Zeit selbst: ds2 = c2 dt2 − S 2 (t)( dr2 + r2 (dθ2 + sin2 θdφ2 )) 1 − kr2 (3.2) Diese Metrik heißt auch Robertson-Walker-Metrik. Ihre Haupteigenschaft ist, dass die Linien l : (r, θ, φ = const) Geodäten sind und die Zeit t die Eigenzeit auf diesen Linien ist. Deshalb 15 16 KAPITEL 3. GRUNDLAGEN MODERNER KOSMOLOGIE wird t auch kosmologische Zeit genannt und die Koordinaten r, θ, φ mitbewegte Koordinaten. Der Krümmungsfaktor k beschreibt die Form des vierdimensionalen Riemann’schen Raumes, er kann beliebige Werte annehmen, welche durch eine Skalierung von r aber immer auf die drei Möglichkeiten -1, 0 oder +1 gebracht werden können. k = −1 entspricht hierbei einem hyperbolischem Raum, also einem offenen Universum, k = 0 einem flachen Raum und schließlich k = +1 einem sphärischen Raum, also einem geschlossenen Universum. Für diesen Spezialfall Abbildung 3.1: Geometrie des Raumes [8]. reduzieren sich die Einstein’schen Feldgleichungen (3.1) der Allgemeinen Relativitätstheorie zu den beiden Friedmann Gleichungen: Ṡ 2 + kc2 8π Gρ = 2 S 3 (3.3) 2S̈ Ṡ 2 + kc2 8π + = − 2 Gp (3.4) 2 S S c Auch die von Einstein eingeführte kosmologische Konstante Λ schien zunächst nicht mehr zur Beschreibung des Universums notwendig zu sein, da eine Expansion der gravitativen Anziehung entgegenwirkt. Später erlebte die kosmologische Konstante hingegen eine Renaissance. Eine wichtige Größe, die aus den Friedmann’schen Gleichungen abgeleitet werden kann, ist die sogenannte kritische Dichte ρC . Das ist die Dichte, bei der die Geometrie des Universums flach wird (k = 0): 3(Ṡ/S)2 (3.5) ρC (t) = 8πG 3.2 Die drei Stützen der Urknall-Theorie Der erste direkte Hinweis auf eine Expansion des Universums erfolgte 1929, also sieben Jahre nach Veröffentlichung der Friedmann’schen Gleichungen, durch Edwin Hubble: Es gelang ihm, empirisch nachzuweisen, dass die Rotverschiebung einer beliebigen Galaxie mit ihrer Entfernung zunimmt. Neben dieser Entdeckung gelten auch die Beobachtung der relativen Häufigkeiten der leichten Elemente in Übereinstimmung mit der Vorhersage aus der primordialen Nukleosynthese sowie das vermessene Spektrum der kosmischen Hintergrundstrahlung als größte Stützen der Urknall-Theorie. 3.2. DIE DREI STÜTZEN DER URKNALL-THEORIE 3.2.1 17 Das Hubble’sche Gesetz Edwin Hubble maß die Rotverschiebung von 18 Spiralgalaxien mit bekanntem Abstand von der Erde und konnte so auf deren Geschwindigkeit schließen. Er entdeckte, dass deren Fluchtgeschwindigkeiten v linear mit dem Abstand r zunahmen (Abbildung 3.2). Die Proportiona- Abbildung 3.2: Hubble Diagramm [9]. litätskonstante der daraus folgenden Relation v = H0 r (3.6) bezeichnet man seitdem als die Hubble-Konstante H0 . Eine Konstante stellt sie jedoch nur für einen festen Zeitpunkt dar, so kennzeichnet der Index 0 beispielsweise die heutige Zeit, im Allgemeinen ist H eine Funktion von t, die daher meist als der Hubble-Parameter [10] bezeichnet wird und die sich auch mittels des Skalenfaktors S(t) darstellen lässt: H(t) = Ṡ(t) S(t) Als die Hubble-Konstante bezeichnet man oft auch die dimensionslose Zahl H0 h= 100km s−1 M pc−1 (3.7) (3.8) Seit Hubbles Entdeckung wurde das gefundene Gesetz durch Beobachtungen an über 30000 Galaxien verifiziert [11]. Während bis vor kurzer Zeit noch ein systematischer Fehler von beinahe dem Faktor 2 bestand, ergeben neuere Messungen nun einen Wert von [12]: h = 0, 71 ± 0, 07 (H0 = 71 ± 7km s−1 M pc−1 ) (3.9) Mit Hilfe der Hubble-Konstanten kann man auch die heutige kritische Dichte (3.5) angeben zu ([10]) ρC (t0 ) = 1, 88h2 × 10−26 kg m−3 . (3.10) 18 3.2.2 KAPITEL 3. GRUNDLAGEN MODERNER KOSMOLOGIE Die primordiale Nukleosynthese Im Gegensatz zu den ’schweren’ Elementen nimmt man an (siehe z.B. [10]), dass sich die ’leichten’ Elemente wie Deuterium, Helium-3, Lithium oder besonders Helium-4 bereits in der Frühphase des Universums, wenige Minuten nach dem Urknall, gebildet haben. Diesen Prozess nennt man die Nukleosynthese. Hier kann nur eine sehr verkürzte Darstellung der Nukleosynthese gegeben werden, für eine ausführlichere Diskussion siehe z.B. [10], [14], [9], [15] oder [16]. Kurze Zeit (t << 1s) nach dem Urknall, aber spät genug, so dass die Temperatur niedrig genug ist, um davon ausgehen zu dürfen, dass alle Protonen und Neutronen nicht-relativistisch sind (kB T << mp c2 ), befinden sich die Teilchen im thermischen Gleichgewicht und genügen einer Maxwell-Boltzmann-Verteilung. Ihre Anzahldichte N ist somit von der Form N ∝ m3/2 exp(− mc2 ). kB T (3.11) Das relative Verhältnis von Neutronen zu Protonen ist also: (mn − mp )c2 mn 3/2 Nn =( ) exp[− ]. Np mp kB T (3.12) Da beide Teilchenmassen sehr ähnlich sind, ist der Vorfaktor nahe bei eins. Solange die Temperatur noch hoch genug ist, dass kB T >> (mn − mp )c2 gilt, ist auch der Exponentialfaktor nahe bei eins und die Anzahl der Protonen und Neutronen ist ziemlich identisch. Über die schwache Wechselwirkung können beide Teilchen ineinander umgewandelt werden: n + νe ↔ p + e− (3.13) n + e+ ↔ p + ν̄e (3.14) Solange diese Übergänge schnell genug stattfinden können, befinden sich Neutronen und Protonen in thermischem Gleichgewicht mit der relativen Anzahldichte aus 3.12. Ab einer Temperatur von kB T ' 0, 8MeV, das entspricht einer Zeit von ca. drei Sekunden nach dem Urknall, ist dies aber nicht mehr der Fall, das zu diesem Zeitpunkt herrschende Verhältnis wird ’eingefroren’, es beträgt: 1, 3 MeV 1 Nn ' exp(− )' . Np 0, 8 MeV 5 (3.15) Nach ungefähr drei Minuten ist die Temperatur so weit gesunken (kB T ' 0, 1MeV), dass sich die ersten Atome bilden können. Da die Halbwertszeit von Neutronen bei thalb = 614s liegt, muss man noch berücksichtigen, dass in der Zwischenzeit einige Neutronen zerfallen sind, so dass sich das Verhältnis 3.15 noch auf ca. Nn 1 ' Np 8 (3.16) p+n→d+γ (3.17) verringert hat. Hauptsächlich über die Reaktionen 3.3. DIE KOSMOLOGISCHE KONSTANTE 19 d+n→t+γ (3.18) t + p → 4 He + γ (3.19) kann dann Helium gebildet werden. Da fast alle Neutronen in Helium gebunden werden, kann man eine Vorhersage für das Massenverhältnis von 4 He im Universum treffen: Y4 ≡ 2 2Nn = ' 0, 22 Nn + Np 1 + Np /Nn (3.20) Eine genauere Analyse, die ein ganzes Netzwerk von Reaktionsgleichungen berücksichtigt [10], ergibt leicht größere Werte um 0,24. Dies wird dann noch leicht durch Produktion von Helium in Sternen erhöht. Dieser Massenanteil von Helium an der Gesamtmasse kann gemessen werden und die Ergebnisse bestätigen die Vorhersagen sehr gut. 3.2.3 Die kosmische Hintergrundstrahlung 1964 entdeckten die beiden Radioastronomen Arno Penzias und Robert Wilson vom AT&T Bell Laboratory in New Jersey ein in ihren Augen seltsames Rauschen im Radiobereich. Damals war ihnen noch nicht bewusst, dass sie eine der bedeutesten Entdeckungen der modernen Kosmologie gemacht hatten. Eine kosmische Mikrowellenstrahlung war bereits einige Jahre vorher 1948 von Alpher und Herman [17] sowie von Robert Dicke aus Princeton als Relikt aus dem Urknall vorhergesagt worden. Moderne Messungen des 1989 gestarteten COBE Satelliten [18] ergaben, dass es sich bei der gemessenen Strahlung um ein idelas Schwarzkörperspektrum der Temperatur T0 = 2, 725 ± 0, 001 K handelt [10] (Abbildung 3.3). Die Strahlung stammt aus der Zeit der Entkopplung von Strahlung und Materie, ca. 300000 Jahre nach dem Urknall bei einer Temperatur von ungefähr 3000 K: Das Universum kühlte sich durch die Expansion weiter ab, so dass die Photonen ab einem gewissen Punkt nicht mehr genügend Energie besaßen, um Atome zu ionisieren. Die Photonen konnten sich nun ungehindert ausbreiten, da sie nicht mehr an freien Elektronen streuten. Dieser Zeitpunkt wird auch als die Rekombination bezeichnet. Durch die bis heute fortschreitende Expansion des Universums kühlte sich auch die zur Rekombination entstandene Schwarzkörperstrahlung (vorher befand sich Materie mit Strahlung in thermischem Kontakt, die Bedingung für eine schwarze Strahlung war also gegeben) weiter bis auf heute 2,73 Kelvin ab. Das bedeutet, dass der kosmische Strahlungshintergrund vorwiegend im Mikrowellenbereich leuchtet, weshalb man auch vom kosmischen Mikrowellenhintergrund spricht. Die von COBE gemessene Temperatur des Spektrums stimmt genau mit den Vorhersagen des Urknall-Modells überein. 3.3 Die kosmologische Konstante Wie in den vorangegangenen Kapiteln bereits erwähnt, hatte die kosmologische Konstante eine besondere Rolle in der Geschichte der Kosmologie inne. Von Einstein zunächst eingeführt, um ein statisches, stabiles Universum beschreiben zu können, wurde diese Idee später von Einstein selbst wieder verworfen und als ’größter Fehler seines Lebens’ bezeichnet. Aus heutiger Sicht zu unrecht, denn nach der Quantenfeldtheorie ist ein solcher Term zu erwarten, da auch 20 KAPITEL 3. GRUNDLAGEN MODERNER KOSMOLOGIE Abbildung 3.3: Kosmische Hintergrundstrahlung. Selbst Schwarzkörperspektrum gemessen werden. im Labor kann kein genaueres das Vakuum im Allgemeinen eine nicht verschwindende Energie besitzt [19], die so genannte Vakuumenergie. Die Wirkung der Vakuumenergie ist vergleichbar mit der des kosmologischen Terms. Mit kosmologischer Konstante lauten die Friedmann-Gleichungen 3.3, 3.4: 8π Ṡ 2 + kc2 Λ Gρ − = 2 S 3 3 (3.21) 2S̈ Ṡ 2 + kc2 8π + − Λ = − 2 Gp S S2 c (3.22) Teilt man 3.21 unter Berücksichtigung von 3.7 durch H 2 , so erhält man: 1= 8πGρ kc2 Λ − + 2 2 2 3H S H 3H 2 . (3.23) Den einzelnen Summanden dieser Gleichung gibt man häufig neue Namen: Ωm = 8πGρ 3H 2 Ωk = − kc2 s2 H 2 ΩΛ = Λ 3H 2 (3.24) Ωm bezeichnet man als den Materie-Dichteparameter, Ωk als den Krümmungsparameter und ΩΛ als den Vakuum-Dichteparameter. Mit diesen Bezeichnungen vereinfacht sich 3.23 zu 1 = Ωm + Ωk + ΩΛ . (3.25) Zahlreiche Experimente in den letzten Jahren hatten das Ziel, möglichst genau Werte für diese drei Parameter zu finden. Das Supernovae Cosmology Project (SCP) [20] beispielsweise 3.4. DUNKLE MATERIE 21 Abbildung 3.4: Supernovae Cosmology Project [20] untersuchte Rotverschiebungen bei 42 Typ-Ia-Supernovae und und verglich die Ergebnisse mit den Erwartungen für Λ = 0, siehe Abbildung 3.4. Bei der Analyse der gewonnenen Resultate wurde hier schon deutlich, dass ein Universum mit einer verschwindenen kosmologischen Konstante nicht gut mit den Messergebnissen in Einklang zu bringen ist. Kombiniert wurden die gewonnenen Erkenntnisse mit den Ergebnissen der Experimente MAXIMA [21], Boomerang [22] und auch mit neuen Werten des WMAP 1 -Teams, die allesamt die Anisotropie der kosmischen Hintergrundstrahlung untersuchten (Abbildung 3.5) und mittels der richtungsabhängigen Temperaturschwankungen im Mikrowellenhintergrund auf die Dichteparameter schließen konnten. Das von diesen Daten ausgesonderte längliche Gebiet in der (Ωm , ΩΛ )-Ebene (Abbildung 3.6) steht nahezu senkrecht auf demjenigen der Supernovae-Daten, so dass sich ein relativ kleines Überlappungsgebiet ergibt. Zusammengefasst geht man heute von folgenden Werten der dynamischen Parameter aus: (Ωm ; ΩΛ ; Ωk ) ' (0, 04; 0, 73; 0) , (3.26) wobei Ωm zu 4% aus ’gewöhnlicher’, atomarer und zu 23% aus einer einer unbekannten, ’dunklen’ Materie besteht. 3.4 Dunkle Materie Zahlreiche Beobachtungen deuten darauf hin, dass es im Universum wesentlich mehr nur gravitativ wechselwirkende als leuchtende Materie zu geben scheint [3]. Der erste Teil die1 WMAP (Wilkinson Microwave Anisotrioy Probe) ist ein Nachfolge Projekt von COBE [18], der ersten Mission der NASA, die der Kosmologie gewidmet war [19]. Gemessen werden Unebenheiten im Mikrowellenhintergrund. 22 KAPITEL 3. GRUNDLAGEN MODERNER KOSMOLOGIE Abbildung 3.5: Anisotropie der kosmischen Hintergrundstrahlung, Leistungsspektrum, aufgenommen durch WMAP [20]. Der linke Teil stammt vom Sachs-Wolfe-Effekt, die großen Peaks in der Mitte des Spektrums sind auf akustische Schwingungen zurückzuführen und die leichten Schwankungen rechts unten können mittels der Silk-Dämpfung erklärt werden. Abbildung 3.6: Koinfidenzgebiete[8] 3.4. DUNKLE MATERIE 23 ses Kapitels nennt einige Gründe für die Annahme, dass eine so genannte Dunkle Materie existiert, im zweiten Teil wird die Frage nach der Natur dunkler Materie, also ob sich um baryonische- oder nicht-baryonische Materie handelt, diskutiert. 3.4.1 Evidenz für dunkle Materie Den ersten Hinweis auf die Existenz Dunkler Materie erhielt der Astronom Jan Oort 1932 [23] bei der Untersuchung der Bewegungen nahegelegener Sterne in Bezug auf die galaktische Scheibe unserer Milchstraße. Er untersuchte deren gravitativen Einfluß auf diese Sterne, um so auf die Masse der Scheibe schließen zu können. Zu seiner Überraschung stimmte seine Berechnung nicht mit der Beobachtung überein, die Masse der sichtbaren Sterne und Nebel betrug nur ca. die Hälfte des Wertes seiner Berechnung. Seit dieser Entdeckung gab es viele Experimente, die die Frage der dunklen Materie klären sollten. Einige wichtige werden im folgenden aufgelistet und kurz diskutiert. • Rotationskurven von Spiralgalaxien Spiralgalaxien sind Gebilde von Milliarden von Sternen, die in der Form einer rotierenden Scheibe mit einer zentralen Verdichtung (eng. ’bulge’) angeordnet sind. Eine Kreisbahn der Sterne um das galaktische Zentrum vorausgesetzt, verhalten sich die Rotationsgeschwindigkeiten der einzelnen Sterne gemäß den Kepler’schen Gesetzen wie r GMr , (3.27) v(r) = r wobei Mr die Masse innerhalb der Bahn mir Radius r ist. Nimmt man für den Bulge ein kugelförmiges Gebilde mit konstanter Dichte ρ an, so erwartet man für den innersten Teil einer Galaxie eine Rotationskurve von v(r) ∼ r. (3.28) Ausserhalb der Galaxie hingegen entspricht Mr der Gesamtmasse der Galaxie, so dass man hier entsprechend 1 v(r) ∼ √ (3.29) r erwarten sollte. Tatsächlich kommt man aber bisher bei allen beobachteten Galaxien zu dem Ergebnis [3] (siehe Abbildung 3.7) v(r) = konstant , (3.30) welches bedeutet Mr ∼ r . (3.31) Dies legt die Vermutung einer großen Masse weit über den sichtbaren Bereich hinaus nahe, die aber optisch nicht in Erscheinung tritt und führt zu der Hypothese eines Halos aus dunkler Materie [3]. • Bewegungen in Galaxienhaufen Sogenannte Galaxienhaufen oder Cluster 2 sind die größten bekannten gravitativ gebundenen Objekte im Universum, sie können sich zu Gruppen von zehn bis zu einigen 2 engl: Haufen 24 KAPITEL 3. GRUNDLAGEN MODERNER KOSMOLOGIE Abbildung 3.7: Rotationskurve der Spiralgalaxie NGC 6503 Der flache Verlauf bis weit hinaus über den optischen Rand kann bisher nur durch einen sehr massiven dunklen Halo erklärt werden [3] hundert formieren [24]. Mit Hilfe des Virialtheorems 2hEkin i + hEpot i = 0 (3.32) kann die Gesamtmasse der Galaxien eines Galaxienhaufens aus den Bewegungen dieser Galaxien abgeleitet werden. Die Anwendung des Virialsatzes aus Daten einiger Galaxienhaufen ergab einen Faktor 10 mal mehr Masse als man anhand der sichtbaren Objekte erklären konnte [24]. • Röntgenemissionen von Galaxienhaufen Eine weitere Möglichkeit, Informationen über dunkle Materie in Galaxienclustern zu gewinnen, besteht in der Untersuchung von Röntgenemissionen: Mit Satelliten wie z.B. ROSAT [25] wurde ausgedehnte Röntgenstrahlung aus Himmelsgebieten um Galaxienhaufen festgestellt. Abbildung 3.8 zeigt ein von ROSAT aufgenommes Bild des Clusters Abell 3582. Gas, das Röntgenstrahlen emittiert, besitzt eine Temperatur im Bereich von zehn Millionen Grad. Da solches Gas dünn und sehr beweglich, andererseits im Galaxienhaufen gebunden ist, muss der Haufen eine sehr große Schwerkraft auf dieses Gas 3.4. DUNKLE MATERIE 25 Abbildung 3.8: Röntgenemission des Galaxienhaufens Abell 3582 [25] ausüben. Dies erlaubt eine Abschätzung der Gesamtmasse des Clusters. Hier zeigt sich, dass typischerweise 10 bis 40% der Gesamtmasse in Form dieses Gases vorliegt [3]. Dies bedeutet jedoch auch, dass, da der Anteil der sichtbaren Galaxien nur etwa 1 bis 7% beträgt [3], immer noch etwa zwei Drittel der gesamten Clustermasse aus unbeobachteter dunkler Materie bestehen muss. • Grvitationslinsen Nach Einsteins Allgemeiner Relativitätstheorie erzeugen große und massereiche Galaxienhaufen eine lokale Raumkrümmung. Sie bewirkt, dass Licht eines Hintergrundobjektes durch die Wirkung der Gravitation abgelenkt wird. Seit den 80-er Jahren kennt man ’merkwürdige’ leuchtende Bögen in der Nähe von sehr massereichen Galaxien. Sie wurden 1987 als durch Gravitationslinsen erzeugte verzerrte Abbilder von Hintergrundgalaxien erkannt [24]. Theoretische Überlegungen erlauben, aus der Lage und Form der Bögen die Verteilung der Masse und die Gesamtmasse des Galaxienhaufens abzuleiten. Auch hier stellte sich heraus, dass weitaus mehr Masse (ein Faktor grösser als 10) vorhanden sein muss, als man ohne dunkle Materie erklären kann. Abbildung 3.9 zeigt eine vom Hubble Teleskop aufgenommene ’Gravitationslinse’ am Beispiel des Clusters Abell 2218. • Elementhäufigkeiten Wie in Kapitel 3.2.2 gezeigt wurde, erlaubt es die Urknall-Theorie, anhand der primordialen Nukleosynthese auf die Häufigkeit der leichten Elemente wie Helium, Deuterium oder Lithium zu schließen. Abbildung 3.10 zeigt die berechneten Häufigkeiten in Abhängigkeit der Barionendichte ΩB und der Hubble-Konstanten h. Der vertikale Balken im Diagramm gibt die tatsächslich gemessenen Häufigkeiten an, seine Dicke ist ein Indiz für die Unsicherheit der Messwerte. Laut [10] führt dies zu folgender Abschätzung: 0, 016 ≤ ΩB h2 ≤ 0, 024 . (3.33) 26 KAPITEL 3. GRUNDLAGEN MODERNER KOSMOLOGIE Abbildung 3.9: Hubble-Aufnahme des Galaxienhaufens Abell 2218, der auch als Gravitationslinse wirkt. Foto: STScI, ESA/NASA. Die vom Galaxienhaufen Abell 2218 erzeugte Gravitationskraft bewirkt Verzerrung von Bildern der Hintergrundobjekte zu Punktquellen und Bögen. Aus der Form der Verzerrung und weiteren Informationen ist die Gesamtmasse des Galaxienhaufens modellierbar. Auch aus diesem Phänomen leitet man die Existenz von deutlich mehr Masse ab, als die bekannten Massekomponenten erklären können. Besonders die Menge an gemessenem Deuterium ist ein guter Hinweis darauf, dass es unmöglich zu sein scheint, dass die kritische Dichte lediglich von baryonischer Materie aufgebracht wird, was wiederum auf die Existenz einer nicht-baryonischen dunklen Materie hindeutet. 3.4.2 Die Natur der dunklen Materie Nachdem sich der vorangegangene Abschnitt mit den Hinweisen auf die Existenz von dunkler Materie beschäftigt hat, und sich deren Existenz immer mehr verifiziert, behandelt dieser Teil nun die Frage der Natur der dunklen Materie, also was als dunkle Materie in Frage kommt. Grundsätzlich unterscheidet man bei diesen Überlegungen zwischen baryonischer und nichtbaryonischer dunkler Materie. Baryonische dunkle Materie Unter dieser Art versteht man Obejekte wie Planeten, Braune Zwerge, Weiße Zwerge oder Schwarze Löcher [3]. Es handelt sich also um Körper, die es entweder nie geschafft haben, ein Stern zu werden3 wie beispielsweise Planeten oder Braune Zwerge, oder um die Überbleibsel eines Sternes, wie etwa die Weißen Zwerge oder die Schwarzen Löcher. Da diese sogenannten MACHOs4 eine mögliche Lösung für das im vorangegangenen Abschnitt vorgestellte Problem der Rotationskurven von Galaxı́en [3] sein könnten, hat man die Suche nach solchen Objekten in den letzten Jahren intensiviert. Das amerikanisch-australisch-kanadische MACHO-Projekt [26] macht sich hierzu den von der Allgemeinen Relativitätstheorie vorhergesagten Gravitationslinseneffekt zunutze: Beim so genannten Mikrolensing-Effekt kommt es aufgrund des 3 4 Objekte mit einer Masse kleiner als 0,08 Sonnenmassen MACHOs = Massive Compact Halo Objects 3.4. DUNKLE MATERIE 27 Abbildung 3.10: Abschätzung der Elementhäufigkeiten anhand der primordialen Nukleosynthese Durchgangs eines massiven, kompakten Objektes zu Modifikationen und Verstärkungen der Bilder von Sternen [3]. Abbildung 3.11 zeigt den über ein Jahr lang aufgenommenen Helligkeitsverlauf eines MACHO-Kandidaten. Auch wenn also bereits Evidenz für die Existenz von MACHOs vorliegt, so muss man dennoch beachten, dass baryonische dunkle Materie aufgrund der durch die Nukleosynthese vorliegenden Grenze 3.33 nur einen kleinen Teil der gesamten dunklen Materie ausmacht. Nicht-baryonische dunkle Materie Die meisten der möglichen Kandidaten konnten noch nicht beobachtet werden, sondern entstammen lediglich physikalischen Theorien. Hier zeigt sich das Zusammenwachsen der Kosmologie mit der Teilchenphysik also am stärksten. Zukünftige Experimente (wie auch AMS) hoffen, diese Lücken eines Tages schließen zu können. Man unterscheidet zwischen kalter und heißer dunkler Materie.5 Unter heißer dunkler Materie versteht man Teilchen, die zum Zeitpunkt der Entkopplung von Strahlung und Materie, also ca. 300000 Jahre nach dem Urknall, relativistische Geschwindigkeiten besaßen, ihre Massen werden zwischen 0 − 100 eV vermutet. Gäbe es ausschließlich heiße dunkle Materie, so gäbe es Probleme mit der Erklärung der Strukturbildung im frühen Universum, da die relativistischen Teilchen Fluktuationen ’verwaschen’ würden und somit einer Clusterbildung entgegenwirken. Entsprechend ordnet man kalter dunkler Materie Teilchen zu, die zu diesem Zeitpunkt nichtrelativistische Geschwindigkeiten besaßen, ihre Massen erwartet man im hohen GeV-Bereich (siehe Tabelle 9.2 auf Seite 287 in [3] ). 5 Hier haben sich vielfach die englischen Ausdrücke Cold Dark Matter und Hot Dark Matter durchgesetzt. 28 KAPITEL 3. GRUNDLAGEN MODERNER KOSMOLOGIE Abbildung 3.11: Helligkeitsverlauf eines MACHOs. [26] • Heiße dunkle Materie Aussichtsreichstes Teilchen ist das gewöhnliche Neutrino, allerdings nur, falls es massebehaftet ist (siehe Kapitel 2, MSSM). Es ist das einzigste aller nicht-baryonischen Teilchen, dessen Existenz bisher bewiesen ist, allerdings konnte noch nicht abschließend geklärt werden, ob es nun tatsächlich massebehaftet ist oder nicht, auch wenn zur Zeit vieles dafür spricht [2]. Dennoch sind die bisher gefundenen Massen-Obergrenzen nicht hoch genug, um alle fehlende dunkle Materie erklären zu können. • Kalte dunkle Materie Wie in Kapitel 2 besprochen, sehen Teilchenphysiker die Supersymmetrie als eine mögliche solide Erweiterung des Standardmodells an. Von allen unter dem Namen WIMPs 6 zusammengefassten exotischen Teilchen gibt man dem leichtesten supersymmetrischen Teilchen, Favorit hierfür ist zur Zeit das Neutralino, die besten Aussichten, für einen großen Teil der dunklen Materie im Universum verantwortlich zu sein. Aber auch andere theoretische Konstrukte wie so genannte Axionen oder auch topologische Defekte werden von Astroteilchenphysikern kontrovers diskutiert. 6 WIMP = ’Weakly Interacting Massive Particle’, schwach wechselwirkendes massives Teilchen 3.5. NACHWEIS DUNKLER MATERIE 3.5 29 Nachweis dunkler Materie Bei den Experimenten zum Nachweis dunkler Materie unterscheidet man zwischen direkten und indirekten Nachweismethoden. Direkte Experimente versuchen, dunkle Materie durch Wechselwirkung im Laborexperiment nachzuweisen, indirekte versuchen hingegen, Reaktionsprodukte der dunklen Materie zu detektieren. Das AMS Experiment zählt zu den indirekten Experimenten und hat zum Ziel, WIMPVernichtungsprodukte nachzuweisen: • WIMPs und Anti-WIMPs streuen an Kernen und haben mit einer gewissen Wahrscheinlichkeit danach nicht mehr genügend Energie, um den Himmelskörper zu verlassen. • Im Laufe von Jahrmillionen haben sich auf diese Weise WIMPs im Zentrum der Himmelskörper angesammelt – es kommt zur WIMP-Vernichtung. • Der AMS-02 Detektor (siehe Kapitel 4) versucht WIMP-Vernichtungsprodukte wie Antiprotonen, Positronen, Photonen oder hochenergetische Neutrinos zu registrieren und auszuwerten. 30 KAPITEL 3. GRUNDLAGEN MODERNER KOSMOLOGIE Kapitel 4 Der AMS-02 Detektor Abbildung 4.1: Der AMS-02 Detektor, aus [27] Der AMS-021 -Detektor soll 2007 im Weltraum auf der internationalen Raumstation ISS2 angebracht werden. Ziel dieses Projektes ist es, kosmische Teilchenströme, die auf der Erde aufgrund der Absorptionsfähigkeit der Atmosphäre nicht oder nur teilweise gemessen werden können, in bisher nicht da gewesener Genauigkeit detektieren zu können. Aus den zu messenden Daten erhofft man sich, wichtige Schlüsse in Bezug auf zwei noch ungeklärte Fra1 2 AMS = Alpha Magnetic Spectrometer International Space Station 31 32 KAPITEL 4. DER AMS-02 DETEKTOR gen der Teilchenastrophysik – zu einem das Problem der fehlenden ausreichenden Existenz von Antimaterie im Weltall und zum anderen die noch immer unzureichende Kenntnis der Zusammensetzung von dunkler Materie – ziehen zu können. Der Detektor wird in einer Höhe von ungefähr 400 km in einer Zeitspanne von drei Jahren Daten mit einer Auflösung von 0, 7 m2 sr [28] sammeln. Es werden unter anderem sowohl kosmische Protonen, Antiprotonen, Elektronen und Positronen in bisher nicht erreichten Energiebereichen gemessen werden. Ebenso wird hochenergetische (bis ca. 30 GeV) Gammastrahlung, die genauere Aufschlüsse über Phänomene wie so genannte Gamma-Ray-Bursts geben soll, gemessen. Von besonderem Interesse ist der mögliche Nachweis supersymmetrischer Teilchen (siehe Kapitel 2 – Supersymmetrie (SUSY)), der indirekt über die aus der Annihilation von SUSYTeilchen in Fermion-Antifermion-Paare entstehende Antimaterie gelingen könnte. Dafür ist es notwendig, dass Signale von Antiteilchen wie Positronen vom vorherrschenden restlichen Teilchenhintergrund, der zu großem Teil aus Protonen besteht, mit einer ausreichenden Signifikanz separiert werden können. Um dies zu erreichen, ist der AMS02-Detektor mit zahlreichen Subdetektoren ausgestattet, die im folgenden vorgestellt werden. Die Darstellung richtet sich dabei im Wesentlichen nach den in [27] vorliegenden Beschreibungen, aufgrund der ständigen Forschung und Weiterentwicklung ist es möglich, dass Teile der beschriebenen technischen Realisierungen noch bis zum Start mehr oder weniger großen Änderungen unterliegen werden. Im einzelnen sind dies der ’Tracker’, (Silizium-Spurdetektor) mit einem supraleitenden Magneten, ein Synchrotronstrahlungsdetektor (SRD3 ), ein Übergangsstrahlungsdetektor (TRD4 ), eine Flugzeit-Messeinheit (ToF5 ), ein Silizium-Spurendetektor, ein Cerenkov-Zähler (RICH6 ), sowie ein elektromagnetisches Kalorimeter. Eine schematische Übersicht des gesamten Detektors mit Beschriftungen der einzelnen Komponenten ist in Abbildung 4.1 zu sehen. 4.1 Übergangsstrahlungs-Detektor (TRD) Durchquert ein geladenes Teilchen die Grenzfläche zweier Materialien mit unterschiedlichen Dielektrizitätskonstanten, so emmitiert es beim Übergang von einem Medium ins nächste elektromagnetische Strahlung in Vorwärtsrichtung. Diese Strahlung wird Übergangsstrahlung genannt. Für ein relativistisches Teilchen wird sie in einem Kegel konzentriert, dessen Öffnungswinkel Θ ∼ 1/γ durch den relativistischen Dilatationsfaktor γ = E/mc2 bestimmt ist. Bei dem vom AMS-Detektor verwendeten periodisch angeordneten Foliensystem mit äquidistanten Zwischenräumen treten Interferenzeffekte auf, die dazu benutzt werden können, um Teilchen mit gleichem Impuls, aber unterschiedlicher Masse zu unterscheiden. Eine solche Folie besteht aus polypropylenem Vlies, dessen Fasern einen Durchmesser von ∼ 10 µm und eine gemittelte Dichte von 0, 06g/cm3 besitzen. Der TRD Detektor besteht aus 20 Schichten dieser Art, mit einer Dicke von jeweils 22 mm. Zwischen den Schichten befinden sich 6 mm dicke Röhren mit einem gasförmigen Xe/CO2 -Gemisch. Zusammen mit dem Kalorimeter soll der TRD Detektor in der Lage sein, Teilchen wie Elektronen und Hadronen eindeutig zu identifizieren. Man hofft beispielsweise, 90 − 95% der 3 Synchrotron Radiation Detector Transition Radiation Detector 5 Time of Flight 6 Ring Imaging Cerenkov Detector 4 4.2. FLUGZEIT-DETEKTOR (TOF) 33 Abbildung 4.2: Transition Radiation Detector (TRD) Elektronen im Energieintervall von 1 GeV bis zu 100 GeV messen zu können. 4.2 Flugzeit-Detektor (ToF) Der aus Szintillationszählern aufgebaute Flugzeitdetektor (ToF) besteht aus vier Schichten, von denen zwei direkt unter dem TRD und zwei hinter dem Tracker angebracht werden, siehe Abbildung 4.3. Die ToF-Einheit hat im Wesentlichen vier verschiedene Aufgaben: Abbildung 4.3: Detektor zur Flugzeitmessung (ToF) • die Triggerung des Experimentes • die Messung der Flugzeit der den Detektor durchquerenden Teilchen und damit sowohl deren Geschwindigkeit als auch die entsprechenden Ein- und Austrittskoordinaten • die Unterscheidung von Elektronen und Positronen auf der einen Seite und Protonen und Antiprotonen auf der anderen bis ca. 1 − 2 GeV 34 KAPITEL 4. DER AMS-02 DETEKTOR • die Messung der Gesamtladung der durchquerenden Teilchen zusätzlich zur äquivalenten Messung des Trackers. Jede Schicht besteht aus 11 cm breiten und 1 cm dicken Szintillatoren, deren Licht von je zwei Photomultipliern gesammelt wird. 4.3 Silizium-Spurdetektor (Tracker) Der Silizium-Spurdetektor (Abbildung 4.4, auch Tracker genannt, besteht aus acht dünnen doppelseitigen Platten von Silizium-Mikrostreifen-Detektoren mit einem räumlichen Auflösungsvermögen von ca. 17 µ m in der Ebene des Magneten und ca. 30 µ m in der dazu senkrechten Ebene. Er ist schematisch in Abbildung 4.4 dargestellt. Sechs der acht Platten Abbildung 4.4: Silizium-Spurdetektor befinden sich innerhalb des supraleitenden Magnetes, der eine Stärke von ungefähr 0, 8 Tesla hat, zwei außerhalb. Anhand der Rekonstruktion der Teilchenspur im Detektor wird auf jeder der acht Platten dessen Impuls-Ladungs-Verhältnis ermittelt. Die einzelnen Platten bestehen aus 192 sogenannten Silizium-Leitern, insgesamt umfassen sie eine Fläche von ca. 6 m2 . 4.4 Der supraleitende Magnet Der supraleitende Magnet (siehe Abbildung 4.5 ist in der Lage, in seinem Zentrum ein Magnetfeld von bis zu 0, 87 Tesla aufzubauen, an seinen Rändern in einem Abstand von ca. 230 cm ist es bis auf ungefähr 15, 2 mT abgefallen. Er besteht aus einem mit Aluminium angereicherten NbTi-Draht mit einem angelegten Strom von 459 A. Durch die Verwendung von 2500 l flüssigen Heliums kann die Temperatur auf lediglich 1, 8 K gehalten werden. In diesem Zustand kann die Apperatur über drei Jahre hinweg ohne Nachfüllung des Heliums arbeiten. Der Magnet hat einen inneren Radius von 1, 1 m, der äußere, also mit Berücksichtigung des den Draht umgebenden Heliumtanks, berträgt 2, 7 m. Die Gesamtmasse des Magneten beträgt 3 t und macht somit mehr als die Hälfte des Gewichts des gesamten Detektors aus. 4.5. CERENKOV-ZÄHLER (RICH) 35 Abbildung 4.5: Der supraleitende Magnet 4.5 Cerenkov-Zähler (RICH) Es kommt zur Emission von Cerenkov-Licht, also elektromagnetischer Strahlung, sobald die Geschwindigkeit der den Detektor durchquerenden Teilchen einen Wert größer als v= c n (4.1) erreicht, wobei n den Brechungsindex kennzeichnet. Dieser Effekt kann durch die zeitweise Polarisation der Atome des die Teilchenbahn umgebenden Mediums erklärt werden. Für kurze Zeit werden diese zu elektrischen Dipolen und erlangen dadurch ein zeitlich verändertes Dipolmoment, was in der Aussendung elektromagnetischer Strahlung resultiert. Aus dem Öffnungswinkel 1 (4.2) cos Θ = β n (β = vc ) des so erzeugten Lichtkegels kann man auf die Geschwindigkeit und die Richtung des geladenen Teilchens schließen. Mittels der Anzahl der durch den Cerenkov-Effekt ausgelösten Photonen kann man außerdem über die Relation Nγ ∝ LZ 2 (4.3) die Ladung der Teilchen bestimmen, wenn L die durchquerte Weglänge bezeichnet. Der Detektor (Abbildung 4.6), der aus einer 1 − 2 cm dicken NaF-Fläche besteht sowie Photomultipliern zur Verstärkung der emittierten Photonen aufgebaut ist, befindet sich zwischen der ToF-Einheit und dem Kalorimeter. Es besteht die Möglichkeit der Erkennung von Elektronen und Positronen bis zu einer Energie von 5 GeV, außerdem wird man in der Lage sein, Kerne und Isotope bis zu einer Ladungszahl von Z = 25 zu unterscheiden. Abbildung 4.6: Cerenkov-Zähler (RICH) 36 4.6 KAPITEL 4. DER AMS-02 DETEKTOR Elektromagnetisches Kalorimeter Kalorimeter sind Detektoren, mit denen die Energie und die Art von Teilchen bestimmt werden kann. Ihr Vorteil besteht darin, dass sie auch gegenüber ungeladenen Teilchen empfindlich sind. In Kalorimetern wird die elektromagnetische und starke Wechselwirkung von Elementarteilchen mit Materie ausgenutzt: Hadronen verlieren ihre Energie hauptsächlich durch mehrfache Kernstöße. Elektronen und Positronen verlieren ihre Energie durch Bremsstrahlung, Paarbildung und Ionisation. Kalorimeter bestehen aus passiven Materieplatten (z.B. Blei, Eisen, Uran), in denen die Wechselwirkung stattfindet, und die so als Absorptionsmaterial wirken, und dazwischenliegenden aktiven Detektorelementen (Szintillatoren), an die Photomultiplier angebracht werden. Das Kalorimeter muss so dick gebaut werden, dass die primären Teilchen ihre ganze Energie stufenweise in einem Schauer (Kaskade) von Teilchen mit immer kleinerer Energie abgeben. Man kann an der Struktur des Sekundärteilchenschauers die Art der Teilchen identifizieren. Der überwiegende Teil der freiwerdenen Energie wird letztendlich im Szintillator als sichtbares Licht abgegeben. Das Szintillatorlicht wird von den Photomultipliern aufgefangen, die Lichtmenge ist proportional zur Energie des eingelaufenen Primärteilchens. Das im AMS-02 Detektor benutzte Kalorimeter (Abbildung 4.7) kann Leptonen mit Energien von wenigen GeV bis hin zu einem TeV registrieren, Hadronen werden nur einen kleinen Teil ihrer Energie abgeben. Das 65, 8 × 65, 8 cm2 große und 16, 5 cm dicke Kalorimeter hat ein Gewicht von 630 kg. Das Kalorimeter besitzt eine Strahlungslänge von X0 = 9, 6±0, 3 mm und eine nukleare Absorptionslänge von λ ≈ 17 cm (siehe Gleichung 6.2). Die Gesamtdicke von ca. 16, 65 cm des Kalorimeters mit seinen 9 Bleischichten und den dazwischen Szintillatoren entspricht ungefähr 15X0 oder 0, 5λ. Die Energie-Auflösung beträgt 0.13 σ(E) =p ⊕ 0.030 . E E(GeV ) (4.4) Das Zeichen ⊕ bedeutet hier, dass die beiden Terme im Sinne der Fehlerrechnung quadratisch zu addieren sind. Somit ist klar, dass die Energie-Auflösung bei hohen Energien (E ≥ 100 GeV) durch den konstanten Term dominiert wird. Abbildung 4.7: Elektromagnetisches Kalorimeter Kapitel 5 Neuronale Netze Während Probleme, die durch einen Algorithmus in kurzer Zeit exakt zu lösen sind, von einem Computer deutlich schneller gelöst werden können als von einem Menschen, benötigt das menschliche Gehirn für Aufgaben wie das Erkennen eines Gesichts wesentlich weniger Zeit. Ein weiterer Vorteil des menschlichen Gehirns ist, daß auch dann noch korrekte Ergebnisse geliefert werden, wenn es zu einem Ausfall einiger für die Problemlösung notwendiger Nervenzellen kommt. Selbst wenn die ’Eingaben’ ungenau sind, also beispielsweise ein Text durch Verschmutzung unleserlich geworden ist, kann das Gehirn den Text noch erkennen. Ein Computer liefert in diesen Fällen fehlerhafte bzw. unbrauchbare Ergebnisse. Die Idee ist daher, die Arbeitsweise des Gehirns auf Maschinen zu übertragen. 5.1 Der Zusammenhang mit der Biologie Das menschliche Gehirn ist eine der kompliziertesten Strukturen, die uns bekannt ist. Um so beachtenswerter ist, dass im Gehirn nur ein Grundtypus von Zelle existiert, der Information übertragen und diese in gewisser Weise auch speichern kann. Dieser Grundtypus wird mit Nervenzelle oder auch Neuron bezeichnet [29]. Jede Nervenzelle besteht aus einem Zellkörper und einer Reihe von faserartigen Fortsätzen. Doch nur eine einzige dieser Fasern, das Axon, dient der Weitergabe von Information, alle anderen Fortsätze, die sogenannten Dendriten, empfangen Signale von anderen Neuronen. Die Länge von Axonen variiert beträchtlich (10 µm−1 m), während Dendriten etwa 10 µm − 100 µm lang sind. Das Axon spaltet sich an seinem Ende in bis zu 1000 dünne Äste auf, die in kleinen Verdickungen enden. Dort findet die Informationsübertragung auf die benachbarte Zelle über eine eine Synapse statt, einem schmalen Spalt zwischen Axon und den benachbarten Dendriten. Innerhalb der Nervenzelle pflanzt sich ein Signal auf elektrochemischem Wege über die Steuerung von Membranpotentialen fort. An den Synapsen werden die Signale chemisch durch Ausschüttung von Neurotransmittern übertragen, die sowohl erregend als auch hemmend wirken können. Diese binden sich an Rezeptoren auf der postsynaptischen Membran der Dendriten und verändern so deren Membranpotential. Im Zellkörper der Nervenzelle summieren sich die Potentiale der einzelnen Dendriten auf. Wird ein bestimmter Schwellwert überschritten, dann feuert das Neuron, d. h. es sendet ein Impulssignal über das Axon zu seinen Nachbarn, andernfalls bleibt es ruhig. Der mathematische Modellansatz, ein Neuron als einen Summierverstärker mit individueller Gewichtung seiner Eingänge zu verstehen, ist durchaus naheliegend. Im Modell werden Neuronen auch Knoten genannt. Das etwas komplizierte Übertragungsschema von Axonen 37 38 KAPITEL 5. NEURONALE NETZE und Dendriten wird durch Verbindungen mit variablen Gewichten ersetzt: X ni (t + 1) = Θ( wij nj (t) − µi ). (5.1) j Das Gewicht wij repräsentiert die Stärke, mit der das Neuron j eine Informationseinheit Abbildung 5.1: Biologisches Neuron. Aus [30] über eine Synapse zu Neuron i übertragen kann. µi entspricht dem Schwellenwert, ab dem das Neuron feuern soll. In einer etwas allgemeineren und auch biologisch plausibleren Darstellung wird die Stufen- oder auch Heavyside-Funktion Θ, durch eine kontinuierlich verlaufende sigmoide Funktion ersetzt [5], siehe auch Abbildung 5.1: X ni (t + 1) = g( wij nj (t) − µi ). (5.2) j 1 g wird als die Aktivierungsfunktion bezeichnet, häufig hierfür die Fermifunktion g(x) = 1+exp x wegen ihres einfachen Zusammenhangs mit ihrer Ableitung benutzt (Abbildung 5.2). Durch die Ersetzung der Stufen- mit der sigmoiden Funktion können auch nicht-lineare Probleme durch das Netzwerk gelöst werden. 5.2 Netzwerk-Topologie Die Topologie oder Architektur hat entscheidenden Einfluß auf Funktionalität und Leistungsfähigkeit eines neuronalen Netzes. Auch im Gehirn sind die Neuronen in Schichten, Spalten oder zweidimensionalen topologischen Karten angeordnet, die z. B. die Hautoberfläche widerspiegeln. Es gibt zwei grundsätzlich unterschiedliche Verknüpfungsverfahren von neuronalen Knoten. Bei vorwärtsgekoppelten (Feedforward-) Netzen empfängt ein Neuron weder direkt noch indirekt von den Neuronen Signale, an die es selbst Signale überträgt. Ein solches Netz besitzt immer zumindest eine Eingabeschicht (Input-layer), das sind alle Knoten, die nur Signale weiterleiten, ohne von irgendwelchen anderen Knoten Signale zu empfangen, und eine Ausgabeschicht (Output-layer), das sind alle Neuronen, die nur Signale empfangen, aber keine weiterleiten. Meistens werden die zwischen der Eingabe- und Ausgabeschicht liegenden 5.2. NETZWERK-TOPOLOGIE 39 Abbildung 5.2: Sigmoidfunktion Neuronen in einer oder mehreren versteckten Schichten angeordnet (Hidden-layer). Solch ein Feedforward-Netz ist in Abbildung 5.3 exemplarisch dargestellt. Die Natur bevorzugt eine andere Art von Architektur, das rückgekoppelte (Feedback-) Netz, bei dem das Ausgabesignal eines Neurons über mehrere Zwischenneuronen als Eingabesignal erneut auf das Ausgangsneuron rückwirken kann [31]. In diesem Fall macht es wenig Sinn, von verschiedenen Schichten zu sprechen, da jedes Neuron sowohl als Eingang wie auch als Ausgang dienen kann und außerdem mit jedem beliebigen anderen Neuron verbunden sein kann. Welche Topologie eines künstlichen neuronalen Netzes man bevorzugen soll, hängt ganz vom aktuellen Problem ab. Für Klassifikationsaufgaben eignen sich jedoch beide Netzwerktypen gleichermaßen, wobei Feedforward-Netze leichter technisch zu implementieren sind. Hierbei unterscheidet man zwischen binominaler Klassifikation und multinominaler Klassifikation. Binominale Klassifikation bedeutet, dass das Netzwerk lediglich eine ’Entweder-OderEntscheidung’ fällt, also zum Beispiel, ob ein Teilchen als Signal oder als Hintergrund eingestuft werden soll. In diesem Fall reduziert sich das in Abbildung 5.3 gezeigte Diagramm auf einen einzigen Ausgabeknoten. Bei multinominaler Klassifikation sind entsprechend mehrer Ausgabeknoten möglich. Im Verlaufe dieser Arbeit wurde ein neuronales Netz zur binominalen Signal-Hintergrundtrennung benutzt. Die Frage, wie viele Knoten in verdeckten Schichten sinnvoll sind, ist nicht eindeutig zu beantworten [5]. Werden zu wenige Knoten gewählt, so ist es möglich, dass das Netzwerk nicht in der Lage sein wird, das gegebene Problem zu lösen. Werden im entgegengesetzten Fall hingegen zu viele Knoten gewählt, so besteht das Risiko, dass das zu lösende Problem nur teilweise durch Generalisierungsfehler 1 erkannt wird. Als Faustregel kann man vielleicht sagen, dass die Anzahl der versteckten Knoten leicht höher sein sollte als die Anzahl der 1 Die Trainingsdaten stellen Stützstellen dar, über die das Backpropagation-Netz eine Funktion approximiert. Aber auch außerhalb der Stützstellen soll das Netz eine genügende Genauigkeit aufweisen. Diese bedeutende Eigenschaft wird als Generalisierungsfähigkeit des Netzes bezeichnet.[32] 40 KAPITEL 5. NEURONALE NETZE Abbildung 5.3: Beispiel eines Feedforward-Netzwerkes Eingabeknoten. Hier sind allerdings individuelle Erfahrung und zahlreiche Tests notwendig, um die für ein spezielles Problem optimale Lösung zu finden. 5.3 Lernen in Neuronalen Netzen Wiederum in Anlehnung an das biologische Vorbild werden Prozesse, die dazu führen, dass ein künstliches neuronales Netz ein gewünschtes Verhalten nachbildet, Lernen oder auch Training genannt. Man unterscheidet zwischen überwachtem und unüberwachtem Lernen. Ein bekanntes unüberwachtes Lernverfahren ist das konkurrierende Lernen: Die verschiedenen Ausgabeeinheiten eines Netzwerkes kämpfen hier um die Kontrolle über die einzelnen Eingabevektoren. Ist für eine bestimmte Eingabeeinheit nur noch eine Ausgabeeinheit aktiv, so werden im nächsten Schritt die Gewichte der Verbindungen zwischen aktiven Eingabeeinheiten und der aktiven Ausgabeeinheit vergrößert. Dadurch erhöht sich die Wahrscheinlichkeit, dass beim nächsten Auftreten dieses Eingabemusters dieselbe Ausgabeeinheit aktiv bleiben wird. Problematisch bei diesem Algorithmus ist, dass eine Ausgabeeinheit übermächtig werden kann und für jede Eingabe aktiv bleibt, was dann auch durch weiteres Lernen nicht mehr rückgängig gemacht, sondern höchstens verstärkt werden kann. Abhilfe lässt sich dadurch schaffen, dass man die Summe der gewichteten Eingänge einer Ausgabeeinheit auf eins begrenzt, so dass eine Erhöhung des Gewichts eines Eingangs die Erniedrigung der anderen Gewichte zur Folge hat. Im folgenden werden nur noch überwachte Lernprozesse betrachtet, mehr zu dieser von Rumelhart et al. 1986 beschriebenen Methode findet sich in [31] unter Algorithmus: Konkurrierendes Lernen. Der Grundgedanke beim überwachten Lernen ist, dass die Ergebnisse mit einem bestimmten Wert, sinnvollerweise dem wahren Wert, auch Target genannt, verglichen werden. Aus den 5.3. LERNEN IN NEURONALEN NETZEN 41 erhaltenen Fehlern werden anschließend die einzelnen Gewichte neu angepasst. Dies wird solange wiederholt, bis die Fehler minimal werden. 5.3.1 Kostenfunktion Zunächst muss man einen globalen Maßstab für den Fehler festlegen, um abschätzen zu können, in wie fern sich das Ergebnis des Netzwerkes vom wahren Wert unterscheidet. Eine mögliche, so genannte Kostenfunktion ist E[w] ~ = 1 2 Ausgabeknoten MX uster X i (ζiµ − O(w) ~ µi )2 . (5.3) µ Hierbei ist ζiµ das Target und O(w) ~ µi die Ausgabe des Netzes. Summiert wird sowohl über alle Ausgabeknoten (Index i) als auch über alle dem Netzwerk zur Verfügung gestellten Eingabemuster (Index µ). Ziel ist es, die einzelnen Gewichte so zu modifizieren, dass die Kostenfunktion minimal wird. Ein Problem hierbei ist jedoch, dass es nicht gewährleistet ist, dass man auch tatsächlich das globale Minimum und nicht nur eins von vielen lokalen Minima gefunden hat. Neben dieser (5.3) gibt es noch zahlreiche andere Kostenfunktionen, einzige Bedingung an sie ist ihre Differenzierbarkeit und die Tatsache, dass sie für ζiµ = Oiµ ein Minimum besitzt. Ein Verfahren, dass benutzt werden kann, um ein solches Minimum zu finden, ist der so genannte Gradientenabstieg. 5.3.2 Gradientenabstieg Die Idee dabei ist es, möglichst schnell ein Minimum auf der Fehlerfläche zu finden. Dabei wird der jeweils steilste Abstieg gesucht. Das bedeutet, dass die Gewichte so verändert werden müssen, dass die Fehlersumme über alle Trainingsmuster minimal wird. Die Fehlerfläche entsteht, indem man den Fehler des neuronalen Netzes als Funktion der Gewichte grafisch darstellt. Für den zweidimensionalen Fall ist das in Abbildung 5.4 veranschaulicht. Das Gra- Abbildung 5.4: Fehlerfläche als Funktion der Gewichte dientenabstiegsverfahren verändert den Gewichtsvektor bei jeder Korrektur um den Bruchteil 42 KAPITEL 5. NEURONALE NETZE des negativen Gradienten ∂E (5.4) ∂wik der Fehlerfunktion. Diesen Bruchteil bezeichnet man als die Lernrate η. Wie groß man die Lernrate wählen sollte, kann wieder nicht eindeutig gesagt werden. Ist η zu klein, so wird der Algorithmus sehr langsam sein, auf der anderen Seite kann eine zu groß gewählte Lernrate bewirken, dass man über das Minimum ’hinwegläuft’. ∆wik = −η 5.3.3 Der Backpropagation-Lernalgorithmus output layer input layer output layer input layer Der auf dem Gradientenabstiegsverfahren basierende Backpropagation-Algorithmus ist die am häufigsten verwendete Trainings-Technik für Feed-Forward-Netze [5]. Zentrale Idee dieses Algorithmus ist es, eine Trainingseinheit in zwei Teilbereiche aufzugliedern: Zuerst wird die Eingabe durch das Netzwerk geleitet, anschließend wird der Fehlergradient entsprechend der gewählten Kostenfunktion für jeden einzelnen Knoten rückwärts, von der Ausgabeschicht beginnend, berechnet (Abbildung 5.5). Die folgende Diskussion des Algorithmus bezieht sich auf Signal Errors Abbildung 5.5: Illustration des Backpropagations-Algorithmus am Beispiel eines drei-schichtigen Feed-Forward-Netzes ein drei-schichtiges Feed-Forward-Netzwerk (wie auch in der Abbildung 5.5 verwendet), eine Erweiterung auf mehrere Schichten ist analog dazu ohne Probleme zu erreichen, eine Wiederholung der Prozedur für etwaige nachfolgende versteckte Schichten läuft nach demselben Schema ab. Bezeichnen wjk die die Gewichte von der Eingabe- zur versteckten Schicht, so sollen Wij die Stärke der Gewichte von versteckter- zur Ausgabeschicht kennzeichnen. Empfängt das Netzwerk ein Eingabemuster ξ µ , so wird der Knoten Vj in der versteckten Schicht einen Input von allen Knoten der Eingabeschicht erhalten: X hµj = wjk ξkµ (5.5) k Entsprechend wird die Ausgabe vom j-ten Knoten der verdeckten Schicht an die Ausgabeschicht mit X Vjµ = g(hµj ) = g( wjk ξkµ ) (5.6) k 5.4. NEUROBAYES 43 bezeichnet. g(hµj ) ist die in 5.1. vorgestellte Aktivierungsfunktion. Der i-te Knoten der Ausgabeschicht Oi erhält schließlich X X X hµi = Wij Vjµ = Wij g( wjk ξkµ ) (5.7) j j k und produziert einen Output des Netzwerkes von X X Oiµ = g(hµi ) = g( Wij g( wjk ξkµ )). j Unsere Kostenfunktion E[w] ~ = 1 2 P ~ ]= E[w, ~ W µ i,µ (ζi (5.8) k − Oiµ )2 kann mit diesen Bezeichnungen nun als X X 1X µ Wij g( wjk ξkµ ))]2 [ζi − g( 2 i,µ j (5.9) k geschrieben werden. Da dies eine differenzierbare Funktion ist, kann mit 5.4 das Gradientenabstiegsverfahren verwendet werden: ∆Wij = −η X µ µ ∂E δi Vj =η ∂Wij µ , (5.10) wobei δjµ ≡ g 0 hµi [ζiµ − O(w) ~ µi ] gesetzt wurde. Ganz analog erhält man für die Verbindungen von der Eingabe- zur versteckten Schicht: ∆wjk = −η X µ µ ∂E δj ξk =η ∂wjk µ (5.11) P mit δjµ ≡ g 0 hµj i Wij δiµ . Auf diese Weise wurde der Fehler jedes einzelnen Knotens dazu benutzt, um zu berechnen, um welchen Betrag die Gewichte bei der nächsten Aktualisierung angepasst werden müssen. Das Hinzuaddieren der Gewichtsänderungen und aus dem vorangegangenen Lernschritt versehen mit einem Dämpfungsterm α, auch Momentumparameter genannt, stellt eine Verbesserung des ursprünglichen Algorithmus dar. Regionen mit flachem Gradientenabfall werden schneller überwunden und Oszillationen vermieden. Wie für jedes Gradientenverfahren besteht das Risiko, in einem lokalen Minimum zu landen. Aufgrund der großen Anzahl von Gewichtsparametern ist dies in der Praxis selten der Fall. Dennoch ist es ratsam, das gleiche Netz mehrmals mit verschiedenen Startparametern zu trainieren. 5.4 NeuroBayes Im Verlaufe dieser Arbeit wurde das neuronale Netz NeuroBayes benutzt, das von Michael Feindt et al. [33] an der Universität Karlsruhe entwickelt wurde. NeuroBayes ist ein Feed-Forward-Netzwerk, das den Backpropagations-Algorithmus benutzt, zudem aber zusätzlich auf dem Bayes’schem Theorem basiert: P (H|D) = P (D|H)P (H) P (D) wobei D die Daten und H die Hypothese bezeichnen. , (5.12) 44 KAPITEL 5. NEURONALE NETZE Dem Anwender eines Klassifikationsproblems stehen im Wesentlichen zwei Programmteile zur Verfügung: Der ’Teacher’ und der ’Experte’. Aufgabe des Teachers ist es, wie in den vorangegangenen Abschnitten beschrieben, Signal von Hintergrund unterscheiden zu können. Die Daten werden in Form eines Arrays eingelesen, wobei dem Teacher mitgeteilt werden muss, ob es sich um Signal oder Hintergrund handelt. Einstellmöglichkeiten sind unter anderem: • die Trainings-Geschwindigkeit • die Anzahl der verdeckten Schichten • die Anzahl der Iterationen. Neurobayes bietet durch verschiedene Ausgaben mehrere Möglichkeiten, um zu testen, ob ein trainiertes Netzwerk zu den gewünschten Ergebnissen führt. Abbildung 5.6 zeigt exemplarisch die Ausgabe eines Netzwerkes bei einem Klassifikationsproblem, die Signal-Daten sind in grün dargestellt, der Hintergrund in rot. Wird eine Eingabe eindeutig als Signal erkannt, weist das Netz ihr den Wert +1 zu, eindeutig erkannte Hintergrund-Daten erhalten entsprechend einen Wert von −1. 2500 2000 1500 1000 500 0 -1 -0.8 -0.6 -0.4 -0.2 -0 0.2 0.4 0.6 0.8 1 Abbildung 5.6: Beispiel einer Teacher-Ausgabe. Das Signal ist in grün dargestellt, der Hintergrund in rot. Diagramm 5.7 illustriert für jeden Ausgabe von −1 bis +1 das Verhältnis von Signalen zur Gesamtzahl der eingelesenen Daten. Bei einem optimal austrainierten Netz ergäbe sich eine Ursprungsgerade mit Steigung eins. Je weniger ein Netz trainiert ist, desto größer werden entsprechend die zu jedem Punkt gehörenden Fehlerbalken. Das erlernte Muster, auch Expertise genannt, wird am Ende einer Traingseinheit in einer Datei gespeichert. Im Gegensatz zum Teacher ist der Experte zur Unterscheidung unbekannter Eingaben bestimmt. Anhand des vom Teacher gespeicherten Musters wird jeder Eingabe ein Wert zwischen −1 und +1 zugewiesen, die als Wahrscheinlichkeitsaussage aufzufassen ist. Eine Eingabe, die vom Experten beispielsweise den Wert 0,9 zugewiesen bekommt, wird zu 90% als Signal gedeutet. 5.4. NEUROBAYES 45 hsum Entries 24770 Mean 0.3253 RMS 0.4643 signal / (signal + background) signal / (signal + background) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -1 -0.8 -0.6 -0.4 -0.2 -0 0.2 0.4 0.6 0.8 1 Abbildung 5.7: Dargestellt ist das Verhältnis von Signalen zur Gesamtzahl der Ereignisse für jede mögliche Ausgabe von −1 bis +1. Bei optimal trainiertem Netz ergibt sich eine Ursprungsgerade mit Steigung eins und möglichst kleinen Fehlerbalken. 46 KAPITEL 5. NEURONALE NETZE Kapitel 6 Die Simulation Bevor ein so aufwendiges Projekt wie AMS gestartet werden kann, ist es dringend erforderlich, dass die Analysesoftware im Vorfeld durch zahlreiche Simulationen getestet wird, um im ’Ernstfall’ realer Daten mit einer guten Rekonstruktion der einfallenden Teilchen rechnen zu können. Dieses Kapitel beschäftigt sich mit dem Software-Paket der Simulation des AMS-02 Detektors und einer Beschreibung der in dieser Arbeit benutzen Einstellungen, der Rekonstruktion der simulierten Teilchen aus der Detektor-Antwort, sowie einer kurzen Darstellung der für die durchgeführte Analyse wichtigen Wechselwirkungs-Eigenschaften der beteiligten Teilchen. 6.1 Simulation des AMS-02 Detektors Die AMS-02 Simulations-Software basiert auf dem Programmpaket GEANT 3 [34], welches ursprünglich für Beschleuniger-Experimente entwickelt wurde. Da die im AMS-02 Detektor enthaltenen Komponenten aber im Prinzip denen der Beschleuniger-Experimente sehr ähneln, kann das Paket auch hier angewendet werden. Hauptaufgabe der Software ist die Simulation des Durchgangs von elementaren Teilchen durch Materie. Anhand der im Detektor verwendeten Materialien und deren Eigenschaften kann die Wechselwirkung der Teilchen mit dem Detektormaterial bestimmt werden, woraus sich wichtige, das Teilchen charakterisierende Größen wie zum Beispiel seine Ladung oder seine Geschwindigkeit, ableiten lassen. Das Programmpaket besteht im Wesentlichen aus drei Teilen: • Geometrie Der AMS-02 Detektor wird als eine Zusammensetzung verschiedener Bereiche beschrieben, wobei jedem Bereich ein unterschiedliches Material zugeordnet ist, das andere Eigenschaften aufweist und den durchquerenden Teilchen somit verschiedene Wechselwirkungen ermöglicht. • Physikalische Prozesse Physikalische Prozesse und Wechselwirkungen der einfallenden Teilchen mit verschiedenen Materialien werden definiert. • Detektor Die Antwort des Detektors auf ein einfallendes Teilchen in Abhängigkeit der definierten Detektor-Geometrie und der definierten physikalischen Prozesse wird unter Berücksichtigung etwaiger entstandener Sekundärteilchen berechnet. 47 48 KAPITEL 6. DIE SIMULATION Dem Anwender des Programmpaketes steht als Eingabe-Schnittstelle die so genannte Datacard zur Verfügung, das ist eine Datei, in der man alle zur Simulation benötigten Parameter einstellen kann. Im Einzelnen beschreiben diese Parameter • allgemeine Teilcheneigenschaften • allgemeine Detektoreigenschaften • Trigger Definitionen • Einstellungen zur Simulation • Einstellungen zur Rekonstruktion sowie • verschiedenen Optionen für die Ausgabe. Wichtige Parameter einer Datacard sind neben der Teilchen-Identifikationsnummer, mit der man angibt, welches Teilchen entsprechend des GEANT-Kataloges [34] simuliert werden soll, vor allem die einzelnen Einstellungen des Monte-Carlo-Generators MCGEN, mit denen man direkten Einfluß auf die physikalischen Eigenschaften der simulierten Teilchen nehmen kann. So lässt sich hier unter anderem der Energiebereich oder auch die Einfallsrichtung der simulierten Teilchen festlegen. Tabelle 6.1 zeigt einen Ausschnitt der im AMS-02 Software-Paket enthaltenen Dokumentation zur Datacard, die vollständige Dokumentation ist in [35] zu finden. Ist ein Wert der dritten Spalte in Klammern angegeben, so ist dies die Grundeinstellung, die für die Simulation verwendet wird, solange dem entsprechende Parameter kein anderer Wert zugewiesen wird. Da das im Rahmen dieser Arbeit entstandene Framework Daten verarbeitet, die in Form eines ROOT-Trees [36] (siehe Kapitel 7.1 ’Das Analyse-Framework’ und Anhang A, ’ROOT-Trees’) vorliegen, sind in diesem Fall auch die Parameter I127 und I128 der Ein-Auslese Sektion IOPA von großer Bedeutung, da hier eingestellt werden kann, dass die Ausgabe in Form einer ROOT-Datei erfolgen soll. Die Datacard bietet auch zur DetektorGeometrie, zur Simulation sowie zur Rekonstruktion zahlreiche Einstellmöglichkeiten, für diese Arbeit wurden aus diesen Bereichen allerdings die Standardwerte gewählt. Nachdem alle Werte gemäß der Wahl der Datacard initialisiert wurden, startet das eigentliche Programm, indem in einer Schleife Ereignis für Ereignis das gewählte Teilchen generiert und die Antwort des Detektors in der ROOT Datei gespeichert wird. AMSJOB I1 Jobtype(0) IOPA I43 WriteAll(2) I127 I128 I168 WriteRoot(0) rfile(160*’ ’) MaxFileSize(150000000) // // // ... // // ... // // // 1 - Reconstruction ( 0 Simulation) 10 - Real Data 100 - Tracker Calibration Flag to write objects into the ntuple 1=All; 0=Only ’used’ objects write (!0) or not write(0) root file root file name max ntuplefilesize (bytes) 6.1. SIMULATION DES AMS-02 DETEKTORS MCGEN KINE R1 coo[2][3](3*-1.e10,3*1.e10) R7 R13 I15 dir[2][3](3*-1.,3*1.) momr[2](-1.e10,1.e10) fixp(0) I18 I19 I20 npat(1) run(100) low(0) I21 earth(1) 1 IPART 49 //make the cube surface the particle //originate from //Particle Direction Cos range //Particle momentum range //fix the cube surface for particle //generation 1 - top, 2-bottom, //3,4,5,6 - others //number of particle to generate in one go //run number //normal(0); undercutoff(1) //sea level muons(2) mev range electrons(3) //uniform momentum(4) //uniform log(momentum) (5) // Earth magnetic field modulation // on (1) off(0) // Geant particle id Tabelle 6.1: Auszug aus der AMS-02 Datacard-Dokumentation Anzahl der simulierten Events Die Daten, die zur Analyse innerhalb dieser Arbeit benötigt wurden, sollten unter möglichst realitätsnahen Bedingungen simuliert werden. Um zu erreichen, dass die Teilchen aus allen Richtungen gleichermaßen einfallen, wurden R1 bis R7 aus Tabelle 6.1 so gewählt, dass die Teilchen auf allen 6 der den Detektor virtuell umgebenden kubischen Oberflächen gleichmäßig und winkelunabhängig produziert werden. Wie in Kapitel 7 (’Die Analyse’) noch näher beschrieben wird, stellen Photonen in dieser Arbeit die Signalteilchen dar, während der Hintergrund hauptsächlich aus Protonen besteht. Tabelle 6.2 gibt einen Überblick über die Anzahl der simulierten Teilchen in Abhängigkeit von der Energie. Es handelt sich um ein logarithmisches Spektrum mit jeweils diskreten Energien im Bereich von 2 − 512 GeV, was in Abbildung 6.1 veranschaulicht wird. Insgesamt wurden 2674307 Ereignisse simuliert. p γ 10 10 5 4 10 10 2 E[GeV] Abbildung 6.1: Anzahl der insgesamt simulierten Ereignisse in doppelt logarithmischer Auftragung 50 KAPITEL 6. DIE SIMULATION Teilchen γ p γ p Energie (GeV) 2 4 8 16 32 64 128 256 512 2 4 8 16 32 64 128 256 512 gesamt gesamt Simulierte Ereignisse 52855 54511 54675 54835 55353 12379 38154 7148 10354 445293 502021 293664 437997 300691 137446 109695 85179 22057 340264 2334043 Tabelle 6.2: Simulierte Ereignisse, die in dieser Arbeit benutzt wurden 6.2 Rekonstruktion Nachdem ein bestimmtes Teilchen simuliert wurde, ist der nächste logische Schritt, aus der Antwort des Detektors charakteristische Eigenschaften des simulierten Teilchens zu rekonstruieren. Dies ist insofern wichtig, als dass man unter der Bedingung eines realen, also nicht simulierten Teilchenflusses, wie man ihn ja an Bord der Raumstation ISS vorfinden wird, die den Detektor passierenden Teilchen möglichst fehlerfrei identifizieren will. Das Prinzip der Rekonstruktion kann am Beispiel einer Teilchenspur im TRD-Subdetektor (siehe Kapitel 4.1 ’Übergangsstrahlungs-Detektor (TRD)’) veranschaulicht werden (Abbildung 6.2): Ausgehend von den kleinsten Einheiten im Detektor, die auf den Durchgang eines geladenen Teilchens sensitiv sind, den so genannten Clustern, fasst man die angesprochenen Teile zu größeren Strukturen, den Segmenten, zusammen, bis man schließlich die Spur des durchquerenden Teilchens aus der Anordnung der einzelnen Treffer rekonstruieren kann. In Abbildung 6.2 sind alle Röhren, in denen Energie deponiert wurde, farbig dargestellt. Aus der Spur und der deponierten Energie können nun die gewünschten Teilcheneigenschaften ermittelt werden. Im Allgemeinen (also nicht nur auf das TRD bezogen) sind dies der Einfallwinkel, die Energie, Ladung, die Geschwindigkeit oder der γ-Faktor. Tabelle 6.3 zeigt in einer Übersicht, welche Größe aus welchem Subdetektor abgeleitet werden kann [37]. Die Ergebnisse werden in der selben ROOT-Datei gespeichert wie zuvor die der Simulation, so dass in einer solchen Datei nun alle relevanten Informationen, von den gewählten Parametern der Simulation über die Charakteristik jedes Subdetektors bis zu den rekonstruierten Teilcheneigenschaften konzentriert sind und extrahiert werden können. 6.3. ELEKTROMAGNETISCHE SCHAUER 51 Abbildung 6.2: Rekonstruktion am Beispiel einer Teilchenspur im TRD. Die roten Punkte symbolisieren Treffer. Einfallswinkel Energie Ladung Geschwindigkeit Impuls-Ladungs-Verhältnis γ-Faktor Spuren im Tracker, TRD, Kalorimeter und ToF Kalorimeter ToF, Tracker und RICH Tracker, ToF und RICH Tracker und TRD TRD Tabelle 6.3: Rekonstruktion verschiedener Teilcheneigenschaften 6.3 Elektromagnetische Schauer Kosmische Teilchen können über ihre verschiedenen Wechselwirkungen mit der von ihnen durchquerten Materie nachgewiesen werden. Abbildung 6.3 zeigt den Wirkungsquerschnitt von Photonen in Abhängigkeit ihrer Energie. Man kann deutlich erkennen, dass niederenergetische Photonen ihre Energie hauptsächlich durch den Photoeffekt sowie durch Rayleighund Compton-Streuung verlieren, während für höherenergetische Photonen (≥ 1GeV) die Elektron-Positron-Paarbildung der relevante Prozess ist. Da der AMS-02 Detektor vornehmlich Photonen mit einer Energie ≥ 1GeV detektieren wird, ist die Paarbildung für das Experiment entscheidend. Beim Eindringen eines Photons in das Kalorimeter wird es seine Energie im Mittel nach einer Strecke von 1, 4cm [38] zu gleichen Teilen an das entstehende ElektronPositron-Paar abgeben. Die entstandenen Elektronen und Positronen werden nun ihrerseits wiederum mit dem Detektormaterial in Wechselwirkung treten. Die mittlere Energie eines Elektrons nach dem Eintreten in das Detektormaterial ist durch E(z) = E0 exp− z X0 (6.1) 52 KAPITEL 6. DIE SIMULATION Abbildung 6.3: Wirkungsquerschnitt als Funktion der Photonen-Energie. Bei niedrigen Energien ist der photoelektrische Effekt dominierend, auch Compton- und Rayleigh-Streuung treten auf, während bei hohen Energien Paarbildung in den Vordergrund tritt. gegeben, wobei z die Eindringtiefe in die Materie und X0 die Strahlungslänge bezeichnet. Als Strahlungslänge bezeichnet man die Weglänge, auf der die Energie eines Elektrons durch Strahlungsprozesse auf den Bruchteil 1/e der ursprünglichen Energie abgefallen ist. Es gilt [2] 4Z 2 n0 α3 h2 192 1 = ln 1 X0 m2e c2 Z3 (6.2) in einem Material der Ordnungszahl Z mit n0 Kernen pro Volumeneinheit. me ist die Elektronenmasse und α die Feinstrukturkonstante. Für Blei beträgt die Strahlungslänge beispielsweise 0, 56 cm. Bei hohen Energien ist für den Energieverlust vor allem die Bremsstrahlung verantwortlich (siehe Abbildung 6.4). Durch die Bremsstrahlung entstehen neue Photonen, die so lange, bis deren Energie unter die Paarbildungsgrenze abgeklungen ist, neue ElektronPositron-Paare zur Folge haben, die ihrerseits wieder Photonen entsenden, es entsteht eine Kaskade, ein elekromagnetischer Schauer. Wie aus Abbildung 6.4 ersichtlich wird, gewinnt der Energieverlust von Elektronen und Positronen durch Ionisation mit fallender Energie immer mehr an Bedeutung. Als kritische Energie EC ist die Energie definiert, ab der der Energieverlust durch Bremsstrahlung genau gleich zu dem durch Ionisation ist. In einer Näherung [39] kann EC berechnet werden aus EC = 800 MeV Z + 1, 2 . (6.3) Für Blei (Z = 82) ist beispielsweise EC = 9, 6 MeV. Ab dieser Energie nimmt die Zahl der am Schauer beteiligten Teilchen wieder ab, da nun nicht mehr genug Energie zur Paarbildung vorhanden ist und die bereits existierenden Elektronen ihre noch vorhandene Energie 6.3. ELEKTROMAGNETISCHE SCHAUER 53 Abbildung 6.4: Strahlungsverluste eines Elektrons/Positrons in Materie der Strahlungslänge X0 . Die kritische Energie ist definiert als der Punkt, an dem die Effekte von Ionisation und Bremsstrahlung genau gleich sind. hauptsächlich durch Ionisation abgeben, bis sie schließlich vollkommen gestoppt werden. Bei den Positronen kommt außerdem noch hinzu, dass sie mit denen im Detektor-Material vorhandenen Elektronen annihilieren können und somit zwei 511 keV-Photonen aussenden. Die verbleibenden niederenergetischen Photonen wechselwirken nach Abbildung 6.3 hauptsächlich durch Compton-Streuung und Photoelektrischen Effekt. Es gibt zahlreiche Eigenschaften, die solch eine Kaskade charakterisieren: • Die longitudinale Ausdehnung des Schauers wird vor allem durch dessen hochenergetische Teil bestimmt. Als charakteristische Größe hierfür ist deswegen die Strahlungslänge X0 geeignet. Aus diesem Grund werden auch Längen, die zur Beschreibung einer Kaskade dienen, in Einheiten der Strahlungslänge X0 angegeben. • Der mittlere longitudinale Querschnitt der Energie-Ablagerung im Detektor kann durch eine Gamma-Funktion beschrieben werden [38]: ta−1 exp−bt dE = E0 ba dt Γ(a) , (6.4) wobei t = x/X0 die zurückgelegte Entfernung x in Einheiten der Strahlungslänge X0 ist. • Die Eindringtiefe, bei der das Maximum der Energie-Ablagerung auftritt, ist nach [38] und [37] abhängig von der Energie des die Kaskade auslösenden Teilchens: tmax ≈ log E ± 1/2 , EC (6.5) wobei ’+’ für Photonen und ’-’ für Elektronen gilt. Ein 8 GeV- Photon in Blei wird beispielsweise im Mittel in einer Tiefe von ca. 7 cm das Maximum seiner Energie deponieren. 54 KAPITEL 6. DIE SIMULATION • Die transversale Ausbreitung des Schauers wird beschreiben durch den Molière Radius [38]: ES RM = X0 , ES = 21, 2 MeV . (6.6) EC Dieser Molière Radius kann als das Produkt der Strahlungslänge mit dem mittleren Streuwinkel eines Elektrons der kritischen Energie nach Durchqueren einer Schicht der Dicke X0 interpretieren. 90% der Energie des einfallenden Teilchens werden innerhalb eines Zylinders mit dem Radius RM um die Schauerachse deponiert. 6.4 Hadronische Schauer Bewegte, geladene Teilchen werden in Materie durch Stöße mit Kernen und Elektronen abgebremst. Schwere Teilchen der Ruhemasse M0 ≥ me verlieren ihre kinetische Energie überwiegend durch inelastische Stöße mit den Atomelektronen des Bremsmediums, also durch Ionisation und Anregung der Atome. Der Energieverlust pro Wegstrecke in einem homogenen Medium mit der Kernladung Z˙e wird durch die Bethe-Bloch-Gleichung beschrieben: − ¸ · Z 1 1 2me c2 β 2 γ 2 Tmax dE δ Ce 2 = 4πNA re2 me c2 z 2 ln − − β − dx A β2 2 I2 2 Z , (6.7) NA ist die Avogadro-Konstante, re der Elektronenradius, me die Elektronenmasse, z bezeichnet die Ladung der einfallenden Teilchen, A and Z sind die Atommassenzahl und die Ordnungszahl des Bremsmediums, β ist die relative Geschwindigkeit des einfallenden Teilchens, I ist das Isonisationspotential, gemittelt über alle Elektronenschalen der Atome des Bremsmediums und Tmax ist die maximale kinetische Energie, die in einer einzelnen Kollision auf ein freies Elektron übertragen werden kann. δ/2 und CZe sind Korrekturterme für die Abschirmung des elektrischen Feldes des einfallenden Teilchens in Abhängigkeit der Dichte des Mediums und des Nicht-Beitragens der K-Schalen-Elektronen zur Ionisation für kleine Geschoßenergien. Abbildung 6.5 veranschaulicht die Bethe-Bloch-Formel für den Fall von Myonen in Kupfer. Ein hadronischer Schauer entsteht durch eine Folge inelastischer hadronischer Reaktionen, die durch ein stark wechselwirkendes Teilchen (p, n, π ± , ...) ausgelöst wird. Bei Energien oberhalb 50 MeV kann das einfallende Hadron mit Kernen des Absorbermaterials einen Spallationsprozess auslösen: Das primäre Hadron dringt in einen Kern ein und löst durch inelastische Stöße mit den umgebenden Nukleonen eine intranukleare Kaskade aus. Bei ausreichender Energie können sich auch sekundäre Teilchen wie beispielsweise Pionen bilden. Neutrale Pionen zerfallen schnell (10−16 s) in zwei energiereiche Photonen und lösen dadurch im hadronischen Schauer lokal eine elektromagnetische Unterkaskade aus. Dies ist einer der Gründe dafür, dass bei einem √ hadronischen Schauer auch die besten Kalorimeter nur eine Energieauflösung von 0, 35/ E erreichen [2]. Ein weiterer Grund ist, dass ein Teil der Energie des primären Hadrons dazu verwendet wird, Kernbindungen aufzubrechen. Die Bindungsenergie, die dazu aufgebracht werden muss, kann nicht mehr auf andere Teilchen übertragen werden. Außerdem besteht dass Problem, dass ca. 20% der Energie des Schauers nicht nachgewiesen werden kann, da sie durch Neutronen und langlebige K 0 -Mesonen weggetragen wird oder Fragmente von Kernreaktionen im Absorbermaterial steckenbleiben. Die durch diese Effekte auftretenden hohen Fluktuationen innerhalb des hadronischen Schauers führen dazu, dass dessen Form nicht genau definiert ist. Ein allgemeines Maß (in Analogie 6.4. HADRONISCHE SCHAUER 55 Abbildung 6.5: Energieverlust eines geladenen, massiven Teilchens in Materie zur Strahlungslänge X0 bei elektromagnetischen Schauern) für die Ausdehnung eines hadronischen Schauers ist die nukleare Absorptionslänge λ, λ= A σi NA ρ . (6.8) A bezeichnet die Molmasse, σi den inelastischen hadronischen Wirkungsquerschnitt, NA die Avogadrokonstante und ρ die Dichte des Absorbermaterials. Die Absorptionslänge beträgt in Blei 17, 1 cm [2] und ist auch für alle anderen Materialien deutlich länger als X0 . Somit sind elektromagnetische sehr viel schmaler und kürzer als hadronische Schauer (siehe Abbildung 6.6). Da das im AMS-02 Detektor verwendete Kalorimeter einer Dicke von 0, 5 λ entspricht Abbildung 6.6: Vergleich eines elektromagnetischen (links) und eines hadronischen Schauers (rechts). (siehe Kapitel 4.6 ’Elektromagnetisches Kalorimeter’), bedeutet dies, dass Hadronen einen 56 KAPITEL 6. DIE SIMULATION großen Teil ihrer Energie nicht im Kalorimeter deponieren. Das Maximum der Energieablagerung wird nach [38] im Mittel nach einer Strecke von tmax = 0, 2 log E + 0, 7 erreicht. (6.9) Kapitel 7 Die Analyse Zahlreiche kosmische Teilchen, die den Detektor erreichen werden, können eine Signatur hinterlassen, die der der Photonen ähnlich ist und somit besteht das Risiko, dass diese Teilchen fälschlicherweise als Photonen interpretiert werden. So stellen beispielsweise Elektronen eine Schwierigkeit bei einer Photon-Separation dar, da sie genau wie die Photonen elektromagnetische Schauer auslösen können, was bedeutet, dass die spezifischen Eigenschaften eines elektromagnetischen Schauers (siehe Kapitel 6.3: ’Elektromagnetische Schauer’) nicht mehr als Separationskriterium herangezogen werden können. Aufgrund ihrer großen Anzahl (siehe Abbildung 7.4) bilden auch Protonen eine Hauptquelle für den Hintergrund. Die folgende Analyse beschränkt sich auf eine Photon-Proton-Selektion. Da Protonen geladenen Teilchen Abbildung 7.1: Kosmischer Teilchenfluss in Abhängigkeit der Energie sind, werden sie die meisten Signaturen in den oberen Teilen des AMS-02 Detektors hinterlassen und können dadurch leicht eindeutig als Protonen identifiziert werden. Ein Problem 57 58 KAPITEL 7. DIE ANALYSE tritt jedoch auf, falls die Protonen nicht den gesamten Detektor durchqueren, sondern seitlich ins Kalorimeter einfallen. Hochenergetische Protonen können dort, indem sie einen Teil ihrer Energie deponieren, eine ähnliche Signatur hinterlassen, wie niederenergetische Photonen. Da bei den seitlich einfallenden Teilchen keine Signaturen in anderen Subdetektoren vorhanden sind, besteht Verwechslungsgefahr. Es ist die Aufgabe einer geschickt gewählten Signal-Untergrundtrennung, dieses Risiko zu minimieren. Im Folgenden wird zunächst das innerhalb dieser Arbeit entwickelte Analyse-Framework vorgestellt, anschließend werden statistische Methoden besprochen und schließlich wird die mit dem Framework durchgeführte Analyse präsentiert. 7.1 Das Analyse-Framework Im Verlauf dieser Arbeit wurde ein Analyse-Framework entwickelt, das dem Benutzer zwei unterschiedliche Arten der Analyse zur Verfügung stellt: • klassische, manuell gewählte Schnitte und • Einsatz eines neuronalen Netzes. Die AMS-Simulationssoftware (siehe Kapitel 6.1 ’Simulation des AMS-02 Detektors’) speichert ihre Daten im Format eines ROOT-TTree’s. Die ’Baum-Struktur’ eines solchen TTree’s wird zunächst vorgestellt, bevor dann die wichtigsten Bestandteile des erstellten Frameworks beschrieben werden. 7.1.1 ROOT TTree Die ROOT Klasse ’TTree’ wurde speziell dafür entwickelt, um große Mengen von Objekten der gleichen Klasse zu speichern [36]. Sie ist darauf optimiert, Speicherplatz zu sparen und Zugriffszeiten zu verringern. Ein TTree kann alle Datentypen speichern, also neben den ’einfachen’ Datentypen wie f loat oder double auch ’fortgeschrittenere’ wie Objekte oder Felder. Der Vorteil beispielsweise gegenüber einer Liste, in der alle Einträge nacheinander ausgelesen werden müssen, besteht darin, dass ein TTree aus Ästen (so genannten ’branches’) aufgebaut ist, die alle unabhängig voneinander gelesen werden können. Die Klasse dieser Äste heißt ’TBranch’. Die Organisation dieser Äste erlaubt es dem Entwickler, die Daten für individuelle Zwecke zu optimieren: Weiß der Entwickler z.B. von der Unabhängigkeit zweier Variablen, so wird er diese in verschiedenen Ästen speichern. Besteht hingegen ein direkter Bezug der beiden Variablen zueinander, so ist es sinnvoll, sie beide innerhalb eines Astes zu speichern. Variablen eines Astes bezeichnet man als Blätter (leafs), die Klasse hierzu heißt entsprechend ’TLeaf’. 7.1.2 Funktionsweise des Frameworks Daten, die in Form eines TTree’s vorliegen, können innerhalb des Frameworks mit der Programmiersprache C++ [40] analysiert werden. Die Einlese-Klasse ’Reader’ fungiert als Schnittstelle zum Einlesen der ROOT-Dateien. Diese können in Form einer Dateiliste übergeben werden, in der die einzelnen Dateien mit einem Leerzeichen voneinander getrennt sind. Das Hauptprogramm ’mainanalyse’ verlangt als Eingabeparameter vom Benutzer eine Zahl, die 7.1. DAS ANALYSE-FRAMEWORK 59 den Wert der zu analysierenden, diskreten Energie kennzeichnet. Es werden aus der eingelesenen Dateiliste nur diejenigen Dateien verarbeitet, die simulierte Teilchen mit der diskreten Energie des Eingabeparameters enthalten. Diese Einstellung wurde so gewählt, um dem Benutzer die Analyse eines diskreten Energiespektrums zu erleichtern, da er so Dateilisten verwenden kann, die Teilchen aller simulierten Energien enthalten. ’Mainanalyse’ hat die Funktion eines Steuerungsprogramms: Es führt zwei Schleifen aus, innerhalb derer alle weiteren Funktionen aufgerufen werden. Die erste Schleife dient zum Zählen der selektierten Ereignisse. Dabei wird zwischen Signal- und Hintergrundteilchen unterschieden. In der zweiten Schleife findet die Analyse der selektierten Daten statt. In beiden Schleifen wird die Funktion ’TTree::Process’ aufgerufen, welche von der Klasse ’TSelector’ Gebrauch macht. TSelector beinhaltet folgende Funktionen: • void Begin(TTree *tree): Aufruf nach dem Öffnen des Trees, Initialisierung • Bool t ProcessCut(int entry): Optional, wird vor dem Lesen eines Eintrages aufgerufen. Es kann entschieden werden, ob ein Ereignis vollständig gelesen werden muss oder nicht. • void ProcessFill(int entry): Aufruf für jedes Ereignis. Hier können eigene Funktionen implementiert werden. • void Terminate(): Aufruf am Ende der Ereignis-Schleife. Die Logik dieser Struktur wird vom Code der AMS-Software aufgegriffen. Die Header-Datei ’root.h’ enthält neben allen für die Simulation des AMS-02 Detektors wichtigen Definitionen auch die Klasse ’AMSEventR’, die von TSelector erbt und damit auf die volle Funktionalität dieser Klasse zurückgreifen kann. Innerhalb des ROOT-TTree’s kann über Zeiger direkt auf die einzelnen Variablen (Blätter) der Klassen (Äste) zugegriffen werden. Das eigentliche Analyseprogramm des Frameworks ist die Klasse ’stlv.C’, die von AMSEventR und somit auch von TSelector erbt. Sie überlädt die Funktionen Begin, ProcessFill und Terminate. Da ProcessFill bei jedem Ereignis aufgerufen wird, ist dies die richtige Stelle, um die Daten weiterzuverarbeiten. Je nach Verwendungszweck werden sie an die weiteren Klassen des Frameworks übergeben: • Preselect In der Klasse ’Preselect’ können Selektionskriterien festgelegt werden, die zur Vorauswahl der Ereignisse dienen können. ’Preselect’ wird sowohl bei der ersten Schleife zum Zählen der Signal- und Hintergrundteilchen als auch bei der zweiten Schleife zur Analyse aufgerufen. Die Unterscheidung zwischen Signal und Hintergrund findet aufgrund der Teilchen ID statt. • Threshold Die Klasse ’Threshold’ erbt von der virtuellen Klasse ’Analyse’. In ihr werden Schnitte definiert, die als primäre Entscheidungsgrundlage zur Teilchenidentifikation dienen. • Newteacher ’Newteacher’ ist die Schnittstelle des Frameworks zum Teacher des Programmpakets ’Neurobayes’ (siehe Kapitel 5.4 ’Neurobayes’). 60 KAPITEL 7. DIE ANALYSE Ebenso wie ’Threshold’ erbt die Klasse ’Newteacher’ von der virtuellen Mutterklasse ’Analyse’. Beide Klassen haben somit die gleichen Funktionen für die Analyse zur Verfügung und können innerhalb von ’ProcessFill’ auf analoge Art aufgerufen werden. Die gewählten Variablen einer über Zeiger adressierten Klasse werden als Parameter an die Funktion ’result(vector(float))’ übergeben, die sowohl in ’Newteacher’ als auch ’Threshold’ vorhanden ist. Nach dem Durchlauf der Schleifen werden alle gesammelten Daten, also typischerweise Histogramme oder die Expertise des neuronalen Netzes, in einer Datei gespeichert. Die Funktionstüchtigkeit des Frameworks sollte anhand einer Analyse gezeigt werden, die ausschließlich auf der Benutzung des Kalorimeters (siehe Kapitel 4.6 ’Das elektromagnetische Kalorimeter’) beruht. 7.2 Statistische Methoden Wichtige Größen einer Analyse zur Signal-Untergrundtrennung sind die Effizienz, die Verunreinigung und die Reinheit 1 einer Datenprobe. Seien S(x) und B(x) die Verteilungen von Signal und Untergrund über einen Bereich von x0 bis xmax , so ist Effizienz definiert als R xmax S(x) , (7.1) E(x) = Rxxmax S(x) x0 für einen beliebigen Schnitt an der Stelle x. Sie ist also ein Maß für die Anzahl der Signalteilchen, die nach einem gewählten Schnitt auch tatsächlich als Signal erkannt werden, bezogen auf die Gesamtzahl der Signalteilchen. Entsprechend ist die Verunreinigung ein Maß für die Anzahl der Hintergrund-Teilchen, die bei einem gewählten Schnitt fälschlicherweise als Signal erkannt wird, bezogen auf die Gesamtzahl der Hintergrundteilchen: R xmax B(x) C(x) = Rxxmax . (7.2) B(x) x0 Unter der Reinheit versteht man schließlich das Verhältnis aus erkannten Signalteichen und der Summe aus erkannten Signal- und fälschlicherweise als Signal erkannten Hintergrundteilchen: R xmax S(x) , (7.3) P(x) = R xmaxx (S(x) + B(x)) x sie gibt also an, wie viele der als Signal klassifizierten Teilchen auch tatsächlich Signale sind. Eine Signal-Untergrund-Separation ist also umso besser, je größer die Effizienz und die Reinheit und je kleiner die Verunreinigung der Datenprobe ist. Diese genannten Größen sind zwar alle notwendig, um die Güte einer Separation beurteilen zu können, für sich alleine sind sie jedoch nicht sehr aufschlussreich: Um eine sinnvolle Aussage über die Leistungsfähigkeit eines Detektors treffen zu können, muss man man noch den einfallenden Teilchenfluss sowie die Detektorgeometrie berücksichtigen. Die Effizienz, die 1 Wie in vielen Bereichen der Wissenschaft sind auch hier die englischen Ausdrücke ’efficiency’, ’contamination’ und ’purity’ allgemein geläufig. 7.3. KLASSISCHE SCHNITTE 61 Verunreinigung und die Reinheit sind in der Regel abhängig vom einfallenden Winkel Ω, vom Auftreffpunkt S sowie der Teilchenenergie E. Mit dem differentiellen Teilchenfluss dφ(E0 , Ω) dEdΩdSdt gilt für die Anzahl der detektierten Ereignisse pro Energieeinheit bei der Energie E0 : Z dN (E0 ) dφ(E0 , Ω) = E(E, S, Ω)dSdΩ . dE dEdΩdSdt (7.4) (7.5) E ist die in 7.1 eingeführte Effizienz. Unter der Voraussetzung eines einheitlichen, aus allen Richtungen gleichermaßen einfallenden Teilchenflusses kann man 7.4 vor das Integral ziehen und man erhält: Z dN (E0 ) dφ(E0 ) E(E, S, Ω)dSdΩ . (7.6) = dE dEdΩdSdt Als die Akzeptanz eines Detektors definiert man nun Z A(E) = E(E, S, Ω)dSdΩ . (7.7) Sie wird meist in der Einheit m2 sr angegeben. In einer Näherung [41] kann man hierfür auch schreiben: A(E) = πd2 × N P × E(E) , (7.8) wenn d den Abstand zur kubischen Oberfläche, von der aus die Teilchen in der Simulation generiert werden sollen, bezeichnet und der Parameter N P dafür verantwortlich ist, aus welcher Richtung die Teilchen generiert werden sollen. N P = 6 bedeutet, dass von der Oberfläche aller sechs Seitenflächen des den Detektor virtuell umgebenden Kubus generiert wird, die Teilchen also aus allen Richtungen einfallen sollen. Dies ist Standardwert in der Simulationssoftware. N P = 1 würde bedeuten, dass man lediglich auf einer der Oberflächen generiert, in der Datacard kann man dann über den Wert MCGEN 15 festlegen, welche Richtung man möchte. Bei der in dieser Arbeit durchgeführten Simulation wurde der Standardwert 6 benutzt, um unter möglichst realitätsnahen Bedingungen simulieren zu können. Die Querschnittsfläche einer Seite des Kubus betrug bei der Simulation (3, 9)2 m2 . Als die generierte Akzeptanz Agen bezeichnet man den Wert von 7.7, den man für E = 1 erhält. Mit den oben geschilderten Werten für N P und d erhält man somit eine generierte Akzeptanz von Agen = 286, 7m2 sr. Um die Akzeptanz für eine beliebige Effizienz berechnen zu können, muss man also die gewählte Effizienz mit Agen = 286, 7m2 sr multiplizieren. 7.3 Klassische Schnitte Das im Rahmen dieser Arbeit entstandene Framework ist in der Lage, eine Signal-UntergrundSeparation mit zwei unterschiedlichen Analysemethoden durchzuführen. Die erste Methode ist die klassische, die mit Hilfe von manuell gewählten Schnitten das Entscheidungskriterium festlegt, in der zweiten kommt ein bereits in Kapitel 5 beschriebenes neuronales Netz zum Einsatz. Diese beiden Methoden werden im Folgenden kurz vorgestellt. Aufgabe der Schnitte ist es, die Verunreinigung so gering wie möglich zu machen, ohne dabei all zu viel an Effizienz zu verlieren. Es wird unterschieden zwischen der Vorselektion, deren 62 KAPITEL 7. DIE ANALYSE Sinn es ist, falsch rekonstruierte Ereignisse auszufiltern, die nur eine ungenügende Information tragen und die Ergebnisse somit verfälschen können und den eigentlichen Schnitten auf die jeweiligen Parameter des Kalorimeters, die die Grundlage der Entscheidung zwischen hadronischen und elektromagnetischen Schauern bilden. Die einzelnen benutzten Schnitte werden mit Sn bezeichnet, wobei n die Nummer des Schnittes kennzeichnet. 7.3.1 Vorselektion Eine Vorselektion ist wichtig, um sicherzustellen, dass fast ausschließlich vollständig rekonstruierte Ereignisse in die Analyse einfließen, sie dient nicht zur Signal-Hintergrund-Unterscheidung. • Die Anzahl der Schauer im Kalorimeter (S1 ) Ereignisse, deren im Kalorimeter deponierte Energie nicht ausreicht, um als Schauer rekonstruiert zu werden, werden aussortiert. Solche Ereignisse tragen einfach nicht genügend Information, um nützlich zu sein. • Unvollständige Schauer am Rand des Kalorimeters (S2 ) Ein Teilchen, das zu dicht am Rand des Kalorimeters vorbei fliegt, wird möglicherweise keinen vollständigen Schauer hinterlassen können, was zu falsch interpretierten Informationen führen kann. Ereignisse dieser Art werden deshalb ebenfalls zurückgewiesen. Als Bedingung wird verwendet, dass der Abstand zwischen Detektor-Rand und der SchauerAchse mindestens so groß wie der Molière Radius (siehe Kapitel 6.3 ’Elektromagnetische Schauer’) sein muss. • Ausschluss zu großer und zu kleiner Schauer-Energien (S3 ) Schauer, deren Energie außerhalb des Bereichs 1 GeV ≤ ECALEnergie ≤ 1000 GeV liegen, werden ebenfalls nicht berücksichtigt. Diejenigen mit einer Energie ≤ 1 GeV könnten nicht richtig rekonstruiert worden sein, welche mit Energien über 1000 GeV sind auf Grund des simulierten Spektrums (von 2 GeV − 512 GeV) als unphysikalisch anzusehen und werden daher ausgefiltert. 7.3.2 Schnitte auf Kalorimeter-Variablen Die Schnitte auf zum Kalorimeter gehörende Parameter haben die Aufgabe, eine Trennung von elektromagnetischen (Signal) und hadronischen (Hintergrund) Schauern zu erreichen, die die Verunreinigung minimiert bei einer gleichzeitig möglichst hohen Effizienz. Zu jedem der im Folgenden beschriebenen Parameter werden zwei untereinander stehende Diagramme gezeigt, das obere zeigt jeweils die Verteilung des Parameters, im unteren sind die Verläufe von Effizienz und Verunreinigung veranschaulicht, die sich ergeben, falls an der betreffenden Stelle der selektive Schnitt erfolgt. Zusätzlich ist die Stelle gekennzeichnet, an der der Schnitt durchgeführt wurde und die in der Analyse benutzt wurde. Signal und Effizienz sind jeweils in grün dargestellt, Hintergrund und Verunreinigung in rot. Alle gezeigten Diagramme beziehen sich auf Photonen und Protonen, die mit der diskreten Energie von 32 GeV simuliert wurden. Die Werte der Hintergrund-Teilchen wurden zur besseren Übersichtlichkeit auf die der SignalTeilchen normiert. • Molière Radius, ’Energy3C[0]’ und ’Energy3C[1]’ (S4 und S5 ) Wie im vorangegangenen Kapitel in 6.3 und 6.4 geschildert wurde, ist die elektroagnetische Strahlungslänge X0 sehr viel kleiner als die nukleare Absorptionslänge λ 7.3. KLASSISCHE SCHNITTE 63 10 Ereignisse Ereignisse eines hadronischen Schauers (bei Blei ist X0 ≈ 0, 56 cm, λ ≈ 17, 1 cm). Dies bietet ein sehr nützliches Kriterium zur Unterscheidung von Elektronen und Photonen einerseits, von Protonen, Neutronen und geladenen Pionen andererseits. Man akzeptiert nur Ereignisse, die mehr als 96% (99%) ihrer Energie einem Zylinder von 0, 83 RM = 2 cm (2, 1 RM = 5 cm) um die Schauer-Achse herum ablagern (Abbildung 7.2). Signal 3 Hintergrund 10 Signal 10 3 Hintergrund 2 10 2 10 10 1 0.75 0.8 0.85 0.9 0.95 1 E2cm/E total 1 10 0.9 Effizienz und Verunreinigung Effizienz und Verunreinigung 0.7 -1 -2 10 10 10 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99 1 E5cm/E total 20 40 60 80 100 120 140 160 180 1 10 10 0.91 -1 -2 -3 -4 0 20 40 60 80 100 120 140 160 180 200 Cuts 0 200 Cuts Abbildung 7.2: Relative Energie-Ablagerung innerhalb eines Zylinders von 0, 83 RM = 2 cm (links) bzw. 2, 1 RM = 5 cm (rechts) um die Schauer-Achse • Lage des Schauer-Maximums, ’ParProfile[1]’(S6 ) Die durchschnittliche Lage des Ortes, an dem ein Maximum an Energie abgelagert wird, ist nach Gleichungen 6.5 und 6.9 vom Logarithmus der Energie anhängig, wobei das elektromagnetische Maximum deutlich vor dem hadronischen liegt. Sich an dem von V. Choutko in [41] vorgeschlagenen Schnitt orientierend, werden nur Ereignisse akzeptiert, deren Maxima vor 0, 7 ∗ 6, 3 + 1, 2 log EECAL liegen (Abbildung 7.3, links). • χ2 longitudinaler Schauer-Querschnitts-Fit, ’Chi2Profile’ (S7 ) Das longitudinale Querschnittsprofil eines elektromagnetischen Schauers im Kalorimeter kann durch eine Gamma-Funktion (6.4) beschrieben werden. Der χ2 -Fit dieser Funktion wird für jedes Ereignis berechnet. Bei einem elektromagnetischen Schauer erwartet man einen ’guten’ Fit, also ein wohl definiertes Maximum der χ2 -Verteilung mit einem relativ kleinen Wert des Maximums. Da ein hadronischer Schauer mehr Fluktuationen aufweist und ausgedehnter ist, wird hier die χ2 -Verteilung breiter sein, das Maximum wird bei einem größeren Wert erwartet. Es werden Ereignisse verworfen, deren χ2 -Wert größer als 2,2 ist (Abbildung 7.3, rechts). KAPITEL 7. DIE ANALYSE 2500 Signal 2000 Hintergrund Ereignisse Ereignisse 64 1500 Signal 10 3 Hintergrund 10 2 1000 10 500 1 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 Schauer Maximum / 6,5 + 1,2 logEECAL Effizienz und Verunreinigung Effizienz und Verunreinigung 0 0 1 0.8 0.4 2 4 6 8 10 12 14 16 0 20 40 60 80 100 120 140 160 18 20 2 χ Profile 1 10 0.6 0 10 -1 -2 0.2 0 0 10 20 30 40 50 Cuts 180 200 Cuts Abbildung 7.3: links: Lage des Schauer-Maximums. Akzeptiert werden Ereignisse, deren Maxima vor 0, 7 ∗ 6, 3 + 1, 2 log EECAL liegen. Gezeigt ist das Verhältnis 6,3+1,2tmax log EECAL , das somit < 0, 7 sein muss. rechts: Longitudinaler Schauer-Querschnitts-Fit. Alle Ereignisse, deren χ2 -Fit größer als 2,2 ist, werden zurückgewiesen. • Rear Leak, ’ParProfile[3]’(S8 ) Der Anteil der oben beschriebenen gefitteten Gamma-Verteilung, der nicht mehr im Bereich des Kalorimeters liegt, wird als Rear Leak bezeichnet. Während Photonen den Großteil ihrer Energie im Kalorimeter deponieren, wird für Protonen ein großer Rear Leak erwartet. Ein Ereignis wird akzeptiert, wenn sein Rear Leak < 0, 01 ist (Abbildung 7.4, links). • Transversale Streuung, ’DifoSum’(S9 ) Der Parameter DifoSum ist ein Maß für die transversale Verteilung eines Schauers in der x-y-Ebene. Er ist definiert als (Ex − Ey )/(Ex + Ey ). Ex (Ey ) bedeutet dabei die Summation über alle in der x-Ebene (y-Ebene) liegende Messpunkte. Wie bereits mehrfach erwähnt, gibt es in einem hadronischen Schauer mehr Fluktuationen, was auch zu einer größeren Streuung in der x-y-Ebene führt. Man erwartet daher beim elektromagnetischen Schauer einen schmalen, um Null zentrierten Peak in der Verteilung. Als Selektionsbedingung wird Dif oSum < 0, 06 gewählt (Abbildung 7.4, rechts). • Sphericity, ’ 23 SphericityEV[1]+SphericityEV[2]’(S10 ) Die dreidimensionale Ausdehnung einer Kaskade kann durch den Sphericity Tensor be- 10 65 Signal 4 Hintergrund 10 Ereignisse Ereignisse 7.3. KLASSISCHE SCHNITTE Signal 10 Hintergrund 3 10 10 3 2 2 10 10 1 1 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2 Rear Leak Effizienz und Verunreinigung Effizienz und Verunreinigung 0 1 10 10 10 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 (Ex-Ey)/(Ex+Ey) 0 20 40 60 80 100 120 140 160 1 10 -1 0 -1 -2 -2 0 5 10 15 20 25 30 35 40 Cuts 180 200 Cuts Abbildung 7.4: links: Ereignisse, deren Rear Leak > 0, 01 ist, werden verworfen. rechts: Transversale Streuung des Schauers. Die Bedingung zur Selektion ist hier: DifoSum < 0, 06. schrieben werden [37]: S αβ PN = α β i pi pi PN 2 i |pi | , α, β = 1, 2, 3 (7.9) In der herkömmlichen (aus Beschleuniger-Experimenten mit typischen 2- oder 3- Jet-Ereignissen) Definition des Sphericity-Tensors geht die Summation über alle N an beteiligten Teilchen, pi sind dann die Impuls-Vektoren. Aufgrund der großen Anzahl der an einer Kaskade beteiligten Teilchen muss diese Definition hier leicht abgeändert werden: N steht nun für alle Messpunkte im Kalorimeter, an denen Energie des Schauers abgelagert wurde, die pi symbolisieren den jeweiligen Abstand eines Messpunkts zur Schauer-Achse multipliziert mit der dort deponierten Energie. Den drei Komponenten eines dreidimensionalen Koordinatensystems entsprechend gibt es drei Eigenwerte λ1,2,3 , die die Form eines Ellipsoids, welches die Kaskade enthält, charakterisieren. Es gilt λ1 ≥ λ2 ≥ λ3 mit λ1 + λ2 + λ3 = 1. Die Sphericity ist nun definiert als 3 S = (λ2 + λ3 ) . (7.10) 2 Ereignisse, deren Sphericity < 0, 1 ist, werden zurückgewiesen (Abbildung 7.5). KAPITEL 7. DIE ANALYSE Ereignisse 66 Signal 1000 Hintergrund 800 600 400 200 Effizienz und Verunreinigung 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 20 40 60 80 100 120 140 160 0.9 1 Sphericity 1 0.8 0.6 0.4 0.2 0 0 180 200 Cuts Abbildung 7.5: Sphericity. Nur Ereignisse mit einer Sphericity > 0, 1 werden ausgewählt. 7.3.3 Ergebnisse der klassischen Analyse Effizienz und Verunreinigung Ziel dieser Analyse war es, die Effizienz und die Verunreinigung einer simulierten Datenprobe unter der Benutzung verschiedener, manuell gewählter Selektionskriterien zu bestimmen. Die Ergebnisse werden an dieser Stelle anhand von Diagrammen, die die Effizienz und die Verunreinigung in Abhängigkeit der Energie zeigen, präsentiert. Entscheidend für alle weiteren Schnitte war die zu Beginn durchgeführte Vorselektion, da alle Teilchen, die den hierfür gewählten Kriterien (siehe Kapitel 7.2.1 ’Die Vorselektion’) nicht genügten, aussortiert wurden. Im Schnitt ergab sich eine Effizienz von 0,4 und eine Verunreinigung von 0,03 (Abbildung 7.6). Bei allen folgenden Diagrammen sind links die Ergebnisse ohne, rechts mit 0.45 0.4 0.35 0.3 0.25 Effizienz 0.2 Verunreinigung 0.15 0.1 0.05 0 10 10 2 E[GeV] Abbildung 7.6: Effizienz und Verunreinigung nach der Vorselektion (S1 + S2 + S3 ) 7.3. KLASSISCHE SCHNITTE 67 Berücksichtigung der Vorselektion gezeigt. Wie man erkennen kann, sind nicht alle Parameter gleich ’gut’ zur Selektion geeignet: Vor allem die Schnitte S5 , S7 und S8 zeigen eine deutliche Energie-Abhängigkeit, obwohl alle Werte, wenn möglich, auf die im Detektor deponierte Energie normiert wurden, um dieses Problem zu minimieren. Eine ganz besonders deutliche Energie-Abhängigkeit zeigt der χ2 -Fit (Abbildung 7.3, rechts und Abbildung 7.7). Da sich die- Hintergrund 10 2 Ereignisse Ereignisse Signal 10 3 Signal Hintergrund 10 2 10 10 1 1 2 4 6 8 10 12 14 16 18 20 2 χ Profile Effizienz und Verunreinigung Effizienz und Verunreinigung 0 1 10 10 -1 10 0 20 40 60 80 100 120 140 160 180 200 Cuts 2 4 6 8 10 12 14 16 0 20 40 60 80 100 120 140 160 18 20 2 χ Profile 1 10 -2 0 -1 -2 180 200 Cuts Abbildung 7.7: Illustration der Energieabhängigeit des χ2 -Fits. In der linken Abbildung wurden Teilchen mit einer Energie von 2 GeV simuliert und in der rechten mit 512 GeV. se Analyse auf den alleinigen Betrieb des Kalorimeters bezieht, kann zur Energiebestimmung nur das Kalorimeter herangezogen werden. Aufgrund dessen relativ kleiner Dicke (≈ 0, 5λ, siehe Kapitel 4.6. ’Elektromagnetisches Kalorimeter’) ist es nicht möglich, die Energie der einfallenden Teilchen exakt zu bestimmen, was dagegen spricht, die Schnitte in Abhängigkeit der simulierten Energie zu verschieben. Eine mögliche Ursache für die breitere χ2 -Verteilung bei kleinen Energien (2 GeV und 4 Gev)liegt darin, dass die Trigger-Schwelle des Kalorimeters bei 8 GeV liegt. 0.6 0.5 Effizienz und Verunreinigung KAPITEL 7. DIE ANALYSE Effizienz und Verunreinigung 68 1 -1 10 0.4 Effizienz -2 10 0.3 Verunreinigung 0.2 -3 10 Effizienz 0.1 Verunreinigung -4 0 10 10 10 2 10 E[GeV] 10 2 E[GeV] Effizienz und Verunreinigung Effizienz und Verunreinigung Abbildung 7.8: Relative Energie-Ablagerung innerhalb eines Zylinders von 0, 83 RM = 2 cm um die Schauer-Achse (S4 ), links: normiert auf Vorselektion, rechts: gesamt 0.7 0.6 1 -1 10 0.5 0.4 -2 10 Effizienz 0.3 Verunreinigung 0.2 -3 10 Effizienz 0.1 Verunreinigung -4 0 10 10 10 2 E[GeV] 10 10 2 E[GeV] Abbildung 7.9: Relative Energie-Ablagerung innerhalb eines Zylinders von 2, 2 RM = 5 cm um die Schauer-Achse (S5 ), links: normiert auf Vorselektion, rechts: gesamt 7.4 Neuronales Netz Eine Analyse mit einem neuronalen Netz sollte auf die klassische Methode aufbauen: • In dem klassischen Teil der Analyse werden die Schnitte so gesetzt, dass alle Teilchen, die man anhand der Verteilungen der diversen Parameter eindeutig als Hintergrund identifizieren kann, ausgefiltert werden. • Die übrig bleibenden Teilchen sind anschließend so verteilt, dass die klassischen Schnitte keine wesentlichen Verbesserungen mehr bewirken könnten. An dieser Stelle sollte nun ein neuronales Netz zum Einsatz kommen: Dort, wo klassische Methoden ihre Grenzen finden, kann ein neuronales Netz zu einer weiteren Verbesserung des Effizienz-Verunreinigungs-Verhältnisses beitragen, indem es Zusammenhänge erkennt, die sonst verborgen geblieben wären. Aufgrund statistischer Probleme musste in der vorliegenden Arbeit ein anderer Weg gewählt werden: Wie im vorangegangenen Abschnitt gezeigt wurde, sind nach Anwendung aller manuellen Schnitte lediglich noch 7 Hintergrund-Ereignisse (und 19771 Signal-Ereignisse) übrig geblieben. Dies ist keine ausreichende Statistik, um sie als Eingaben für eine neuronales Netz zu verwenden. Aus diesem Grund wurde die Selektion, die vor der ’Übergabe’ der Daten an das Netz durchgeführt wurde, etwas abgeschwächt, um mehr Statistik zu erhalten. Dabei wurde vor allem darauf geachtet, Spitzen aus den Verteilungen der Eingabe-Variablen 69 1 Effizienz und Verunreinigung Effizienz und Verunreinigung 7.4. NEURONALES NETZ 0.9 0.8 0.7 1 -1 10 0.6 0.5 0.4 -2 10 0.3 Effizienz 0.2 Effizienz 0.1 Verunreinigung Verunreinigung -3 0 10 10 10 2 10 E[GeV] 10 2 E[GeV] 1 0.8 Effizienz und Verunreinigung Effizienz und Verunreinigung Abbildung 7.10: Lage des Schauer-Maximums (S6 ), links: normiert auf Vorselektion, rechts: gesamt Effizienz Verunreinigung 1 -1 10 -2 10 0.6 -3 10 0.4 -4 10 0.2 Verunreinigung -5 0 10 10 10 2 E[GeV] 10 10 2 E[GeV] Abbildung 7.11: Longitudinaler Querschnitts-χ2 -Fit (S7 ), links: normiert auf Vorselektion, rechts: gesamt zu entfernen, die dem Netz den Lernprozess erschweren würden. Dies wird am Beispiel der Abbildung 7.15 veranschaulicht. Im Einzelnen wurden folgende Kriterien gewählt: • Energy3C[0] < 1 • Energy3C[1] < 1 • ParProfile[1] 6,5+1,2∗log EnergyC > 0, 2 • Sphericity < 0, 4 Als Eingabevariablen dienten: • Chi2Profile • Energy3C[0] • ParProfile[1] • DifoSum • Sphericity • ParProfile[3] Effizienz und Verunreinigung KAPITEL 7. DIE ANALYSE Effizienz und Verunreinigung 70 1 0.8 1 -1 10 0.6 0.4 -2 10 0.2 Effizienz Effizienz Verunreinigung Verunreinigung -3 0 10 10 10 2 10 E[GeV] 10 2 E[GeV] Effizienz und Verunreinigung Effizienz und Verunreinigung Abbildung 7.12: Rear Leak (S8 ), links: normiert auf Vorselektion, rechts: gesamt 0.8 1 -1 10 0.7 0.6 -2 10 0.5 0.4 -3 10 0.3 0.2 Effizienz 0.1 Verunreinigung -4 Effizienz 10 Verunreinigung -5 0 10 10 10 2 E[GeV] 10 10 2 E[GeV] Abbildung 7.13: Transversale Streuung (DifoSum) (S9 ), links: normiert auf Vorselektion, rechts: gesamt Diese Einstellungen führten zu einer Vorselektion, deren Effizienz und Verunreinigung in Abbildung 7.16 gezeigt sind. Das Netz wurde mit 50000 Iterationen trainiert bei einer Lerngeschwindigkeit (’SetSpeed’) von 20. Abbildung 7.17 veranschaulicht die Ausgabe des Teachers für simulierte Teilchenenergien von 32 GeV. Wie in Kapitel 5.4 ’NeuroBayes’ beschrieben, werden die Ereignisse in einen Bereich von −1 bis +1 eingeteilt, wobei der Wert proportional zur Wahrscheinlichkeit ist, dass es sich um Signal oder Hintergrund handelt. Simulierte Photonen werden in grün gezeigt, Protonen in rot. Eingezeichnet ist ein Schnitt bei 0, 8. Ereignisse mit einem Ausgabewert < 0, 8 werden verworfen. 7.5 Vergleich und Interpretation der Ergebnisse Die zahlreichen in den vorangegangenen Abschnitten erhaltenen Ergebnisse lassen sich zusammenfassend in den Abbildungen 7.18 und 7.19 darstellen. Auf der linken Seite ist jeweils das Verhältnis der selektierten Ereignisse zur Anzahl nach der Vorselektion gezeigt, auf der rechten Seite das Verhältnis der selektierten Ereignisse zur Gesamtzahl. Man sieht, dass die Verunreinigung nach Anwendung der klassischen Selektion niedriger ist als nach Verwendung eines neuronalen Netzes, während die Effizienz bei beiden Methoden vergleichbar ist. Eine Übersicht über die selektierten Ereignisse nach Durchführung aller manuellen Schnitte und nach Anwendung des neuronalen Netzes geben Tabellen 7.1 (klassische Schnitte) und 7.2 (neuronales Netz). Keine der beiden Analyse-Methoden kann das gesetzte Ziel einer Verunreinigung von höchstens 10−5 (bei einer gleichzeitigen Effizienz von 1) errei- Effizienz und Verunreinigung Effizienz und Verunreinigung 7.5. VERGLEICH UND INTERPRETATION DER ERGEBNISSE 0.6 0.5 71 1 -1 10 0.4 0.3 -2 10 Effizienz 0.2 Effizienz Verunreinigung 0.1 Verunreinigung -3 0 10 10 10 2 10 E[GeV] 10 2 E[GeV] Ereignisse Abbildung 7.14: Sphericity (S10 ), links: normiert auf Vorselektion, rechts: gesamt 2500 Signal 2000 Hintergrund 1500 1000 500 0 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 Schauer Maximum / 6,5 + 1,2 logEECAL Abbildung 7.15: Auswahl der Schnitte für neuronales Netz am Beispiel des Parameters ’ParProfile[1]’: Eine Verteilung wie diese, bei der der Hintergrund eine Spitze bei kleinen Werten um 0 besitzt, zudem aber auch wieder im höheren Energiebereich häufiger auftritt als das Signal, ist für ein neuronales Netz schwer zu erlernen und sollte deswegen vorselektiert werden. chen: Da das Verhältnis von Protonen zu Photonen (siehe Abbildung 7.4) ungefähr 105 ist, muss man die erhaltene Verunreinigung mit diesem Faktor multiplizieren. Die Verunreinigung sollte auch danach signifikant kleiner sein als die Effizienz. Da die Effizienz bei beiden Methoden auf 10−1 gesunken ist, wäre in diesem Fall eine Verunreinigung von höchstens 10−6 als Erfolg zu bewerten gewesen. In der durchgeführten Analyse konnte der Einsatz eines neuronalen Netzes zu keiner Verbesserung gegenüber der klassischen Methode mit selektiven Schnitten führen. Allerdings müssen zwei Tatsachen beachtet werden: • Nach der manuellen Selektion sind nur noch wenige (sieben) Hintergrund-Ereignisse nach Summation über alle benutzen Energien übrig geblieben. Es ist zwar prinzipiell das Ziel einer Signal-Hintergrund-Trennung, die Anzahl der selektierten Hintergrund-Ereignisse so niedrig wie möglich zu halten. Aufgrund des Verhältnisses ca. 105 von Protonen zu Photonen (siehe Abbildung 7.4) muss man die erhaltene Verunreinigung mit diesem Faktor multiplizieren. Je kleiner die Anzahl der selektierten Ereignisse ist, desto größer wird der Fehler. Um eine zuverlässigere Aussage über das Trennungsvermögen von Signal und Hintergrund zu erhalten, sollte die Analyse mit einer höheren Statistik wiederholt werden. KAPITEL 7. DIE ANALYSE Effizienz und Verunreinigung 72 1 -1 10 -2 10 Effizienz Verunreinigung -3 10 10 10 2 E[GeV] Abbildung 7.16: Effizienz und Verunreinigung der Vorselektion der Eingabevariablen des neuronalen Netzes Energie [GeV] 2 4 8 16 32 64 128 256 512 p 0 0 0 2 2 0 1 2 0 γ 43 299 2113 4619 7157 1692 3707 115 26 Effizienz 8, 1 · 10−4 5, 5 · 10−3 3, 9 · 10−2 8, 4 · 10−2 1, 3 · 10−1 1, 4 · 10−1 9, 7 · 10−2 1, 6 · 10−2 2, 5 · 10−3 Verunreinigung 0 0 0 5 · 10−6 7 · 10−6 0 9 · 10−6 2, 3 · 10−5 0 gesamt 7 19771 5, 7 · 10−2 5 · 10−6 Tabelle 7.1: Gesamtzahl der mit klassischen Schnitten selektierten Teilchen • Das neuronale Netz wurde aufgrund mangelnder Statistik so eingesetzt, dass die mit ihm durchgeführte Analyse als losgelöst von der klassischen Analyse betrachtet werden kann. Wie im vorangegangenen Abschnitt beschrieben wurde, kann ein neuronales Netzes auch so genutzt werden, dass sein Einsatz erst dann erfolgt, wenn mit manuellen Schnitten keine Verbesserung der Ergebnisse mehr erzielt werden kann, da es in der Lage ist, Zusammenhänge zu erkennen, die mit klassischen Mitteln im Verborgenen geblieben wären. Eine Aufgabe zukünftiger Studien könnte sein, mit einer so hohen Statistik zu arbeiten, dass sie nach Anwendung der klassischen Analyse noch hoch genug ist, um die so selektierten Ereignisse als Eingabevariablen eines neuronalen Netzes zu verwenden. 7.5. VERGLEICH UND INTERPRETATION DER ERGEBNISSE 73 201: F(NETOUT) FOR SIGNAL Entries Mean RMS 10 10 22282 0.6085 0.498 3 2 10 1 Effizienz und Verunreinigung -1 -0.8 -0.6 -0.4 -0.2 -0 0.2 0.4 0.6 0.8 1 1 -1 10 -2 10 0 20 40 60 80 100 Cuts Abbildung 7.17: Ausgabe des Teachers für Teilchenenergien von 32 GeV Simulierte Signale sind in grün dargestellt, der Hintergrund in rot. In der unteren Abbildung ist der Verlauf von Effizienz und Verunreinigung veranschaulicht. Verunreinigung Effizienz Effizienz und Verunreinigung Effizienz und Verunreinigung Effizienz 1 1 Verunreinigung -1 10 -1 10 -2 10 -2 10 -3 10 -4 10 -3 10 -5 10 -4 -6 10 10 10 10 2 E[GeV] 10 10 2 E[GeV] Abbildung 7.18: Effizienz und Verunreinigung der klassischen Analyse. Das linke Diagramm berücksichtigt die Vorselektion, das rechte bezieht sich auf die simulierte Gesamtzahl der Ereignisse. KAPITEL 7. DIE ANALYSE 1 Effizienz und Verunreinigung Effizienz und Verunreinigung 74 1 -1 10 -1 10 -2 10 -3 10 -2 10 Effizienz Effizienz -4 10 Verunreinigung Verunreinigung -3 -5 10 10 10 10 2 10 E[GeV] 10 2 E[GeV] Abbildung 7.19: Effizienz und Verunreinigung der Analyse mit Hilfe eines neuronalen Netzes. Das linke Diagramm berücksichtigt die Vorselektion, das rechte bezieht sich auf die simulierte Gesamtzahl der Ereignisse. Energie [GeV] 2 4 8 16 32 64 128 256 512 p 42 186 146 262 222 121 92 84 0 γ 2589 7887 10274 11899 12767 2720 6504 885 0 Effizienz 4, 9 · 10−2 1, 4 · 10−1 1, 9 · 10−1 2, 2 · 10−1 2, 3 · 10−1 2, 2 · 10−1 1, 7 · 10−1 1, 2 · 10−1 0 Verunreinigung 9 · 10−5 4 · 10−4 5 · 10−4 6 · 10−4 7 · 10−4 9 · 10−4 8 · 10−4 1 · 10−3 0 gesamt 55525 1155 1, 5 · 10−1 5, 6 · 10−4 Tabelle 7.2: Gesamtzahl der mit einem neuronalem Netz selektierten Teilchen Kapitel 8 Zusammenfassung und Ausblick Ab Juni 2007 wird der AMS-02 Detektor an Bord der internationalen Raumstation ISS für drei Jahre kosmische Teilchenströme messen. Das Ziel ist, Antworten auf zwei bisher unbeantwortete Fragen der modernen Physik liefern zu können: Die Existenz von Antimaterie im Weltall und die Zusammensetzung der dunklen Materie. Zur Auswertung der gemessenen Teilchen bedarf es einer Software, die es ermöglichen soll, aus den gemessenen Daten des Detektors eine Signal-Hintergrund-Trennung durchzuführen. Ziel dieser Arbeit war es, ein Analyse-Framework in der Programmiersprache C++ zu entwickeln, mit dem es möglich sein sollte, Signal-Hintergrund-Trennungen unter Verwendung zweier verschiedener Methoden durchzuführen. Die erste, klassische Möglichkeit ist die Benutzung manuell gewählter Schnitte, in der zweiten kommt ein neuronales Netz zum Einsatz. Nach Fertigstellung des Frameworks sollte seine Funktionsfähigkeit anhand einer Beispielanalyse gezeigt werden. Ziel der Analyse war es, zu untersuchen, ob eine Separation von Photonen in Gegenwart eines Proton-Hintergrundes möglich ist, wenn man lediglich auf die gesammelten Daten des elektromagnetischen Kalorimeters zurückgreift. Dazu wurden zunächst ca. 3 · 105 Photonen und ca. 2 · 106 Protonen simuliert. Für beide Methoden sollte die Effizienz und die Verunreinigung nach Anwendung aller Selektionskriterien bestimmt werden. Da im kosmischen Teilchenspektrum ungefähr 105 mal mehr Protonen als Photonen vorkommen, kann eine Separation nur zum Erfolg führen, sollte eine Verunreinigung von unter 10−5 erreicht werden. Die Analyse unter Verwendung eines neuronalen Netzes konnte eine Verunreinigung von ca. 5 · 10−3 erreichen. Bei der klassischen Methode ergab sich eine Verunreinigung von ca. 10−5 . Es zeigte sich, dass das neuronale Netz trotz gleicher Eingabevariablen ein schlechteres Trennungsvermögen aufwies als die klassische Analyse mit manuellen Schnitten. Das Netz konnte aufgrund fehlender Statistik jedoch nicht die selektierten Ereignisse der klassischen Analyse als Eingabevariablen erhalten. Wäre dies möglich gewesen, hätte geprüft werden können, ob eine Verbesserung der Ergebnisse der klassischen Analyse durch das neuronale Netz möglich ist, da dieses in der Lage ist, Zusammenhänge zu erkennen, die mit klassischen Mitteln im Verborgenen bleiben. Eine Aufgabe zukünftiger Studien könnte sein, mit einer so hohen Statistik zu arbeiten, dass sie nach Anwendung der klassischen Analyse noch hoch genug ist, um die so selektierten Ereignisse als Eingabevariablen eines neuronalen Netzes zu verwenden. Es wurde gezeigt, dass das erstellte Framework in der Lage ist, eine Separations-Analyse sowohl mit der klassischen Methode selektiver Schnitte als auch unter Benutzung eines neuronalen Netzes durchzuführen. 75 76 KAPITEL 8. ZUSAMMENFASSUNG UND AUSBLICK Literaturverzeichnis [1] L. FINKE: Das Standardmodell der Teilchenphysik (Eine Einführung) www.physik.rwthaachen.de/ hebbeker/ lectures/sem0102/finke2.pdf [2] C. BERGER: Elementarteilchenphysik. Springer (2002) [3] H.V. KLAPDOR- KLEINGROTHAUS, K.ZUBER: Teilchenastrophysik. Teubner (1997) [4] T. FLIESSBACH: Mechanik, Zweite Auflage. Spektrum Akademischer Verlag (1996) [5] U. KERZEL: Erste inklusive Messung der b–Quark–Frakmentationsfunktion f (z) in Z 0 – Zerfällen mit dem Deplhi Detektor bei LEP I. Diplomarbeit, Universität Karlsruhe (2002) [6] C. S. WU und E. AMBLER: Experimental Test of Parity Conservation in Beta Decays, Phys. Rev.(1957) [7] PROF. DR. WIM DE BOER: Experimentelle Teilchenphysik, Vorlesungsskriptum (1999) [8] Wilkinson Microwave Anisotrioy Probe, Website: http://map.gsfc.nasa.gov [9] JAYANT VISHNU NARLIKAR: Introduction to cosmology, third edition, Cambridge University Press (2002) [10] A. LIDDLE: An Introduction to Modern Cosmology, Second Edition. Wiley (2003) [11] PROF. DR. WIM DE BOER: Einführung in die Kosmologie, Vorlesungsskriptum (2001) [12] PARTICLE DATA GROUP, K. HAGIWARA ET AL., Phys. Rev. D66010001-1 (2002) [13] J.R. MOULD ET AL.: Astrophysics (2000) [14] H. GOENNER: Einführung in die Kosmologie. Spektrum (1994) [15] DIERCK-EKKEHARD LIEBSCHER: Kosmologie. Johann Ambrosius Barth (1994) [16] S. WEINBERG: Die ersten drei Minuten. Piper München Zürich (2001) [17] R.A. ALPHER UND R. HERMAN: Early work on ’big bang’ cosmology and the cosmic black body radiation. In B. BERTOTTI ET AL. (Herausgeber), Modern cosmology in retrospect. Cambridge: University Press (1990) [18] GEORGE F. SMOOT: Cobe observations and results (1998) [19] SILK: Die Geschichte des Kosmos. Spektrum Verlag (1999) 77 78 LITERATURVERZEICHNIS [20] Supernova Cosmology Project, Website: http://www.supernova.lbl.gov Knop et. al. 2003, ApJ, in press [21] MAXIMA, Website: http://cosmology.berkeley.edu/group/cmb [22] BOOMERANG, Website: http://www.astro.caltech.edu/ lgg/boomerang front.htm [23] NATIONAL AERONAUTS AND SPACE ADMINISTRATION, NASA Headquarterts: Dark Matter, Website: http://opposite.stsci.edu/pubinfo/background-text/darkmatt.txt (1994) [24] K.S. DE BOER, Sternwarte, Universität Bonn, Website: http://www.astro.unibonn.de/ deboer/pdm/pdmtxt.html (2000) [25] ROSAT, Website: http://wave.xray.mpe.mpg.de/rosat [26] Das MACHO–Projekt, Website: http://www.owlnet.rice.edu/spac250/coco/spac.html [27] AMS02, Website: http://ams.cern.ch/AMS/ams homepage.html [28] The Alpha Magnetic Spectrometer http://ams.pg.infn.it/whatis/whatis.htm Perugia Group Homepage [29] J. MOECK: Einsatz neuronaler Netze als intelligente Trigger im H1-Experiment Website: http://wwwh1.mppmu.mpg.de/personal/jum/html/dip/dip.html [30] http://home.arcor.de/ralf.sitter/kyb/neuro/nn.htm [31] T. KOLB: Neuronale Netze - Eine Einführung Website: http://vieta.math.tucottbus.de/ kolb/ml-nn/ [32] http://wwwmath.uni-muenster.de/SoftComputing/lehre/material/wwwnnscript/ [33] M. FEINDT: NeuroBayes - a neural Bayesian estimator for conditional probability densities. private communication (2001) [34] GEANT Website: http://wwwasd.web.cern.ch/wwwasd/geant/ [35] \usr\ekpcluster\schneider\Ams\AMS\doc\datacards02.doc [36] The ROOT System Homepage, Website: http://root.cern.ch [37] M. KOPF: Separation von e+ und p beim AMS-02 Detektor mit Hilfe eines neuronalen Netzes. Diplomarbeit Universität Karlsruhe (2003) [38] S. SAJJAD: Etude de l‘extraction d‘un signal gamma pour la détection de sursauts gamma par l‘expérience AMS-02. Rapport de stage du D.E.A de Physique Université Blaise Pascal(2002) [39] M. J. BERGER and S. M. SELTZER: Tables of Energy Losses and Ranges of Electrons and Positrons, National Aeronautics and Space Administration Report NASA-SP-3012 (1964) [40] B. STROUSSTROUP: Die C++ Programmiersprache. Addison-Wesley (1998) LITERATURVERZEICHNIS 79 [41] V. CHOUTKO, G. LAMANNA, M. MALININ: Cosmic Photon and Positron Spectra Measurements Modelling with the AMS-02 Detector at ISS, Proceedings of the conference on ’Matter, Anti-Matter and Dark Matter’ (2001) 80 LITERATURVERZEICHNIS Danksagung An dieser Stelle möchte ich mich bei folgenden Personen bedanken: • Herrn Prof. Dr. Wim de Boer danke ich für die interessante Aufgabenstellung und dafür, dass er mir diese Arbeit am Institut für Experimentelle Kernphysik ermöglichte • Herrn Prof. Dr. Johannes Blümer für die Übernahme des Korreferats • Dr. Valery Zhukov für die Betreuung während der Arbeit • meinem Zimmergenossen Marc Herold für die angenehme Arbeitsatmosphäre • Alexander Skiba, Hartmut Stadie, Jens Rehn und Kurt Rinnert für ihre kompetente und unermüdliche Unterstützung bei programmiertechnischen Problemen • Alexander Schmidt, Christian Piasecki, Christian Sander, Matthias Kumpf, Philipp Mack und Stefan Thielen für die Korrektur der Arbeit • allen Mitgliedern des Instituts für experimentelle Kernphysik für ein schönes Jahr in einer angenehmen Arbeitsatmosphäre • und ganz besonders bedanke ich mich bei meinen Eltern, die mir dieses Studium ermöglicht haben und mich immer unterstützt haben, so gut es ihnen möglich war. 81