IEKP-KA/2004-3 - Institut für Experimentelle Kernphysik

Werbung
ppp
Universität Karlsruhe (TH)
IEKP-KA/2004-3
Separation von
Photonen und Protonen
beim AMS-02 Detektor
mit Hilfe eines Neuronalen Netzes
Michael Schneider
Diplomarbeit
an der Fakultät für Physik
der Universität Karlsruhe
Institut für Experimentelle Kernphysik
Referent:
Prof. Dr. W. De Boer
Korreferent: Prof. Dr. J. Blümer
03. Februar 2004
Inhaltsverzeichnis
1 Einleitung
1
2 Das Standardmodell der Teilchenphysik
2.1 Das Teilchenspektrum des Standardmodells
2.2 Eichtheorien . . . . . . . . . . . . . . . . . .
2.2.1 Globale und lokale Symmetrien . . .
2.2.2 Quantenelektrodynamik (QED) . . .
2.2.3 Die elektroschwache Wechselwirkung
2.2.4 Quantenchromodynamik (QCD) . .
2.3 Die Symmetriegruppe des Standardmodells
2.4 Grenzen des Standardmodells . . . . . . . .
2.4.1 GUT – Grand Unified Theories . . .
2.4.2 Supersymmetrie (SUSY) . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
6
7
8
8
10
11
12
12
13
3 Grundlagen moderner Kosmologie
3.1 Grundlegende Gleichungen . . . . . . . . . .
3.2 Die drei Stützen der Urknall-Theorie . . . .
3.2.1 Das Hubble’sche Gesetz . . . . . . .
3.2.2 Die primordiale Nukleosynthese . . .
3.2.3 Die kosmische Hintergrundstrahlung
3.3 Die kosmologische Konstante . . . . . . . .
3.4 Dunkle Materie . . . . . . . . . . . . . . . .
3.4.1 Evidenz für dunkle Materie . . . . .
3.4.2 Die Natur der dunklen Materie . . .
3.5 Nachweis dunkler Materie . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
15
15
16
17
18
19
20
21
23
26
29
.
.
.
.
.
.
31
32
33
34
34
35
36
4 Der
4.1
4.2
4.3
4.4
4.5
4.6
AMS-02 Detektor
Übergangsstrahlungs-Detektor (TRD)
Flugzeit-Detektor (ToF) . . . . . . . .
Silizium-Spurdetektor (Tracker) . . . .
Der supraleitende Magnet . . . . . . .
Cerenkov-Zähler (RICH) . . . . . . . .
Elektromagnetisches Kalorimeter . . .
i
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
ii
INHALTSVERZEICHNIS
5 Neuronale Netze
5.1 Der Zusammenhang mit der Biologie . . . . .
5.2 Netzwerk-Topologie . . . . . . . . . . . . . . .
5.3 Lernen in Neuronalen Netzen . . . . . . . . .
5.3.1 Kostenfunktion . . . . . . . . . . . . .
5.3.2 Gradientenabstieg . . . . . . . . . . .
5.3.3 Der Backpropagation-Lernalgorithmus
5.4 NeuroBayes . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
37
37
38
40
41
41
42
43
6 Die
6.1
6.2
6.3
6.4
Simulation
Simulation des AMS-02 Detektors
Rekonstruktion . . . . . . . . . . .
Elektromagnetische Schauer . . . .
Hadronische Schauer . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
47
47
50
51
54
7 Die Analyse
7.1 Das Analyse-Framework . . . . . . . . . . .
7.1.1 ROOT TTree . . . . . . . . . . . . .
7.1.2 Funktionsweise des Frameworks . . .
7.2 Statistische Methoden . . . . . . . . . . . .
7.3 Klassische Schnitte . . . . . . . . . . . . . .
7.3.1 Vorselektion . . . . . . . . . . . . . .
7.3.2 Schnitte auf Kalorimeter-Variablen .
7.3.3 Ergebnisse der klassischen Analyse .
7.4 Neuronales Netz . . . . . . . . . . . . . . .
7.5 Vergleich und Interpretation der Ergebnisse
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
57
58
58
58
60
61
62
62
66
68
70
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8 Zusammenfassung und Ausblick
75
Literaturverzeichnis
77
Abbildungsverzeichnis
2.1
Kopplungen im SM verglichen mit SUSY
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
Geometrie des Raumes . . . . . . . . . . . . . . .
Hubble Diagramm . . . . . . . . . . . . . . . . .
Kosmische Hintergrundstrahlung . . . . . . . . .
Supernovae Cosmology Project . . . . . . . . . .
Leistungsspektrum WMAP . . . . . . . . . . . .
Koinfidenzgebiete . . . . . . . . . . . . . . . . . .
Rotationskurve der Spiralgalaxie NGC 6503 . . .
Röntgenemission des Galaxienhaufens Abell 3582
Gravitationslinse . . . . . . . . . . . . . . . . . .
Elementhäufigkeiten . . . . . . . . . . . . . . . .
MACHO-Helligkeitsverlauf . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
16
17
19
21
22
22
24
25
26
27
28
4.1
4.2
4.3
4.4
4.5
4.6
4.7
Der AMS-02 Detektor . . . . . . . . .
Transition Radiation Detector (TRD)
Time of Flight Detector (ToF) . . . .
Silizium-Spurdetektor . . . . . . . . .
Der supraleitende Magnet . . . . . . .
Cerenkov-Zähler (RICH) . . . . . . . .
Elektromagnetisches Kalorimeter . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
31
33
33
34
35
35
36
5.1
5.2
5.3
5.4
5.5
5.6
5.7
Biologisches Neuron . . . . . . . . . .
Sigmoidfunktion . . . . . . . . . . . .
Feedforward-Netzwerk . . . . . . . . .
Fehlerfläche als Funktion der Gewichte
Backpropagation . . . . . . . . . . . .
Beispiel einer Teacher-Ausgabe . . . .
Verhältnis Signal zu Gesamtzahl . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
38
39
40
41
42
44
45
6.1
6.2
6.3
6.4
6.5
6.6
Anzahl der simulierten Events . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rekonstruktion am Beispiel einer Teilchenspur im TRD . . . . . . . . . . . .
Wirkungsquerschnitt als Funktion der Photonen-Energie . . . . . . . . . . . .
Strahlungsverlust eines Elektrons/Positrons in Materie . . . . . . . . . . . . .
Energieverlust eines geladenen, massiven Teilchens in Materie . . . . . . . . .
Vergleich eines elektromagnetischen (links) und eines hadronischen Schauers
(rechts) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
51
52
53
55
iii
. . . . . . . . . . . . . . . . . . . .
14
55
iv
ABBILDUNGSVERZEICHNIS
7.1
7.2
7.3
7.4
7.5
7.6
7.7
7.8
7.9
7.10
7.11
7.12
7.13
7.14
7.15
7.16
7.17
7.18
7.19
Kosmischer Teilchenfluss in Abhängigkeit der Energie . . . . . . . . . . . .
Relative Energie-Ablagerung . . . . . . . . . . . . . . . . . . . . . . . . . .
Lage des Schauer-Maximums und χ2 -Fit . . . . . . . . . . . . . . . . . . . .
Rear Leak und DifoSum . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Sphericity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Vorselektion Ergebnisse (S1 + S2 + S3 ) . . . . . . . . . . . . . . . . . . . . .
Illustration der Energieabhängigeit des χ2 -Fits . . . . . . . . . . . . . . . .
Molière Radius Ergebnisse (S4 ) . . . . . . . . . . . . . . . . . . . . . . . . .
Molière Radius Ergebnisse (S5 ) . . . . . . . . . . . . . . . . . . . . . . . . .
Lage des Schauer-Maximums Ergebnisse (S6 ) . . . . . . . . . . . . . . . . .
Longitudinaler Querschnitts-Fit Ergebnisse(S7 ) . . . . . . . . . . . . . . . .
Rear Leak Ergebnisse (S8 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Transversale Streuung Ergebnisse(S9 ) . . . . . . . . . . . . . . . . . . . . .
Sphericity Ergebnisse (S10 ) . . . . . . . . . . . . . . . . . . . . . . . . . . .
Auswahl der Schnitte für neuronales Netz . . . . . . . . . . . . . . . . . . .
Effizienz und Verunreinigung der Vorselektion für neuronales Netz . . . . .
Ausgabe des Teachers für Teilchenenergien von 32 GeV . . . . . . . . . . .
Effizienz und Verunreinigung der klassischen Analyse . . . . . . . . . . . . .
Effizienz und Verunreinigung der Analyse mit Hilfe eines neuronalen Netzes
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
57
63
64
65
66
66
67
68
68
69
69
70
70
71
71
72
73
73
74
Kapitel 1
Einleitung
Die Entwicklungen in der Kosmologie können ohne Frage zu den größten Errungenschaften
des zwanzigsten Jahrhunderts gezählt werden. Zu dessen Beginn konnte sie nur sehr schwer
als wissenschaftliche Disziplin bezeichnet werden, jedoch an seinem Ende steht eine vielfältig
anerkannte Theorie über den Ursprung und die Entwicklung des frühen Universums: die
Urknall- oder auch Big Bang Theorie. Teleskope wie das Hubble Space Telescope sind in der
Lage, Licht von Galaxien zu empfangen, die so weit entfernt sind, dass ihr Licht fast die
Dauer des Alters des Universums benötigte, um uns zu erreichen. Die kosmische MikrowellenHintergrundstrahlung, ein Relikt aus einer Zeit, als das Universum sowohl heißer als auch
dichter war, wird mittlerweile routinemäßig gemessen und ihre Eigenschaften können genau
untersucht werden. Die Tatsache, dass unser Universum zur Zeit expandiert, scheint ohne
Zweifel bestätigt zu sein.
Die Urknalltheorie wird mittlerweile von einer so breiten Zahl von Befürwortern getragen, dass man sie heute als das Standardmodell der Kosmologie bezeichnet. Eckpfeiler dieses
Modells ist das so genannte kosmologische Prinzip, also der Glaube, dass sich der Platz im
Universum, an dem wir uns befinden, in keiner Weise auszeichnet. Diese Erkenntnis war allerdings keineswegs immer schon in der Geschichte der Menschheit vorhanden:
Das geozentrische Weltbild war im klassischen Altertum in Griechenland und auch in
China weit verbreitet. Es basiert auf der insbesondere in der Antike formulierten Ansicht,
dass die Erde und damit implizit der Mensch Zentrum des Universums sei und dass sich
alle Himmelskörper auf ’perfekten’ Kreisbahnen bewegten. Die wichtigste Begründung für
die Annahme des geozentrischen Weltbildes war die Beobachtung der Schwerkraft, die sich
damit erklären ließ, dass alles Schwere seinem ’natürlichen’ Ort, dem Mittelpunkt der Welt,
zustrebe. Von der Sonne und den Planeten nahm man dagegen an, sie bestünden aus einem
himmlischen fünften Element, dessen natürliche Bewegung die Kreisbahn sei. Um 150 n.Chr.
erweiterte Ptolemäus das geozentrische Weltbild, indem er so genannte Epizyklen einführte:
Um astronomische Beobachtungen mit diesem System in Einklang bringen zu können, war es
notwendig, alle Himmelskörper auf ihren Bahnen weiter Kreise ziehen zu lassen und teilweise
auch wieder Kreise um diese Bahnen. Durch den Einsatz von ca. 80 solcher Bahnen konnte
Ptolemäus die Beobachtungen in Einklang mit seinem Modell bringen.
Das ptolemäische Weltbild war in der Genauigkeit seiner Bahnvorhersage auch dem heliozentrischen Weltbild des Nikolaus Kopernikus (1473 – 1543) überlegen, welches fälschlicherweise davon ausging, die Planeten umliefen die Sonne auf Kreisbahnen. Erst die Entdeckung
von Johannes Kepler (1571 – 1630), dass die Planeten die Sonne auf Ellipsenbahnen um1
2
KAPITEL 1. EINLEITUNG
laufen, führte zu einem genaueren Modell und letztendlich zur Annahme unseres heutigen
kopernikanischen Weltbildes.
Lange Jahre konnte die Kosmologie danach jedoch keine großen Erfolge verbuchen. Erst
die 1915 veröffentlichte bahnbrechende Arbeit Albert Einsteins (1879 – 1955), die Allgemeine
Relativitätstheorie und die als Spezialfall aus den Einstein’schen Feldgleichungen resultierenden Friedmann Gleichungen (1922) des russischen Mathematikers und Physikers Alexander
Friedmann (1888 – 1925) leiteten den Beginn der aus heutiger Sicht modernen Kosmologie
ein.
Eine echte Initialzündung erlebte die Kosmologie im Folgenden jedoch erst wieder im
späten 20. Jahrhundert, als die beiden Radioastronomen Arno Penzias (*1933) und Robert
Wilson (*1941) 1965 durch einen Zufall die kosmische Hintergrundstrahlung entdeckten, die
zwar schon über 20 Jahre zuvor von George Gamow (1904 – 1968) als Relikt aus dem Urknall
vorhergesagt wurde, bis dahin aber nicht nachgewiesen werden konnte. Ihre Entdeckung gilt
neben der durch Edwin Hubble (1889 – 1953) 1929 experimentell bestätigten Expansion des
heutigen Universums und der primordialen Nukleosynthese als größte Stütze der Urknall
Theorie.
Zur Jahrtausendwende erlebten wir das immer stärker werdende Zusammenwachsen der
Kosmologie mit einer weiteren Disziplin: der Teilchenphysik. Ohne die Kenntnisse über das,
was die Welt im Kleinsten zusammenhält, so das neue Bewusstsein, wird man nie gänzlich
verstehen können, wie sich die großräumigen Strukturen, die das Erscheinungsbild unseres
heutigen Universums prägen, entwickelt haben.
Eine historische und theoretische Einführung in diese beiden Teilgebiete der Physik wird
in den nächsten beiden Kapiteln der hier vorliegenden Diplomarbeit gegeben: Das zweite
Kapitel befasst sich mit dem Standardmodell der Teilchenphysik und dessen Grenzen, eine
kurze Zusammenfassung über wichtige Grundprinzipien heutiger Kosmologie wird im dritten
Kapitel gegeben.
Kapitel 4 stellt den AMS-02 Detektor vor, der ab Juni 2007 an Bord der internationalen Raumstation ISS für drei Jahre kosmische Teilchenströme registrieren und mit dem Ziel
auswerten wird, einer Lösung zweier großer Probleme moderner Teilchenastrophysik näher
zu kommen: Zum einen ist dies die Frage nach Antimaterie im Universum, zum anderen
die noch ungeklärte Zusammensetzung so genannter dunkler Materie. Bevor das eigentliche
Experiment startet, ist es sinnvoll und notwendig, die durch die aktuelle Theorie zu erwartenden Teilchenströme im Detektor zu simulieren, um später diese Erwartungen mit den
tatsächlichen Messergebnissen vergleichen zu können. Anhand der simulierten Daten kann
beispielsweise auch getestet werden, mit welcher Effizienz oder welcher Verunreinigung man
für ein bestimmtes Signal zu rechnen hat.
Einer der Hauptaufgaben dieser Arbeit bestand in der Programmierung eines Frameworks1 in der Sprache C++, mit Hilfe dessen es möglich sein sollte, solch simulierte Daten
auszuwerten und zu analysieren. Hierbei soll der spätere Benutzer die Wahl zwischen zwei
verschiedenen Analyse-Methoden haben: Zum einen die ’klassische’ Methode, bei der man
anhand der rekonstruierten Verteilungen der einzelnen relevanten Variablen (wie z.B. dem Impuls) manuell Schnitte setzt und zum anderen die Verwendung eines neuronalen Netzes. Die
Funktionstüchtigkeit des Frameworks sollte schließlich anhand einer Analyse gezeigt werden,
die ausschließlich auf der Benutzung eines einzigen Subdetektors, des Kalorimeters, beruht.
Unter der Annahme, dass bei unerwarteten Problemen Teile des AMS-02 Detektors nicht wie
1
engl. Rahmen, Gerüst
3
gewünscht arbeiten könnten, sollte untersucht werden, in wie weit eine Separation von Photonen aus dem umgebenden Teilchenhintergrund lediglich unter Benutzung des recht robusten
und fehlerunanfälligen Kalorimeters möglich ist.
Die Funktionsweise eines neuronalen Netzes wird in Kapitel 5 erläutert, das sechste Kapitel
dreht sich um die AMS-02 Simulations-Software mit einem Blick auf die für die Simulation
und Rekonstruktion wichtigen Wechselwirkungs-Eigenschaften des Photons.
Die durchgeführte Analyse wird im siebten Kapitel präsentiert, außerdem liefert es einen
Überblick der erhaltenden Resultate und einen Vergleich der beiden verwendeten Analyse-Methoden.
4
KAPITEL 1. EINLEITUNG
Kapitel 2
Das Standardmodell der
Teilchenphysik
Das Standardmodell der Elementarteilchenphysik beschreibt die fundamentalen Teilchen der
Materie und deren Wechselwirkungen. Bis heute sind vier fundamentale Wechselwirkungen
bekannt: die Gravitation, die elektromagnetische, die schwache und die starke Kraft. Die
Gravitation wird durch Albert Einsteins Allgemeine Relativitätstheorie beschrieben, auf der
für Elementarteilchen relevanten mikroskopischen Skala ist sie ist jedoch im Vergleich zu den
anderen Fundamentalkräften zu vernachlässigen. Sie ist kein Teil des Standardmodells.
2.1
Das Teilchenspektrum des Standardmodells
Unter Elementarteilchen versteht man die punktförmigen, d.h. elementaren Bausteine der
Materie ohne Unterstruktur (Radius < 10−18 − 10−19 m) [1]. Nach dem Standardmodell
besteht die gesamte uns bekannte Materie aus so genannten Fermionen, das sind Teilchen
mit halbzahligem Spin. Diese lassen sich in zwei Kategorien einteilen: Auf der einen Seite die
Quarks und auf der anderen die Leptonen, von denen jeweils sechs bekannt sind. Entsprechend
ihrer Quantenzahlen ordnet man sie in drei Familien oder auch Generationen an. Die Teilchen
einer Generation unterscheiden sich dann lediglich noch in ihrer Masse.
Die Wechselwirkungen zwischen Quarks und Leptonen werden im Modell durch den Austausch spezieller Teilchen, den so genannten Feldquanten oder auch Bosonen, die ganzzahligen
Spin besitzen, vermittelt. Dies wird in Tabelle 2.1 veranschaulicht.
Die Verteilung von Fermionen auf die verschiedenen erlaubten Zustände eines quantenmechanischen Systems wird durch die Fermi-Dirac-Statistik beschrieben, die von Bosonen
durch die Bose-Einstein-Statistik [2]. Die Fermi-Dirac-Statistik ist eine direkte Folge des Ausschließungsprinzips von Wolfgang Pauli, das besagt, dass die Wellenfunktion eines Systems
identischer Spin 1/2-Teilchen antisymmetrisch bei Vertauschung von zwei Teilchen sein muss.
Als Konsequenz hieraus folgt, dass jeder durch einen vollständigen Satz von Quantenzahlen
beschriebene Zustand nur von jeweils einem Fermion besetzt werden kann. Für Bosonen gilt
diese Restriktion nicht.
5
6
KAPITEL 2. DAS STANDARDMODELL DER TEILCHENPHYSIK
Fermionen Spin = 1/2
2. Gen.
3. Gen.
1. Gen.
µ
Quarks
µ
Leptonen
u
d0
uR
dR
νe
e
eR
¶
L
¶
Wechselwirkung
elektromagnetische
schwache
starke
µ
L
µ
c
s0
cR
sR
νµ
µ
µR
¶
µ
L
¶
µ
L
t
b0
tR
bR
ντ
τ
τR
¶
Q
2/3
−1/3
2/3
−1/3
L
¶
L
Bosonen Spin = 1
Boson
γ
Z0
W±
g1···8
0
−1
−1
Q
0
0
±1
0
Y
I3
1/3
4/3
−2/3
−1
−2
Y
1/2
−1/2
0
0
1/2
−1/2
0
I3
0
0
−
0
0
0
±1
0
Tabelle 2.1: Das Teilchenspektrum des Standardmodells. Die Fermionen werden in linkshändige
Dubletts und rechtshändige Singuletts eingeteilt. Das Neutrino hat eine definierte
Händigkeit und wird in Experimenten nur linkshändig beobachtet. Die Striche an den
linkshändigen down-type“-Quarks sollen anzeigen, dass es sich hierbei nicht um die
”
physikalischen Masseneigenzustände handelt. Q bezeichnet die elektrische Ladung, Y
die schwache Hyperladung und I3 die dritte Komponente des schwachen Isospins.
2.2
Eichtheorien
Alle modernen Elementarteilchentheorien sind Eichtheorien [3]. Fundamentales Prinzip einer
Eichtheorie ist die Eichfreiheit bestimmter Größen. Aus der Forderung nach solchen eichbaren,
physikalisch nicht festgelegten Größen wird die Existenz und Struktur einer Wechselwirkung
festgelegt. Auch das Standardmodell beruht auf dem Eichprinzip, nachdem alle Kräfte durch
die Wechselwirkung mit sogenannten Eichfeldern einer entsprechenden Eichgruppe erzeugt
werden. Die diesen Eichfeldern entsprechenden Austauschteilchen sind die im letzten Abschnitt erwähnten Bosonen, die deshalb auch Eichbosonen genannt werden. Allgemein kann
eine Eichtransformation für SU (N ) Symmetrien geschrieben werden als
Ã
U Ψ = exp i
2 −1
NX
!
θa (x)Ta Ψ ,
(2.1)
a=1
wobei die Ta die Generatoren vorliegenden Symmetriegruppe (siehe nächster Abschnitt) und
die θa die kontinuierlichen Parameter der Transformation bezeichnen.
2.2. EICHTHEORIEN
2.2.1
7
Globale und lokale Symmetrien
Die Existenz von Symmetrien spielt eine bedeutende Rolle in der Teilchenphysik. Eine Symmetrie liegt vor, wenn das betrachtete physikalische System invariant unter der Transformation
U bleibt, d.h. wenn der Hamiltonoperator invariant ist: U HU + = H. Die unabhängigen Erzeugenden einer Symmetrie bilden die algebraische Struktur einer Gruppe. Man spricht dann
von Symmetriegruppen. Die im Standardmodell enthaltenen Symmetriegruppen gehören zu
den kontinuierlichen Symmetrien, d.h. die Parameter nehmen im Gegensatz zu diskreten Symmetrien kontinuierliche Werte an.
Globale Symmetrien
In der Quantenmechanik wird ein physikalischer Zustand durch seine Wellenfunktion Ψ(x, t)
beschrieben, als Messgröße tritt allerdings nur das Betragsquadrat | Ψ(x, t) |2 in Erscheinung.
Neben Ψ(x, t) selbst stellen somit auch globale Phasentransformationen
0
Ψ (x, t) = e−iθ Ψ(x, t) ,
(2.2)
mit einer reellen, orts- und zeitunabhängigen Konstanten θ Lösungen der Schrödinger-Gleichung
dar. Bezogen auf diese Orts- und Zeitunabhängigkeit von α spricht man von einer globalen
Symmetrie. Eine wichtige Größe im Zusammenhang mit Symmetrien ist die Lagrangedichte
L(φ, ∂µ φ), aus der sich die Bewegungsgleichungen mit Hilfe des Prinzips der kleinsten Wirkung herleiten lassen. Die relativistische Bewegungsgleichung für die Wellenfunktion eines
geladenen Teilchens, die Dirac-Gleichung
iγ µ ∂µ Ψ(x, t) − mΨ(x, t) = 0
(2.3)
ist unter solch einer globalen Transformation (2.2) invariant.
Für reelle Skalarfelder φ(x) mit der zugehörigen freien Lagrangedichte
1
L(φ, ∂µ φ) = (∂µ φ∂ µ φ − m2 φ2 )
2
(2.4)
kann der Zusammenhang zwischen globalen Symmetrien und Erhaltungssätzen in großer Allgemeinheit formuliert werden: Jede einparametriege Schar von Transformationen, unter denen die Wirkung invariant ist, führt zu einer Erhaltungsgröße [4]. Dieser Zusammenhang
wurde von der Mathematikerin Emmy Noether (1882 – 1935) abgeleitet und ist seither
als das Noether-Theorem bekannt. So bedeutet beispielsweise die Invarianz gegenüber Zeit-,
Translations- und Rotationstransformationen die Erhaltung von Energie, Impuls und Drehimpuls.
Lokale Symmetrien
Im Gegensatz zu den globalen Symmetrien hängen bei den lokalen Symmetrien die kontinuierlichen Parameter θa der Transformation (2.1) explizit von den Raum-Zeit-Koordinaten ab.
Aufgrund ihres Modellcharakters als Eichtheorie soll nun im folgenden Abschnitt zunächst
die Quantenelektrodynamik (QED) als Beispiel dienen, die der Gruppe U (1) zuzuordnen ist,
bevor anschließend auch nicht-abelsche Eichtheorien besprochen werden.
8
2.2.2
KAPITEL 2. DAS STANDARDMODELL DER TEILCHENPHYSIK
Quantenelektrodynamik (QED)
Verzichtet man also in 2.2 auf die Forderung nach Orts- und Zeitabhängigkeit von θ, so bleibt
bei unitären Transformationen aus der Gruppe U (1) der Art
0
Ψ (x, t) = eiqθ(x,t) Ψ(x, t)
(2.5)
die Dirac-Gleichung (2.3) nicht mehr invariant:
0
(iγ µ ∂µ − m)Ψ (x, t) = eiqθ(x,t) [(iγ µ ∂µ − m)Ψ(x, t) + q(∂µ θ(x, t))γ µ Ψ(x, t)]
0
= e(∂µ θ(x, t))γ µ Ψ (x, t) 6= 0
(2.6)
Durch das Einführen eines Eichfeldes Aµ , welches sich gerade so transformiert, dass es den
Zusatzterm in 2.6 kompensiert, ist es möglich, die ursprüngliche Invarianz wiederherzustellen.
Ersetzt man alle vorkommenden partiellen Ableitungen ∂µ durch die kovariante Ableitung
Dµ = ∂µ − iqAµ
,
(2.7)
so lautet die Dirac-Gleichung:
iγ µ Dµ Ψ(x, t) = iγ µ (∂µ − iqAµ )Ψ(x, t) = mΨ(x, t) .
(2.8)
Man erkennt, dass die Invarianz der Dirac-Gleichung wiederhergestellt werden kann, falls sich
das Eichfeld transformiert gemäß
Aµ → Aµ + ∂µ θ(x, t) .
(2.9)
Die Forderung nach Invarianz unter lokaler Eichtransformation führt hier zu einer Kopplung des Feldes Ψ, also beispielsweise von Elektronen, und dem Eichfeld Aµ , das in diesem Fall
dem Photon entspricht – oder anders: Die Existenz und Wechselwirkung des Photons folgt
in der QED aus der geforderten lokalen Eichsymmetrie. Es lässt sich so die gesamte Elektrodynamik als Folge der Invarianz der Lagrangedichte bzw. der Bewegungsgleichungen unter
Phasentransformationen beschreiben. Die daraus folgende Erhaltungsgröße ist die Ladung q,
also der Generator der Symmetriegruppe. Darin liegt die große Bedeutung der Eichthorien,
die, auch bei der starken und elektroschwachen Wechselwirkung die Austauschbosonen, ihre
Wechselwirkungen und deren Selbstwechselwirkung vorhersagen.
2.2.3
Die elektroschwache Wechselwirkung
Die schwache Wechselwirkung ist eine nicht-abelsche Eichtheorie. Bei nicht-abelschen Theorien vertauschen die Generatoren nicht mehr miteinander. Ein Beispiel sind die Paulischen
Spinmatrizen σi , die folgende Kommutatorrelation erfüllen:
[σi , σj ] = ih̄σh
.
(2.10)
Allgemein besitzen SU (N ) Gruppen N 2 − 1 Generatoren.
Betrachtet man Hadronen ähnlicher Massen, so scheinen sich diese in verschiedenen Familien anzuordnen, so zum Beispiel {p, n} oder auch {π + , π 0 , π − }, innerhalb derer sich die
Massen nicht wesentlich unterscheiden, meist nur in der Größenordnung von wenigen MeV
[5]. Außer den verschiedenen Ladungen sieht es fast so aus, als handele es sich um jeweils die
2.2. EICHTHEORIEN
9
gleichen Teilchen, die sich lediglich in einem anderen Zustand befinden. Möchte man diese
Familien gruppentheoretisch klassifizieren, so bietet sich die SU (2) Gruppe an. Eine Darstellung der SU (2)-Gruppe sind alle unitären 2× 2-Matrizen mit einer Determinanten von +1 [3].
Generatoren der SU (2) sind die in 2.10 vorgestellten Pauli-Matrizen. Da die Pauli-Matrizen
auch Generatoren des ’normalen’ Spins sind, nennt man die hier auftretenden verschiedenen
Teilchenzustände ’Isospin-Zustände’.
Nehmen wir als Beispiel ein Proton und ein Neutron, die bezüglich ihrer schwachen Wechselwirkung identisch sind, so kann man beide Teilchen in einem Dublett anordnen und Transformationen schreiben gemäß
µ
¶0
µ
¶
Ψp (x)
Ψp (x)
= U (x)
.
Ψn (x)
Ψn (x)
(2.11)
U (x) muss hierbei so konstruiert werden, dass die Unitarität gewährleistet ist (U + U = E)
und dass det U = 1. Eine mögliche Darstellung von U , die dies erfüllt, ist
i
U (~a(x)) = e 2 ~a(x)·~σ
,
(2.12)
wenn ~a(x) den Drehwinkel der Transformation und ~σ die Pauli-Matrizen (2.10) bezeichnen.
Nimmt man nun wieder die Dirac-Gleichung (2.3) und ersetzt analog zur Vorgehensweise im
vorangegangenen Abschnitt über die QED die einzelnen partiellen Ableitungen durch kovariante Ableitungen, das eindimensionale Eichfeld Aµ durch ein dreidimensionales (entsprechend
~ µ , sowie die Ladung q durch eine Kopplungskonstante g,
N 2 − 1) Vektorfeld W
Dµ = ∂µ +
ig ~
Wµ (x) · ~σ
2
,
(2.13)
so findet man keine Eichinvarianz. Erst Transformationen der Eichfelder gemäß
~ µ × ~a(x)
~ µ0 = W
~ µ + 1 ∂µ~a(x) − W
W
g
(2.14)
bringen die gewünschte Invarianz [3]. Im Gegensatz zur QED, wo das Austauschteilchen, das
Photon, keine Ladung trägt, verursacht die Nicht-Vertauschbarkeit der Generatoren, dass
auch die Austauschteilchen selbst ’Ladung’ tragen können. Dies hat unter anderem auch
eine Selbstkopplung der Austauschfelder zur Folge. Die SU (2)-Symmetrie ist keine exakte
Symmetrie ist, da z.B. die Massen von Neutron und Proton sind nicht exakt gleich. Die
Massendifferenz innerhalb des Multipletts ist ein Indikatot für die Symmetriebrechung.
Die Vereinigung der elektromagnetischen- und der schwachen- zur elektroschwachen Wechselwirkung gelang Glashow, Salam und Weinberg 1964 mit ihrem Glashow-Weinberg-SalamModell (GWS): Zur Beschreibung der elektroschwachen Wechselwirkung wird die Symmetriegruppe SU (2)L × U (1)Y benutzt. Der Index L berücksichtigt die Ergebnisse des Wu-Experiments [6]: Nur die linkshändigen Quarks und Leptonen sind diesbezüglich in Dubletts
angeordnet, während die rechtshändigen Teilchen als Singulett fungieren, dies bezeichnet
man auch als Paritätsverletzung. Der Index Y steht für die schwache Hyperladung Y . Die
SU (2)L × U (1)Y -Gruppe hat vier Generatoren, drei sind die SU (2)L -Generatoren der schwachen Wechselwirkung, Ti = σ2i , also die Pauli-Matrizen (2.10). Der vierte ist der U (1)Y -Generator, Y /2. Zur Beschreibung der Fermionen werden also neben der elektrischen Ladung
Q und der dritten Komponente des schwachen Isospins I3 , sowie die schwache Hyperladung Y
10
KAPITEL 2. DAS STANDARDMODELL DER TEILCHENPHYSIK
benutzt. Den Zusammenhang zwischen diesen drei ’Ladungen’ gibt die Gell-Mann-NishijimaRelation:
1
Q = I3 + Y .
(2.15)
2
Die den Generatoren zugehörigen Eichbosonen heißen Wµi , i = 1, 2, 3 (SU (2)L ) und Bµ
(U (1)Y ). Die Lagrangedichte läßt sich analog zur Vorgehensweise bei der QED und der schwachen Wechselwirkung konstruieren. Erneut wird die kovariante Ableitung eingeführt, wobei
diesmal aufgrund der Paritätsverletzung zwischen links- und rechtshändig unterschieden werden muss:
~σ ~
0Y
Dµ(L) = ∂µ − ig W
Bµ
µ + ig
2
2
0Y
Dµ(R) = ∂µ + ig Bµ
2
(2.16)
(2.17)
0
Hier treten nun zwei Kopplungskonstanten auf, g und g , wobei g die Kopplungskonstante
0
der SU (2)L aus 2.13 ist und g entsprechend der U (1)Y zugehörig ist.
Die physikalisch beobachtbaren Eichbosonen Wµ± , Zµ und Aµ (Photon), also die Masseneigenzustände, erhält man aus den elektroschwachen Eigenzuständen durch Rotation der
nicht-diagonalen Massenmatrix um den schwachen Winkel θW :
1
Wµ± = √ (Wµ1 ∓ iWµ2 )
2
µ ¶ µ
¶
Aµ
cos θw sin θw
=
− sin θw cos θw
Zµ
(2.18)
(2.19)
Über den sogenannten Weinbergwinkel θw sind auch die schwachen Kopplungskonstanten g
0
und g verknüpft:
0
g
tan θw =
.
(2.20)
g
Auch die Kopplungskonstante der QED, die elektrische Ladung e, steht über den Weinbergwinkel mit den schwachen Kopplungskonstanten in direktem Zusammenhang:
g=
bzw.
0
g =
e
sin θw
(2.21)
e
cos θw
(2.22)
Durch genaue Messung des Weinbergwinkels kann man also die schwachen Kopplungskonstanten und damit zwei der fundamentalen Parameter der elektroschwachen Theorie fixieren
[3].
2.2.4
Quantenchromodynamik (QCD)
Die Quantenchromodynamik (QCD) basiert auf der Eichsymmetrie der starken Wechselwirkung, genauer der lokalen Transformation im dreidimensionalen Farbraum, welche die
Lagrangedichte invariant lässt [1]. Die Eichgruppe, die durch diese Farbtransformation erzeugt wird, ist die nicht-abelsche Lie-Gruppe SU (3)C . Der Index C steht hier für ’color’, also
2.3. DIE SYMMETRIEGRUPPE DES STANDARDMODELLS
11
die ’Ladung’ der drei möglichen Farbzustände der Quarks. Die Eichbosonen dieser Symmetrie sind die sogenannten Gluonen, von denen es gemäß der Anzahl der SU (3)-Generatoren
(32 − 1) = 8 verschiedene gibt.
Die weitere Vorgehensweise ist analog zu denen der QED und vor allem (da es sich dabei auch um eine nicht-abelsche Gruppe handelt) der schwachen Wechselwirkung. Die lokale
Eichtransformation lautet hier:

0


qr (x)
qr (x)
λ
 qg (x)  = eiθα (x) 2  qg (x) 
(2.23)
qb (x)
qb (x)
Dabei sind die λα /2 die Generatoren der Gruppe SU (3)C , α = 1, 2, ..., 8, die sogenannten GellMann-Matrizen. Die Indizes r, g und b stehen für die drei möglichen ’Farben’ der Quarks,
also rot, gelb und blau. Erneut wird die kovariante Ableitung mit Kopplung des Gluonfeldes
Gαµ eingeführt:
λα
Dµ = ∂µ − igS Gαµ
(2.24)
2
Die Transformation des Gluonfeldes wird auch hier so gewählt, dass die lokale Eichinvarianz
gewährleistet ist:
1
Gαµ → Gαµ − ∂µ θα + f αβγ θβ Gµγ
(2.25)
gs
Dabei wurde eine Kopplungskonstante der starken Wechselwirkung, gs , eingeführt. In Gemeinsamkeit mit dem Eichfeld der schwachen Wechselwirkung und im Gegensatz zum Photonfeld der QED enthält 2.25 aufgrund der nicht verschwindenen Strukturkonstanten f αβγ
einen Selbstkopplungsterm des Gluonfeldes. Dies führt dazu, dass alle Teilchen, die Farbe
tragen, miteinander wechselwirken können, die Gluonen also auch mit sich selbst. Die Gluonen sind zugleich Träger und Teil des Farbfeldes, im Unterschied zu den Photonen, die das
Photonenfeld zwar erzeugen, aber nicht mit ihm wechselwirken können.
2.3
Die Symmetriegruppe des Standardmodells
Aufbauend auf den Überlegungen der vorangehenden Abschnitte über die Quantenelektrodynamik (QED), die Quatenchronodynamik (QCD) und die elektroschwache Wechselwirkung wird es leicht erkenntlich, dass das Standardmodell gruppentheoretisch einer SU (3)C ⊕
SU (2)L ⊕ U (1)Y -Gruppe entspricht.
Vergleicht man die Reichweiten und Stärken der drei Wechselwirkungen, beobachtet man
ein sehr unterschiedliches Verhalten, entsprechend der Eigenschaften der Austauschbosonen.
Das masselose Photon bedingt die unendliche Reichweite der elektromagnetischen Wechselwirkung, die sehr kurze Reichweite der schwachen Wechselwirkung (∼ 10−18 m) korrespondiert
mit dem Austausch massiver Bosonen. Die starke Wechselwirkung hat keine unendliche Reichweite, wie der Austausch masseloser Bosonen zunächst impliziert. Die zusätzliche Eigenschaft
des confinement führt hier zu einer endlichen Reichweite in der Größenordnung ∼ 10−15 m.
Die Stärke der elektromagnetischen Wechselwirkung wird durch die Kopplungskonstante e
oder äquivalent α beschrieben, wobei α bei niedrigen Energien durch die Feinstrukturkonstante gegeben ist, α = e2 /4π²0 h̄c = 1/137. Die Stärke der schwachen Wechselwirkung ist bei
ebenfalls niedrigen Energien gegeben durch die Fermikonstante GF = 1, 167 · 10−5 GeV−2 [1].
Der Name der starken Wechselwirkung rührt von der vergleichsweise stärkeren Kopplung,
12
KAPITEL 2. DAS STANDARDMODELL DER TEILCHENPHYSIK
gegeben durch die Kopplungskonstante gs bzw. αS , die bei kleinen Energien etwa den Wert 1
annimmt. Das letzte Limit bedeutet, dass Quarks sich wie frei Teilchen verhalten, wenn man
sie bei sehr hohen Energien, gleichbedeutend mit sehr kurzen Distanzen, beobachtet. Dieses
Verhalten wird auch als asymptotische Freiheit bezeichnet.
2.4
Grenzen des Standardmodells
Das Standardmodell der Teilchenphysik ist in der Lage, die beobachtbaren Fermionen, Eichbosonen und die drei fundamentalen Wechselwirkungen (abgesehen von der Gravitation) in eine
physikalisch-mathematische Theorie zu verpacken, die hochpräzise Tests überaus erfolgreich
besteht. Trotzdem bleiben noch viele Fragen offen, darunter: [7]:
• Das Gauge-Problem
Warum gibt es genau drei unabhängige Symmetriegruppen?
• Das Parameter-Problem
Wie kann die Zahl der freien Parameter im Standardmodell reduziert werden?
• Das Fermion-Problem
Warum gibt es genau drei Generationen? Wo rührt die Symmetrie zwischen Quarks und
Leptonen her? Sind diese Teilchen fundamental?
• Das Ladungsproblem
Warum sind die elektrischen Ladungen von Proton und Elektron exakt entgegengesetzt?
• Das Hierarchie-Problem
Warum ist die schwache Skala relativ gesehen so klein? Warum ist
mW
mP lanck
≈ 10−17 ?
Es sind bereits eine Reihe von Alternativen formuliert worden, keine liefert bislang allerdings
ein absolut konsistentes Bild und vor allem fehlt für jede dieser alternativen Theorien jeglicher
experimenteller Beweis.
2.4.1
GUT – Grand Unified Theories
Ein Hauptproblem beim Verständnis der fundamentalen Wechselwirkungen liegt in deren Zahl
und der verschiedenen Kopplungen. Die elektroschwache Theorie postuliert eine einzige Wechselwirkung zur Beschreibung elektromagnetischer und schwacher Prozesse und der spontanen
Symmetriebrechung, um die unterschiedlichen scheinbaren Stärken in den Energiebereichen
unterhalb der Massen der Austauschbosonen zu berücksichtigen. Die GUT postuliert nun weitere Symmetriebrechungsprozesse, um die relativ große Stärke der starken Wechselwirkung
bei niedrigen Energien mit einer einzigen intrinsischen Kopplung für alle drei Wechselwirkungen an der Vereinigungsschwelle zu vertragen. In Abbildung 2.1 (links) ist der Verlauf der
Kopplungen in Abhängigkeit der Energie gezeigt.
Führt man die Extrapolation bis zum Schnitt der drei Graphen durch, erreicht man Energien in der Größenordnung 1014 −1015 GeV, an denen nur eine Kopplung, deshalb auch nur eine
fundamentale Wechselwirkung existieren soll. Der GUT sollte also eine sehr hohe Symmetrie
zugrunde liegen, die bei niedrigen Energien gebrochen ist und das derzeitige Teilchenmodell
enthält. Im einfachsten Fall liefert die Gruppe SU(5) diese Symmetrie, die entsprechend der 24
Generatoren auch 24 Eichbosonen verlangt. 12 davon sind die bereits bekannten 8 Gluonen,
2.4. GRENZEN DES STANDARDMODELLS
Superf.
Gaugef.
Ga
Vk
V0
Matterf.
Li
Ei
Qi
Ui
Di
Higgsf.
H1
H2
Bosonen
Wk
Fermionen
ga
(W ± , Z0 )
B/γ
½
L̃i = (ν̃, ẽ)L
Ẽi = ẽR

˜L
 Q̃i = (ũ, d)
Squarks
Ũ = ũR
 i
D̃i = d˜R
Sleptons
½
Higgs
13
w̃k
g̃ a
(w̃± , z̃0 )
b̃ / γ̃
½
Li = (ν, e)L
Leptons
Ei = eR

 Qi = (u, d)L
Ui = uR
Quarks

Di = d R
H1
H2
½
Higgsinos
H̃1
H̃2
SU (3)C
SU (2)L
U (1)Y
8
1
1
0
3
1
0
0
0
1
1
3
3
3
2
1
2
1
1
−1
2
1/3
−4/3
2/3
1
1
2
2
−1
1
Tabelle 2.2: Die Teilchen des MSSM. Die Teilchen sind in Super-Multipletts angeordnet, zusammen
mit ihren supersymmetrischen Partnern.
W + , W − , Z und das Photon. In dieser Theorie kommen zusätzlich noch die sogenannten Leptoquarks hinzu YR , YG und YB mit Ladung Q = −1/3, sowie XR , XG , und XB mit Q = −4/3
plus die jeweiligen Antiteilchen [1]. Das Besondere an den Leptoquarks ist, dass sie Quarks
und Leptonen ineinander umwandeln können, was die Frage verwirft, warum es eigentlich
diese zwei verschiedenen Arten von Materieteilchen in der Natur gibt.
Diese relativ einfache und elegante Vereinigungstheorie wird jedoch durch ein einfaches
Experiment inkonsistent. So hätte die Umwandlung der Quarks in Leptonen den Zerfall des
Protons als Konsequenz. Das Proton könnte unter Berücksichtigung der Erhaltungssätze in
ein Meson und ein Lepton zerfallen, beispielsweise in ein Pion und ein Positron.
Berechnet man die Protonlebensdauer in diesem Modell (die Kopplung und die Massen
der Leptoquarks werden am Vereinigungspunkt angenommen: MX,Y ∝ 1014 GeV), so ergibt
sich τp ≈ 2 · 1028 − 6 · 1030 Jahre, während aktuelle Messungen (z.B. Kamiokande) eine untere
Grenze von τp = 1030 − 1032 Jahren nahelegen [2].
2.4.2
Supersymmetrie (SUSY)
Diese einfachste Version einer Vereinigungstheorie führt also nicht zum Ziel, eine genauere
Betrachtung der Extrapolation der drei Kopplungen bis zur Vereinigungsenergie zeigt zudem,
dass sich die drei Kurven gar nicht in einem Punkt schneiden, wenn man den Teilcheninhalt des Standardmodells zugrunde legt. Einen großen Schritt zur Lösung dieses Problems
macht die Theorie der Supersymmetrie (SUSY). Hier werden neue Teilchen postuliert, die
Teilchenanzahl wird verdoppelt. Im einzelnen erhält jedes Fermion einen supersymmetrischen
Bosonpartner und jedes Boson einen supersymmetrischen Fermionpartner. Die Namen dieser
Partner werden dadurch konstruiert, daß man ein ’s’ vor die Namen der Fermionen setzt
und ein ’ino’ hinter die Bosonnamen. Tabelle 2.2 zeigt einen Überblick über die so gebildeten
neuen Teilchen.
In Abbildung 2.1 ist der Verlauf der Kopplungen im Standardmodell mit dem im SUSYModell verglichen.
14
KAPITEL 2. DAS STANDARDMODELL DER TEILCHENPHYSIK
Abbildung 2.1: Verlauf der Kopplungskonstanten. Links das minimale Standardmodell, rechts mit
den Erweiterungen durch SUSY.
Da in dem theoretisch berechneten Verhalten der Kopplungen die Anzahl der Strahlungskorrekturen mit neuen Teilchen eingeht, ändert sich der Verlauf der Kopplungen im SUSYModell und man erreicht einen Schnitt aller drei Kurven in einem Punkt.
Im Rahmen der Supersymmetrie wird eine neue Quantenzahl, die R-Parität eingeführt. Die
alten Teilchen haben R = +1, die neuen supersymmetrischen Teilchen R = -1. Das Produkt
der R-Paritäten bleibt erhalten. Daraus folgt eine wichtige Konsequenz, die beim Auffinden
der bislang rein hypothetischen SUSY-Teilchen behilflich ist. So kann ein schweres supersymmetrisches Teilchen A in ein leichteres B und seinen ’normalen’ Partner A zerfallen. Dabei
wird die R-Parität nicht verletzt. Das leichteste supersymmetrische Teilchen B kann nicht in
ein anderes supersymmetrisches Teilchen zerfallen, kann aber wegen der R-Paritätserhaltung
auch nicht in normale Teilchen zerfallen. Das bedeutet, dass das leichteste supersymmetrische
Teilchen stabil sein muss, was es zu einem idealen Kandidaten für dunkle Materie macht (siehe
Kapitel 3.4 ’Dunkle Materie’). Theoretisch ist es schwer zu entscheiden, welches das leichteste
SUSY-Teilchen ist, man nimmt aber an, dass es neutral und schwach wechselwirkend ist, sonst
hätte man es schon entdeckt. Ein möglicher Kandidat ist das Neutralino.
Das SUSY-Modell ist tatsächlich ein aussichtsreicher Kandidat, um hinter die Grenzen des
Standardmodells zu blicken. Leider fehlt aber aktuell noch jeglicher experimentelle Beweis.
Experimente wie auch AMS hoffen, hier einen Beitrag zur Erkenntnisgewinnung beitragen zu
können.
Kapitel 3
Grundlagen moderner Kosmologie
Im ersten Teil dieses Kapitels wird eine kurze Einführung über die historische Entwicklung der
Kosmologie gegeben, der zweite Teil befasst sich mit der für das AMS Experiment wichtigen
Frage nach Dunkler Materie.
3.1
Grundlegende Gleichungen
Albert Einstein ging in seiner Allgemeinen Relativitätstheorie dem damaligen Erkenntnisstand folgend von einem statischen, stationären Universum aus. Seine Feldgleichungen der
Gravitation lauten:
8πG
1
Rνµ − gνµ R = 4 Tνµ
(3.1)
2
c
Tνµ ist der Energie-Impuls-Tensor, welcher die Materieverteilung beschreibt und Rνµ der RicciTensor, der ein Maß für die Abweichung des Raumes von einem Minkowski-Raum darstellt. gνµ
ist der Metrische Tensor, er beschreibt die Geometrie der Raumzeit. Eine besondere Rolle in
der Geschichte der Kosmologie nimmt die kosmologische Konstante Λ ein. Um ein statisches
Universum gewährleisten zu können, dass nicht durch die gravitative Anziehung in sich selbst
zusammenfällt, war es nötig, eine ’Gegenkraft’ zu postulieren, eine ’Antigravitation’.
Grundlage der modernen Kosmologie sind die so genannten Friedmann Gleichungen des
russischen Mathematikers Alexander Friedmann. Friedmann untersuchte als erster die vollen
Einsteinschen Gleichungen mit nichtstationären Lösungen für kosmologische Modelle. Zu seiner Zeit hatte man nur vage Hinweise auf eine kosmische Expansion, erst einige Jahre nach
Friedmanns Tod konnte die Expansion, also eine Zeitabhängigkeit des Weltalls, 1929 von Edwin Hubble durch astronomische Beobachtung nachgewiesen werden. Durch die Einführung
einer Expansion konnte Friedmann auf Einsteins kosmologische Konstante verzichten. Vorraussetzung für Friedmanns Modell ist das kosmologische Prinzip, also die Forderung nach
einem homogenen und isotropen Kosmos. Um ein homogenes und expandierendes Universum
allgemein beschreiben zu können, kombiniert man die einfache Metrik des dreidimensionalen
homogen gekrümmten Raums mit einer variablen Ausdehnung, dem so genannten Skalenfaktor S(t) und der Zeit selbst:
ds2 = c2 dt2 − S 2 (t)(
dr2
+ r2 (dθ2 + sin2 θdφ2 ))
1 − kr2
(3.2)
Diese Metrik heißt auch Robertson-Walker-Metrik. Ihre Haupteigenschaft ist, dass die Linien
l : (r, θ, φ = const) Geodäten sind und die Zeit t die Eigenzeit auf diesen Linien ist. Deshalb
15
16
KAPITEL 3. GRUNDLAGEN MODERNER KOSMOLOGIE
wird t auch kosmologische Zeit genannt und die Koordinaten r, θ, φ mitbewegte Koordinaten.
Der Krümmungsfaktor k beschreibt die Form des vierdimensionalen Riemann’schen Raumes,
er kann beliebige Werte annehmen, welche durch eine Skalierung von r aber immer auf die drei
Möglichkeiten -1, 0 oder +1 gebracht werden können. k = −1 entspricht hierbei einem hyperbolischem Raum, also einem offenen Universum, k = 0 einem flachen Raum und schließlich
k = +1 einem sphärischen Raum, also einem geschlossenen Universum. Für diesen Spezialfall
Abbildung 3.1: Geometrie des Raumes [8].
reduzieren sich die Einstein’schen Feldgleichungen (3.1) der Allgemeinen Relativitätstheorie
zu den beiden Friedmann Gleichungen:
Ṡ 2 + kc2
8π
Gρ
=
2
S
3
(3.3)
2S̈ Ṡ 2 + kc2
8π
+
= − 2 Gp
(3.4)
2
S
S
c
Auch die von Einstein eingeführte kosmologische Konstante Λ schien zunächst nicht mehr zur
Beschreibung des Universums notwendig zu sein, da eine Expansion der gravitativen Anziehung entgegenwirkt. Später erlebte die kosmologische Konstante hingegen eine Renaissance.
Eine wichtige Größe, die aus den Friedmann’schen Gleichungen abgeleitet werden kann, ist
die sogenannte kritische Dichte ρC . Das ist die Dichte, bei der die Geometrie des Universums
flach wird (k = 0):
3(Ṡ/S)2
(3.5)
ρC (t) =
8πG
3.2
Die drei Stützen der Urknall-Theorie
Der erste direkte Hinweis auf eine Expansion des Universums erfolgte 1929, also sieben Jahre nach Veröffentlichung der Friedmann’schen Gleichungen, durch Edwin Hubble: Es gelang
ihm, empirisch nachzuweisen, dass die Rotverschiebung einer beliebigen Galaxie mit ihrer
Entfernung zunimmt. Neben dieser Entdeckung gelten auch die Beobachtung der relativen
Häufigkeiten der leichten Elemente in Übereinstimmung mit der Vorhersage aus der primordialen Nukleosynthese sowie das vermessene Spektrum der kosmischen Hintergrundstrahlung
als größte Stützen der Urknall-Theorie.
3.2. DIE DREI STÜTZEN DER URKNALL-THEORIE
3.2.1
17
Das Hubble’sche Gesetz
Edwin Hubble maß die Rotverschiebung von 18 Spiralgalaxien mit bekanntem Abstand von
der Erde und konnte so auf deren Geschwindigkeit schließen. Er entdeckte, dass deren Fluchtgeschwindigkeiten v linear mit dem Abstand r zunahmen (Abbildung 3.2). Die Proportiona-
Abbildung 3.2: Hubble Diagramm [9].
litätskonstante der daraus folgenden Relation
v = H0 r
(3.6)
bezeichnet man seitdem als die Hubble-Konstante H0 . Eine Konstante stellt sie jedoch nur
für einen festen Zeitpunkt dar, so kennzeichnet der Index 0 beispielsweise die heutige Zeit,
im Allgemeinen ist H eine Funktion von t, die daher meist als der Hubble-Parameter [10]
bezeichnet wird und die sich auch mittels des Skalenfaktors S(t) darstellen lässt:
H(t) =
Ṡ(t)
S(t)
Als die Hubble-Konstante bezeichnet man oft auch die dimensionslose Zahl
H0
h=
100km s−1 M pc−1
(3.7)
(3.8)
Seit Hubbles Entdeckung wurde das gefundene Gesetz durch Beobachtungen an über 30000
Galaxien verifiziert [11]. Während bis vor kurzer Zeit noch ein systematischer Fehler von
beinahe dem Faktor 2 bestand, ergeben neuere Messungen nun einen Wert von [12]:
h = 0, 71 ± 0, 07
(H0 = 71 ± 7km s−1 M pc−1 )
(3.9)
Mit Hilfe der Hubble-Konstanten kann man auch die heutige kritische Dichte (3.5) angeben
zu ([10])
ρC (t0 ) = 1, 88h2 × 10−26 kg m−3 .
(3.10)
18
3.2.2
KAPITEL 3. GRUNDLAGEN MODERNER KOSMOLOGIE
Die primordiale Nukleosynthese
Im Gegensatz zu den ’schweren’ Elementen nimmt man an (siehe z.B. [10]), dass sich die
’leichten’ Elemente wie Deuterium, Helium-3, Lithium oder besonders Helium-4 bereits in
der Frühphase des Universums, wenige Minuten nach dem Urknall, gebildet haben. Diesen
Prozess nennt man die Nukleosynthese. Hier kann nur eine sehr verkürzte Darstellung der
Nukleosynthese gegeben werden, für eine ausführlichere Diskussion siehe z.B. [10], [14], [9],
[15] oder [16].
Kurze Zeit (t << 1s) nach dem Urknall, aber spät genug, so dass die Temperatur niedrig
genug ist, um davon ausgehen zu dürfen, dass alle Protonen und Neutronen nicht-relativistisch
sind (kB T << mp c2 ), befinden sich die Teilchen im thermischen Gleichgewicht und genügen
einer Maxwell-Boltzmann-Verteilung. Ihre Anzahldichte N ist somit von der Form
N ∝ m3/2 exp(−
mc2
).
kB T
(3.11)
Das relative Verhältnis von Neutronen zu Protonen ist also:
(mn − mp )c2
mn 3/2
Nn
=(
) exp[−
].
Np
mp
kB T
(3.12)
Da beide Teilchenmassen sehr ähnlich sind, ist der Vorfaktor nahe bei eins. Solange die Temperatur noch hoch genug ist, dass kB T >> (mn − mp )c2 gilt, ist auch der Exponentialfaktor
nahe bei eins und die Anzahl der Protonen und Neutronen ist ziemlich identisch. Über die
schwache Wechselwirkung können beide Teilchen ineinander umgewandelt werden:
n + νe ↔ p + e−
(3.13)
n + e+ ↔ p + ν̄e
(3.14)
Solange diese Übergänge schnell genug stattfinden können, befinden sich Neutronen und Protonen in thermischem Gleichgewicht mit der relativen Anzahldichte aus 3.12. Ab einer Temperatur von kB T ' 0, 8MeV, das entspricht einer Zeit von ca. drei Sekunden nach dem
Urknall, ist dies aber nicht mehr der Fall, das zu diesem Zeitpunkt herrschende Verhältnis
wird ’eingefroren’, es beträgt:
1, 3 MeV
1
Nn
' exp(−
)' .
Np
0, 8 MeV
5
(3.15)
Nach ungefähr drei Minuten ist die Temperatur so weit gesunken (kB T ' 0, 1MeV), dass sich
die ersten Atome bilden können. Da die Halbwertszeit von Neutronen bei thalb = 614s liegt,
muss man noch berücksichtigen, dass in der Zwischenzeit einige Neutronen zerfallen sind, so
dass sich das Verhältnis 3.15 noch auf ca.
Nn
1
'
Np
8
(3.16)
p+n→d+γ
(3.17)
verringert hat.
Hauptsächlich über die Reaktionen
3.3. DIE KOSMOLOGISCHE KONSTANTE
19
d+n→t+γ
(3.18)
t + p → 4 He + γ
(3.19)
kann dann Helium gebildet werden. Da fast alle Neutronen in Helium gebunden werden, kann
man eine Vorhersage für das Massenverhältnis von 4 He im Universum treffen:
Y4 ≡
2
2Nn
=
' 0, 22
Nn + Np
1 + Np /Nn
(3.20)
Eine genauere Analyse, die ein ganzes Netzwerk von Reaktionsgleichungen berücksichtigt [10],
ergibt leicht größere Werte um 0,24. Dies wird dann noch leicht durch Produktion von Helium in Sternen erhöht. Dieser Massenanteil von Helium an der Gesamtmasse kann gemessen
werden und die Ergebnisse bestätigen die Vorhersagen sehr gut.
3.2.3
Die kosmische Hintergrundstrahlung
1964 entdeckten die beiden Radioastronomen Arno Penzias und Robert Wilson vom AT&T
Bell Laboratory in New Jersey ein in ihren Augen seltsames Rauschen im Radiobereich. Damals war ihnen noch nicht bewusst, dass sie eine der bedeutesten Entdeckungen der modernen
Kosmologie gemacht hatten. Eine kosmische Mikrowellenstrahlung war bereits einige Jahre
vorher 1948 von Alpher und Herman [17] sowie von Robert Dicke aus Princeton als Relikt
aus dem Urknall vorhergesagt worden.
Moderne Messungen des 1989 gestarteten COBE Satelliten [18] ergaben, dass es sich bei
der gemessenen Strahlung um ein idelas Schwarzkörperspektrum der Temperatur
T0 = 2, 725 ± 0, 001 K
handelt [10] (Abbildung 3.3). Die Strahlung stammt aus der Zeit der Entkopplung von Strahlung und Materie, ca. 300000 Jahre nach dem Urknall bei einer Temperatur von ungefähr
3000 K: Das Universum kühlte sich durch die Expansion weiter ab, so dass die Photonen ab
einem gewissen Punkt nicht mehr genügend Energie besaßen, um Atome zu ionisieren. Die
Photonen konnten sich nun ungehindert ausbreiten, da sie nicht mehr an freien Elektronen
streuten. Dieser Zeitpunkt wird auch als die Rekombination bezeichnet.
Durch die bis heute fortschreitende Expansion des Universums kühlte sich auch die zur
Rekombination entstandene Schwarzkörperstrahlung (vorher befand sich Materie mit Strahlung in thermischem Kontakt, die Bedingung für eine schwarze Strahlung war also gegeben)
weiter bis auf heute 2,73 Kelvin ab. Das bedeutet, dass der kosmische Strahlungshintergrund
vorwiegend im Mikrowellenbereich leuchtet, weshalb man auch vom kosmischen Mikrowellenhintergrund spricht. Die von COBE gemessene Temperatur des Spektrums stimmt genau mit
den Vorhersagen des Urknall-Modells überein.
3.3
Die kosmologische Konstante
Wie in den vorangegangenen Kapiteln bereits erwähnt, hatte die kosmologische Konstante eine
besondere Rolle in der Geschichte der Kosmologie inne. Von Einstein zunächst eingeführt, um
ein statisches, stabiles Universum beschreiben zu können, wurde diese Idee später von Einstein
selbst wieder verworfen und als ’größter Fehler seines Lebens’ bezeichnet. Aus heutiger Sicht
zu unrecht, denn nach der Quantenfeldtheorie ist ein solcher Term zu erwarten, da auch
20
KAPITEL 3. GRUNDLAGEN MODERNER KOSMOLOGIE
Abbildung 3.3: Kosmische Hintergrundstrahlung. Selbst
Schwarzkörperspektrum gemessen werden.
im
Labor
kann
kein
genaueres
das Vakuum im Allgemeinen eine nicht verschwindende Energie besitzt [19], die so genannte
Vakuumenergie. Die Wirkung der Vakuumenergie ist vergleichbar mit der des kosmologischen
Terms.
Mit kosmologischer Konstante lauten die Friedmann-Gleichungen 3.3, 3.4:
8π
Ṡ 2 + kc2 Λ
Gρ
− =
2
S
3
3
(3.21)
2S̈ Ṡ 2 + kc2
8π
+
− Λ = − 2 Gp
S
S2
c
(3.22)
Teilt man 3.21 unter Berücksichtigung von 3.7 durch H 2 , so erhält man:
1=
8πGρ
kc2
Λ
−
+
2
2
2
3H
S H
3H 2
.
(3.23)
Den einzelnen Summanden dieser Gleichung gibt man häufig neue Namen:
Ωm =
8πGρ
3H 2
Ωk = −
kc2
s2 H 2
ΩΛ =
Λ
3H 2
(3.24)
Ωm bezeichnet man als den Materie-Dichteparameter, Ωk als den Krümmungsparameter und
ΩΛ als den Vakuum-Dichteparameter. Mit diesen Bezeichnungen vereinfacht sich 3.23 zu
1 = Ωm + Ωk + ΩΛ
.
(3.25)
Zahlreiche Experimente in den letzten Jahren hatten das Ziel, möglichst genau Werte für
diese drei Parameter zu finden. Das Supernovae Cosmology Project (SCP) [20] beispielsweise
3.4. DUNKLE MATERIE
21
Abbildung 3.4: Supernovae Cosmology Project [20]
untersuchte Rotverschiebungen bei 42 Typ-Ia-Supernovae und und verglich die Ergebnisse
mit den Erwartungen für Λ = 0, siehe Abbildung 3.4. Bei der Analyse der gewonnenen Resultate wurde hier schon deutlich, dass ein Universum mit einer verschwindenen kosmologischen
Konstante nicht gut mit den Messergebnissen in Einklang zu bringen ist.
Kombiniert wurden die gewonnenen Erkenntnisse mit den Ergebnissen der Experimente
MAXIMA [21], Boomerang [22] und auch mit neuen Werten des WMAP 1 -Teams, die allesamt
die Anisotropie der kosmischen Hintergrundstrahlung untersuchten (Abbildung 3.5) und mittels der richtungsabhängigen Temperaturschwankungen im Mikrowellenhintergrund auf die
Dichteparameter schließen konnten.
Das von diesen Daten ausgesonderte längliche Gebiet in der (Ωm , ΩΛ )-Ebene (Abbildung
3.6) steht nahezu senkrecht auf demjenigen der Supernovae-Daten, so dass sich ein relativ
kleines Überlappungsgebiet ergibt.
Zusammengefasst geht man heute von folgenden Werten der dynamischen Parameter aus:
(Ωm ; ΩΛ ; Ωk ) ' (0, 04; 0, 73; 0)
,
(3.26)
wobei Ωm zu 4% aus ’gewöhnlicher’, atomarer und zu 23% aus einer einer unbekannten,
’dunklen’ Materie besteht.
3.4
Dunkle Materie
Zahlreiche Beobachtungen deuten darauf hin, dass es im Universum wesentlich mehr nur
gravitativ wechselwirkende als leuchtende Materie zu geben scheint [3]. Der erste Teil die1
WMAP (Wilkinson Microwave Anisotrioy Probe) ist ein Nachfolge Projekt von COBE [18], der ersten
Mission der NASA, die der Kosmologie gewidmet war [19]. Gemessen werden Unebenheiten im Mikrowellenhintergrund.
22
KAPITEL 3. GRUNDLAGEN MODERNER KOSMOLOGIE
Abbildung 3.5: Anisotropie der kosmischen Hintergrundstrahlung, Leistungsspektrum, aufgenommen durch WMAP [20]. Der linke Teil stammt vom Sachs-Wolfe-Effekt, die großen
Peaks in der Mitte des Spektrums sind auf akustische Schwingungen zurückzuführen
und die leichten Schwankungen rechts unten können mittels der Silk-Dämpfung erklärt werden.
Abbildung 3.6: Koinfidenzgebiete[8]
3.4. DUNKLE MATERIE
23
ses Kapitels nennt einige Gründe für die Annahme, dass eine so genannte Dunkle Materie
existiert, im zweiten Teil wird die Frage nach der Natur dunkler Materie, also ob sich um
baryonische- oder nicht-baryonische Materie handelt, diskutiert.
3.4.1
Evidenz für dunkle Materie
Den ersten Hinweis auf die Existenz Dunkler Materie erhielt der Astronom Jan Oort 1932
[23] bei der Untersuchung der Bewegungen nahegelegener Sterne in Bezug auf die galaktische
Scheibe unserer Milchstraße. Er untersuchte deren gravitativen Einfluß auf diese Sterne, um
so auf die Masse der Scheibe schließen zu können. Zu seiner Überraschung stimmte seine
Berechnung nicht mit der Beobachtung überein, die Masse der sichtbaren Sterne und Nebel
betrug nur ca. die Hälfte des Wertes seiner Berechnung.
Seit dieser Entdeckung gab es viele Experimente, die die Frage der dunklen Materie klären
sollten. Einige wichtige werden im folgenden aufgelistet und kurz diskutiert.
• Rotationskurven von Spiralgalaxien
Spiralgalaxien sind Gebilde von Milliarden von Sternen, die in der Form einer rotierenden Scheibe mit einer zentralen Verdichtung (eng. ’bulge’) angeordnet sind. Eine
Kreisbahn der Sterne um das galaktische Zentrum vorausgesetzt, verhalten sich die
Rotationsgeschwindigkeiten der einzelnen Sterne gemäß den Kepler’schen Gesetzen wie
r
GMr
,
(3.27)
v(r) =
r
wobei Mr die Masse innerhalb der Bahn mir Radius r ist. Nimmt man für den Bulge ein
kugelförmiges Gebilde mit konstanter Dichte ρ an, so erwartet man für den innersten
Teil einer Galaxie eine Rotationskurve von
v(r) ∼ r.
(3.28)
Ausserhalb der Galaxie hingegen entspricht Mr der Gesamtmasse der Galaxie, so dass
man hier entsprechend
1
v(r) ∼ √
(3.29)
r
erwarten sollte. Tatsächlich kommt man aber bisher bei allen beobachteten Galaxien zu
dem Ergebnis [3] (siehe Abbildung 3.7)
v(r) = konstant ,
(3.30)
welches bedeutet
Mr ∼ r
.
(3.31)
Dies legt die Vermutung einer großen Masse weit über den sichtbaren Bereich hinaus
nahe, die aber optisch nicht in Erscheinung tritt und führt zu der Hypothese eines Halos
aus dunkler Materie [3].
• Bewegungen in Galaxienhaufen
Sogenannte Galaxienhaufen oder Cluster 2 sind die größten bekannten gravitativ gebundenen Objekte im Universum, sie können sich zu Gruppen von zehn bis zu einigen
2
engl: Haufen
24
KAPITEL 3. GRUNDLAGEN MODERNER KOSMOLOGIE
Abbildung 3.7: Rotationskurve der Spiralgalaxie NGC 6503 Der flache Verlauf bis weit hinaus über
den optischen Rand kann bisher nur durch einen sehr massiven dunklen Halo erklärt
werden [3]
hundert formieren [24]. Mit Hilfe des Virialtheorems
2hEkin i + hEpot i = 0
(3.32)
kann die Gesamtmasse der Galaxien eines Galaxienhaufens aus den Bewegungen dieser
Galaxien abgeleitet werden. Die Anwendung des Virialsatzes aus Daten einiger Galaxienhaufen ergab einen Faktor 10 mal mehr Masse als man anhand der sichtbaren
Objekte erklären konnte [24].
• Röntgenemissionen von Galaxienhaufen
Eine weitere Möglichkeit, Informationen über dunkle Materie in Galaxienclustern zu
gewinnen, besteht in der Untersuchung von Röntgenemissionen: Mit Satelliten wie z.B.
ROSAT [25] wurde ausgedehnte Röntgenstrahlung aus Himmelsgebieten um Galaxienhaufen festgestellt. Abbildung 3.8 zeigt ein von ROSAT aufgenommes Bild des Clusters
Abell 3582. Gas, das Röntgenstrahlen emittiert, besitzt eine Temperatur im Bereich von
zehn Millionen Grad. Da solches Gas dünn und sehr beweglich, andererseits im Galaxienhaufen gebunden ist, muss der Haufen eine sehr große Schwerkraft auf dieses Gas
3.4. DUNKLE MATERIE
25
Abbildung 3.8: Röntgenemission des Galaxienhaufens Abell 3582 [25]
ausüben. Dies erlaubt eine Abschätzung der Gesamtmasse des Clusters. Hier zeigt sich,
dass typischerweise 10 bis 40% der Gesamtmasse in Form dieses Gases vorliegt [3]. Dies
bedeutet jedoch auch, dass, da der Anteil der sichtbaren Galaxien nur etwa 1 bis 7% beträgt [3], immer noch etwa zwei Drittel der gesamten Clustermasse aus unbeobachteter
dunkler Materie bestehen muss.
• Grvitationslinsen
Nach Einsteins Allgemeiner Relativitätstheorie erzeugen große und massereiche Galaxienhaufen eine lokale Raumkrümmung. Sie bewirkt, dass Licht eines Hintergrundobjektes durch die Wirkung der Gravitation abgelenkt wird. Seit den 80-er Jahren kennt
man ’merkwürdige’ leuchtende Bögen in der Nähe von sehr massereichen Galaxien. Sie
wurden 1987 als durch Gravitationslinsen erzeugte verzerrte Abbilder von Hintergrundgalaxien erkannt [24]. Theoretische Überlegungen erlauben, aus der Lage und Form der
Bögen die Verteilung der Masse und die Gesamtmasse des Galaxienhaufens abzuleiten.
Auch hier stellte sich heraus, dass weitaus mehr Masse (ein Faktor grösser als 10) vorhanden sein muss, als man ohne dunkle Materie erklären kann. Abbildung 3.9 zeigt eine
vom Hubble Teleskop aufgenommene ’Gravitationslinse’ am Beispiel des Clusters Abell
2218.
• Elementhäufigkeiten
Wie in Kapitel 3.2.2 gezeigt wurde, erlaubt es die Urknall-Theorie, anhand der primordialen Nukleosynthese auf die Häufigkeit der leichten Elemente wie Helium, Deuterium oder Lithium zu schließen. Abbildung 3.10 zeigt die berechneten Häufigkeiten in
Abhängigkeit der Barionendichte ΩB und der Hubble-Konstanten h. Der vertikale Balken im Diagramm gibt die tatsächslich gemessenen Häufigkeiten an, seine Dicke ist ein
Indiz für die Unsicherheit der Messwerte. Laut [10] führt dies zu folgender Abschätzung:
0, 016 ≤ ΩB h2 ≤ 0, 024 .
(3.33)
26
KAPITEL 3. GRUNDLAGEN MODERNER KOSMOLOGIE
Abbildung 3.9: Hubble-Aufnahme des Galaxienhaufens Abell 2218, der auch als Gravitationslinse
wirkt. Foto: STScI, ESA/NASA. Die vom Galaxienhaufen Abell 2218 erzeugte Gravitationskraft bewirkt Verzerrung von Bildern der Hintergrundobjekte zu Punktquellen und Bögen. Aus der Form der Verzerrung und weiteren Informationen ist die
Gesamtmasse des Galaxienhaufens modellierbar. Auch aus diesem Phänomen leitet
man die Existenz von deutlich mehr Masse ab, als die bekannten Massekomponenten
erklären können.
Besonders die Menge an gemessenem Deuterium ist ein guter Hinweis darauf, dass es
unmöglich zu sein scheint, dass die kritische Dichte lediglich von baryonischer Materie aufgebracht wird, was wiederum auf die Existenz einer nicht-baryonischen dunklen
Materie hindeutet.
3.4.2
Die Natur der dunklen Materie
Nachdem sich der vorangegangene Abschnitt mit den Hinweisen auf die Existenz von dunkler
Materie beschäftigt hat, und sich deren Existenz immer mehr verifiziert, behandelt dieser Teil
nun die Frage der Natur der dunklen Materie, also was als dunkle Materie in Frage kommt.
Grundsätzlich unterscheidet man bei diesen Überlegungen zwischen baryonischer und nichtbaryonischer dunkler Materie.
Baryonische dunkle Materie
Unter dieser Art versteht man Obejekte wie Planeten, Braune Zwerge, Weiße Zwerge oder
Schwarze Löcher [3]. Es handelt sich also um Körper, die es entweder nie geschafft haben, ein
Stern zu werden3 wie beispielsweise Planeten oder Braune Zwerge, oder um die Überbleibsel
eines Sternes, wie etwa die Weißen Zwerge oder die Schwarzen Löcher. Da diese sogenannten
MACHOs4 eine mögliche Lösung für das im vorangegangenen Abschnitt vorgestellte Problem
der Rotationskurven von Galaxı́en [3] sein könnten, hat man die Suche nach solchen Objekten
in den letzten Jahren intensiviert. Das amerikanisch-australisch-kanadische MACHO-Projekt
[26] macht sich hierzu den von der Allgemeinen Relativitätstheorie vorhergesagten Gravitationslinseneffekt zunutze: Beim so genannten Mikrolensing-Effekt kommt es aufgrund des
3
4
Objekte mit einer Masse kleiner als 0,08 Sonnenmassen
MACHOs = Massive Compact Halo Objects
3.4. DUNKLE MATERIE
27
Abbildung 3.10: Abschätzung der Elementhäufigkeiten anhand der primordialen Nukleosynthese
Durchgangs eines massiven, kompakten Objektes zu Modifikationen und Verstärkungen der
Bilder von Sternen [3]. Abbildung 3.11 zeigt den über ein Jahr lang aufgenommenen Helligkeitsverlauf eines MACHO-Kandidaten. Auch wenn also bereits Evidenz für die Existenz von
MACHOs vorliegt, so muss man dennoch beachten, dass baryonische dunkle Materie aufgrund
der durch die Nukleosynthese vorliegenden Grenze 3.33 nur einen kleinen Teil der gesamten
dunklen Materie ausmacht.
Nicht-baryonische dunkle Materie
Die meisten der möglichen Kandidaten konnten noch nicht beobachtet werden, sondern entstammen lediglich physikalischen Theorien. Hier zeigt sich das Zusammenwachsen der Kosmologie mit der Teilchenphysik also am stärksten. Zukünftige Experimente (wie auch AMS)
hoffen, diese Lücken eines Tages schließen zu können.
Man unterscheidet zwischen kalter und heißer dunkler Materie.5 Unter heißer dunkler
Materie versteht man Teilchen, die zum Zeitpunkt der Entkopplung von Strahlung und Materie, also ca. 300000 Jahre nach dem Urknall, relativistische Geschwindigkeiten besaßen, ihre
Massen werden zwischen 0 − 100 eV vermutet. Gäbe es ausschließlich heiße dunkle Materie,
so gäbe es Probleme mit der Erklärung der Strukturbildung im frühen Universum, da die
relativistischen Teilchen Fluktuationen ’verwaschen’ würden und somit einer Clusterbildung
entgegenwirken. Entsprechend ordnet man kalter dunkler Materie Teilchen zu, die zu diesem Zeitpunkt nichtrelativistische Geschwindigkeiten besaßen, ihre Massen erwartet man im
hohen GeV-Bereich (siehe Tabelle 9.2 auf Seite 287 in [3] ).
5
Hier haben sich vielfach die englischen Ausdrücke Cold Dark Matter und Hot Dark Matter durchgesetzt.
28
KAPITEL 3. GRUNDLAGEN MODERNER KOSMOLOGIE
Abbildung 3.11: Helligkeitsverlauf eines MACHOs. [26]
• Heiße dunkle Materie
Aussichtsreichstes Teilchen ist das gewöhnliche Neutrino, allerdings nur, falls es massebehaftet ist (siehe Kapitel 2, MSSM). Es ist das einzigste aller nicht-baryonischen
Teilchen, dessen Existenz bisher bewiesen ist, allerdings konnte noch nicht abschließend
geklärt werden, ob es nun tatsächlich massebehaftet ist oder nicht, auch wenn zur Zeit
vieles dafür spricht [2]. Dennoch sind die bisher gefundenen Massen-Obergrenzen nicht
hoch genug, um alle fehlende dunkle Materie erklären zu können.
• Kalte dunkle Materie
Wie in Kapitel 2 besprochen, sehen Teilchenphysiker die Supersymmetrie als eine mögliche solide Erweiterung des Standardmodells an. Von allen unter dem Namen WIMPs 6
zusammengefassten exotischen Teilchen gibt man dem leichtesten supersymmetrischen
Teilchen, Favorit hierfür ist zur Zeit das Neutralino, die besten Aussichten, für einen
großen Teil der dunklen Materie im Universum verantwortlich zu sein. Aber auch andere theoretische Konstrukte wie so genannte Axionen oder auch topologische Defekte
werden von Astroteilchenphysikern kontrovers diskutiert.
6
WIMP = ’Weakly Interacting Massive Particle’, schwach wechselwirkendes massives Teilchen
3.5. NACHWEIS DUNKLER MATERIE
3.5
29
Nachweis dunkler Materie
Bei den Experimenten zum Nachweis dunkler Materie unterscheidet man zwischen direkten
und indirekten Nachweismethoden. Direkte Experimente versuchen, dunkle Materie durch
Wechselwirkung im Laborexperiment nachzuweisen, indirekte versuchen hingegen, Reaktionsprodukte der dunklen Materie zu detektieren.
Das AMS Experiment zählt zu den indirekten Experimenten und hat zum Ziel, WIMPVernichtungsprodukte nachzuweisen:
• WIMPs und Anti-WIMPs streuen an Kernen und haben mit einer gewissen Wahrscheinlichkeit danach nicht mehr genügend Energie, um den Himmelskörper zu verlassen.
• Im Laufe von Jahrmillionen haben sich auf diese Weise WIMPs im Zentrum der Himmelskörper angesammelt – es kommt zur WIMP-Vernichtung.
• Der AMS-02 Detektor (siehe Kapitel 4) versucht WIMP-Vernichtungsprodukte wie Antiprotonen, Positronen, Photonen oder hochenergetische Neutrinos zu registrieren und
auszuwerten.
30
KAPITEL 3. GRUNDLAGEN MODERNER KOSMOLOGIE
Kapitel 4
Der AMS-02 Detektor
Abbildung 4.1: Der AMS-02 Detektor, aus [27]
Der AMS-021 -Detektor soll 2007 im Weltraum auf der internationalen Raumstation ISS2
angebracht werden. Ziel dieses Projektes ist es, kosmische Teilchenströme, die auf der Erde
aufgrund der Absorptionsfähigkeit der Atmosphäre nicht oder nur teilweise gemessen werden können, in bisher nicht da gewesener Genauigkeit detektieren zu können. Aus den zu
messenden Daten erhofft man sich, wichtige Schlüsse in Bezug auf zwei noch ungeklärte Fra1
2
AMS = Alpha Magnetic Spectrometer
International Space Station
31
32
KAPITEL 4. DER AMS-02 DETEKTOR
gen der Teilchenastrophysik – zu einem das Problem der fehlenden ausreichenden Existenz
von Antimaterie im Weltall und zum anderen die noch immer unzureichende Kenntnis der
Zusammensetzung von dunkler Materie – ziehen zu können.
Der Detektor wird in einer Höhe von ungefähr 400 km in einer Zeitspanne von drei
Jahren Daten mit einer Auflösung von 0, 7 m2 sr [28] sammeln. Es werden unter anderem sowohl kosmische Protonen, Antiprotonen, Elektronen und Positronen in bisher nicht erreichten
Energiebereichen gemessen werden. Ebenso wird hochenergetische (bis ca. 30 GeV) Gammastrahlung, die genauere Aufschlüsse über Phänomene wie so genannte Gamma-Ray-Bursts
geben soll, gemessen.
Von besonderem Interesse ist der mögliche Nachweis supersymmetrischer Teilchen (siehe
Kapitel 2 – Supersymmetrie (SUSY)), der indirekt über die aus der Annihilation von SUSYTeilchen in Fermion-Antifermion-Paare entstehende Antimaterie gelingen könnte. Dafür ist
es notwendig, dass Signale von Antiteilchen wie Positronen vom vorherrschenden restlichen
Teilchenhintergrund, der zu großem Teil aus Protonen besteht, mit einer ausreichenden Signifikanz separiert werden können. Um dies zu erreichen, ist der AMS02-Detektor mit zahlreichen
Subdetektoren ausgestattet, die im folgenden vorgestellt werden. Die Darstellung richtet sich
dabei im Wesentlichen nach den in [27] vorliegenden Beschreibungen, aufgrund der ständigen
Forschung und Weiterentwicklung ist es möglich, dass Teile der beschriebenen technischen
Realisierungen noch bis zum Start mehr oder weniger großen Änderungen unterliegen werden. Im einzelnen sind dies der ’Tracker’, (Silizium-Spurdetektor) mit einem supraleitenden Magneten, ein Synchrotronstrahlungsdetektor (SRD3 ), ein Übergangsstrahlungsdetektor
(TRD4 ), eine Flugzeit-Messeinheit (ToF5 ), ein Silizium-Spurendetektor, ein Cerenkov-Zähler
(RICH6 ), sowie ein elektromagnetisches Kalorimeter. Eine schematische Übersicht des gesamten Detektors mit Beschriftungen der einzelnen Komponenten ist in Abbildung 4.1 zu
sehen.
4.1
Übergangsstrahlungs-Detektor (TRD)
Durchquert ein geladenes Teilchen die Grenzfläche zweier Materialien mit unterschiedlichen
Dielektrizitätskonstanten, so emmitiert es beim Übergang von einem Medium ins nächste elektromagnetische Strahlung in Vorwärtsrichtung. Diese Strahlung wird Übergangsstrahlung genannt. Für ein relativistisches Teilchen wird sie in einem Kegel konzentriert, dessen Öffnungswinkel Θ ∼ 1/γ durch den relativistischen Dilatationsfaktor γ = E/mc2 bestimmt ist. Bei dem
vom AMS-Detektor verwendeten periodisch angeordneten Foliensystem mit äquidistanten
Zwischenräumen treten Interferenzeffekte auf, die dazu benutzt werden können, um Teilchen mit gleichem Impuls, aber unterschiedlicher Masse zu unterscheiden. Eine solche Folie
besteht aus polypropylenem Vlies, dessen Fasern einen Durchmesser von ∼ 10 µm und eine
gemittelte Dichte von 0, 06g/cm3 besitzen. Der TRD Detektor besteht aus 20 Schichten dieser
Art, mit einer Dicke von jeweils 22 mm. Zwischen den Schichten befinden sich 6 mm dicke
Röhren mit einem gasförmigen Xe/CO2 -Gemisch.
Zusammen mit dem Kalorimeter soll der TRD Detektor in der Lage sein, Teilchen wie
Elektronen und Hadronen eindeutig zu identifizieren. Man hofft beispielsweise, 90 − 95% der
3
Synchrotron Radiation Detector
Transition Radiation Detector
5
Time of Flight
6
Ring Imaging Cerenkov Detector
4
4.2. FLUGZEIT-DETEKTOR (TOF)
33
Abbildung 4.2: Transition Radiation Detector (TRD)
Elektronen im Energieintervall von 1 GeV bis zu 100 GeV messen zu können.
4.2
Flugzeit-Detektor (ToF)
Der aus Szintillationszählern aufgebaute Flugzeitdetektor (ToF) besteht aus vier Schichten,
von denen zwei direkt unter dem TRD und zwei hinter dem Tracker angebracht werden, siehe
Abbildung 4.3. Die ToF-Einheit hat im Wesentlichen vier verschiedene Aufgaben:
Abbildung 4.3: Detektor zur Flugzeitmessung (ToF)
• die Triggerung des Experimentes
• die Messung der Flugzeit der den Detektor durchquerenden Teilchen und damit sowohl
deren Geschwindigkeit als auch die entsprechenden Ein- und Austrittskoordinaten
• die Unterscheidung von Elektronen und Positronen auf der einen Seite und Protonen
und Antiprotonen auf der anderen bis ca. 1 − 2 GeV
34
KAPITEL 4. DER AMS-02 DETEKTOR
• die Messung der Gesamtladung der durchquerenden Teilchen zusätzlich zur äquivalenten
Messung des Trackers.
Jede Schicht besteht aus 11 cm breiten und 1 cm dicken Szintillatoren, deren Licht von je
zwei Photomultipliern gesammelt wird.
4.3
Silizium-Spurdetektor (Tracker)
Der Silizium-Spurdetektor (Abbildung 4.4, auch Tracker genannt, besteht aus acht dünnen
doppelseitigen Platten von Silizium-Mikrostreifen-Detektoren mit einem räumlichen Auflösungsvermögen von ca. 17 µ m in der Ebene des Magneten und ca. 30 µ m in der dazu
senkrechten Ebene. Er ist schematisch in Abbildung 4.4 dargestellt. Sechs der acht Platten
Abbildung 4.4: Silizium-Spurdetektor
befinden sich innerhalb des supraleitenden Magnetes, der eine Stärke von ungefähr 0, 8 Tesla
hat, zwei außerhalb. Anhand der Rekonstruktion der Teilchenspur im Detektor wird auf jeder
der acht Platten dessen Impuls-Ladungs-Verhältnis ermittelt. Die einzelnen Platten bestehen
aus 192 sogenannten Silizium-Leitern, insgesamt umfassen sie eine Fläche von ca. 6 m2 .
4.4
Der supraleitende Magnet
Der supraleitende Magnet (siehe Abbildung 4.5 ist in der Lage, in seinem Zentrum ein Magnetfeld von bis zu 0, 87 Tesla aufzubauen, an seinen Rändern in einem Abstand von ca.
230 cm ist es bis auf ungefähr 15, 2 mT abgefallen. Er besteht aus einem mit Aluminium angereicherten NbTi-Draht mit einem angelegten Strom von 459 A. Durch die Verwendung von
2500 l flüssigen Heliums kann die Temperatur auf lediglich 1, 8 K gehalten werden. In diesem
Zustand kann die Apperatur über drei Jahre hinweg ohne Nachfüllung des Heliums arbeiten.
Der Magnet hat einen inneren Radius von 1, 1 m, der äußere, also mit Berücksichtigung
des den Draht umgebenden Heliumtanks, berträgt 2, 7 m. Die Gesamtmasse des Magneten
beträgt 3 t und macht somit mehr als die Hälfte des Gewichts des gesamten Detektors aus.
4.5. CERENKOV-ZÄHLER (RICH)
35
Abbildung 4.5: Der supraleitende Magnet
4.5
Cerenkov-Zähler (RICH)
Es kommt zur Emission von Cerenkov-Licht, also elektromagnetischer Strahlung, sobald die
Geschwindigkeit der den Detektor durchquerenden Teilchen einen Wert größer als
v=
c
n
(4.1)
erreicht, wobei n den Brechungsindex kennzeichnet. Dieser Effekt kann durch die zeitweise
Polarisation der Atome des die Teilchenbahn umgebenden Mediums erklärt werden. Für kurze Zeit werden diese zu elektrischen Dipolen und erlangen dadurch ein zeitlich verändertes
Dipolmoment, was in der Aussendung elektromagnetischer Strahlung resultiert. Aus dem
Öffnungswinkel
1
(4.2)
cos Θ = β
n
(β = vc ) des so erzeugten Lichtkegels kann man auf die Geschwindigkeit und die Richtung des
geladenen Teilchens schließen. Mittels der Anzahl der durch den Cerenkov-Effekt ausgelösten
Photonen kann man außerdem über die Relation
Nγ ∝ LZ 2
(4.3)
die Ladung der Teilchen bestimmen, wenn L die durchquerte Weglänge bezeichnet.
Der Detektor (Abbildung 4.6), der aus einer 1 − 2 cm dicken NaF-Fläche besteht sowie
Photomultipliern zur Verstärkung der emittierten Photonen aufgebaut ist, befindet sich zwischen der ToF-Einheit und dem Kalorimeter. Es besteht die Möglichkeit der Erkennung von
Elektronen und Positronen bis zu einer Energie von 5 GeV, außerdem wird man in der Lage
sein, Kerne und Isotope bis zu einer Ladungszahl von Z = 25 zu unterscheiden.
Abbildung 4.6: Cerenkov-Zähler (RICH)
36
4.6
KAPITEL 4. DER AMS-02 DETEKTOR
Elektromagnetisches Kalorimeter
Kalorimeter sind Detektoren, mit denen die Energie und die Art von Teilchen bestimmt werden kann. Ihr Vorteil besteht darin, dass sie auch gegenüber ungeladenen Teilchen empfindlich
sind. In Kalorimetern wird die elektromagnetische und starke Wechselwirkung von Elementarteilchen mit Materie ausgenutzt: Hadronen verlieren ihre Energie hauptsächlich durch mehrfache Kernstöße. Elektronen und Positronen verlieren ihre Energie durch Bremsstrahlung, Paarbildung und Ionisation. Kalorimeter bestehen aus passiven Materieplatten (z.B. Blei, Eisen,
Uran), in denen die Wechselwirkung stattfindet, und die so als Absorptionsmaterial wirken,
und dazwischenliegenden aktiven Detektorelementen (Szintillatoren), an die Photomultiplier
angebracht werden. Das Kalorimeter muss so dick gebaut werden, dass die primären Teilchen
ihre ganze Energie stufenweise in einem Schauer (Kaskade) von Teilchen mit immer kleinerer Energie abgeben. Man kann an der Struktur des Sekundärteilchenschauers die Art der
Teilchen identifizieren. Der überwiegende Teil der freiwerdenen Energie wird letztendlich im
Szintillator als sichtbares Licht abgegeben. Das Szintillatorlicht wird von den Photomultipliern
aufgefangen, die Lichtmenge ist proportional zur Energie des eingelaufenen Primärteilchens.
Das im AMS-02 Detektor benutzte Kalorimeter (Abbildung 4.7) kann Leptonen mit Energien von wenigen GeV bis hin zu einem TeV registrieren, Hadronen werden nur einen kleinen
Teil ihrer Energie abgeben. Das 65, 8 × 65, 8 cm2 große und 16, 5 cm dicke Kalorimeter hat ein
Gewicht von 630 kg. Das Kalorimeter besitzt eine Strahlungslänge von X0 = 9, 6±0, 3 mm und
eine nukleare Absorptionslänge von λ ≈ 17 cm (siehe Gleichung 6.2). Die Gesamtdicke von
ca. 16, 65 cm des Kalorimeters mit seinen 9 Bleischichten und den dazwischen Szintillatoren
entspricht ungefähr 15X0 oder 0, 5λ. Die Energie-Auflösung beträgt
0.13
σ(E)
=p
⊕ 0.030 .
E
E(GeV )
(4.4)
Das Zeichen ⊕ bedeutet hier, dass die beiden Terme im Sinne der Fehlerrechnung quadratisch zu addieren sind. Somit ist klar, dass die Energie-Auflösung bei hohen Energien
(E ≥ 100 GeV) durch den konstanten Term dominiert wird.
Abbildung 4.7: Elektromagnetisches Kalorimeter
Kapitel 5
Neuronale Netze
Während Probleme, die durch einen Algorithmus in kurzer Zeit exakt zu lösen sind, von einem Computer deutlich schneller gelöst werden können als von einem Menschen, benötigt
das menschliche Gehirn für Aufgaben wie das Erkennen eines Gesichts wesentlich weniger
Zeit. Ein weiterer Vorteil des menschlichen Gehirns ist, daß auch dann noch korrekte Ergebnisse geliefert werden, wenn es zu einem Ausfall einiger für die Problemlösung notwendiger
Nervenzellen kommt. Selbst wenn die ’Eingaben’ ungenau sind, also beispielsweise ein Text
durch Verschmutzung unleserlich geworden ist, kann das Gehirn den Text noch erkennen.
Ein Computer liefert in diesen Fällen fehlerhafte bzw. unbrauchbare Ergebnisse. Die Idee ist
daher, die Arbeitsweise des Gehirns auf Maschinen zu übertragen.
5.1
Der Zusammenhang mit der Biologie
Das menschliche Gehirn ist eine der kompliziertesten Strukturen, die uns bekannt ist. Um so
beachtenswerter ist, dass im Gehirn nur ein Grundtypus von Zelle existiert, der Information
übertragen und diese in gewisser Weise auch speichern kann. Dieser Grundtypus wird mit Nervenzelle oder auch Neuron bezeichnet [29]. Jede Nervenzelle besteht aus einem Zellkörper und
einer Reihe von faserartigen Fortsätzen. Doch nur eine einzige dieser Fasern, das Axon, dient
der Weitergabe von Information, alle anderen Fortsätze, die sogenannten Dendriten, empfangen Signale von anderen Neuronen. Die Länge von Axonen variiert beträchtlich (10 µm−1 m),
während Dendriten etwa 10 µm − 100 µm lang sind. Das Axon spaltet sich an seinem Ende
in bis zu 1000 dünne Äste auf, die in kleinen Verdickungen enden. Dort findet die Informationsübertragung auf die benachbarte Zelle über eine eine Synapse statt, einem schmalen
Spalt zwischen Axon und den benachbarten Dendriten. Innerhalb der Nervenzelle pflanzt
sich ein Signal auf elektrochemischem Wege über die Steuerung von Membranpotentialen
fort. An den Synapsen werden die Signale chemisch durch Ausschüttung von Neurotransmittern übertragen, die sowohl erregend als auch hemmend wirken können. Diese binden sich
an Rezeptoren auf der postsynaptischen Membran der Dendriten und verändern so deren
Membranpotential. Im Zellkörper der Nervenzelle summieren sich die Potentiale der einzelnen Dendriten auf. Wird ein bestimmter Schwellwert überschritten, dann feuert das Neuron,
d. h. es sendet ein Impulssignal über das Axon zu seinen Nachbarn, andernfalls bleibt es ruhig.
Der mathematische Modellansatz, ein Neuron als einen Summierverstärker mit individueller Gewichtung seiner Eingänge zu verstehen, ist durchaus naheliegend. Im Modell werden
Neuronen auch Knoten genannt. Das etwas komplizierte Übertragungsschema von Axonen
37
38
KAPITEL 5. NEURONALE NETZE
und Dendriten wird durch Verbindungen mit variablen Gewichten ersetzt:
X
ni (t + 1) = Θ(
wij nj (t) − µi ).
(5.1)
j
Das Gewicht wij repräsentiert die Stärke, mit der das Neuron j eine Informationseinheit
Abbildung 5.1: Biologisches Neuron. Aus [30]
über eine Synapse zu Neuron i übertragen kann. µi entspricht dem Schwellenwert, ab dem
das Neuron feuern soll. In einer etwas allgemeineren und auch biologisch plausibleren Darstellung wird die Stufen- oder auch Heavyside-Funktion Θ, durch eine kontinuierlich verlaufende
sigmoide Funktion ersetzt [5], siehe auch Abbildung 5.1:
X
ni (t + 1) = g(
wij nj (t) − µi ).
(5.2)
j
1
g wird als die Aktivierungsfunktion bezeichnet, häufig hierfür die Fermifunktion g(x) = 1+exp
x
wegen ihres einfachen Zusammenhangs mit ihrer Ableitung benutzt (Abbildung 5.2). Durch
die Ersetzung der Stufen- mit der sigmoiden Funktion können auch nicht-lineare Probleme
durch das Netzwerk gelöst werden.
5.2
Netzwerk-Topologie
Die Topologie oder Architektur hat entscheidenden Einfluß auf Funktionalität und Leistungsfähigkeit eines neuronalen Netzes. Auch im Gehirn sind die Neuronen in Schichten, Spalten
oder zweidimensionalen topologischen Karten angeordnet, die z. B. die Hautoberfläche widerspiegeln. Es gibt zwei grundsätzlich unterschiedliche Verknüpfungsverfahren von neuronalen
Knoten. Bei vorwärtsgekoppelten (Feedforward-) Netzen empfängt ein Neuron weder direkt
noch indirekt von den Neuronen Signale, an die es selbst Signale überträgt. Ein solches Netz
besitzt immer zumindest eine Eingabeschicht (Input-layer), das sind alle Knoten, die nur Signale weiterleiten, ohne von irgendwelchen anderen Knoten Signale zu empfangen, und eine
Ausgabeschicht (Output-layer), das sind alle Neuronen, die nur Signale empfangen, aber keine weiterleiten. Meistens werden die zwischen der Eingabe- und Ausgabeschicht liegenden
5.2. NETZWERK-TOPOLOGIE
39
Abbildung 5.2: Sigmoidfunktion
Neuronen in einer oder mehreren versteckten Schichten angeordnet (Hidden-layer). Solch ein
Feedforward-Netz ist in Abbildung 5.3 exemplarisch dargestellt.
Die Natur bevorzugt eine andere Art von Architektur, das rückgekoppelte (Feedback-)
Netz, bei dem das Ausgabesignal eines Neurons über mehrere Zwischenneuronen als Eingabesignal erneut auf das Ausgangsneuron rückwirken kann [31]. In diesem Fall macht es wenig
Sinn, von verschiedenen Schichten zu sprechen, da jedes Neuron sowohl als Eingang wie auch
als Ausgang dienen kann und außerdem mit jedem beliebigen anderen Neuron verbunden sein
kann.
Welche Topologie eines künstlichen neuronalen Netzes man bevorzugen soll, hängt ganz
vom aktuellen Problem ab. Für Klassifikationsaufgaben eignen sich jedoch beide Netzwerktypen gleichermaßen, wobei Feedforward-Netze leichter technisch zu implementieren sind.
Hierbei unterscheidet man zwischen binominaler Klassifikation und multinominaler Klassifikation. Binominale Klassifikation bedeutet, dass das Netzwerk lediglich eine ’Entweder-OderEntscheidung’ fällt, also zum Beispiel, ob ein Teilchen als Signal oder als Hintergrund eingestuft werden soll. In diesem Fall reduziert sich das in Abbildung 5.3 gezeigte Diagramm auf
einen einzigen Ausgabeknoten. Bei multinominaler Klassifikation sind entsprechend mehrer
Ausgabeknoten möglich. Im Verlaufe dieser Arbeit wurde ein neuronales Netz zur binominalen
Signal-Hintergrundtrennung benutzt.
Die Frage, wie viele Knoten in verdeckten Schichten sinnvoll sind, ist nicht eindeutig zu
beantworten [5]. Werden zu wenige Knoten gewählt, so ist es möglich, dass das Netzwerk
nicht in der Lage sein wird, das gegebene Problem zu lösen. Werden im entgegengesetzten
Fall hingegen zu viele Knoten gewählt, so besteht das Risiko, dass das zu lösende Problem
nur teilweise durch Generalisierungsfehler 1 erkannt wird. Als Faustregel kann man vielleicht
sagen, dass die Anzahl der versteckten Knoten leicht höher sein sollte als die Anzahl der
1
Die Trainingsdaten stellen Stützstellen dar, über die das Backpropagation-Netz eine Funktion approximiert. Aber auch außerhalb der Stützstellen soll das Netz eine genügende Genauigkeit aufweisen. Diese
bedeutende Eigenschaft wird als Generalisierungsfähigkeit des Netzes bezeichnet.[32]
40
KAPITEL 5. NEURONALE NETZE
Abbildung 5.3: Beispiel eines Feedforward-Netzwerkes
Eingabeknoten. Hier sind allerdings individuelle Erfahrung und zahlreiche Tests notwendig,
um die für ein spezielles Problem optimale Lösung zu finden.
5.3
Lernen in Neuronalen Netzen
Wiederum in Anlehnung an das biologische Vorbild werden Prozesse, die dazu führen, dass ein
künstliches neuronales Netz ein gewünschtes Verhalten nachbildet, Lernen oder auch Training
genannt. Man unterscheidet zwischen überwachtem und unüberwachtem Lernen.
Ein bekanntes unüberwachtes Lernverfahren ist das konkurrierende Lernen: Die verschiedenen Ausgabeeinheiten eines Netzwerkes kämpfen hier um die Kontrolle über die einzelnen
Eingabevektoren. Ist für eine bestimmte Eingabeeinheit nur noch eine Ausgabeeinheit aktiv,
so werden im nächsten Schritt die Gewichte der Verbindungen zwischen aktiven Eingabeeinheiten und der aktiven Ausgabeeinheit vergrößert. Dadurch erhöht sich die Wahrscheinlichkeit, dass beim nächsten Auftreten dieses Eingabemusters dieselbe Ausgabeeinheit aktiv bleiben wird. Problematisch bei diesem Algorithmus ist, dass eine Ausgabeeinheit übermächtig
werden kann und für jede Eingabe aktiv bleibt, was dann auch durch weiteres Lernen nicht
mehr rückgängig gemacht, sondern höchstens verstärkt werden kann. Abhilfe lässt sich dadurch schaffen, dass man die Summe der gewichteten Eingänge einer Ausgabeeinheit auf eins
begrenzt, so dass eine Erhöhung des Gewichts eines Eingangs die Erniedrigung der anderen
Gewichte zur Folge hat.
Im folgenden werden nur noch überwachte Lernprozesse betrachtet, mehr zu dieser von
Rumelhart et al. 1986 beschriebenen Methode findet sich in [31] unter Algorithmus: Konkurrierendes Lernen.
Der Grundgedanke beim überwachten Lernen ist, dass die Ergebnisse mit einem bestimmten Wert, sinnvollerweise dem wahren Wert, auch Target genannt, verglichen werden. Aus den
5.3. LERNEN IN NEURONALEN NETZEN
41
erhaltenen Fehlern werden anschließend die einzelnen Gewichte neu angepasst. Dies wird solange wiederholt, bis die Fehler minimal werden.
5.3.1
Kostenfunktion
Zunächst muss man einen globalen Maßstab für den Fehler festlegen, um abschätzen zu
können, in wie fern sich das Ergebnis des Netzwerkes vom wahren Wert unterscheidet. Eine
mögliche, so genannte Kostenfunktion ist
E[w]
~ =
1
2
Ausgabeknoten
MX
uster
X
i
(ζiµ − O(w)
~ µi )2
.
(5.3)
µ
Hierbei ist ζiµ das Target und O(w)
~ µi die Ausgabe des Netzes. Summiert wird sowohl über alle
Ausgabeknoten (Index i) als auch über alle dem Netzwerk zur Verfügung gestellten Eingabemuster (Index µ). Ziel ist es, die einzelnen Gewichte so zu modifizieren, dass die Kostenfunktion minimal wird. Ein Problem hierbei ist jedoch, dass es nicht gewährleistet ist, dass man
auch tatsächlich das globale Minimum und nicht nur eins von vielen lokalen Minima gefunden
hat. Neben dieser (5.3) gibt es noch zahlreiche andere Kostenfunktionen, einzige Bedingung
an sie ist ihre Differenzierbarkeit und die Tatsache, dass sie für ζiµ = Oiµ ein Minimum besitzt. Ein Verfahren, dass benutzt werden kann, um ein solches Minimum zu finden, ist der
so genannte Gradientenabstieg.
5.3.2
Gradientenabstieg
Die Idee dabei ist es, möglichst schnell ein Minimum auf der Fehlerfläche zu finden. Dabei
wird der jeweils steilste Abstieg gesucht. Das bedeutet, dass die Gewichte so verändert werden müssen, dass die Fehlersumme über alle Trainingsmuster minimal wird. Die Fehlerfläche
entsteht, indem man den Fehler des neuronalen Netzes als Funktion der Gewichte grafisch
darstellt. Für den zweidimensionalen Fall ist das in Abbildung 5.4 veranschaulicht. Das Gra-
Abbildung 5.4: Fehlerfläche als Funktion der Gewichte
dientenabstiegsverfahren verändert den Gewichtsvektor bei jeder Korrektur um den Bruchteil
42
KAPITEL 5. NEURONALE NETZE
des negativen Gradienten
∂E
(5.4)
∂wik
der Fehlerfunktion. Diesen Bruchteil bezeichnet man als die Lernrate η. Wie groß man die
Lernrate wählen sollte, kann wieder nicht eindeutig gesagt werden. Ist η zu klein, so wird der
Algorithmus sehr langsam sein, auf der anderen Seite kann eine zu groß gewählte Lernrate
bewirken, dass man über das Minimum ’hinwegläuft’.
∆wik = −η
5.3.3
Der Backpropagation-Lernalgorithmus
output layer
input layer
output layer
input layer
Der auf dem Gradientenabstiegsverfahren basierende Backpropagation-Algorithmus ist die am
häufigsten verwendete Trainings-Technik für Feed-Forward-Netze [5]. Zentrale Idee dieses Algorithmus ist es, eine Trainingseinheit in zwei Teilbereiche aufzugliedern: Zuerst wird die
Eingabe durch das Netzwerk geleitet, anschließend wird der Fehlergradient entsprechend der
gewählten Kostenfunktion für jeden einzelnen Knoten rückwärts, von der Ausgabeschicht beginnend, berechnet (Abbildung 5.5). Die folgende Diskussion des Algorithmus bezieht sich auf
Signal
Errors
Abbildung 5.5: Illustration des Backpropagations-Algorithmus am Beispiel eines drei-schichtigen
Feed-Forward-Netzes
ein drei-schichtiges Feed-Forward-Netzwerk (wie auch in der Abbildung 5.5 verwendet), eine
Erweiterung auf mehrere Schichten ist analog dazu ohne Probleme zu erreichen, eine Wiederholung der Prozedur für etwaige nachfolgende versteckte Schichten läuft nach demselben
Schema ab.
Bezeichnen wjk die die Gewichte von der Eingabe- zur versteckten Schicht, so sollen Wij
die Stärke der Gewichte von versteckter- zur Ausgabeschicht kennzeichnen. Empfängt das
Netzwerk ein Eingabemuster ξ µ , so wird der Knoten Vj in der versteckten Schicht einen
Input von allen Knoten der Eingabeschicht erhalten:
X
hµj =
wjk ξkµ
(5.5)
k
Entsprechend wird die Ausgabe vom j-ten Knoten der verdeckten Schicht an die Ausgabeschicht mit
X
Vjµ = g(hµj ) = g(
wjk ξkµ )
(5.6)
k
5.4. NEUROBAYES
43
bezeichnet. g(hµj ) ist die in 5.1. vorgestellte Aktivierungsfunktion. Der i-te Knoten der Ausgabeschicht Oi erhält schließlich
X
X
X
hµi =
Wij Vjµ =
Wij g(
wjk ξkµ )
(5.7)
j
j
k
und produziert einen Output des Netzwerkes von
X
X
Oiµ = g(hµi ) = g(
Wij g(
wjk ξkµ )).
j
Unsere Kostenfunktion E[w]
~ =
1
2
P
~ ]=
E[w,
~ W
µ
i,µ (ζi
(5.8)
k
− Oiµ )2 kann mit diesen Bezeichnungen nun als
X
X
1X µ
Wij g(
wjk ξkµ ))]2
[ζi − g(
2
i,µ
j
(5.9)
k
geschrieben werden. Da dies eine differenzierbare Funktion ist, kann mit 5.4 das Gradientenabstiegsverfahren verwendet werden:
∆Wij = −η
X µ µ
∂E
δi Vj
=η
∂Wij
µ
,
(5.10)
wobei δjµ ≡ g 0 hµi [ζiµ − O(w)
~ µi ] gesetzt wurde. Ganz analog erhält man für die Verbindungen
von der Eingabe- zur versteckten Schicht:
∆wjk = −η
X µ µ
∂E
δj ξk
=η
∂wjk
µ
(5.11)
P
mit δjµ ≡ g 0 hµj i Wij δiµ .
Auf diese Weise wurde der Fehler jedes einzelnen Knotens dazu benutzt, um zu berechnen,
um welchen Betrag die Gewichte bei der nächsten Aktualisierung angepasst werden müssen.
Das Hinzuaddieren der Gewichtsänderungen und aus dem vorangegangenen Lernschritt versehen mit einem Dämpfungsterm α, auch Momentumparameter genannt, stellt eine Verbesserung des ursprünglichen Algorithmus dar. Regionen mit flachem Gradientenabfall werden
schneller überwunden und Oszillationen vermieden. Wie für jedes Gradientenverfahren besteht das Risiko, in einem lokalen Minimum zu landen. Aufgrund der großen Anzahl von
Gewichtsparametern ist dies in der Praxis selten der Fall. Dennoch ist es ratsam, das gleiche
Netz mehrmals mit verschiedenen Startparametern zu trainieren.
5.4
NeuroBayes
Im Verlaufe dieser Arbeit wurde das neuronale Netz NeuroBayes benutzt, das von Michael
Feindt et al. [33] an der Universität Karlsruhe entwickelt wurde. NeuroBayes ist ein Feed-Forward-Netzwerk, das den Backpropagations-Algorithmus benutzt, zudem aber zusätzlich
auf dem Bayes’schem Theorem basiert:
P (H|D) =
P (D|H)P (H)
P (D)
wobei D die Daten und H die Hypothese bezeichnen.
,
(5.12)
44
KAPITEL 5. NEURONALE NETZE
Dem Anwender eines Klassifikationsproblems stehen im Wesentlichen zwei Programmteile
zur Verfügung: Der ’Teacher’ und der ’Experte’. Aufgabe des Teachers ist es, wie in den
vorangegangenen Abschnitten beschrieben, Signal von Hintergrund unterscheiden zu können.
Die Daten werden in Form eines Arrays eingelesen, wobei dem Teacher mitgeteilt werden muss,
ob es sich um Signal oder Hintergrund handelt. Einstellmöglichkeiten sind unter anderem:
• die Trainings-Geschwindigkeit
• die Anzahl der verdeckten Schichten
• die Anzahl der Iterationen.
Neurobayes bietet durch verschiedene Ausgaben mehrere Möglichkeiten, um zu testen, ob ein
trainiertes Netzwerk zu den gewünschten Ergebnissen führt. Abbildung 5.6 zeigt exemplarisch
die Ausgabe eines Netzwerkes bei einem Klassifikationsproblem, die Signal-Daten sind in grün
dargestellt, der Hintergrund in rot. Wird eine Eingabe eindeutig als Signal erkannt, weist das
Netz ihr den Wert +1 zu, eindeutig erkannte Hintergrund-Daten erhalten entsprechend einen
Wert von −1.
2500
2000
1500
1000
500
0
-1
-0.8
-0.6
-0.4
-0.2
-0
0.2
0.4
0.6
0.8
1
Abbildung 5.6: Beispiel einer Teacher-Ausgabe. Das Signal ist in grün dargestellt, der Hintergrund
in rot.
Diagramm 5.7 illustriert für jeden Ausgabe von −1 bis +1 das Verhältnis von Signalen
zur Gesamtzahl der eingelesenen Daten. Bei einem optimal austrainierten Netz ergäbe sich
eine Ursprungsgerade mit Steigung eins. Je weniger ein Netz trainiert ist, desto größer werden
entsprechend die zu jedem Punkt gehörenden Fehlerbalken. Das erlernte Muster, auch Expertise genannt, wird am Ende einer Traingseinheit in einer Datei gespeichert. Im Gegensatz
zum Teacher ist der Experte zur Unterscheidung unbekannter Eingaben bestimmt. Anhand
des vom Teacher gespeicherten Musters wird jeder Eingabe ein Wert zwischen −1 und +1 zugewiesen, die als Wahrscheinlichkeitsaussage aufzufassen ist. Eine Eingabe, die vom Experten
beispielsweise den Wert 0,9 zugewiesen bekommt, wird zu 90% als Signal gedeutet.
5.4. NEUROBAYES
45
hsum
Entries
24770
Mean
0.3253
RMS
0.4643
signal / (signal + background)
signal / (signal + background)
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-1
-0.8
-0.6
-0.4
-0.2
-0
0.2
0.4
0.6
0.8
1
Abbildung 5.7: Dargestellt ist das Verhältnis von Signalen zur Gesamtzahl der Ereignisse für jede
mögliche Ausgabe von −1 bis +1. Bei optimal trainiertem Netz ergibt sich eine
Ursprungsgerade mit Steigung eins und möglichst kleinen Fehlerbalken.
46
KAPITEL 5. NEURONALE NETZE
Kapitel 6
Die Simulation
Bevor ein so aufwendiges Projekt wie AMS gestartet werden kann, ist es dringend erforderlich, dass die Analysesoftware im Vorfeld durch zahlreiche Simulationen getestet wird, um im
’Ernstfall’ realer Daten mit einer guten Rekonstruktion der einfallenden Teilchen rechnen zu
können. Dieses Kapitel beschäftigt sich mit dem Software-Paket der Simulation des AMS-02
Detektors und einer Beschreibung der in dieser Arbeit benutzen Einstellungen, der Rekonstruktion der simulierten Teilchen aus der Detektor-Antwort, sowie einer kurzen Darstellung
der für die durchgeführte Analyse wichtigen Wechselwirkungs-Eigenschaften der beteiligten
Teilchen.
6.1
Simulation des AMS-02 Detektors
Die AMS-02 Simulations-Software basiert auf dem Programmpaket GEANT 3 [34], welches
ursprünglich für Beschleuniger-Experimente entwickelt wurde. Da die im AMS-02 Detektor
enthaltenen Komponenten aber im Prinzip denen der Beschleuniger-Experimente sehr ähneln,
kann das Paket auch hier angewendet werden. Hauptaufgabe der Software ist die Simulation des Durchgangs von elementaren Teilchen durch Materie. Anhand der im Detektor verwendeten Materialien und deren Eigenschaften kann die Wechselwirkung der Teilchen mit
dem Detektormaterial bestimmt werden, woraus sich wichtige, das Teilchen charakterisierende Größen wie zum Beispiel seine Ladung oder seine Geschwindigkeit, ableiten lassen. Das
Programmpaket besteht im Wesentlichen aus drei Teilen:
• Geometrie
Der AMS-02 Detektor wird als eine Zusammensetzung verschiedener Bereiche beschrieben, wobei jedem Bereich ein unterschiedliches Material zugeordnet ist, das andere
Eigenschaften aufweist und den durchquerenden Teilchen somit verschiedene Wechselwirkungen ermöglicht.
• Physikalische Prozesse
Physikalische Prozesse und Wechselwirkungen der einfallenden Teilchen mit verschiedenen Materialien werden definiert.
• Detektor
Die Antwort des Detektors auf ein einfallendes Teilchen in Abhängigkeit der definierten Detektor-Geometrie und der definierten physikalischen Prozesse wird unter Berücksichtigung etwaiger entstandener Sekundärteilchen berechnet.
47
48
KAPITEL 6. DIE SIMULATION
Dem Anwender des Programmpaketes steht als Eingabe-Schnittstelle die so genannte Datacard zur Verfügung, das ist eine Datei, in der man alle zur Simulation benötigten Parameter
einstellen kann. Im Einzelnen beschreiben diese Parameter
• allgemeine Teilcheneigenschaften
• allgemeine Detektoreigenschaften
• Trigger Definitionen
• Einstellungen zur Simulation
• Einstellungen zur Rekonstruktion
sowie
• verschiedenen Optionen für die Ausgabe.
Wichtige Parameter einer Datacard sind neben der Teilchen-Identifikationsnummer, mit der
man angibt, welches Teilchen entsprechend des GEANT-Kataloges [34] simuliert werden soll,
vor allem die einzelnen Einstellungen des Monte-Carlo-Generators MCGEN, mit denen man
direkten Einfluß auf die physikalischen Eigenschaften der simulierten Teilchen nehmen kann.
So lässt sich hier unter anderem der Energiebereich oder auch die Einfallsrichtung der simulierten Teilchen festlegen. Tabelle 6.1 zeigt einen Ausschnitt der im AMS-02 Software-Paket
enthaltenen Dokumentation zur Datacard, die vollständige Dokumentation ist in [35] zu finden.
Ist ein Wert der dritten Spalte in Klammern angegeben, so ist dies die Grundeinstellung,
die für die Simulation verwendet wird, solange dem entsprechende Parameter kein anderer
Wert zugewiesen wird. Da das im Rahmen dieser Arbeit entstandene Framework Daten verarbeitet, die in Form eines ROOT-Trees [36] (siehe Kapitel 7.1 ’Das Analyse-Framework’ und
Anhang A, ’ROOT-Trees’) vorliegen, sind in diesem Fall auch die Parameter I127 und I128
der Ein-Auslese Sektion IOPA von großer Bedeutung, da hier eingestellt werden kann, dass
die Ausgabe in Form einer ROOT-Datei erfolgen soll. Die Datacard bietet auch zur DetektorGeometrie, zur Simulation sowie zur Rekonstruktion zahlreiche Einstellmöglichkeiten, für diese Arbeit wurden aus diesen Bereichen allerdings die Standardwerte gewählt.
Nachdem alle Werte gemäß der Wahl der Datacard initialisiert wurden, startet das eigentliche Programm, indem in einer Schleife Ereignis für Ereignis das gewählte Teilchen generiert
und die Antwort des Detektors in der ROOT Datei gespeichert wird.
AMSJOB
I1
Jobtype(0)
IOPA
I43
WriteAll(2)
I127
I128
I168
WriteRoot(0)
rfile(160*’ ’)
MaxFileSize(150000000)
//
//
//
...
//
//
...
//
//
//
1 - Reconstruction ( 0 Simulation)
10 - Real Data
100 - Tracker Calibration
Flag to write objects into the ntuple
1=All; 0=Only ’used’ objects
write (!0) or not write(0) root file
root file name
max ntuplefilesize (bytes)
6.1. SIMULATION DES AMS-02 DETEKTORS
MCGEN
KINE
R1
coo[2][3](3*-1.e10,3*1.e10)
R7
R13
I15
dir[2][3](3*-1.,3*1.)
momr[2](-1.e10,1.e10)
fixp(0)
I18
I19
I20
npat(1)
run(100)
low(0)
I21
earth(1)
1
IPART
49
//make the cube surface the particle
//originate from
//Particle Direction Cos range
//Particle momentum range
//fix the cube surface for particle
//generation 1 - top, 2-bottom,
//3,4,5,6 - others
//number of particle to generate in one go
//run number
//normal(0); undercutoff(1)
//sea level muons(2) mev range electrons(3)
//uniform momentum(4)
//uniform log(momentum) (5)
// Earth magnetic field modulation
// on (1) off(0)
// Geant particle id
Tabelle 6.1: Auszug aus der AMS-02 Datacard-Dokumentation
Anzahl der simulierten Events
Die Daten, die zur Analyse innerhalb dieser Arbeit benötigt wurden, sollten unter möglichst
realitätsnahen Bedingungen simuliert werden. Um zu erreichen, dass die Teilchen aus allen
Richtungen gleichermaßen einfallen, wurden R1 bis R7 aus Tabelle 6.1 so gewählt, dass die
Teilchen auf allen 6 der den Detektor virtuell umgebenden kubischen Oberflächen gleichmäßig
und winkelunabhängig produziert werden. Wie in Kapitel 7 (’Die Analyse’) noch näher beschrieben wird, stellen Photonen in dieser Arbeit die Signalteilchen dar, während der Hintergrund hauptsächlich aus Protonen besteht. Tabelle 6.2 gibt einen Überblick über die Anzahl
der simulierten Teilchen in Abhängigkeit von der Energie. Es handelt sich um ein logarithmisches Spektrum mit jeweils diskreten Energien im Bereich von 2 − 512 GeV, was in Abbildung
6.1 veranschaulicht wird. Insgesamt wurden 2674307 Ereignisse simuliert.
p
γ
10
10
5
4
10
10
2
E[GeV]
Abbildung 6.1: Anzahl der insgesamt simulierten Ereignisse in doppelt logarithmischer Auftragung
50
KAPITEL 6. DIE SIMULATION
Teilchen
γ
p
γ
p
Energie (GeV)
2
4
8
16
32
64
128
256
512
2
4
8
16
32
64
128
256
512
gesamt
gesamt
Simulierte Ereignisse
52855
54511
54675
54835
55353
12379
38154
7148
10354
445293
502021
293664
437997
300691
137446
109695
85179
22057
340264
2334043
Tabelle 6.2: Simulierte Ereignisse, die in dieser Arbeit benutzt wurden
6.2
Rekonstruktion
Nachdem ein bestimmtes Teilchen simuliert wurde, ist der nächste logische Schritt, aus der
Antwort des Detektors charakteristische Eigenschaften des simulierten Teilchens zu rekonstruieren. Dies ist insofern wichtig, als dass man unter der Bedingung eines realen, also nicht
simulierten Teilchenflusses, wie man ihn ja an Bord der Raumstation ISS vorfinden wird, die
den Detektor passierenden Teilchen möglichst fehlerfrei identifizieren will. Das Prinzip der
Rekonstruktion kann am Beispiel einer Teilchenspur im TRD-Subdetektor (siehe Kapitel 4.1
’Übergangsstrahlungs-Detektor (TRD)’) veranschaulicht werden (Abbildung 6.2): Ausgehend
von den kleinsten Einheiten im Detektor, die auf den Durchgang eines geladenen Teilchens
sensitiv sind, den so genannten Clustern, fasst man die angesprochenen Teile zu größeren
Strukturen, den Segmenten, zusammen, bis man schließlich die Spur des durchquerenden
Teilchens aus der Anordnung der einzelnen Treffer rekonstruieren kann. In Abbildung 6.2
sind alle Röhren, in denen Energie deponiert wurde, farbig dargestellt. Aus der Spur und der
deponierten Energie können nun die gewünschten Teilcheneigenschaften ermittelt werden. Im
Allgemeinen (also nicht nur auf das TRD bezogen) sind dies der Einfallwinkel, die Energie,
Ladung, die Geschwindigkeit oder der γ-Faktor. Tabelle 6.3 zeigt in einer Übersicht, welche
Größe aus welchem Subdetektor abgeleitet werden kann [37]. Die Ergebnisse werden in der
selben ROOT-Datei gespeichert wie zuvor die der Simulation, so dass in einer solchen Datei
nun alle relevanten Informationen, von den gewählten Parametern der Simulation über die
Charakteristik jedes Subdetektors bis zu den rekonstruierten Teilcheneigenschaften konzentriert sind und extrahiert werden können.
6.3. ELEKTROMAGNETISCHE SCHAUER
51
Abbildung 6.2: Rekonstruktion am Beispiel einer Teilchenspur im TRD. Die roten Punkte symbolisieren Treffer.
Einfallswinkel
Energie
Ladung
Geschwindigkeit
Impuls-Ladungs-Verhältnis
γ-Faktor
Spuren im Tracker, TRD, Kalorimeter und ToF
Kalorimeter
ToF, Tracker und RICH
Tracker, ToF und RICH
Tracker und TRD
TRD
Tabelle 6.3: Rekonstruktion verschiedener Teilcheneigenschaften
6.3
Elektromagnetische Schauer
Kosmische Teilchen können über ihre verschiedenen Wechselwirkungen mit der von ihnen
durchquerten Materie nachgewiesen werden. Abbildung 6.3 zeigt den Wirkungsquerschnitt
von Photonen in Abhängigkeit ihrer Energie. Man kann deutlich erkennen, dass niederenergetische Photonen ihre Energie hauptsächlich durch den Photoeffekt sowie durch Rayleighund Compton-Streuung verlieren, während für höherenergetische Photonen (≥ 1GeV) die
Elektron-Positron-Paarbildung der relevante Prozess ist. Da der AMS-02 Detektor vornehmlich Photonen mit einer Energie ≥ 1GeV detektieren wird, ist die Paarbildung für das Experiment entscheidend. Beim Eindringen eines Photons in das Kalorimeter wird es seine Energie
im Mittel nach einer Strecke von 1, 4cm [38] zu gleichen Teilen an das entstehende ElektronPositron-Paar abgeben. Die entstandenen Elektronen und Positronen werden nun ihrerseits
wiederum mit dem Detektormaterial in Wechselwirkung treten. Die mittlere Energie eines
Elektrons nach dem Eintreten in das Detektormaterial ist durch
E(z) = E0 exp−
z
X0
(6.1)
52
KAPITEL 6. DIE SIMULATION
Abbildung 6.3: Wirkungsquerschnitt als Funktion der Photonen-Energie. Bei niedrigen Energien
ist der photoelektrische Effekt dominierend, auch Compton- und Rayleigh-Streuung
treten auf, während bei hohen Energien Paarbildung in den Vordergrund tritt.
gegeben, wobei z die Eindringtiefe in die Materie und X0 die Strahlungslänge bezeichnet.
Als Strahlungslänge bezeichnet man die Weglänge, auf der die Energie eines Elektrons durch
Strahlungsprozesse auf den Bruchteil 1/e der ursprünglichen Energie abgefallen ist. Es gilt [2]
4Z 2 n0 α3 h2 192
1
=
ln 1
X0
m2e c2
Z3
(6.2)
in einem Material der Ordnungszahl Z mit n0 Kernen pro Volumeneinheit. me ist die Elektronenmasse und α die Feinstrukturkonstante. Für Blei beträgt die Strahlungslänge beispielsweise 0, 56 cm. Bei hohen Energien ist für den Energieverlust vor allem die Bremsstrahlung
verantwortlich (siehe Abbildung 6.4). Durch die Bremsstrahlung entstehen neue Photonen,
die so lange, bis deren Energie unter die Paarbildungsgrenze abgeklungen ist, neue ElektronPositron-Paare zur Folge haben, die ihrerseits wieder Photonen entsenden, es entsteht eine
Kaskade, ein elekromagnetischer Schauer.
Wie aus Abbildung 6.4 ersichtlich wird, gewinnt der Energieverlust von Elektronen und
Positronen durch Ionisation mit fallender Energie immer mehr an Bedeutung. Als kritische
Energie EC ist die Energie definiert, ab der der Energieverlust durch Bremsstrahlung genau
gleich zu dem durch Ionisation ist. In einer Näherung [39] kann EC berechnet werden aus
EC =
800 MeV
Z + 1, 2
.
(6.3)
Für Blei (Z = 82) ist beispielsweise EC = 9, 6 MeV. Ab dieser Energie nimmt die Zahl der
am Schauer beteiligten Teilchen wieder ab, da nun nicht mehr genug Energie zur Paarbildung vorhanden ist und die bereits existierenden Elektronen ihre noch vorhandene Energie
6.3. ELEKTROMAGNETISCHE SCHAUER
53
Abbildung 6.4: Strahlungsverluste eines Elektrons/Positrons in Materie der Strahlungslänge X0 . Die
kritische Energie ist definiert als der Punkt, an dem die Effekte von Ionisation und
Bremsstrahlung genau gleich sind.
hauptsächlich durch Ionisation abgeben, bis sie schließlich vollkommen gestoppt werden. Bei
den Positronen kommt außerdem noch hinzu, dass sie mit denen im Detektor-Material vorhandenen Elektronen annihilieren können und somit zwei 511 keV-Photonen aussenden. Die
verbleibenden niederenergetischen Photonen wechselwirken nach Abbildung 6.3 hauptsächlich
durch Compton-Streuung und Photoelektrischen Effekt. Es gibt zahlreiche Eigenschaften, die
solch eine Kaskade charakterisieren:
• Die longitudinale Ausdehnung des Schauers wird vor allem durch dessen hochenergetische Teil bestimmt. Als charakteristische Größe hierfür ist deswegen die Strahlungslänge
X0 geeignet. Aus diesem Grund werden auch Längen, die zur Beschreibung einer Kaskade dienen, in Einheiten der Strahlungslänge X0 angegeben.
• Der mittlere longitudinale Querschnitt der Energie-Ablagerung im Detektor kann durch
eine Gamma-Funktion beschrieben werden [38]:
ta−1 exp−bt
dE
= E0 ba
dt
Γ(a)
,
(6.4)
wobei t = x/X0 die zurückgelegte Entfernung x in Einheiten der Strahlungslänge X0
ist.
• Die Eindringtiefe, bei der das Maximum der Energie-Ablagerung auftritt, ist nach [38]
und [37] abhängig von der Energie des die Kaskade auslösenden Teilchens:
tmax ≈ log
E
± 1/2 ,
EC
(6.5)
wobei ’+’ für Photonen und ’-’ für Elektronen gilt. Ein 8 GeV- Photon in Blei wird
beispielsweise im Mittel in einer Tiefe von ca. 7 cm das Maximum seiner Energie deponieren.
54
KAPITEL 6. DIE SIMULATION
• Die transversale Ausbreitung des Schauers wird beschreiben durch den Molière Radius
[38]:
ES
RM = X0
, ES = 21, 2 MeV .
(6.6)
EC
Dieser Molière Radius kann als das Produkt der Strahlungslänge mit dem mittleren
Streuwinkel eines Elektrons der kritischen Energie nach Durchqueren einer Schicht der
Dicke X0 interpretieren. 90% der Energie des einfallenden Teilchens werden innerhalb
eines Zylinders mit dem Radius RM um die Schauerachse deponiert.
6.4
Hadronische Schauer
Bewegte, geladene Teilchen werden in Materie durch Stöße mit Kernen und Elektronen
abgebremst. Schwere Teilchen der Ruhemasse M0 ≥ me verlieren ihre kinetische Energie
überwiegend durch inelastische Stöße mit den Atomelektronen des Bremsmediums, also durch
Ionisation und Anregung der Atome. Der Energieverlust pro Wegstrecke in einem homogenen
Medium mit der Kernladung Z˙e wird durch die Bethe-Bloch-Gleichung beschrieben:
−
¸
·
Z 1 1 2me c2 β 2 γ 2 Tmax
dE
δ Ce
2
= 4πNA re2 me c2 z 2
ln
−
−
β
−
dx
A β2 2
I2
2
Z
,
(6.7)
NA ist die Avogadro-Konstante, re der Elektronenradius, me die Elektronenmasse, z bezeichnet die Ladung der einfallenden Teilchen, A and Z sind die Atommassenzahl und die
Ordnungszahl des Bremsmediums, β ist die relative Geschwindigkeit des einfallenden Teilchens, I ist das Isonisationspotential, gemittelt über alle Elektronenschalen der Atome des
Bremsmediums und Tmax ist die maximale kinetische Energie, die in einer einzelnen Kollision auf ein freies Elektron übertragen werden kann. δ/2 und CZe sind Korrekturterme für die
Abschirmung des elektrischen Feldes des einfallenden Teilchens in Abhängigkeit der Dichte
des Mediums und des Nicht-Beitragens der K-Schalen-Elektronen zur Ionisation für kleine
Geschoßenergien. Abbildung 6.5 veranschaulicht die Bethe-Bloch-Formel für den Fall von
Myonen in Kupfer. Ein hadronischer Schauer entsteht durch eine Folge inelastischer hadronischer Reaktionen, die durch ein stark wechselwirkendes Teilchen (p, n, π ± , ...) ausgelöst
wird. Bei Energien oberhalb 50 MeV kann das einfallende Hadron mit Kernen des Absorbermaterials einen Spallationsprozess auslösen: Das primäre Hadron dringt in einen Kern ein
und löst durch inelastische Stöße mit den umgebenden Nukleonen eine intranukleare Kaskade
aus. Bei ausreichender Energie können sich auch sekundäre Teilchen wie beispielsweise Pionen
bilden. Neutrale Pionen zerfallen schnell (10−16 s) in zwei energiereiche Photonen und lösen
dadurch im hadronischen Schauer lokal eine elektromagnetische Unterkaskade aus. Dies ist
einer der Gründe dafür, dass bei einem
√ hadronischen Schauer auch die besten Kalorimeter
nur eine Energieauflösung von 0, 35/ E erreichen [2]. Ein weiterer Grund ist, dass ein Teil
der Energie des primären Hadrons dazu verwendet wird, Kernbindungen aufzubrechen. Die
Bindungsenergie, die dazu aufgebracht werden muss, kann nicht mehr auf andere Teilchen
übertragen werden. Außerdem besteht dass Problem, dass ca. 20% der Energie des Schauers
nicht nachgewiesen werden kann, da sie durch Neutronen und langlebige K 0 -Mesonen weggetragen wird oder Fragmente von Kernreaktionen im Absorbermaterial steckenbleiben. Die
durch diese Effekte auftretenden hohen Fluktuationen innerhalb des hadronischen Schauers
führen dazu, dass dessen Form nicht genau definiert ist. Ein allgemeines Maß (in Analogie
6.4. HADRONISCHE SCHAUER
55
Abbildung 6.5: Energieverlust eines geladenen, massiven Teilchens in Materie
zur Strahlungslänge X0 bei elektromagnetischen Schauern) für die Ausdehnung eines hadronischen Schauers ist die nukleare Absorptionslänge λ,
λ=
A
σi NA ρ
.
(6.8)
A bezeichnet die Molmasse, σi den inelastischen hadronischen Wirkungsquerschnitt, NA die
Avogadrokonstante und ρ die Dichte des Absorbermaterials. Die Absorptionslänge beträgt in
Blei 17, 1 cm [2] und ist auch für alle anderen Materialien deutlich länger als X0 . Somit sind
elektromagnetische sehr viel schmaler und kürzer als hadronische Schauer (siehe Abbildung
6.6). Da das im AMS-02 Detektor verwendete Kalorimeter einer Dicke von 0, 5 λ entspricht
Abbildung 6.6: Vergleich eines elektromagnetischen (links) und eines hadronischen Schauers (rechts).
(siehe Kapitel 4.6 ’Elektromagnetisches Kalorimeter’), bedeutet dies, dass Hadronen einen
56
KAPITEL 6. DIE SIMULATION
großen Teil ihrer Energie nicht im Kalorimeter deponieren. Das Maximum der Energieablagerung wird nach [38] im Mittel nach einer Strecke von
tmax = 0, 2 log E + 0, 7
erreicht.
(6.9)
Kapitel 7
Die Analyse
Zahlreiche kosmische Teilchen, die den Detektor erreichen werden, können eine Signatur hinterlassen, die der der Photonen ähnlich ist und somit besteht das Risiko, dass diese Teilchen
fälschlicherweise als Photonen interpretiert werden. So stellen beispielsweise Elektronen eine
Schwierigkeit bei einer Photon-Separation dar, da sie genau wie die Photonen elektromagnetische Schauer auslösen können, was bedeutet, dass die spezifischen Eigenschaften eines
elektromagnetischen Schauers (siehe Kapitel 6.3: ’Elektromagnetische Schauer’) nicht mehr
als Separationskriterium herangezogen werden können. Aufgrund ihrer großen Anzahl (siehe
Abbildung 7.4) bilden auch Protonen eine Hauptquelle für den Hintergrund. Die folgende
Analyse beschränkt sich auf eine Photon-Proton-Selektion. Da Protonen geladenen Teilchen
Abbildung 7.1: Kosmischer Teilchenfluss in Abhängigkeit der Energie
sind, werden sie die meisten Signaturen in den oberen Teilen des AMS-02 Detektors hinterlassen und können dadurch leicht eindeutig als Protonen identifiziert werden. Ein Problem
57
58
KAPITEL 7. DIE ANALYSE
tritt jedoch auf, falls die Protonen nicht den gesamten Detektor durchqueren, sondern seitlich ins Kalorimeter einfallen. Hochenergetische Protonen können dort, indem sie einen Teil
ihrer Energie deponieren, eine ähnliche Signatur hinterlassen, wie niederenergetische Photonen. Da bei den seitlich einfallenden Teilchen keine Signaturen in anderen Subdetektoren
vorhanden sind, besteht Verwechslungsgefahr. Es ist die Aufgabe einer geschickt gewählten
Signal-Untergrundtrennung, dieses Risiko zu minimieren. Im Folgenden wird zunächst das
innerhalb dieser Arbeit entwickelte Analyse-Framework vorgestellt, anschließend werden statistische Methoden besprochen und schließlich wird die mit dem Framework durchgeführte
Analyse präsentiert.
7.1
Das Analyse-Framework
Im Verlauf dieser Arbeit wurde ein Analyse-Framework entwickelt, das dem Benutzer zwei
unterschiedliche Arten der Analyse zur Verfügung stellt:
• klassische, manuell gewählte Schnitte und
• Einsatz eines neuronalen Netzes.
Die AMS-Simulationssoftware (siehe Kapitel 6.1 ’Simulation des AMS-02 Detektors’) speichert ihre Daten im Format eines ROOT-TTree’s. Die ’Baum-Struktur’ eines solchen TTree’s
wird zunächst vorgestellt, bevor dann die wichtigsten Bestandteile des erstellten Frameworks
beschrieben werden.
7.1.1
ROOT TTree
Die ROOT Klasse ’TTree’ wurde speziell dafür entwickelt, um große Mengen von Objekten
der gleichen Klasse zu speichern [36]. Sie ist darauf optimiert, Speicherplatz zu sparen und
Zugriffszeiten zu verringern. Ein TTree kann alle Datentypen speichern, also neben den ’einfachen’ Datentypen wie f loat oder double auch ’fortgeschrittenere’ wie Objekte oder Felder.
Der Vorteil beispielsweise gegenüber einer Liste, in der alle Einträge nacheinander ausgelesen
werden müssen, besteht darin, dass ein TTree aus Ästen (so genannten ’branches’) aufgebaut
ist, die alle unabhängig voneinander gelesen werden können. Die Klasse dieser Äste heißt
’TBranch’. Die Organisation dieser Äste erlaubt es dem Entwickler, die Daten für individuelle Zwecke zu optimieren: Weiß der Entwickler z.B. von der Unabhängigkeit zweier Variablen,
so wird er diese in verschiedenen Ästen speichern. Besteht hingegen ein direkter Bezug der
beiden Variablen zueinander, so ist es sinnvoll, sie beide innerhalb eines Astes zu speichern.
Variablen eines Astes bezeichnet man als Blätter (leafs), die Klasse hierzu heißt entsprechend
’TLeaf’.
7.1.2
Funktionsweise des Frameworks
Daten, die in Form eines TTree’s vorliegen, können innerhalb des Frameworks mit der Programmiersprache C++ [40] analysiert werden. Die Einlese-Klasse ’Reader’ fungiert als Schnittstelle zum Einlesen der ROOT-Dateien. Diese können in Form einer Dateiliste übergeben
werden, in der die einzelnen Dateien mit einem Leerzeichen voneinander getrennt sind. Das
Hauptprogramm ’mainanalyse’ verlangt als Eingabeparameter vom Benutzer eine Zahl, die
7.1. DAS ANALYSE-FRAMEWORK
59
den Wert der zu analysierenden, diskreten Energie kennzeichnet. Es werden aus der eingelesenen Dateiliste nur diejenigen Dateien verarbeitet, die simulierte Teilchen mit der diskreten Energie des Eingabeparameters enthalten. Diese Einstellung wurde so gewählt, um
dem Benutzer die Analyse eines diskreten Energiespektrums zu erleichtern, da er so Dateilisten verwenden kann, die Teilchen aller simulierten Energien enthalten. ’Mainanalyse’ hat
die Funktion eines Steuerungsprogramms: Es führt zwei Schleifen aus, innerhalb derer alle
weiteren Funktionen aufgerufen werden. Die erste Schleife dient zum Zählen der selektierten Ereignisse. Dabei wird zwischen Signal- und Hintergrundteilchen unterschieden. In der
zweiten Schleife findet die Analyse der selektierten Daten statt. In beiden Schleifen wird die
Funktion ’TTree::Process’ aufgerufen, welche von der Klasse ’TSelector’ Gebrauch macht.
TSelector beinhaltet folgende Funktionen:
• void Begin(TTree *tree): Aufruf nach dem Öffnen des Trees, Initialisierung
• Bool t ProcessCut(int entry): Optional, wird vor dem Lesen eines Eintrages aufgerufen. Es kann entschieden werden, ob ein Ereignis vollständig gelesen werden muss
oder nicht.
• void ProcessFill(int entry): Aufruf für jedes Ereignis. Hier können eigene Funktionen
implementiert werden.
• void Terminate(): Aufruf am Ende der Ereignis-Schleife.
Die Logik dieser Struktur wird vom Code der AMS-Software aufgegriffen. Die Header-Datei
’root.h’ enthält neben allen für die Simulation des AMS-02 Detektors wichtigen Definitionen
auch die Klasse ’AMSEventR’, die von TSelector erbt und damit auf die volle Funktionalität
dieser Klasse zurückgreifen kann. Innerhalb des ROOT-TTree’s kann über Zeiger direkt auf
die einzelnen Variablen (Blätter) der Klassen (Äste) zugegriffen werden.
Das eigentliche Analyseprogramm des Frameworks ist die Klasse ’stlv.C’, die von AMSEventR und somit auch von TSelector erbt. Sie überlädt die Funktionen Begin, ProcessFill
und Terminate. Da ProcessFill bei jedem Ereignis aufgerufen wird, ist dies die richtige Stelle,
um die Daten weiterzuverarbeiten. Je nach Verwendungszweck werden sie an die weiteren
Klassen des Frameworks übergeben:
• Preselect
In der Klasse ’Preselect’ können Selektionskriterien festgelegt werden, die zur Vorauswahl der Ereignisse dienen können. ’Preselect’ wird sowohl bei der ersten Schleife zum
Zählen der Signal- und Hintergrundteilchen als auch bei der zweiten Schleife zur Analyse aufgerufen. Die Unterscheidung zwischen Signal und Hintergrund findet aufgrund
der Teilchen ID statt.
• Threshold
Die Klasse ’Threshold’ erbt von der virtuellen Klasse ’Analyse’. In ihr werden Schnitte
definiert, die als primäre Entscheidungsgrundlage zur Teilchenidentifikation dienen.
• Newteacher
’Newteacher’ ist die Schnittstelle des Frameworks zum Teacher des Programmpakets
’Neurobayes’ (siehe Kapitel 5.4 ’Neurobayes’).
60
KAPITEL 7. DIE ANALYSE
Ebenso wie ’Threshold’ erbt die Klasse ’Newteacher’ von der virtuellen Mutterklasse ’Analyse’. Beide Klassen haben somit die gleichen Funktionen für die Analyse zur Verfügung
und können innerhalb von ’ProcessFill’ auf analoge Art aufgerufen werden. Die gewählten
Variablen einer über Zeiger adressierten Klasse werden als Parameter an die Funktion ’result(vector(float))’ übergeben, die sowohl in ’Newteacher’ als auch ’Threshold’ vorhanden
ist. Nach dem Durchlauf der Schleifen werden alle gesammelten Daten, also typischerweise
Histogramme oder die Expertise des neuronalen Netzes, in einer Datei gespeichert.
Die Funktionstüchtigkeit des Frameworks sollte anhand einer Analyse gezeigt werden, die
ausschließlich auf der Benutzung des Kalorimeters (siehe Kapitel 4.6 ’Das elektromagnetische
Kalorimeter’) beruht.
7.2
Statistische Methoden
Wichtige Größen einer Analyse zur Signal-Untergrundtrennung sind die Effizienz, die Verunreinigung und die Reinheit 1 einer Datenprobe.
Seien S(x) und B(x) die Verteilungen von Signal und Untergrund über einen Bereich von
x0 bis xmax , so ist Effizienz definiert als
R xmax
S(x)
,
(7.1)
E(x) = Rxxmax
S(x)
x0
für einen beliebigen Schnitt an der Stelle x. Sie ist also ein Maß für die Anzahl der Signalteilchen, die nach einem gewählten Schnitt auch tatsächlich als Signal erkannt werden, bezogen
auf die Gesamtzahl der Signalteilchen.
Entsprechend ist die Verunreinigung ein Maß für die Anzahl der Hintergrund-Teilchen,
die bei einem gewählten Schnitt fälschlicherweise als Signal erkannt wird, bezogen auf die
Gesamtzahl der Hintergrundteilchen:
R xmax
B(x)
C(x) = Rxxmax
.
(7.2)
B(x)
x0
Unter der Reinheit versteht man schließlich das Verhältnis aus erkannten Signalteichen und
der Summe aus erkannten Signal- und fälschlicherweise als Signal erkannten Hintergrundteilchen:
R xmax
S(x)
,
(7.3)
P(x) = R xmaxx
(S(x) + B(x))
x
sie gibt also an, wie viele der als Signal klassifizierten Teilchen auch tatsächlich Signale sind.
Eine Signal-Untergrund-Separation ist also umso besser, je größer die Effizienz und die
Reinheit und je kleiner die Verunreinigung der Datenprobe ist.
Diese genannten Größen sind zwar alle notwendig, um die Güte einer Separation beurteilen zu können, für sich alleine sind sie jedoch nicht sehr aufschlussreich: Um eine sinnvolle
Aussage über die Leistungsfähigkeit eines Detektors treffen zu können, muss man man noch
den einfallenden Teilchenfluss sowie die Detektorgeometrie berücksichtigen. Die Effizienz, die
1
Wie in vielen Bereichen der Wissenschaft sind auch hier die englischen Ausdrücke ’efficiency’, ’contamination’ und ’purity’ allgemein geläufig.
7.3. KLASSISCHE SCHNITTE
61
Verunreinigung und die Reinheit sind in der Regel abhängig vom einfallenden Winkel Ω, vom
Auftreffpunkt S sowie der Teilchenenergie E. Mit dem differentiellen Teilchenfluss
dφ(E0 , Ω)
dEdΩdSdt
gilt für die Anzahl der detektierten Ereignisse pro Energieeinheit bei der Energie E0 :
Z
dN (E0 )
dφ(E0 , Ω)
=
E(E, S, Ω)dSdΩ .
dE
dEdΩdSdt
(7.4)
(7.5)
E ist die in 7.1 eingeführte Effizienz. Unter der Voraussetzung eines einheitlichen, aus allen
Richtungen gleichermaßen einfallenden Teilchenflusses kann man 7.4 vor das Integral ziehen
und man erhält:
Z
dN (E0 )
dφ(E0 )
E(E, S, Ω)dSdΩ .
(7.6)
=
dE
dEdΩdSdt
Als die Akzeptanz eines Detektors definiert man nun
Z
A(E) = E(E, S, Ω)dSdΩ .
(7.7)
Sie wird meist in der Einheit m2 sr angegeben. In einer Näherung [41] kann man hierfür auch
schreiben:
A(E) = πd2 × N P × E(E) ,
(7.8)
wenn d den Abstand zur kubischen Oberfläche, von der aus die Teilchen in der Simulation generiert werden sollen, bezeichnet und der Parameter N P dafür verantwortlich ist, aus welcher
Richtung die Teilchen generiert werden sollen. N P = 6 bedeutet, dass von der Oberfläche aller
sechs Seitenflächen des den Detektor virtuell umgebenden Kubus generiert wird, die Teilchen
also aus allen Richtungen einfallen sollen. Dies ist Standardwert in der Simulationssoftware.
N P = 1 würde bedeuten, dass man lediglich auf einer der Oberflächen generiert, in der Datacard kann man dann über den Wert MCGEN 15 festlegen, welche Richtung man möchte. Bei
der in dieser Arbeit durchgeführten Simulation wurde der Standardwert 6 benutzt, um unter möglichst realitätsnahen Bedingungen simulieren zu können. Die Querschnittsfläche einer
Seite des Kubus betrug bei der Simulation (3, 9)2 m2 .
Als die generierte Akzeptanz Agen bezeichnet man den Wert von 7.7, den man für E = 1
erhält. Mit den oben geschilderten Werten für N P und d erhält man somit eine generierte
Akzeptanz von Agen = 286, 7m2 sr. Um die Akzeptanz für eine beliebige Effizienz berechnen
zu können, muss man also die gewählte Effizienz mit Agen = 286, 7m2 sr multiplizieren.
7.3
Klassische Schnitte
Das im Rahmen dieser Arbeit entstandene Framework ist in der Lage, eine Signal-UntergrundSeparation mit zwei unterschiedlichen Analysemethoden durchzuführen. Die erste Methode
ist die klassische, die mit Hilfe von manuell gewählten Schnitten das Entscheidungskriterium
festlegt, in der zweiten kommt ein bereits in Kapitel 5 beschriebenes neuronales Netz zum
Einsatz. Diese beiden Methoden werden im Folgenden kurz vorgestellt.
Aufgabe der Schnitte ist es, die Verunreinigung so gering wie möglich zu machen, ohne dabei all zu viel an Effizienz zu verlieren. Es wird unterschieden zwischen der Vorselektion, deren
62
KAPITEL 7. DIE ANALYSE
Sinn es ist, falsch rekonstruierte Ereignisse auszufiltern, die nur eine ungenügende Information
tragen und die Ergebnisse somit verfälschen können und den eigentlichen Schnitten auf die
jeweiligen Parameter des Kalorimeters, die die Grundlage der Entscheidung zwischen hadronischen und elektromagnetischen Schauern bilden. Die einzelnen benutzten Schnitte werden
mit Sn bezeichnet, wobei n die Nummer des Schnittes kennzeichnet.
7.3.1
Vorselektion
Eine Vorselektion ist wichtig, um sicherzustellen, dass fast ausschließlich vollständig rekonstruierte Ereignisse in die Analyse einfließen, sie dient nicht zur Signal-Hintergrund-Unterscheidung.
• Die Anzahl der Schauer im Kalorimeter (S1 )
Ereignisse, deren im Kalorimeter deponierte Energie nicht ausreicht, um als Schauer rekonstruiert zu werden, werden aussortiert. Solche Ereignisse tragen einfach nicht
genügend Information, um nützlich zu sein.
• Unvollständige Schauer am Rand des Kalorimeters (S2 )
Ein Teilchen, das zu dicht am Rand des Kalorimeters vorbei fliegt, wird möglicherweise
keinen vollständigen Schauer hinterlassen können, was zu falsch interpretierten Informationen führen kann. Ereignisse dieser Art werden deshalb ebenfalls zurückgewiesen. Als
Bedingung wird verwendet, dass der Abstand zwischen Detektor-Rand und der SchauerAchse mindestens so groß wie der Molière Radius (siehe Kapitel 6.3 ’Elektromagnetische
Schauer’) sein muss.
• Ausschluss zu großer und zu kleiner Schauer-Energien (S3 )
Schauer, deren Energie außerhalb des Bereichs 1 GeV ≤ ECALEnergie ≤ 1000 GeV
liegen, werden ebenfalls nicht berücksichtigt. Diejenigen mit einer Energie ≤ 1 GeV
könnten nicht richtig rekonstruiert worden sein, welche mit Energien über 1000 GeV
sind auf Grund des simulierten Spektrums (von 2 GeV − 512 GeV) als unphysikalisch
anzusehen und werden daher ausgefiltert.
7.3.2
Schnitte auf Kalorimeter-Variablen
Die Schnitte auf zum Kalorimeter gehörende Parameter haben die Aufgabe, eine Trennung
von elektromagnetischen (Signal) und hadronischen (Hintergrund) Schauern zu erreichen,
die die Verunreinigung minimiert bei einer gleichzeitig möglichst hohen Effizienz. Zu jedem
der im Folgenden beschriebenen Parameter werden zwei untereinander stehende Diagramme
gezeigt, das obere zeigt jeweils die Verteilung des Parameters, im unteren sind die Verläufe
von Effizienz und Verunreinigung veranschaulicht, die sich ergeben, falls an der betreffenden
Stelle der selektive Schnitt erfolgt. Zusätzlich ist die Stelle gekennzeichnet, an der der Schnitt
durchgeführt wurde und die in der Analyse benutzt wurde. Signal und Effizienz sind jeweils in
grün dargestellt, Hintergrund und Verunreinigung in rot. Alle gezeigten Diagramme beziehen
sich auf Photonen und Protonen, die mit der diskreten Energie von 32 GeV simuliert wurden.
Die Werte der Hintergrund-Teilchen wurden zur besseren Übersichtlichkeit auf die der SignalTeilchen normiert.
• Molière Radius, ’Energy3C[0]’ und ’Energy3C[1]’ (S4 und S5 )
Wie im vorangegangenen Kapitel in 6.3 und 6.4 geschildert wurde, ist die elektroagnetische Strahlungslänge X0 sehr viel kleiner als die nukleare Absorptionslänge λ
7.3. KLASSISCHE SCHNITTE
63
10
Ereignisse
Ereignisse
eines hadronischen Schauers (bei Blei ist X0 ≈ 0, 56 cm, λ ≈ 17, 1 cm). Dies bietet ein
sehr nützliches Kriterium zur Unterscheidung von Elektronen und Photonen einerseits,
von Protonen, Neutronen und geladenen Pionen andererseits. Man akzeptiert nur Ereignisse, die mehr als 96% (99%) ihrer Energie einem Zylinder von 0, 83 RM = 2 cm
(2, 1 RM = 5 cm) um die Schauer-Achse herum ablagern (Abbildung 7.2).
Signal
3
Hintergrund
10
Signal
10
3
Hintergrund
2
10
2
10
10
1
0.75
0.8
0.85
0.9
0.95
1
E2cm/E total
1
10
0.9
Effizienz und Verunreinigung
Effizienz und Verunreinigung
0.7
-1
-2
10
10
10
0.92
0.93
0.94
0.95
0.96
0.97
0.98
0.99
1
E5cm/E total
20
40
60
80
100
120
140
160
180
1
10
10
0.91
-1
-2
-3
-4
0
20
40
60
80
100
120
140
160
180
200
Cuts
0
200
Cuts
Abbildung 7.2: Relative Energie-Ablagerung innerhalb eines Zylinders von 0, 83 RM = 2 cm (links)
bzw. 2, 1 RM = 5 cm (rechts) um die Schauer-Achse
• Lage des Schauer-Maximums, ’ParProfile[1]’(S6 )
Die durchschnittliche Lage des Ortes, an dem ein Maximum an Energie abgelagert
wird, ist nach Gleichungen 6.5 und 6.9 vom Logarithmus der Energie anhängig, wobei
das elektromagnetische Maximum deutlich vor dem hadronischen liegt. Sich an dem
von V. Choutko in [41] vorgeschlagenen Schnitt orientierend, werden nur Ereignisse
akzeptiert, deren Maxima vor 0, 7 ∗ 6, 3 + 1, 2 log EECAL liegen (Abbildung 7.3, links).
• χ2 longitudinaler Schauer-Querschnitts-Fit, ’Chi2Profile’ (S7 )
Das longitudinale Querschnittsprofil eines elektromagnetischen Schauers im Kalorimeter
kann durch eine Gamma-Funktion (6.4) beschrieben werden. Der χ2 -Fit dieser Funktion
wird für jedes Ereignis berechnet. Bei einem elektromagnetischen Schauer erwartet man
einen ’guten’ Fit, also ein wohl definiertes Maximum der χ2 -Verteilung mit einem relativ
kleinen Wert des Maximums. Da ein hadronischer Schauer mehr Fluktuationen aufweist
und ausgedehnter ist, wird hier die χ2 -Verteilung breiter sein, das Maximum wird bei
einem größeren Wert erwartet.
Es werden Ereignisse verworfen, deren χ2 -Wert größer als 2,2 ist (Abbildung 7.3, rechts).
KAPITEL 7. DIE ANALYSE
2500
Signal
2000
Hintergrund
Ereignisse
Ereignisse
64
1500
Signal
10
3
Hintergrund
10
2
1000
10
500
1
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Schauer Maximum / 6,5 + 1,2 logEECAL
Effizienz und Verunreinigung
Effizienz und Verunreinigung
0
0
1
0.8
0.4
2
4
6
8
10
12
14
16
0
20
40
60
80
100
120
140
160
18
20
2
χ Profile
1
10
0.6
0
10
-1
-2
0.2
0
0
10
20
30
40
50
Cuts
180
200
Cuts
Abbildung 7.3: links: Lage des Schauer-Maximums. Akzeptiert werden Ereignisse, deren Maxima
vor 0, 7 ∗ 6, 3 + 1, 2 log EECAL liegen. Gezeigt ist das Verhältnis 6,3+1,2tmax
log EECAL , das
somit < 0, 7 sein muss.
rechts: Longitudinaler Schauer-Querschnitts-Fit. Alle Ereignisse, deren χ2 -Fit größer
als 2,2 ist, werden zurückgewiesen.
• Rear Leak, ’ParProfile[3]’(S8 )
Der Anteil der oben beschriebenen gefitteten Gamma-Verteilung, der nicht mehr im
Bereich des Kalorimeters liegt, wird als Rear Leak bezeichnet. Während Photonen den
Großteil ihrer Energie im Kalorimeter deponieren, wird für Protonen ein großer Rear
Leak erwartet.
Ein Ereignis wird akzeptiert, wenn sein Rear Leak < 0, 01 ist (Abbildung 7.4, links).
• Transversale Streuung, ’DifoSum’(S9 )
Der Parameter DifoSum ist ein Maß für die transversale Verteilung eines Schauers in
der x-y-Ebene. Er ist definiert als (Ex − Ey )/(Ex + Ey ). Ex (Ey ) bedeutet dabei die
Summation über alle in der x-Ebene (y-Ebene) liegende Messpunkte. Wie bereits mehrfach erwähnt, gibt es in einem hadronischen Schauer mehr Fluktuationen, was auch zu
einer größeren Streuung in der x-y-Ebene führt. Man erwartet daher beim elektromagnetischen Schauer einen schmalen, um Null zentrierten Peak in der Verteilung. Als
Selektionsbedingung wird Dif oSum < 0, 06 gewählt (Abbildung 7.4, rechts).
• Sphericity, ’ 23 SphericityEV[1]+SphericityEV[2]’(S10 )
Die dreidimensionale Ausdehnung einer Kaskade kann durch den Sphericity Tensor be-
10
65
Signal
4
Hintergrund
10
Ereignisse
Ereignisse
7.3. KLASSISCHE SCHNITTE
Signal
10
Hintergrund
3
10
10
3
2
2
10
10
1
1
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
0.2
Rear Leak
Effizienz und Verunreinigung
Effizienz und Verunreinigung
0
1
10
10
10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(Ex-Ey)/(Ex+Ey)
0
20
40
60
80
100
120
140
160
1
10
-1
0
-1
-2
-2
0
5
10
15
20
25
30
35
40
Cuts
180
200
Cuts
Abbildung 7.4: links: Ereignisse, deren Rear Leak > 0, 01 ist, werden verworfen.
rechts: Transversale Streuung des Schauers. Die Bedingung zur Selektion ist hier:
DifoSum < 0, 06.
schrieben werden [37]:
S
αβ
PN
=
α β
i pi pi
PN
2
i |pi |
,
α, β = 1, 2, 3
(7.9)
In der herkömmlichen (aus Beschleuniger-Experimenten mit typischen 2- oder 3- Jet-Ereignissen) Definition des Sphericity-Tensors geht die Summation über alle N an beteiligten Teilchen, pi sind dann die Impuls-Vektoren. Aufgrund der großen Anzahl der
an einer Kaskade beteiligten Teilchen muss diese Definition hier leicht abgeändert werden: N steht nun für alle Messpunkte im Kalorimeter, an denen Energie des Schauers
abgelagert wurde, die pi symbolisieren den jeweiligen Abstand eines Messpunkts zur
Schauer-Achse multipliziert mit der dort deponierten Energie.
Den drei Komponenten eines dreidimensionalen Koordinatensystems entsprechend gibt
es drei Eigenwerte λ1,2,3 , die die Form eines Ellipsoids, welches die Kaskade enthält,
charakterisieren. Es gilt λ1 ≥ λ2 ≥ λ3 mit λ1 + λ2 + λ3 = 1. Die Sphericity ist nun
definiert als
3
S = (λ2 + λ3 ) .
(7.10)
2
Ereignisse, deren Sphericity < 0, 1 ist, werden zurückgewiesen (Abbildung 7.5).
KAPITEL 7. DIE ANALYSE
Ereignisse
66
Signal
1000
Hintergrund
800
600
400
200
Effizienz und Verunreinigung
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
20
40
60
80
100
120
140
160
0.9
1
Sphericity
1
0.8
0.6
0.4
0.2
0
0
180
200
Cuts
Abbildung 7.5: Sphericity. Nur Ereignisse mit einer Sphericity > 0, 1 werden ausgewählt.
7.3.3
Ergebnisse der klassischen Analyse
Effizienz und Verunreinigung
Ziel dieser Analyse war es, die Effizienz und die Verunreinigung einer simulierten Datenprobe unter der Benutzung verschiedener, manuell gewählter Selektionskriterien zu bestimmen. Die Ergebnisse werden an dieser Stelle anhand von Diagrammen, die die Effizienz und
die Verunreinigung in Abhängigkeit der Energie zeigen, präsentiert. Entscheidend für alle
weiteren Schnitte war die zu Beginn durchgeführte Vorselektion, da alle Teilchen, die den
hierfür gewählten Kriterien (siehe Kapitel 7.2.1 ’Die Vorselektion’) nicht genügten, aussortiert wurden. Im Schnitt ergab sich eine Effizienz von 0,4 und eine Verunreinigung von 0,03
(Abbildung 7.6). Bei allen folgenden Diagrammen sind links die Ergebnisse ohne, rechts mit
0.45
0.4
0.35
0.3
0.25
Effizienz
0.2
Verunreinigung
0.15
0.1
0.05
0
10
10
2
E[GeV]
Abbildung 7.6: Effizienz und Verunreinigung nach der Vorselektion (S1 + S2 + S3 )
7.3. KLASSISCHE SCHNITTE
67
Berücksichtigung der Vorselektion gezeigt. Wie man erkennen kann, sind nicht alle Parameter
gleich ’gut’ zur Selektion geeignet: Vor allem die Schnitte S5 , S7 und S8 zeigen eine deutliche Energie-Abhängigkeit, obwohl alle Werte, wenn möglich, auf die im Detektor deponierte
Energie normiert wurden, um dieses Problem zu minimieren. Eine ganz besonders deutliche
Energie-Abhängigkeit zeigt der χ2 -Fit (Abbildung 7.3, rechts und Abbildung 7.7). Da sich die-
Hintergrund
10
2
Ereignisse
Ereignisse
Signal
10
3
Signal
Hintergrund
10
2
10
10
1
1
2
4
6
8
10
12
14
16
18
20
2
χ Profile
Effizienz und Verunreinigung
Effizienz und Verunreinigung
0
1
10
10
-1
10
0
20
40
60
80
100
120
140
160
180
200
Cuts
2
4
6
8
10
12
14
16
0
20
40
60
80
100
120
140
160
18
20
2
χ Profile
1
10
-2
0
-1
-2
180
200
Cuts
Abbildung 7.7: Illustration der Energieabhängigeit des χ2 -Fits. In der linken Abbildung wurden
Teilchen mit einer Energie von 2 GeV simuliert und in der rechten mit 512 GeV.
se Analyse auf den alleinigen Betrieb des Kalorimeters bezieht, kann zur Energiebestimmung
nur das Kalorimeter herangezogen werden. Aufgrund dessen relativ kleiner Dicke (≈ 0, 5λ,
siehe Kapitel 4.6. ’Elektromagnetisches Kalorimeter’) ist es nicht möglich, die Energie der
einfallenden Teilchen exakt zu bestimmen, was dagegen spricht, die Schnitte in Abhängigkeit
der simulierten Energie zu verschieben. Eine mögliche Ursache für die breitere χ2 -Verteilung
bei kleinen Energien (2 GeV und 4 Gev)liegt darin, dass die Trigger-Schwelle des Kalorimeters
bei 8 GeV liegt.
0.6
0.5
Effizienz und Verunreinigung
KAPITEL 7. DIE ANALYSE
Effizienz und Verunreinigung
68
1
-1
10
0.4
Effizienz
-2
10
0.3
Verunreinigung
0.2
-3
10
Effizienz
0.1
Verunreinigung
-4
0
10
10
10
2
10
E[GeV]
10
2
E[GeV]
Effizienz und Verunreinigung
Effizienz und Verunreinigung
Abbildung 7.8: Relative Energie-Ablagerung innerhalb eines Zylinders von 0, 83 RM = 2 cm um die
Schauer-Achse (S4 ), links: normiert auf Vorselektion, rechts: gesamt
0.7
0.6
1
-1
10
0.5
0.4
-2
10
Effizienz
0.3
Verunreinigung
0.2
-3
10
Effizienz
0.1
Verunreinigung
-4
0
10
10
10
2
E[GeV]
10
10
2
E[GeV]
Abbildung 7.9: Relative Energie-Ablagerung innerhalb eines Zylinders von 2, 2 RM = 5 cm um die
Schauer-Achse (S5 ), links: normiert auf Vorselektion, rechts: gesamt
7.4
Neuronales Netz
Eine Analyse mit einem neuronalen Netz sollte auf die klassische Methode aufbauen:
• In dem klassischen Teil der Analyse werden die Schnitte so gesetzt, dass alle Teilchen,
die man anhand der Verteilungen der diversen Parameter eindeutig als Hintergrund
identifizieren kann, ausgefiltert werden.
• Die übrig bleibenden Teilchen sind anschließend so verteilt, dass die klassischen Schnitte
keine wesentlichen Verbesserungen mehr bewirken könnten.
An dieser Stelle sollte nun ein neuronales Netz zum Einsatz kommen: Dort, wo klassische
Methoden ihre Grenzen finden, kann ein neuronales Netz zu einer weiteren Verbesserung
des Effizienz-Verunreinigungs-Verhältnisses beitragen, indem es Zusammenhänge erkennt, die
sonst verborgen geblieben wären.
Aufgrund statistischer Probleme musste in der vorliegenden Arbeit ein anderer Weg
gewählt werden: Wie im vorangegangenen Abschnitt gezeigt wurde, sind nach Anwendung aller manuellen Schnitte lediglich noch 7 Hintergrund-Ereignisse (und 19771 Signal-Ereignisse)
übrig geblieben. Dies ist keine ausreichende Statistik, um sie als Eingaben für eine neuronales Netz zu verwenden. Aus diesem Grund wurde die Selektion, die vor der ’Übergabe’ der
Daten an das Netz durchgeführt wurde, etwas abgeschwächt, um mehr Statistik zu erhalten.
Dabei wurde vor allem darauf geachtet, Spitzen aus den Verteilungen der Eingabe-Variablen
69
1
Effizienz und Verunreinigung
Effizienz und Verunreinigung
7.4. NEURONALES NETZ
0.9
0.8
0.7
1
-1
10
0.6
0.5
0.4
-2
10
0.3
Effizienz
0.2
Effizienz
0.1
Verunreinigung
Verunreinigung
-3
0
10
10
10
2
10
E[GeV]
10
2
E[GeV]
1
0.8
Effizienz und Verunreinigung
Effizienz und Verunreinigung
Abbildung 7.10: Lage des Schauer-Maximums (S6 ), links: normiert auf Vorselektion, rechts: gesamt
Effizienz
Verunreinigung
1
-1
10
-2
10
0.6
-3
10
0.4
-4
10
0.2
Verunreinigung
-5
0
10
10
10
2
E[GeV]
10
10
2
E[GeV]
Abbildung 7.11: Longitudinaler Querschnitts-χ2 -Fit (S7 ), links: normiert auf Vorselektion, rechts:
gesamt
zu entfernen, die dem Netz den Lernprozess erschweren würden. Dies wird am Beispiel der
Abbildung 7.15 veranschaulicht. Im Einzelnen wurden folgende Kriterien gewählt:
• Energy3C[0] < 1
• Energy3C[1] < 1
•
ParProfile[1]
6,5+1,2∗log EnergyC
> 0, 2
• Sphericity < 0, 4
Als Eingabevariablen dienten:
• Chi2Profile
• Energy3C[0]
• ParProfile[1]
• DifoSum
• Sphericity
• ParProfile[3]
Effizienz und Verunreinigung
KAPITEL 7. DIE ANALYSE
Effizienz und Verunreinigung
70
1
0.8
1
-1
10
0.6
0.4
-2
10
0.2
Effizienz
Effizienz
Verunreinigung
Verunreinigung
-3
0
10
10
10
2
10
E[GeV]
10
2
E[GeV]
Effizienz und Verunreinigung
Effizienz und Verunreinigung
Abbildung 7.12: Rear Leak (S8 ), links: normiert auf Vorselektion, rechts: gesamt
0.8
1
-1
10
0.7
0.6
-2
10
0.5
0.4
-3
10
0.3
0.2
Effizienz
0.1
Verunreinigung
-4
Effizienz
10
Verunreinigung
-5
0
10
10
10
2
E[GeV]
10
10
2
E[GeV]
Abbildung 7.13: Transversale Streuung (DifoSum) (S9 ), links: normiert auf Vorselektion, rechts:
gesamt
Diese Einstellungen führten zu einer Vorselektion, deren Effizienz und Verunreinigung in
Abbildung 7.16 gezeigt sind. Das Netz wurde mit 50000 Iterationen trainiert bei einer Lerngeschwindigkeit (’SetSpeed’) von 20. Abbildung 7.17 veranschaulicht die Ausgabe des Teachers
für simulierte Teilchenenergien von 32 GeV. Wie in Kapitel 5.4 ’NeuroBayes’ beschrieben, werden die Ereignisse in einen Bereich von −1 bis +1 eingeteilt, wobei der Wert proportional zur
Wahrscheinlichkeit ist, dass es sich um Signal oder Hintergrund handelt. Simulierte Photonen
werden in grün gezeigt, Protonen in rot. Eingezeichnet ist ein Schnitt bei 0, 8. Ereignisse mit
einem Ausgabewert < 0, 8 werden verworfen.
7.5
Vergleich und Interpretation der Ergebnisse
Die zahlreichen in den vorangegangenen Abschnitten erhaltenen Ergebnisse lassen sich zusammenfassend in den Abbildungen 7.18 und 7.19 darstellen. Auf der linken Seite ist jeweils
das Verhältnis der selektierten Ereignisse zur Anzahl nach der Vorselektion gezeigt, auf der
rechten Seite das Verhältnis der selektierten Ereignisse zur Gesamtzahl.
Man sieht, dass die Verunreinigung nach Anwendung der klassischen Selektion niedriger
ist als nach Verwendung eines neuronalen Netzes, während die Effizienz bei beiden Methoden
vergleichbar ist. Eine Übersicht über die selektierten Ereignisse nach Durchführung aller manuellen Schnitte und nach Anwendung des neuronalen Netzes geben Tabellen 7.1 (klassische
Schnitte) und 7.2 (neuronales Netz). Keine der beiden Analyse-Methoden kann das gesetzte
Ziel einer Verunreinigung von höchstens 10−5 (bei einer gleichzeitigen Effizienz von 1) errei-
Effizienz und Verunreinigung
Effizienz und Verunreinigung
7.5. VERGLEICH UND INTERPRETATION DER ERGEBNISSE
0.6
0.5
71
1
-1
10
0.4
0.3
-2
10
Effizienz
0.2
Effizienz
Verunreinigung
0.1
Verunreinigung
-3
0
10
10
10
2
10
E[GeV]
10
2
E[GeV]
Ereignisse
Abbildung 7.14: Sphericity (S10 ), links: normiert auf Vorselektion, rechts: gesamt
2500
Signal
2000
Hintergrund
1500
1000
500
0
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Schauer Maximum / 6,5 + 1,2 logEECAL
Abbildung 7.15: Auswahl der Schnitte für neuronales Netz am Beispiel des Parameters ’ParProfile[1]’: Eine Verteilung wie diese, bei der der Hintergrund eine Spitze bei kleinen
Werten um 0 besitzt, zudem aber auch wieder im höheren Energiebereich häufiger
auftritt als das Signal, ist für ein neuronales Netz schwer zu erlernen und sollte
deswegen vorselektiert werden.
chen: Da das Verhältnis von Protonen zu Photonen (siehe Abbildung 7.4) ungefähr 105 ist,
muss man die erhaltene Verunreinigung mit diesem Faktor multiplizieren. Die Verunreinigung
sollte auch danach signifikant kleiner sein als die Effizienz. Da die Effizienz bei beiden Methoden auf 10−1 gesunken ist, wäre in diesem Fall eine Verunreinigung von höchstens 10−6
als Erfolg zu bewerten gewesen.
In der durchgeführten Analyse konnte der Einsatz eines neuronalen Netzes zu keiner Verbesserung gegenüber der klassischen Methode mit selektiven Schnitten führen. Allerdings
müssen zwei Tatsachen beachtet werden:
• Nach der manuellen Selektion sind nur noch wenige (sieben) Hintergrund-Ereignisse
nach Summation über alle benutzen Energien übrig geblieben. Es ist zwar prinzipiell
das Ziel einer Signal-Hintergrund-Trennung, die Anzahl der selektierten Hintergrund-Ereignisse so niedrig wie möglich zu halten. Aufgrund des Verhältnisses ca. 105 von
Protonen zu Photonen (siehe Abbildung 7.4) muss man die erhaltene Verunreinigung mit
diesem Faktor multiplizieren. Je kleiner die Anzahl der selektierten Ereignisse ist, desto
größer wird der Fehler. Um eine zuverlässigere Aussage über das Trennungsvermögen
von Signal und Hintergrund zu erhalten, sollte die Analyse mit einer höheren Statistik
wiederholt werden.
KAPITEL 7. DIE ANALYSE
Effizienz und Verunreinigung
72
1
-1
10
-2
10
Effizienz
Verunreinigung
-3
10
10
10
2
E[GeV]
Abbildung 7.16: Effizienz und Verunreinigung der Vorselektion der Eingabevariablen des neuronalen
Netzes
Energie [GeV]
2
4
8
16
32
64
128
256
512
p
0
0
0
2
2
0
1
2
0
γ
43
299
2113
4619
7157
1692
3707
115
26
Effizienz
8, 1 · 10−4
5, 5 · 10−3
3, 9 · 10−2
8, 4 · 10−2
1, 3 · 10−1
1, 4 · 10−1
9, 7 · 10−2
1, 6 · 10−2
2, 5 · 10−3
Verunreinigung
0
0
0
5 · 10−6
7 · 10−6
0
9 · 10−6
2, 3 · 10−5
0
gesamt
7
19771
5, 7 · 10−2
5 · 10−6
Tabelle 7.1: Gesamtzahl der mit klassischen Schnitten selektierten Teilchen
• Das neuronale Netz wurde aufgrund mangelnder Statistik so eingesetzt, dass die mit ihm
durchgeführte Analyse als losgelöst von der klassischen Analyse betrachtet werden kann.
Wie im vorangegangenen Abschnitt beschrieben wurde, kann ein neuronales Netzes auch
so genutzt werden, dass sein Einsatz erst dann erfolgt, wenn mit manuellen Schnitten
keine Verbesserung der Ergebnisse mehr erzielt werden kann, da es in der Lage ist,
Zusammenhänge zu erkennen, die mit klassischen Mitteln im Verborgenen geblieben
wären. Eine Aufgabe zukünftiger Studien könnte sein, mit einer so hohen Statistik zu
arbeiten, dass sie nach Anwendung der klassischen Analyse noch hoch genug ist, um die
so selektierten Ereignisse als Eingabevariablen eines neuronalen Netzes zu verwenden.
7.5. VERGLEICH UND INTERPRETATION DER ERGEBNISSE
73
201: F(NETOUT) FOR SIGNAL
Entries
Mean
RMS
10
10
22282
0.6085
0.498
3
2
10
1
Effizienz und Verunreinigung
-1
-0.8
-0.6
-0.4
-0.2
-0
0.2
0.4
0.6
0.8
1
1
-1
10
-2
10
0
20
40
60
80
100
Cuts
Abbildung 7.17: Ausgabe des Teachers für Teilchenenergien von 32 GeV Simulierte Signale sind in
grün dargestellt, der Hintergrund in rot. In der unteren Abbildung ist der Verlauf
von Effizienz und Verunreinigung veranschaulicht.
Verunreinigung
Effizienz
Effizienz und Verunreinigung
Effizienz und Verunreinigung
Effizienz
1
1
Verunreinigung
-1
10
-1
10
-2
10
-2
10
-3
10
-4
10
-3
10
-5
10
-4
-6
10
10
10
10
2
E[GeV]
10
10
2
E[GeV]
Abbildung 7.18: Effizienz und Verunreinigung der klassischen Analyse. Das linke Diagramm
berücksichtigt die Vorselektion, das rechte bezieht sich auf die simulierte Gesamtzahl der Ereignisse.
KAPITEL 7. DIE ANALYSE
1
Effizienz und Verunreinigung
Effizienz und Verunreinigung
74
1
-1
10
-1
10
-2
10
-3
10
-2
10
Effizienz
Effizienz
-4
10
Verunreinigung
Verunreinigung
-3
-5
10
10
10
10
2
10
E[GeV]
10
2
E[GeV]
Abbildung 7.19: Effizienz und Verunreinigung der Analyse mit Hilfe eines neuronalen Netzes. Das
linke Diagramm berücksichtigt die Vorselektion, das rechte bezieht sich auf die
simulierte Gesamtzahl der Ereignisse.
Energie [GeV]
2
4
8
16
32
64
128
256
512
p
42
186
146
262
222
121
92
84
0
γ
2589
7887
10274
11899
12767
2720
6504
885
0
Effizienz
4, 9 · 10−2
1, 4 · 10−1
1, 9 · 10−1
2, 2 · 10−1
2, 3 · 10−1
2, 2 · 10−1
1, 7 · 10−1
1, 2 · 10−1
0
Verunreinigung
9 · 10−5
4 · 10−4
5 · 10−4
6 · 10−4
7 · 10−4
9 · 10−4
8 · 10−4
1 · 10−3
0
gesamt
55525
1155
1, 5 · 10−1
5, 6 · 10−4
Tabelle 7.2: Gesamtzahl der mit einem neuronalem Netz selektierten Teilchen
Kapitel 8
Zusammenfassung und Ausblick
Ab Juni 2007 wird der AMS-02 Detektor an Bord der internationalen Raumstation ISS für
drei Jahre kosmische Teilchenströme messen. Das Ziel ist, Antworten auf zwei bisher unbeantwortete Fragen der modernen Physik liefern zu können: Die Existenz von Antimaterie im
Weltall und die Zusammensetzung der dunklen Materie.
Zur Auswertung der gemessenen Teilchen bedarf es einer Software, die es ermöglichen soll,
aus den gemessenen Daten des Detektors eine Signal-Hintergrund-Trennung durchzuführen.
Ziel dieser Arbeit war es, ein Analyse-Framework in der Programmiersprache C++ zu entwickeln, mit dem es möglich sein sollte, Signal-Hintergrund-Trennungen unter Verwendung
zweier verschiedener Methoden durchzuführen. Die erste, klassische Möglichkeit ist die Benutzung manuell gewählter Schnitte, in der zweiten kommt ein neuronales Netz zum Einsatz.
Nach Fertigstellung des Frameworks sollte seine Funktionsfähigkeit anhand einer Beispielanalyse gezeigt werden. Ziel der Analyse war es, zu untersuchen, ob eine Separation von Photonen
in Gegenwart eines Proton-Hintergrundes möglich ist, wenn man lediglich auf die gesammelten
Daten des elektromagnetischen Kalorimeters zurückgreift. Dazu wurden zunächst ca. 3 · 105
Photonen und ca. 2 · 106 Protonen simuliert. Für beide Methoden sollte die Effizienz und
die Verunreinigung nach Anwendung aller Selektionskriterien bestimmt werden. Da im kosmischen Teilchenspektrum ungefähr 105 mal mehr Protonen als Photonen vorkommen, kann
eine Separation nur zum Erfolg führen, sollte eine Verunreinigung von unter 10−5 erreicht
werden. Die Analyse unter Verwendung eines neuronalen Netzes konnte eine Verunreinigung
von ca. 5 · 10−3 erreichen. Bei der klassischen Methode ergab sich eine Verunreinigung von ca.
10−5 . Es zeigte sich, dass das neuronale Netz trotz gleicher Eingabevariablen ein schlechteres
Trennungsvermögen aufwies als die klassische Analyse mit manuellen Schnitten. Das Netz
konnte aufgrund fehlender Statistik jedoch nicht die selektierten Ereignisse der klassischen
Analyse als Eingabevariablen erhalten. Wäre dies möglich gewesen, hätte geprüft werden
können, ob eine Verbesserung der Ergebnisse der klassischen Analyse durch das neuronale
Netz möglich ist, da dieses in der Lage ist, Zusammenhänge zu erkennen, die mit klassischen
Mitteln im Verborgenen bleiben.
Eine Aufgabe zukünftiger Studien könnte sein, mit einer so hohen Statistik zu arbeiten, dass
sie nach Anwendung der klassischen Analyse noch hoch genug ist, um die so selektierten Ereignisse als Eingabevariablen eines neuronalen Netzes zu verwenden.
Es wurde gezeigt, dass das erstellte Framework in der Lage ist, eine Separations-Analyse
sowohl mit der klassischen Methode selektiver Schnitte als auch unter Benutzung eines neuronalen Netzes durchzuführen.
75
76
KAPITEL 8. ZUSAMMENFASSUNG UND AUSBLICK
Literaturverzeichnis
[1] L. FINKE: Das Standardmodell der Teilchenphysik (Eine Einführung) www.physik.rwthaachen.de/ hebbeker/ lectures/sem0102/finke2.pdf
[2] C. BERGER: Elementarteilchenphysik. Springer (2002)
[3] H.V. KLAPDOR- KLEINGROTHAUS, K.ZUBER: Teilchenastrophysik. Teubner (1997)
[4] T. FLIESSBACH: Mechanik, Zweite Auflage. Spektrum Akademischer Verlag (1996)
[5] U. KERZEL: Erste inklusive Messung der b–Quark–Frakmentationsfunktion f (z) in Z 0 –
Zerfällen mit dem Deplhi Detektor bei LEP I. Diplomarbeit, Universität Karlsruhe (2002)
[6] C. S. WU und E. AMBLER: Experimental Test of Parity Conservation in Beta Decays,
Phys. Rev.(1957)
[7] PROF. DR. WIM DE BOER: Experimentelle Teilchenphysik, Vorlesungsskriptum (1999)
[8] Wilkinson Microwave Anisotrioy Probe, Website: http://map.gsfc.nasa.gov
[9] JAYANT VISHNU NARLIKAR: Introduction to cosmology, third edition, Cambridge
University Press (2002)
[10] A. LIDDLE: An Introduction to Modern Cosmology, Second Edition. Wiley (2003)
[11] PROF. DR. WIM DE BOER: Einführung in die Kosmologie, Vorlesungsskriptum (2001)
[12] PARTICLE DATA GROUP, K. HAGIWARA ET AL., Phys. Rev. D66010001-1 (2002)
[13] J.R. MOULD ET AL.: Astrophysics (2000)
[14] H. GOENNER: Einführung in die Kosmologie. Spektrum (1994)
[15] DIERCK-EKKEHARD LIEBSCHER: Kosmologie. Johann Ambrosius Barth (1994)
[16] S. WEINBERG: Die ersten drei Minuten. Piper München Zürich (2001)
[17] R.A. ALPHER UND R. HERMAN: Early work on ’big bang’ cosmology and the cosmic
black body radiation. In B. BERTOTTI ET AL. (Herausgeber), Modern cosmology in
retrospect. Cambridge: University Press (1990)
[18] GEORGE F. SMOOT: Cobe observations and results (1998)
[19] SILK: Die Geschichte des Kosmos. Spektrum Verlag (1999)
77
78
LITERATURVERZEICHNIS
[20] Supernova Cosmology Project, Website: http://www.supernova.lbl.gov Knop et. al. 2003,
ApJ, in press
[21] MAXIMA, Website: http://cosmology.berkeley.edu/group/cmb
[22] BOOMERANG, Website: http://www.astro.caltech.edu/ lgg/boomerang front.htm
[23] NATIONAL AERONAUTS AND SPACE ADMINISTRATION, NASA Headquarterts:
Dark Matter, Website: http://opposite.stsci.edu/pubinfo/background-text/darkmatt.txt
(1994)
[24] K.S. DE BOER, Sternwarte, Universität Bonn, Website: http://www.astro.unibonn.de/ deboer/pdm/pdmtxt.html (2000)
[25] ROSAT, Website: http://wave.xray.mpe.mpg.de/rosat
[26] Das MACHO–Projekt, Website: http://www.owlnet.rice.edu/spac250/coco/spac.html
[27] AMS02, Website: http://ams.cern.ch/AMS/ams homepage.html
[28] The
Alpha
Magnetic
Spectrometer
http://ams.pg.infn.it/whatis/whatis.htm
Perugia
Group
Homepage
[29] J. MOECK: Einsatz neuronaler Netze als intelligente Trigger im H1-Experiment Website:
http://wwwh1.mppmu.mpg.de/personal/jum/html/dip/dip.html
[30] http://home.arcor.de/ralf.sitter/kyb/neuro/nn.htm
[31] T. KOLB: Neuronale Netze - Eine Einführung Website: http://vieta.math.tucottbus.de/ kolb/ml-nn/
[32] http://wwwmath.uni-muenster.de/SoftComputing/lehre/material/wwwnnscript/
[33] M. FEINDT: NeuroBayes - a neural Bayesian estimator for conditional probability densities. private communication (2001)
[34] GEANT Website: http://wwwasd.web.cern.ch/wwwasd/geant/
[35] \usr\ekpcluster\schneider\Ams\AMS\doc\datacards02.doc
[36] The ROOT System Homepage, Website: http://root.cern.ch
[37] M. KOPF: Separation von e+ und p beim AMS-02 Detektor mit Hilfe eines neuronalen
Netzes. Diplomarbeit Universität Karlsruhe (2003)
[38] S. SAJJAD: Etude de l‘extraction d‘un signal gamma pour la détection de sursauts
gamma par l‘expérience AMS-02. Rapport de stage du D.E.A de Physique Université
Blaise Pascal(2002)
[39] M. J. BERGER and S. M. SELTZER: Tables of Energy Losses and Ranges of Electrons
and Positrons, National Aeronautics and Space Administration Report NASA-SP-3012
(1964)
[40] B. STROUSSTROUP: Die C++ Programmiersprache. Addison-Wesley (1998)
LITERATURVERZEICHNIS
79
[41] V. CHOUTKO, G. LAMANNA, M. MALININ: Cosmic Photon and Positron Spectra
Measurements Modelling with the AMS-02 Detector at ISS, Proceedings of the conference
on ’Matter, Anti-Matter and Dark Matter’ (2001)
80
LITERATURVERZEICHNIS
Danksagung
An dieser Stelle möchte ich mich bei folgenden Personen bedanken:
• Herrn Prof. Dr. Wim de Boer danke ich für die interessante Aufgabenstellung und dafür,
dass er mir diese Arbeit am Institut für Experimentelle Kernphysik ermöglichte
• Herrn Prof. Dr. Johannes Blümer für die Übernahme des Korreferats
• Dr. Valery Zhukov für die Betreuung während der Arbeit
• meinem Zimmergenossen Marc Herold für die angenehme Arbeitsatmosphäre
• Alexander Skiba, Hartmut Stadie, Jens Rehn und Kurt Rinnert für ihre kompetente
und unermüdliche Unterstützung bei programmiertechnischen Problemen
• Alexander Schmidt, Christian Piasecki, Christian Sander, Matthias Kumpf, Philipp
Mack und Stefan Thielen für die Korrektur der Arbeit
• allen Mitgliedern des Instituts für experimentelle Kernphysik für ein schönes Jahr in
einer angenehmen Arbeitsatmosphäre
• und ganz besonders bedanke ich mich bei meinen Eltern, die mir dieses Studium ermöglicht
haben und mich immer unterstützt haben, so gut es ihnen möglich war.
81
Herunterladen