Clusteruntersuchung von IceCube-MC-Daten

Werbung
Technische Universität Dortmund
Clusteruntersuchung von
IceCube-MC-Daten
Michael Bulinski
Arbeit zur Erlangung des Bachelorgrades
26. November 2013
Gutachter:
Prof. Dr. Dr. Wolfgang Rhode
PD Dr. Reiner Klingenberg
Inhaltsverzeichnis
1 Einleitung
5
2 Theorie
7
2.1
2.2
2.3
Physikalische Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.1.1
Astroteilchen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.1.2
Quellen hochenergetischer Neutrinos . . . . . . . . . . . . . . .
9
2.1.3
IceCube-Detektor . . . . . . . . . . . . . . . . . . . . . . . . . .
9
Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.2.1
Kernmenge . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.2.2
k-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.2.3
Anzahl der Clusterzentren . . . . . . . . . . . . . . . . . . . . .
13
Daten Vervielfältigung . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.3.1
16
Funktionsweise . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 Neue Attribute
3.1
3.2
3.3
Event-Attribute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
3.1.1
Clusternummer . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
3.1.2
Silhouette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
Cluster-Attribute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
3.2.1
Loneliness . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
3.2.2
Signalanteil . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
Verbesserungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
4 Untersuchung der Monte Carlo Daten
4.1
17
21
Anzahl der Clusterzentren . . . . . . . . . . . . . . . . . . . . . . . . .
21
4.1.1
Duplikationsmaß . . . . . . . . . . . . . . . . . . . . . . . . . .
22
4.1.2
Auswertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3
Inhaltsverzeichnis
5 Clustereigenschaften
5.1 Signalanteil . . . . . .
5.1.1 Schnitte . . . .
5.2 Reine Signalcluster . .
5.2.1 Radius . . . . .
5.2.2 Rekonstruierter
5.3 Energie . . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
Zenithwinkel
. . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
29
29
31
31
32
33
34
6 Resumee und Ausblick
37
A Anhang
A.1 Duplikations-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . .
A.2 Verwendete Datensätze . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.3 Duplikationsmaß . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
39
39
40
Literaturverzeichnis
41
4
1 Einleitung
Seit vielen Jahrhunderten wird der Nachthimmel untersucht, anfangs nur mit bloßem
Auge, später schlossen sich dem weitere Verfahren an, wie zum Beispiel Teleskope
oder Satellitenexperimente. Diese beschränken sich heutzutage nicht nur auf das für
den Menschen sichtbare Licht, sondern auch auf die nicht sichtbaren Bestandteile
der kosmischen Strahlung. So erreichen täglich unzählige Teilchen die Erde, daraus
resultierend stellt sich die Frage, woher diese Teilchen kommen und wie sie entstehen.
Mit dieser Frage beschäftigt sich die Astroteilchenphysik und untersucht die dahinter
stehende Physik [UB02].
Die Teilchen entstehen in den verschiedensten kosmischen Quellen, unter anderem in
AGNs (Aktive Galaktische Kerne) oder Supernovaexplosionen. Dabei ist die Energie der
Teilchen abhängig von der Quelle und des Produktionsmechanismus. Je nach Energie
und Teilchen gibt es verschiedene Verfahren zur Untersuchung dieser, beispielsweise Satellitenexperimente oder Luftschauerdetektoren. Diese Verfahren liefern auch heute noch
eine Menge wichtiger Erkenntnisse über den Kosmos. Dennoch sind diese Experimente
aufgrund der untersuchten Teilchen in ihrer möglichen Informationssuche beschränkt.
So werden geladene Teilchen durch galaktische magnetische Felder abgelenkt, wodurch
ihre Ursprungsinformation verloren geht. Hochenergetische Photonen wechselwirken
dagegen mit den verschiedenen im Kosmos erzeugten γ-Teilchen, wie zum Beispiel mit
dem Licht, das die extragalaktischen Sterne produzieren (Extragalactic background
light). Diese Wechselwirkung führt zu einer Paarproduktion, womit das Licht in seiner
Reichweite eingeschränkt wird [FRD10].
Aus den oben genanten Gründen wird die Beobachtung des Kosmos um die Untersuchung der ankommenden Neutrinos erweitert. Diese elektrisch neutralen Teilchen,
zeichnen sich durch ihre geringe Masse von mν < 2 eV [(Pa] und dem geringen Wirkungsquerschnitt, in der Größenordnung von 10−13 b (Eν = 10 GeV Neutrinos) [GQRS],
aus. Diese Eigenschaften führen dazu, dass sich die Neutrinos gradlinig von der Quelle
fortbewegen und nur wenig durch andere kosmische Objekte behindert werden. Damit
sind sie gute Kandidaten zur Erforschung weit entfernter astronomischer Objekte.
Das IceCube-Experiment misst die Tscherenkow-Strahlung, der Sekundärteilchen,
der durch Neutrinos im Eis entstehenden Leptonen. Neben den von Neutrinos erzeug-
5
1 Einleitung
ten Leptonen, gibt es noch die in Luftschauern erzeugten Myonen, die die gleichen
Reaktionen im Detektor erzeugen. [Joh11]
Daher verwendet IceCube zur Klassifizierung der Daten unter anderem das Klassifikationsverfahren Random Forest [BS01] oder das der Boosted Decision Trees [BPR05].
Diese Verfahren versuchen mithilfe von Entscheidungsbäumen eine Klassifikation durchzuführen. Zusätzlich dazu werden vorher noch harte Schnitte angesetzt, um einen
Großteil des Untergrunds von vornherein aus den Daten zu entfernen. [Col12]
In der Arbeit geht es darum, die physikalischen Datensätze mithilfe eines Clusteralgorithmus zu untersuchen. Ziel ist es zu überprüfen, ob sich eine automatisierte
Clustersuche zur Unterteilung oder Analyse der Daten eignet. Insbesondere sind die
aus physikalischen Zusammenhängen entstehenden Cluster interessant. Solche Cluster
sind für weitere Analysen von Interesse, da sie zusätzliche Informationen über die in
ihnen zusammengefassten Daten erzeugen. Das Clustering könnte Daten zu Gruppen
zusammenfassen, die in nachfolgenden Berechnungen unterschiedlich behandelt werden
[Sch11], [Fre12]. Weiterhin könnte der Algorithmus Zusammenhänge in den Daten
finden, die nicht direkt erkennbar sind.
Diese Arbeit ist wie folgt gegliedert: Das zweite Kapitel erklärt die physikalischen
Grundlagen der Astroteilchen, der zu Grunde liegenden Daten und wie diese gemessen wurden. Im Anschluss werden die verwendete Algorithmen zur Clusterung und
Bestimmung der Güte beschrieben.
Das dritte Kapitel beschreibt vier mögliche neue Attribute, die aus der Clusterberechnung gewonnen werden können. Diese werden in zwei Klassen unterteilt: die Ereignisspezifischen Attribute, die nur für das Ereignis gelten und die Cluster-spezifischen
Attribute, die für eine Menge von Ereignissen gelten, da diese dem gleichen Cluster
angehören.
Das vierte Kapitel beschäftigt sich mit der Untersuchung des Clusterings. Dies
beinhaltet unter anderen, ob sich Cluster bilden und wie die Parameter gewählt werden
sollten, um ein möglichst optimales Clustering zu erhalten.
Das letzte Kapitel untersucht einige physikalische Eigenschaften der Cluster. Damit
wird überprüft, ob die gefunden Cluster physikalischer Natur sind und nicht nur ein
Artefakt der Messung oder der verwendeten Methoden.
6
2 Theorie
In diesem Kapitel werden die theoretischen Grundlagen für die physikalisch aufgenommen Daten erklärt. Im Anschluss wird der verwendeten PSCKMPP (Parallel Streaming
Coreset k-Means++) Cluster-Algorithmus [Bul12] beschrieben.
2.1 Physikalische Grundlagen
Der nachfolgende Abschnitt beschäftigt sich mit den physikalischen Grundlagen. Es
wird auf die Astroteilchen eingegangen, sowie der verwendete Detektor beschrieben.
2.1.1 Astroteilchen
Aus dem Kosmos erreichen verschiedene Teilchen die Erde. Darunter fallen nicht geladene Teilchen wie Photonen und Neutrinos, sowie geladene Teilchen, wie Protonen.
Nachdem diese von einer Quelle emittiert wurden, durchlaufen sie den Raum und unterliegen dort, abhängig von ihren Eigenschaften, verschiedenen Wechselwirkungsprozessen
(siehe Abb. 2.1).
Photonen haben den Vorteil, dass sie nicht geladen sind. Somit können diese direkt
von der Quelle zur Erde gelangen, ohne abgelenkt zu werden. Der Nachteil
von Photonen ist, das sie durch interstellare Gas- und Staubwolken absorbiert
werden können und sich ihre Anzahl entsprechend dadurch verringert [UN81].
Des weiteren können Photonen mit anderen Photonen wechselwirken und so eine
Paarproduktion anstoßen. Dies findet unter anderem mit dem Licht statt das
andere Sterne aussenden (Extragalactic Background Light). [FRD10] Weiterhin
unterliegen hoch energetischen γ-Teilchen ab einer Energie von 200 TeV, einer
Wechselwirkung mit dem 3 K Mikrowellenhintergrund [Gre66]. Dieser Effekt
führt dazu, dass hochenergetische Photonen nur aus Nachbargalaxien beobachtet
werden können.
Geladene Teilchen , wie Protonen werden von galaktischen Magnetfeldern abgelenkt,
wodurch diese ihre Ursprungsinformation verlieren. Damit eignen sich die Teilchen
7
2 Theorie
Abbildung 2.1: Vereinfachte Übersicht über die verschiedenen Teilchenarten und ihrem Entstehungsort und den möglichen Wechselwirkungen mit dem
Weltraum. Die Neutrinos können ungestört von der Quelle zur Erde
gelangen. Im Gegensatz dazu wird die Gammastrahlung abhängig von
ihrer Energie absorbiert oder Wechselwirkt mit anderen Photonen. Die
elektrisch geladenen Teilchen werden dagegen abgelenkt und verlieren
ihre Ursprungsinformation. [Wag04]
8
2.1 Physikalische Grundlagen
nicht zur Untersuchung von Quellen, da es nicht möglich ist zu bestimmen aus
welcher Quelle diese stammen. Dadurch kann mit geladenen> Teilchen nur das
kosmische Spektrum untersucht werden, welches die Erde erreicht. [DGST]
Neutrinos haben keine der Einschränkungen der anderen kosmischen Teilchen. Dies
liegt an ihrem geringem Wechselwirkungsquerschnitt, sowie an der Tatsache,
dass Neutrinos nicht geladen sind. Dadurch eigenen sich diese Teilchen, unter
anderem, zur Untersuchung von Quellen hoch energetischer Strahlung, da diese
nicht Abgelenkt und nicht Absorbiert werden. [GK07]
2.1.2 Quellen hochenergetischer Neutrinos
Als mögliche Quellen für hochenergetische Neutrinos kommen mehrere Objekte in Frage,
dazu zählen AGN (Aktive Galaktische Kerne) und GRB (Gamma Ray Bursts) [WB].
Aktive galaktische Kerne sind supermassive schwarze Löcher, welche sich im Zentrum
einer Galaxie befinden. Aufgrund ihrer großen Anziehungskraft, bildet sich um das
Zentrum eine Akkretionsscheibe. Weiterhin bilden sich, ausgehend von den Polen,
hochenergetische Jets, die mehrere Millionen Lichtjahre ins All hineinreichen.
[Tad08]
Gamma Ray Bursts sind Ausbrüche von stark energetischer Gammastrahlung, die
über ein breit gefächertes Spektrum verfügen. Die Dauer dieser kann von 10−3
s bis zu 103 s andauern, während dieser Zeit überstrahlt eine GRB alle in der
Umgebung sichtbaren Objekte. [Mé02]
2.1.3 IceCube-Detektor
Der IceCube-Detektor ist ein Neutrino-Teleskop, das als Nachfolger des AMANDA
Detektors [Ama] am geographischen Südpol gebaut wurde. IceCube ist ein Mehrzweckdetektor. Eins seiner Hauptziele ist es, hochenergetische Neutrinos zu finden, wofür
ein Detektorvolumen von einem Kubikkilometer instrumentiert wurde. Zur Detektion
sind im Detektorvolumen digital optische Module (DOMs) in einer dreidimensionalen Gitterstruktur angebracht. Diese sind über senkrechte Kabel (Strings) mit der
Oberfläche verbunden. Insgesamt verfügt jeder String über 60 DOMs, die in Abständen von 17 Meter angebracht sind. Diese Struktur wurde in einer Tiefe von 1450 bis
2450 Meter eingelassen. Der Detektor ist insgesamt aus 86 Strings aufgebaut, die ein
sechseckiges Muster bilden. Die Entfernung der Strings zueinander beträgt annähernd
125 Meter. Weiterhin sind in der Mitte des Detektors 6 weitere Strings angebracht,
9
2 Theorie
die Deep Core strings. Diese dienen einer besseren Auflösung von niederenergetischen
Neutrinoereignissen im inneren des Detektors. [Joh11]
Für die Analyse wird nicht der fertige Detektor mit seinen 86 Strings verwendet,
sondern eine Version aus dem Jahre 2010, welcher nur 79 Strings verwendet. Diese
Konfiguration ist in Abbildung 2.2 dargestellt.
Abbildung 2.2: Darstellung der Position, der einzelnen Strings des IC79-Aufbaus, der
2010 fertig gestellt wurde. [Wos10]
10
2.2 Algorithmus
2.2 Algorithmus
Zur Suche von Clustern in den gegebenen Daten wird auf den von Loydl [Llo82] entwickelten k-Means Algorithmus zurückgegriffen. Dieser wird in der verbesserten Form des
Parallel Streaming Coreset k-Means++ [Bul12] Algorithmus verwendet. Der angepasste
Algorithmus verwendet neben dem eigentlichem k-Means++ [AV07] zusätzlich noch eine
Kernmengenberechnung [ALM+ 12], um die Menge an Daten zu reduzieren. Weiterhin
wird diese reduzierte Menge verteilt verarbeitet [Bul12].
2.2.1 Kernmenge
Ein Problem von Datenanalysen sind große Datenmengen, die zu einer längeren Ausführungszeit führen kann. Um das Problem zu lösen, kann entweder versucht werden
den Algorithmus zu beschleunigen, oder es wird die Datenmenge selbst reduziert ohne
wichtige Informationen zu verlieren. In dem verwendeten Algorithmus wird der zweite
Ansatz verfolgt, in dem das Konzept der Kernmengen genutzt wird.
Die Idee hinter der Kernmengenberechnung ist es, die Datenpunkte so zusammenzufassen, dass die nachfolgende Clusterberechnung minimal davon beeinflusst wird.
Die Kernmenge ist damit in der Lage die originalen Datenpunkte bezüglich des kMeans Clusterings zu repräsentieren, womit die berechneten Cluster für die Kernmenge
auch als Cluster für die originale Datenmenge gelten [ALM+ 12]. Zu beachten ist, dass
bei einer zu starken Reduktion des Datensatzes Information verloren werden können.
2.2.2 k-Means
Beim k-Means werden k-Punkte gesucht, welche die euklidische Distanz zu den Datenpunkten minimal halten. Der Algorithmus wurde 1957 von Lloyd vorgeschlagen und
1982 in finaler Form veröffentlicht [Llo82]. Der Algorithmus zeichnet sich durch seine
Einfachheit aus. Die Funktionsweise beruht auf der Wiederholung von zwei aufeinanderfolgen Schritten, welche hier als Durchlauf bezeichnet werden. Die Schritte werden
solange wiederholt, bis eine Abbruchbedingung erreicht ist.
Bevor der Algorithmus ausgeführt wird, werden zuerst k Punkte per Zufall ausgewählt,
welche den initialen Clusterzentren entsprechen (siehe Abb. 2.3.A). Die als nächstes
ausgeführten Schritte optimieren nur noch deren Position.
Im ersten Schritt wird jeder Punkt dem nächstliegenden Clusterzentrum zugewiesen
(siehe Abb. 2.3.B). Nun werden die zugewiesenen Punkte jeweils nach den Clusterzentren aufgeteilt und auf diesen Mengen der Mittelwert gebildet (siehe Abb. 2.3.C). Die
berechneten Mittelwerte sind die neuen Clusterzentren und der Durchlauf ist abge-
11
2 Theorie
schlossen. Nun wird die Abbruchbedingung untersucht, welche unterschiedlich gewählt
werden kann. Sie muss jedoch sicherstellen, dass die bestimmten Punkte einem lokalem
Minimum entsprechen. Ist ein Minimum gefunden, so kann der Algorithmus beendet
werden, ansonsten wird ein weiterer Durchlauf gestartet. Der nächste Schritt dieses
Durchlaufs ist in Abbildung 2.3.D dargestellt.
A
C
B
D
Abbildung 2.3: Ein visualisierter k-Means Durchlauf. Die Kreise sind die ClusterZentren, welche die rechteckigen Datenpunkte in Cluster aufteilen sollen.
[Wes]
Kosten eines Clusters
Für die Berechnung mittels eines k-Means Clusters ist die Definition der Kosten der
Cluster essentiell. Denn der k-Means optimiert diesen Wert durch die Verschiebung
12
2.2 Algorithmus
der Clusterzentren, somit kann darüber eine Abbruchbedingung definiert werden. Der
k-Means bricht ab, wenn die Gesamtkosten nach einem Durchlauf anfangen zu steigen.
Die Kosten eines Clusters c ∈ C bezüglich seiner ihm zugewiesenen Punkte Pc , ist
definiert als:
costc =
X
dist(p, c)
(2.1)
p∈Pc
Für die Gesammtkosten aller Clusterzentren folgt:
costC =
X
costc
(2.2)
c∈C
2.2.3 Anzahl der Clusterzentren
Bei der Verwendung des k-Means Algorithmus, ist die Wahl der Anzahl der zu suchenden
Clusterzentren entscheidend für die Güte des Clusters. Grundsätzlich muss die Anzahl
der gesuchten Cluster größer oder gleich der Anzahl an möglichen Clustern sein, da
ansonsten mehrere Cluster als ein großer Cluster erkannt werden. Daneben gibt es
noch weitere Fallstricke, die beachtet werden müssen. Diese entstehen, weil der k-Means
Algorithmus nach kreisförmigen Clustern mit gleichen Dichten sucht. Ist dies nicht der
Fall, so kommt es zu Problemen, die hier näher erläutert werden und deren Lösungen
in diesem Kapitel beschrieben werden.
Dichteproblematik: Das Problem bei der Dichte der Datenpunkt ist, dass der k-Means
Algorithmus die Distanz der Clusterzentren zu den Datenpunkten minimiert. Dadurch
wird die Dichte nicht berücksichtigt, was zu fehlerhaften Clustern führen kann, wenn
die Datenpunkte unterschiedliche Dichten aufweisen (siehe Abbildung 2.4). So werden
Cluster, die eine geringe Dichte haben, aufgrund des großen Abstandes der Punkte
zueinander mehrfach gesplittet. Zusätzlich können kleine Cluster mit hohen Dichten zu
einem Cluster zusammengefasst werden (siehe Abb. 2.4 rechts Bild).
Größenproblematik: Bei diesem Problem geht es darum, dass Cluster unterschiedliche
Größen besitzen können. Ähnlich wie bei der Dichteproblematik, können auch hier
Cluster in mehrere kleinere Cluster aufgeteilt werden oder sich mit anderen Clustern
vermischen (siehe Abb. 2.5).
13
2 Theorie
Abbildung 2.4: Visualisierung der Dichteproblematik. Es sind drei Cluster definiert,
die alle die gleiche Menge an Punkten beinhalten (linkes Bild) und
aufgrund ihrer unterschiedlichen Größen andere Dichten besitzen. Auf
dem rechten Bild wurde Beispielhaft ein k-Means mit k = 3 ausgeführt.
Die unterschiedlichen Dichten führen zu einer fehlerhaften Clusterung.
Abbildung 2.5: Visualisierung der Größenproblematik. Es sind drei Cluster definiert,
die alle die gleiche Dichte besitzen, deren Größen sich allerdings unterscheiden (linkes Bild). Dies führt bei der Beispielhaften Clusterung
mit k = 3 zu Klassifikationen der Punkte zu den einzelnen Clustern
(rechtes Bild).
14
2.3 Daten Vervielfältigung
Formproblematik: Diese resultiert aus der Funktionsweise des k-Means, da nur kreisförmige Cluster gesucht werden. Sind die wahren Cluster dagegen nicht Kreisförmig, so
kommt es auch hier zu Fehlrekonstruktionen wie in Abbildung 2.6 dargestellt.
Abbildung 2.6: Visualisierung der Formproblematik. Es werden zwei Cluster definiert,
wie in der rechten Abbildung. Aufgrund der nicht Kreisförmigen Cluster,
kommt es bei der Beispielklassifikation zu einem falschem Clustering
(linkes Bild).
Lösungen: Eine Möglichkeit die Probleme zu lösen, wäre das Distanzmaß zu ändern,
wie der Artikel Alternative c-means clustering algorithms [Wu202] untersucht. Der
Ansatz kann zu weiteren Problemen führen, da die Änderung des Distanzmaßes die
Form der gesuchten Cluster ändert. Es muss gesondert untersucht werden, ob das neue
Distanzmaß auch wirklich praktikabel für das Problem ist.
Stattdessen wird die Anzahl k der gesuchten Cluster-Zentren erhöht. Dadurch verliert
man zwar die Information über die Anzahl an realen Clustern, dieses Wissen kann
anschließend über eine weitere Berechnung aus den bestimmten Clustern gewonnen
werden. Zum Beispiel können die berechneten Cluster als Grundlage einer hierarchischen
Clusteranalyse verwendet werden, um damit die gesuchten Supercluster zu bestimmen.
2.3 Daten Vervielfältigung
Das k-Means-Verfahren berechnet Cluster, die der Struktur der zugrundeliegenden
Punkte entspricht. Die Qualität der berechneten Cluster ist dabei hauptsächlich von
15
2 Theorie
der gewählten Anzahl k der Clusterzentren abhängig. Deshalb werden Qualitätsparameter definiert, wie die Gesamtkosten des Clusterings oder der Silhouettenkoeffizient
(Abschnitt 3.1.2).
Im Nachfolgenden wird beschrieben, wie mithilfe der berechneten Cluster neue
Datenpunkte erzeugt werden können. Neben der offensichtlichen Benutzung zur Vervielfältigung der Daten, kann das Verfahren auch zur Qualitätsbestimmung des Clusterings
verwendet werden. Dies kann erreicht werden, indem die duplizierten Daten mit den
original Daten vergleichen werden. Hierbei entspricht ein kleiner Unterschied einem gut
gewählten k.
2.3.1 Funktionsweise
Eine Simulation erzeugt Ereignisse, die sich als Punkte in einem Hyperraum darstellen
lassen. Die Punkte erzeugen eine Struktur im Raum, welche als Signatur der Simulation
angesehen werden kann und für diese charakteristisch ist. Nun können neue Ereignisse
erzeugt werden, indem die Simulation neu ausgeführt wird. Alternativ können neue
Daten aus dem Cluster bestimmt werden, dabei werden per Zufall neue Punkte gewürfelt,
welche die Struktur im Hyperraum (Signatur der Simulation) erhalten. Damit hätten
die per Zufall gewürfelten Punkte die gleiche Signatur wie die Simulierten und wären
somit ununterscheidbar. Im Anhang 1 wird die genaue Funktionsweise des Algorithmus
anhand von Pseudocode beschrieben.
Zu beachten ist, dass der Algorithmus davon ausgeht, dass die vorliegende Struktur
die Punkte gut beschreibt. Ist dies nicht der Fall, wird sich die duplizierte Datenmenge
von der originalen Datenmenge unterscheiden. Das könnte zum Beispiel sehr seltene
Ereignisse betreffen, die sich unter Umständen nur schwer Clustern lassen und damit
nicht in der finalen Struktur wiedergefunden werden.
16
3 Neue Attribute
Aus der Berechnung der Cluster, lassen sich neue Attribute für die Ereignisse oder
Cluster berechnen. Diese können in weiteren Analysen verwendet werden, mit dem Ziel
weitere Erkenntnisse zu erhalten (z.B. Berechnung von Superclustern) oder bestehenden
Algorithmen weitere Informationen zu übergeben. Bei der Verwendung der neuen
Attribute könnte zum Beispiel eine höhere Trennschärfe erreicht werden. In diesem
Kapitel werden die erzeugten Attribute vorgestellt und ihre Bedeutung erklärt.
3.1 Event-Attribute
Für die einzelnen Ereignisse lassen sich, durch das Clustering, weitere Attribute bestimmen. Diese fügen dem Ereignis weitere Informationen als neues Attribute hinzu
und können bei der weiteren Klassifizierung und Analyse der Ereignisse helfen.
3.1.1 Clusternummer
Der k-Means-Algorithmus teilt die Events in Cluster ein, diese Information wird mithilfe
einer eindeutigen Nummer für jeden Cluster als weiteres Attribut im Event gespeichert.
Dieses Attribut kann daraufhin vielfältig eingesetzt werden. So wurde unter anderem in
der Arbeit Data-Mining für den IceCube Detektor [Sch11] untersucht, ob das Aufteilen
der Daten in Cluster eine weiter Verbesserung in der Klassifizierung mit Random Forest
ermöglicht. Da dies der Fall zu sein scheint, wäre eine automatische Erkennung und
Verwendung von Clustern interessant. Eine solche Erkennung kann zum Beispiel über
die Clusternummer erreicht werden.
3.1.2 Silhouette
Die Silhouette eines Ereignisses bezüglich eines Clusterings ist ein Maß dafür, wie gut
das Event zum zugewiesenen Cluster passt. Ist die Silhouette klein, so könnte das Event
auch zu einem anderem Cluster zugewiesen werden. Ist sie dagegen groß, so ist die
Wahrscheinlich, dass der ausgewählte Cluster der richtige ist, groß. Weiterhin kann
17
3 Neue Attribute
der Mittelwert aller Silhouetten der Punkte, auch als Qualitätsmaß für das Clustering
benutzt werden. Je näher der Wert an Eins liegt umso besser ist das Clustering.
Die Silhouette wird berechnet als:
S(x) =
S(x)B =
min
{S(x)B }
(3.1)
B∈Alle Cluster


0
, wenn dist(A, x) = 0
dist(B, x) − dist(A, x)


max{dist(A, x), dist(B, x)}
1 X
dist(A, x) =
dist(a, x)
nA
, sonst
(3.2)
(3.3)
a∈A
Hierbei ist A, die Menge aller Punkte des Clusters, dessen Mitglied auch der zu
untersuchende Punkt x ist. B ist die Menge aller Punkte eines beliebigen anderen
Clusters.
3.2 Cluster-Attribute
Cluster-Attribute sind spezielle Attribute, die weitere Eigenschaften über die Cluster
beinhalten. Die Attribute gelten nicht für einzelne Ereignisse, sondern für eine Menge
von Ereignissen (Cluster). Diese können entweder für eine weitere Clusteranalyse
verwendet werden oder als zusätzliches Attribute den Events übergeben werden und so
der Clusternummer weitere Informationen hinzufügen.
3.2.1 Loneliness
Das Attribut Loneliness wurde auf der Idee des Dunn Index aufgebaut, der versucht
mithilfe der Abstände der Cluster zueinander und der Größe dieser, ein Qualitätsmaß
für das Clustering zu definieren [BP95].
Das Loneliness Attribut ist ein Maß für den Abstand des Clusters zum nächstem
Cluster, gewichtet über die Größe der Cluster. Je größer der Wert, desto isolierter
ist der Cluster im Hyperraum. Bei kleineren Werten ist es zudem ein Maß für die
Überlappung mit dem nächsten Cluster.
Die aus der Loneliness gewonnene Information ist insbesondere für reine Signal oder
Untergrund Cluster interessant, da die Loneliness in Relation mit der Wahrscheinlichkeit
steht, dass die Cluster noch mit Signal oder entsprechend Untergrund Ereignissen
verunreinigt werden. Sollte zum Beispiel an einem Signalcluster direkt angrenzend ein
18
3.3 Verbesserungen
Untergrundcluster sein, so ist die Wahrscheinlichkeit, dass ein Untergrund-Ereignis in
den Signalcluster fällt größer, da von einer Streuung der Ereignisse auszugehen ist.
Die Loneliness eines Clusters x wird definiert als
L(x) = min
c∈C
d(x, c)
,mit C der Menge aller Cluster
R(x) + R(c)
Hierbei sollte beachtet werden, dass das Maß nur eine Näherung an das betrachtete
Problem ist (Überschneidung von Custern) und für einen genaueren Wert müssten
Hyperraum-Kugelschnitte berechnet werden. Darauf wird verzichtet, da die Loneliness
nur ein ungefähres hinreichendes Maß ist, mit dem Ziel Hinweise für weitere Analysen
zu bieten.
3.2.2 Signalanteil
Das Attribut Signalanteil drückt aus, wie viel Prozent des Clusters aus Signal bestehen.
Anders als die anderen Attribute, wird das Attribut aus den Monte Carlo Informationen
gebildet und ist daher von diesen Abhängig. Die Information kann verwendet werden,
um zum Beispiel Cluster mit zu wenig Signal aus den Ergebnissen auszuschließen,
um falsche Klassifizierungen zu vermeiden. Weiterhin kann die Information verwendet
werden, um eine Klassifizierung bezüglich einzelner Clustern zu bewerten. So könnten
das Ergebnis eines Klassifizierers, wie zum Beispiel eines Random Forests, zusätzlich auf
den Signalanteil pro Cluster untersucht werden und mit dem Ergebnis des Clusterings
verglichen werden.
3.3 Verbesserungen
Alle Attribute werden mithilfe der berechneten k-Means Cluster direkt berechnet. Dies
ist nicht immer die beste Lösung, da die k-Means Cluster aufgrund der in Kapitel 2.2.3
beschriebenen Problematiken nicht direkt den Clustern entsprechen müssen. So kann es
passieren, dasss bestimmte Cluster (Supercluster) in mehrere kleine Cluster aufgeteilt
werden. Daher könnte zum Beispiel die Silhouette bezüglich des Cluster des k-Means
nahe 0 sein, gegenüber dem Supercluster dagegen nahe 1 (siehe Abb. 3.1).
Aus diesem Grund sollten für eine weitere Verbesserung der Attribute übergeordnete
Supercluster bestimmt werden. Dies sollte die Aussage der einzelnen neuen Attribute
weiter verbessern.
19
3 Neue Attribute
Abbildung 3.1: Im Bild ist ein Supercluster abgebildet, der durch den k-Means in
zwei Subcluster aufgeteilt wurde. In dem Beispiel wäre die Silhouette,
der Punkte bei x ≈ 0 gleich 0, da nicht eindeutig feststellbar ist, ob
die Punkte zu Cluster 1 oder 2 gehören. Bezüglich des Superclusters,
wären die Silhouetten dagegen nahe der 1, womit eine komplett andere
Aussage vorliegt.
20
4 Untersuchung der Monte Carlo Daten
In diesem Kapitel werden die Monte Carlo Daten des IceCube Experiments untersucht.
Es wird die Anzahl an benötigten Clusterzentren bestimmt, die benötigt wird, um die
betrachteten Daten richtig zu clustern. Die verwendeten Datensätze sind im Anhang
A.2 beschrieben. Für die Untersuchungen wurde ein Signal zu Untergrundverhältnis
von 1:1 gewählt. Die Kernmengengröße wurde immer mit dem 200-fachen der Anzahl
der gesuchten Clusterzentren k gewählt (siehe [Bul12]).
4.1 Anzahl der Clusterzentren
Um die gewünschte Anzahl k an Clusterzentren zu bestimmen, werden mehrere Qualitätsmaße eingeführt, diese sollten so gut wie möglich erfüllt werden.
Kosten: Die Summe aller Kosten der Cluster. Der Wert soll minimiert werden. (siehe
2.2.2)
Recall Abstand: Größter Abstand zwischen Signal-Recall und Background-Recall für
Cluster mit mindestens x Prozent Signal. Der Wert soll maximiert werden.
Duplikation: Das Qualitätsmaß baut auf der Vervielfältigung der Datenmenge mithilfe
des Duplikation-Algorithmus 2.3 auf. Dabei werden verschiedene Eigenschaften
der Originalmenge und der duplizierten Menge miteinander verglichen. Der
Unterschied zwischen den beiden Datenmengen sollte vernachlässigbar klein
sein.
Neben der Optimierung der oben genanten Qualitätsmaße, wird auch die Laufzeit in
Betracht gezogen. Eine höhere Anzahl an Clusterzentren bedeutet auch eine höhere
Laufzeit. Dies ist insoweit Problematisch, da einige Qualitätsmaße aufgrund ihrer
Entstehungsart, bei einer erhöhten Anzahl an Zentren auch bessere Werte liefern, ohne
einen wirklichen Mehrgewinn für das Clustering. Da schwer ersichtlich ist, wann dieser
Zeitpunkt eintritt werden mithilfe der Qualitätsmaße unteren Grenzen bestimmt und
der eigentliche Wert so gewählt, dass auch die Berechnung nicht zu lange dauert.
21
4 Untersuchung der Monte Carlo Daten
4.1.1 Duplikationsmaß
Für das Duplikationsmaß wird der Duplikation-Algorithmus (siehe auch Abschnitt
2.3) verwendet. Dazu werden genau so viele Punkte n erzeugt, wie zur Erzeugung
des Clusterings verwendet wurden. Im nächsten Schritt werden für alle Attribute
Histogramme erzeugt, einmal für die duplizierte Menge und einmal für die originale
Menge. Die quadratischen Differenz zwischen den einzelnen Bins der duplizierten
und originalen Menge, werden nun berechnet und aufsummiert. Das Ergebnis ist das
Duplikationsmaß (Pseudocode siehe Anhang A.3).
Untersuchung der duplizierten Daten
Die Duplikation erzeugt vergleichbare Verteilungen, wie die ursprünglichen Daten. Damit
scheint der Ansatz zu funktionieren (siehe 4.1 und 4.2). Es ergeben sich zwar kleinere
Unstimmigkeiten, die in erster Linie dem Duplikations-Algorithmus zuzuschreiben sind.
Insbesondere wird zur Vereinfachung des Duplikation-Algorithmus, pauschal für alle
Cluster eine Normal-Verteilung der beinhaltenden Datenpunkte angenommen. Diese
Pauschalisierung führt bei Clustern für die dies nicht der Fall ist zu Fehlern in der
Erzeugung.
Abbildung 4.1: Vergleich des Zenitwinkels zwischen dem duplizierten Datensatz und
dem zugrundeliegenden originalen Datensatz.
22
4.1 Anzahl der Clusterzentren
Abbildung 4.2: Vergleich der Distanz des Ereignisschwerpunktes zwischen dem duplizierten Datensatz und dem zugrundeliegendem originalem Datensatz.
Einzig die Attribute mit Peaks in ihrer Struktur erzeugen eine falsche Verteilung um
die Position der Peaks herum (siehe 4.3 und 4.4). Das liegt wahrscheinlich an Ausreißern
in den Datensätzen. Diese würden dazu führen, dass der Radius der Cluster zu groß
bestimmt wird, womit die duplizierten Werte abflachen.
Eine andere Möglichkeit für diese Differenz ist, dass das gewählte Attribut in der
Form nicht fürs Clustering geeignet ist.
4.1.2 Auswertung
Bei der Auswertung ist zu beachten, dass auf eine Angabe eines Fehlers verzichtet
wurde. Dies liegt an der Art der Berechnung und der möglichen Aussage eines Fehlers.
So kann der k-Means beliebig schlechte Cluster berechnen [SI]. Somit ist eine Angabe
eines oberen Fehlers nicht sinnvoll, da hier eine obere Grenze suggeriert wird die
nicht existiert oder nur schwer berechnet werden kann, da es sich hierbei um ein nicht
polynomielles Problem handelt.
Bei einer Angabe eines unteren Fehlers wird dagegen suggeriert, dass der Algorithmus
bessere Ergebnisse liefern kann. Weiterhin ist für den k-Means++ Algorithmus gezeigt,
dass die Wahrscheinlichkeit steigt die optimale Lösung zu erhalten, desto öfter man ihn
ausführt [SI]. Folglich wird davon ausgegangen, dass die beste gefundene Lösung, nah
23
4 Untersuchung der Monte Carlo Daten
Abbildung 4.3: Logarithmischer Vergleich der gesamten deponierten Ladung zwischen
dem duplizierten Datensatz und dem zugrundeliegendem originalem
Datensatz. Erkennbar ist die fehlende Duplizierung der sehr seltenen
Ereignisse ab Qtot = 0.35 · 107 .
Abbildung 4.4: Vergleich der maximalen Entfernung von zwei Doms in Z-Richtung,
zwischen dem duplizierten Datensatz und dem zugrundeliegendem
originalem Datensatz.
24
4.1 Anzahl der Clusterzentren
genug an der optimalen Lösung ist, um diese zu repräsentieren und damit die untere
Grenze liefert.
Die einzelnen Messpunkte stellen, daher das beste Ergebnis dar das gefunden wurde.
In einer konkreten Auswertung würde entsprechend, das Clustering mit den besten
Gütemaßen, zur weiteren Verwendung, gewählt werden.
Kosten
Die Kosten, in Abhängigkeit von der Anzahl an Clustern, sind in Abbildung 4.5
abgebildet. Die Messwerte folgen bis circa 3500 Clusterzentren einem Potenzgesetz
und gehen in einen logarithmischen Abfall über. Der Übergang in den logarithmischen
Abfall, wird als untere Schranke für ein gutes k gewählt, da davon auszugehen ist,
dass bis zu diesem Zeitpunkt der Abfall der Kosten, primär auf ein besseres Clustering
zurückzuführen ist.
Abbildung 4.5: Die Kosten der Cluster in Abhängigkeit, von der Anzahl an Clustern
k. Zu beachten ist, dass die Kosten mit der gewählten Kernmengengröße (200 · k) dividiert wurden. Dies dient der Normierung, da die
Kernmengengröße, die Kosten verkleinert.
25
4 Untersuchung der Monte Carlo Daten
Recall Differenz
Die Recall-Differenz verläuft bis zu einem k von circa 4000 in einer logarithmischen
Funktion und geht daraufhin in eine lineare Funktion über. Dieser Übergang wird als
untere Grenze für das k bestimmt, weil ab hier der Gewinn an Differenz nicht mehr
stark steigt.
Abbildung 4.6: Die Differenz zwischen dem Signal Recall und dem Untergrund Recall,
aufgetragen gegen die Anzahl an Clusterzentren k.
Duplikationsmaß
Das Duplikationsmaß ist in Abbildung 4.7 abgebildet. Der Verlauf der Messpunkte
folgt einem abfallenden Potenzgesetz, dass bei k = 2000 in eine Sättigung übergeht.
Ab einem k von circa 3500 kommt es zu einem abrupten Abfall und es folgt ein zweites
Potenzgesetz, dass bis 6000 gilt und danach in eine Sättigung übergeht. Diese zweite
Sättigung wird als Hinweis gedeutet, dass das Clustering nicht mehr signifikant genug
verbessert werden kann, um das Duplikationsmaß zu verbessern. Folglich wird 6000 als
untere Grenze für die Clusteranzahl gewählt.
Der zweistufige Abfall deutet darauf hin, dass der Algorithmus sich an einer Substruktur des Datensatzes aufhängt und weitere Clusterzentren von dieser Struktur
aufgenommen werden. Erst eine weitere Erhöhung der Zentren ermöglicht ein Ausbrechen aus dieser Struktur. So ist zu vermuten, dass insbesondere die Dichteproblematik
die erste Sättigung zu verantworten hat.
26
4.1 Anzahl der Clusterzentren
Abbildung 4.7: Das Duplikationsmaß aufgetragen gegen das gewählte k. Es wurde
immer der beste Wert gewählt.
Laufzeit
Aus den vorherigen Abschnitten wurden folgende untere Grenzen für die Anzahl an
Clusterzentren bestimmt.
Maß
Untere Grenze
Kosten
Recall Abstand
Duplikationsmaß
3500
4000
6000
Zusätzlich zu diesen Qualitätsmaßen, wird die durchschnittliche Laufzeit betrachtet.
Die Laufzeit eines k-Means-Durchlaufs ist linear abhängig von der Anzahl an Clusterzentren [Bul12]. Die Anzahl der Durchläufe ist dagegen von mehreren Faktoren
abhängig, steigt aber auch mit der Clusteranzahl.
Da der k-Means Algorithmus, mehrmals ausgeführt werden muss, um das optimale
Ergebnis zu erhalten, sollte die Laufzeit nicht zu hoch sein und somit die Anzahl an
Clusterzentren möglichst klein gewählt werden.
Aus der Überlegung wird für die nachfolgenden Untersuchungen die Clusteranzahl
mit k = 6000 gewählt. Damit wird allen Qualitätsmaßen genüge getan und die Laufzeit
möglichst klein gehalten.
27
5 Clustereigenschaften
Im folgendem Kapitel werden verschiedene Eigenschaften der bestimmten Cluster
untersucht. Aufgrund der großen Menge an möglichen Eigenschaften die untersucht
werden können, wird nur ein ausgewählter Teil betrachtet.
Für die Untersuchung wurde jedes Ereignis um das Attribut Signalanteil (siehe
Abschnitt 3.2.2) erweitert. Zu beachten ist, dass das Verhältnis des Untergrunds zum
Signal Monte Carlo mit 1 zu 1 gewählt wurde. Weiterhin werden wie aus dem vorherigem
Kapitel bestimmt 6000 Clusterzentren gesucht.
5.1 Signalanteil
Werden die gefunden Cluster anhand des prozentualen Anteils an Signal betrachtet, so
ergibt sich die Verteilung in Abbildung 5.1.
Abbildung 5.1: Menge an Clustern mit einem bestimmten Anteil an Signal.
Zu erkennen ist die Konzentration der Cluster bei einem Signalanteil von unter
50 Prozent. Dies deutet darauf hin, dass bei den Clustern zum Beispiel eine starke
29
5 Clustereigenschaften
Strukturierung vorliegt, welche eine große Menge an Clustern benötigen würde, um
die Struktur akkurat wiederzugeben. Eine andere Möglichkeit der Erklärung könnte
die Dichte sein, welche sich stark von Clustern mit höherem Signalanteil unterscheidet.
Somit sammelt sich dort, für die Reduktion der Kosten, eine erhöhte Menge an Clustern.
Zusätzlich wird die vorherige Betrachtung nach der Menge an Ereignissen in den
Clustern gewichtet (siehe 5.2) und die Menge an Ereignissen in reinen Signalclustern
bestimmt (Signalanteil=100%). Dieser Wert liegt bei:
NSignalanteil=100% = 0.041 ± 0.004
(5.1)
Abbildung 5.2: Menge an Clustern mit einem bestimmten Anteil an Signal und gewichtet mit der Menge an Ereignissen die diese beinhalten. Die Verteilung
wurde aus den Clustern in 5.1 berechnet.
Die Verteilung in Abbildung 5.2 lässt darauf schließen, dass das Clustering sich dazu
eignet Signale zu erkennen, da es viele Signal-Ereignisse gibt, die sich in Clustern mit
wenig Untergrund-Ereignissen befinden. Zudem lassen sich 4 Prozent der Signale mit
sehr hoher Genauigkeit als solche erkennen.
Weiterhin lässt die geringe Anzahl an reinen Untergrundclustern (20 ± 5) und die
Verteilung der vermischten Cluster darauf schließen, dass der Untergrund-Hyperraum
eine Teilmenge des Signal-Hyperraums ist und damit der Signal-Hyperraum größer ist.
Dies ist zu erwarten, da in erster Linie der Untergrund nur von oberhalb des Detektors
kommt und auch dessen Energie niedriger ist.
30
5.2 Reine Signalcluster
5.1.1 Schnitte
Ein wichtiger Aspekt bei der Untersuchung der IceCube Monte Carlo Daten, ist es
möglichst viel Untergrund von vorn herein herauszufiltern. Dazu werden unter anderem Schnitte auf verschiedenen Parametern gemacht. In diesem Abschnitt wird
die Möglichkeit untersucht, Schnitte auf dem im Cluster enthaltenem Signalanteil zu
verwenden.
In Abbildung 5.3 sind die Recalls vom Signal und Untergrund in Abhängigkeit
vom Signalschnitt dargestellt. Der größte Unterschied zwischen den Recalls, ist bei
einem Schnitt von (50.5 ± 0.5)%, dies entspricht einem Signalrecall von 68 Prozent und
einem Untergrundrecall von 20 Prozent. Zu beachten ist, dass das Signal-UntergrundVerhältnis 1:1 ist. Folglich muss für eine Berechnung der Präzision ein Korrekturfaktor
berücksichtigt werden.
Abbildung 5.3: Recall vom Signal
Signalanteilschnitten.
und
Background
bei
verschiedenen
5.2 Reine Signalcluster
Als nächstes wird untersucht, welche Eigenschaften reine Signal-Cluster (Signalanteil im
Cluster ist 100%) besitzen. Dazu werden ausgewählte Attribute betrachtet. Zusätzlich
31
5 Clustereigenschaften
werden je nach Attribut auch Cluster mit niedrigerem Signalanteil berücksichtigt. Dies
dient in erster Linie dazu Tendenzen klarer darzustellen, da so mehr Cluster vorliegen.
5.2.1 Radius
Das Attribut Radius stellt den Abstand der Schwerpunktes des Ereignisses zur Z-Achse
des Detektors dar. Reine Signalcluster finden sich primär in zwei Abschnitten (siehe
5.4). Einerseits nah der Mitte des Detektors (um die 150 m) und anderseits ab einem
Radius von 300 m bis 500 m.
Es ist davon auszugehen, dass insbesondere im Mittelsegment des Detektors (Radius
250 m bis 300 m) eine Trennung Problematisch ist, hier scheint die Verunreinigung mit
dem Untergrund am größten zu sein.
Abbildung 5.4: Die Verteilung des Radius bei zwei verschiedenen Reinheiten des Signalanteils. Links bei einer Reinheit von 100 Prozent und Rechts bei
einer Reinheit von 99 Prozent.
32
5.2 Reine Signalcluster
5.2.2 Rekonstruierter Zenithwinkel
Im nachfolgenden wird die Verteilung des rekonstruierten Zenithwinkels betrachtet. In
Abbildung 5.5.A ist die Verteilung für reine Cluster dargestellt. So werden reine Cluster
nur unter dem Horizont gefunden. Dies passt zu den vorherigen Ergebnissen, dass der
Untergrund-Hyperraum größtenteils oberhalb von 90 Grad im Zenith liegt.
A: 100 Prozent Reinheit
B: 95 Prozent Reinheit
Abbildung 5.5: Der rekonstruierte Zenithwinkel bei zwei verschiedenen Reinheiten des
Signalanteils. Links bei einer Reinheit von 100 Prozent und Rechts bei
einer Reinheit von 95 Prozent.
Bei einer Signalreinheit von 95 Prozent verändert sich die Verteilung entsprechend zu
Abbildung 5.5.B. Interessant ist das Aufkommen der Cluster mit einem Zenithwinkel
von unter 90 Grad. Wenn es gelingen würde diese von dem restlichen Untergrund zu
trennen, würde so vielleicht eine Möglichkeit entstehen, Neutrinosignale mit einem
Zenithwinkel kleiner 90 Grad zu finden und zu untersuchen.
Die Möglichkeit einer Verbesserung der Trennung wird zudem durch weitere Analysen
unterstützt. So wird bei einem Clustering mit 8000 Zentren ein Cluster in diesem Bereich
gefunden (siehe Abbildung 5.6). Weiterhin ergibt die Clustersuche auf den ungewichteten
Daten eine Vielzahl an Clustern im niedrigem Zenith, was darauf schließen lässt, dass
das Clustering Probleme mit der dort auftretenden Dichte hat.
33
5 Clustereigenschaften
Abbildung 5.6: Der Zenithwinkel bei einer Reinheit der Signalcluster von 100 Prozent
und einem Clustering mit k = 8000.
5.3 Energie
Viele Attribute der betrachteten Ereignisse sind abhängig von der Energie des Ursprungsteilchens. So ist zum Beispiel die Gesamtmenge der gemessenen Ladung in den
DOMs (QTot) abhängig von der Energie des Myons. Daraus ergibt sich die Frage,
ob die gefunden Cluster eine Energieabhängigkeit aufweisen. Die Frage wird in dem
Abschnitt untersucht.
Die Signalcluster zeigen alle eine Potenzgesetz-Abhängigkeit in der Verteilung. Beispielverteilungen sind in 5.7 dargestellt. Eine solche Verteilung würde auf eine Abhängigkeit zur Energieverteilung der Signal-Teilchen hindeuten. Dies würde bedeuten, dass
entweder eine Energieschätzung der Signal-Teilchen nicht möglich ist, oder dass der
k-Means die Energieabhängigkeit nicht auflösen kann. Dies könnte an einer starken
Dichteabhängikeit liegen, worauf die Potenzgesetz Abhängigkeit Hinweise gibt (höhere
Energien sind seltener in Clustern vorhanden und haben somit eine andere Dichte).
Eine Potenzgesetz-Abhängigkeit der Energieverteilung in den Clustern deutet darauf
hin dass für eine mögliche Clusterung nach der Energie, die Betrachtung der Dichte
essentiell ist.
Reinen Untergrundcluster weisen eine gaußförmige Verteilung auf. Dies lässt darauf
schließen, dass diese Cluster eine Energieabhängigkeit bezüglich einer bestimmten
Energie haben. Weiterhin liegen diese Energien bei um die 106 bis 107 GeV. Dies deutet
34
5.3 Energie
A
B
Abbildung 5.7: Energieverteilung von zwei reinen Signalclustern. Zu erkennen ist die
Verteilung der Energien, die einem Potenzgesetz folgt.
darauf hin, dass diese bei diesen Energien eine gute Energieauflösung stattfindet, die
sich auch deutlich in der Clusterstruktur macht.
A
B
Abbildung 5.8: Energieverteilung von zwei reinen Untergrundclustern. Zu erkennen ist
die gaußförmige Verteilung der Energien.
35
6 Resumee und Ausblick
Das Ziel der Arbeit war es zu untersuchen, ob sich innerhalb der IceCube Monte Carlo
Daten Cluster finden lassen, und ob diese physikalische Relevanz besitzen und sich
diese damit für weitere Untersuchungen eignen.
Dazu wurde mithilfe verschiedener Qualitätsmaße die Anzahl an benötigten Clusterzentren für den k-Means-Algorithmus bestimmt. Die Untersuchung brachte hervor, dass
die vorliegenden Daten starke Dichte-Strukturen aufweisen, die für ein gutes Clustering
zu berücksichtigen sind. Daraus ergab sich das Problem, dass der Wert für die Anzahl an
Clusterzentren sehr hoch gewählt werden muss, um ein gutes Clustering zu produzieren.
Jenes führt zu einer längeren Laufzeit des Algorithmus, sowie dazu, dass Supercluster
aufgeteilt werden, womit der Algorithmus in der derzeitigen Form nicht optimal für
das gegebene Problem ist.
Weiterhin ergab die Analyse der duplizierten Punkte, dass sich in den Daten mit
hoher Wahrscheinlichkeit Ausreißer, oder Mini-Cluster befinden, die das Ergebnis des
Clusterings beeinflussen.
Bei der Untersuchung der Clusterung nach der Energie, wurde eine potenzgesetzmäßige Abhängigkeit in der Energieverteilung der Ereignisse im Cluster gefunden.
Hierbei wäre eine genauere Untersuchung der Dichtestruktur interessant. So ist es
denkbar, dass eine Clusterung bezüglich der Energie nicht stattfindet, da sich diese in
einer Dichtestruktur deutlich macht, die nicht durch den k-Means effizient aufzulösen
ist.
Die Ergebnisse weisen alle darauf hin, dass der k-Means-Algorithmus nicht der
optimale Weg ist, die IceCube-Daten zu clustern. Dennoch bietet er eine Grundlage zur
Untersuchung der Daten an, die als Fundament weiterer Verbesserungen dienen kann.
Zur Verbesserung des Clusterings können nun weitere Schritte vorgenommen werden.
So kann Untersucht werden, ob die Wahl des Distanzmaßes, hier der Euklidischen Norm
(p-Norm mit p = 2), wirklich die optimale Wahl ist. Nach einer Untersuchung von
Aggarwal et.Al. [AHK01] hat sich gezeigt, dass bei hoch dimensionalen Daten die Wahl
einer p-Norm mit p < 1 von Vorteil sein kann und so zum Beispiel die Cluster besser
gewählt werden. Zudem scheinen die kleineren Normen stabiler gegenüber Rauschen zu
sein.
37
6 Resumee und Ausblick
Eine andere Möglichkeit der Verbesserung ist die Änderung des Algorithmus. Dabei
ist zu beachten, dass aufgrund der hohen Dimension viele Clusteralgorithmen nicht
mehr praktikabel sind [Bel57]. Der neue Algorithmus, sollte dabei folgende Probleme
behandeln:
Datenmenge: Schnelle Berechnung bei großen Datenmengen.
Dimension: Der Algorithmus muss in der Lage sein, Effizient mit einer hohen Anzahl
an Dimensionen zurecht zu kommen.
Dichte: Die Dichtestruktur der Daten muss Berücksichtigung finden.
Ausreißer: Ausreißer in den Clustern müssen erkannt und berücksichtigt werden.
Aufgrund der hohen Dimension sind klassische Algorithmen, wie der BIRCH [ZRL96]
nicht Praktikabel, da durch die Dimension, die Laufzeit zu stark wächst. Um diesen
Problem zu entgehen, können nun zwei Wege untersucht werden.
Die erste Möglichkeit ist es zu versuchen verschiedene Clusteralgorithmen mit unterschiedlichen Eigenschaften mit dem Ziel zu kombinieren, die jeweiligen schwächen zu
kompensieren. Ein solcher Ansatz wurde in der Arbeit A Novel Density based improved
k-means Clustering Algorithm – Dbkmeans [MD] untersucht. Der Ansatz verband
den k-Means mit dem DBScan Algorithmus [EKSX96], wodurch ein Dichteoptimierter
k-Means entstand.
Die zweite Möglichkeit wäre es die Verwendung von Subspace basierten Cluster zu
untersuchen. Diese betrachten bei der Berechnung nicht den kompletten Hyperraum,
sondern arbeiten auf Unterräumen die zum Schluss zusammengeführt werden. Dadurch
wird effektiv in der Berechnung eine kleinere Dimension betrachtet, im Gesamtergebnis
allerdings eine Lösung für den kompletten Hyperraum gefunden.
Zusammenfassend bietet die clusterbasierte Untersuchung der betrachteten Daten,
erste positive Ergebnisse, die bereits jetzt Anlass zur näheren Betrachtung erfordern.
Dabei sollte insbesondere Augenmerk auf die Verbesserung der Verfahren Wert gelegt
werden, da hier womöglich weitere Informationen erschlossen werden können.
38
A Anhang
A.1 Duplikations-Algorithmus
Die Idee der Vervielfältigung der Daten ist es mithilfe eines Clusterings und eines
entsprechend daraus bestimmten Zufalls, neue Punkte zu erzeugen. Der Algorithmus
sieht folgendermaßen aus:
Algorithmus 1 Berechnung eines neuen Punkts aus dem k-Means Clustering
1: Wähle, gewichtet nach der Anzahl der Punkte in den Clustern, einen Cluster c
zufällig aus.
2: for ∀ a in Attribute do
3:
Nimm den minimalen (mina ) und maximalen (maxa ) Wert von a in c.
4:
Wähle zufällig einen Normal-verteilten Wert x aus dem Bereich mina bis maxa
aus.
5:
x ist der Wert des Attributs für den neuen Punkt.
6: end for
7: Füge alle erzeugten Attribute zusammen und der neue Punkt ist bestimmt.
A.2 Verwendete Datensätze
Die verwendeten Datensätze sind:
Corsika 6271 Der Level 3 Monte-Carlo Background-Datensatz bestehend aus 4 742 447
Events. Die Events sind ungewichtet.
Nugen 6308 Der Level 3 Monte-Carlo Signal-Datenstz bestehend aus 5 889 473 Events.
Die Events entsprechen dem E −1 Spektrum.
Zusätzlich wurden sie vor dem Clustering, auf das richtigen Spektrum umgewichtet.
Das Mischverhältnis der beiden Datensätze wurde mit 1 zu 1 gewählt. Dies wird damit
begründet, dass damit zwar die Dichtestruktur falsch ist, dies nicht sehr Problematisch
ist, da die Positionen der Punkte für ein korrektes Funktionieren des Algorithmus
relevanter sind. Zudem kann die Dichtestruktur später mithilfe einer Umgewichtung
wiederhergestellt werden.
39
A Anhang
A.3 Duplikationsmaß
Im folgenden wird die Berechnung des Duplikationsmaßes als Pseudocode beschrieben.
Zu beachten ist, dass die Wahl der Duplizierten Punkte n groß genug sein muss, um
auch kleine Cluster die m Punkten beinhalten und wo m << n gilt, zu berücksichtigen.
Algorithmus 2 Berechnung des Duplikationsmaß
1: Erzeuge n Punkte mithilfe des Duplikations-Algorithmus A.1
2: for ∀ a in Attribut do
3:
Erzeuge ein Histogramm Horg des Attributes a für die originale Datenmenge.
4:
Erzeuge ein Histogramm Hdup des Attributes a für die duplizierte Menge.
5:
Bestimme für jedes Bin des Histograms den quadratischen absoluten Fehler
zwischen Horg und Hdup
6: end for
7: Summiere über alle bestimmten quadratischen Fehler auf. Dieser Wert ist das
Duplikationsmaß.
40
Literaturverzeichnis
[AHK01]
Aggarwal, CharuC. ; Hinneburg, Alexander ; Keim, DanielA.: 2001
[ALM+ 12] Ackermann, Marcel R. ; Lammersen, Christiane ; Märtens, Marcus
; Raupach, Christoph ; Sohler, Christian ; Swierkot, Kamil: StreamKM++: A Clustering Algorithm for Data Streams. (2012)
[Ama]
Amanda: Amanda (Antarctic Muon and Neutrino Detector Array). http:
//amanda.uci.edu/,
[AV07]
Arthur, David ; Vassilvitskii, Sergei: k-means++: the advantages
of careful seeding. In: Proceedings of the eighteenth annual ACM-SIAM
symposium on Discrete algorithms, 2007 (SODA ’07)
[Bel57]
Bellman, Richard: Dynamic Programming. 1. Princeton University Press,
1957
[BP95]
Bezdek, J.C. ; Pal, N.R.: Cluster validation with generalized Dunn’s
indices. In: Artificial Neural Networks and Expert Systems, 1995. Proceedings., Second New Zealand International Two-Stream Conference on, 1995,
S. 190–193
[BPR05]
Byron P. Roe, Ji Zhu(U. M. Hai-Jun Yang Y. Hai-Jun Yang: Boosted
decision trees, a powerful event classifier. (2005)
[BS01]
Breiman, Leo ; Schapire, E.: In: Machine Learning 45 (2001), Nr. 1. –
ISSN 0885–6125
[Bul12]
Bulinski, Michael: Parallelisierung von Clustering Algorithmen. (2012),
August
[Col12]
Colaboration, IceCube: IceCube Detektor. http://icecube.wisc.
edu/, August 2012
41
Literaturverzeichnis
[DGST]
Dolag, Klaus ; Grasso, Dario ; Springel, Volker ; Tkachev, Igor:
Constrained simulations of the magnetic field in the local Universe and the
propagation of ultrahigh energy cosmic rays. In: Journal of Cosmology and
Astroparticle Physics 2005, Nr. 01, S. 009
[EKSX96] Ester, Martin ; Kriegel, Hans peter ; S, Jörg ; Xu, Xiaowei: A densitybased algorithm for discovering clusters in large spatial databases with
noise, AAAI Press, 1996, S. 226–231
[FRD10]
Finke, J. D. ; Razzaque, S. ; Dermer, C. D.: Modeling the Extragalactic
Background Light from Stars and Dust. In: apj 712 (2010), März, S. 238–249
[Fre12]
Freiwald, Jan: Datamining für den IceCube-Detektor. (2012)
[GK07]
Giunti, Carlo ; Kim, Chung W.: Fundamentals of Neutrino Physics and
Astrophysics. (2007)
[GQRS]
Gandhi, Raj ; Quigg, Chris ; Reno, Mary H. ; Sarcevic, Ina: Ultrahighenergy neutrino interactions. In: Astropart.Phys. 5, S. 81–110
[Gre66]
Greisen, Kenneth: End to the Cosmic-Ray Spectrum? In: Phys. Rev. Lett.
16 (1966), Apr, S. 748–750
[Joh11]
Johansson, Henrik: Searching for an Ultra High-Energy Diffuse Flux of
Extraterrestrial Neutrinos with IceCube 40. (2011)
[Llo82]
Lloyd, Stuart P.: Least squares quantization in pcm. In: IEEE Transactions
on Information Theory 28 (1982), S. 129–137
[MD]
Mumtaz, K. ; Duraiswamy, Dr. K.: A Novel Density based improved
k-means Clustering Algorithm – Dbkmeans
[Mé02]
Mészáros, P.: THEORIES OF GAMMA-RAY BURSTS. In: Annual
Review of Astronomy and Astrophysics 40 (2002), Nr. 1, S. 137–169
[(Pa]
(Particle Data Group), Beringer, J. .: Review of Particle Physics. In:
Phys. Rev. D 86
[Sch11]
Scheriau, Florian: Data-Mining für den IceCube Detektor. (2011), Dezember
42
Literaturverzeichnis
[SI]
Selim, Shokri Z. ; Ismail, M. A.: K-Means-Type Algorithms: A Generalized
Convergence Theorem and Characterization of Local Optimality. In: IEEE
Transactions on Pattern Analysis and Machine Intelligence 6
[Tad08]
An introduction to active galactic nuclei: Classification and unification. In:
New Astronomy Reviews 52 (2008), Nr. 6, S. 227 – 239. – ISSN 1387–6473
[UB02]
Unsöld, A. ; Baschek, Bodo: Der neue Kosmos: Einführung in die Astronomie und Astrophysik (German Edition). 7. Aufl. 2002. Korr. Nachdruck.
Springer, 2002. – ISBN 3540421777
[UN81]
Umebayashi, T. ; Nakano, T.: Fluxes of Energetic Particles and the
Ionization Rate in Very Dense Interstellar Clouds. In: pasj 33 (1981), S.
617
[Wag04]
Wagener, Wolfgang: Design and Realisation of a new AMANDA Data
Aquisition System with Transient Waveform Recorders. (2004), Oktober
[WB]
Waxman, Eli ; Bahcall, John: High energy neutrinos from astrophysical
sources: An upper bound. In: Phys. Rev. D 59
[Wes]
Weston.pace: k-Means Clustering
[Wos10]
Woschnagg, Kurt: Distances.i79.jpg. https://wiki.icecube.wisc.
edu/index.php/File:Distances.i79.jpg, Januar 2010
[Wu202]
Alternative c-means clustering algorithms. In: Pattern Recognition 35
(2002), Nr. 10, S. 2267 – 2278. – ISSN 0031–3203
[ZRL96]
Zhang, Tian ; Ramakrishnan, Raghu ; Livny, Miron: BIRCH: An
Efficient Data Clustering Method for Very Large Databases. 1996
43
Eidesstattliche Versicherung
Ich versichere hiermit an Eides statt, dass ich die vorliegende Bachelorarbeit mit dem
Titel Clusteruntersuchung von IceCube-MC-Daten selbständig und ohne unzulässige
fremde Hilfe erbracht habe. Ich habe keine anderen als die angegebenen Quellen und
Hilfsmittel benutzt sowie wörtliche und sinngemäße Zitate kenntlich gemacht. Die
Arbeit hat in gleicher oder ähnlicher Form noch keiner Prüfungsbehörde vorgelegen.
Ort, Datum
Unterschrift
Belehrung
Wer vorsätzlich gegen eine die Täuschung über Prüfungsleistungen betreffende Regelung
einer Hochschulprüfungsordnung verstößt handelt ordnungswidrig. Die Ordnungswidrigkeit kann mit einer Geldbuße von bis zu [50.000,00] geahndet werden. Zuständige
Verwaltungsbehörde für die Verfolgung und Ahndung von Ordnungswidrigkeiten ist
der Kanzler/die Kanzlerin der Technischen Universität Dortmund. Im Falle eines mehrfachen oder sonstigen schwerwiegenden Täuschungsversuches kann der Prüfling zudem
exmatrikuliert werden (§ 63 Abs. 5 Hochschulgesetz - HG - ).
Die Abgabe einer falschen Versicherung an Eides statt wird mit Freiheitsstrafe bis zu 3
Jahren oder mit Geldstrafe bestraft.
Die Technische Universität Dortmund wird ggf. elektronische Vergleichswerkzeuge
(wie z.B. die Software ”turnitin”) zur Überprüfung von Ordnungswidrigkeiten in Prüfungsverfahren nutzen.
Die oben stehende Belehrung habe ich zur Kenntnis genommen.
Ort, Datum
Unterschrift
Herunterladen