Technische Universität Dortmund Clusteruntersuchung von IceCube-MC-Daten Michael Bulinski Arbeit zur Erlangung des Bachelorgrades 26. November 2013 Gutachter: Prof. Dr. Dr. Wolfgang Rhode PD Dr. Reiner Klingenberg Inhaltsverzeichnis 1 Einleitung 5 2 Theorie 7 2.1 2.2 2.3 Physikalische Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1.1 Astroteilchen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1.2 Quellen hochenergetischer Neutrinos . . . . . . . . . . . . . . . 9 2.1.3 IceCube-Detektor . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.1 Kernmenge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.2 k-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.3 Anzahl der Clusterzentren . . . . . . . . . . . . . . . . . . . . . 13 Daten Vervielfältigung . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.3.1 16 Funktionsweise . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Neue Attribute 3.1 3.2 3.3 Event-Attribute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.1.1 Clusternummer . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.1.2 Silhouette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Cluster-Attribute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.2.1 Loneliness . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.2.2 Signalanteil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Verbesserungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 4 Untersuchung der Monte Carlo Daten 4.1 17 21 Anzahl der Clusterzentren . . . . . . . . . . . . . . . . . . . . . . . . . 21 4.1.1 Duplikationsmaß . . . . . . . . . . . . . . . . . . . . . . . . . . 22 4.1.2 Auswertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3 Inhaltsverzeichnis 5 Clustereigenschaften 5.1 Signalanteil . . . . . . 5.1.1 Schnitte . . . . 5.2 Reine Signalcluster . . 5.2.1 Radius . . . . . 5.2.2 Rekonstruierter 5.3 Energie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zenithwinkel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 29 31 31 32 33 34 6 Resumee und Ausblick 37 A Anhang A.1 Duplikations-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . A.2 Verwendete Datensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . A.3 Duplikationsmaß . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 39 39 40 Literaturverzeichnis 41 4 1 Einleitung Seit vielen Jahrhunderten wird der Nachthimmel untersucht, anfangs nur mit bloßem Auge, später schlossen sich dem weitere Verfahren an, wie zum Beispiel Teleskope oder Satellitenexperimente. Diese beschränken sich heutzutage nicht nur auf das für den Menschen sichtbare Licht, sondern auch auf die nicht sichtbaren Bestandteile der kosmischen Strahlung. So erreichen täglich unzählige Teilchen die Erde, daraus resultierend stellt sich die Frage, woher diese Teilchen kommen und wie sie entstehen. Mit dieser Frage beschäftigt sich die Astroteilchenphysik und untersucht die dahinter stehende Physik [UB02]. Die Teilchen entstehen in den verschiedensten kosmischen Quellen, unter anderem in AGNs (Aktive Galaktische Kerne) oder Supernovaexplosionen. Dabei ist die Energie der Teilchen abhängig von der Quelle und des Produktionsmechanismus. Je nach Energie und Teilchen gibt es verschiedene Verfahren zur Untersuchung dieser, beispielsweise Satellitenexperimente oder Luftschauerdetektoren. Diese Verfahren liefern auch heute noch eine Menge wichtiger Erkenntnisse über den Kosmos. Dennoch sind diese Experimente aufgrund der untersuchten Teilchen in ihrer möglichen Informationssuche beschränkt. So werden geladene Teilchen durch galaktische magnetische Felder abgelenkt, wodurch ihre Ursprungsinformation verloren geht. Hochenergetische Photonen wechselwirken dagegen mit den verschiedenen im Kosmos erzeugten γ-Teilchen, wie zum Beispiel mit dem Licht, das die extragalaktischen Sterne produzieren (Extragalactic background light). Diese Wechselwirkung führt zu einer Paarproduktion, womit das Licht in seiner Reichweite eingeschränkt wird [FRD10]. Aus den oben genanten Gründen wird die Beobachtung des Kosmos um die Untersuchung der ankommenden Neutrinos erweitert. Diese elektrisch neutralen Teilchen, zeichnen sich durch ihre geringe Masse von mν < 2 eV [(Pa] und dem geringen Wirkungsquerschnitt, in der Größenordnung von 10−13 b (Eν = 10 GeV Neutrinos) [GQRS], aus. Diese Eigenschaften führen dazu, dass sich die Neutrinos gradlinig von der Quelle fortbewegen und nur wenig durch andere kosmische Objekte behindert werden. Damit sind sie gute Kandidaten zur Erforschung weit entfernter astronomischer Objekte. Das IceCube-Experiment misst die Tscherenkow-Strahlung, der Sekundärteilchen, der durch Neutrinos im Eis entstehenden Leptonen. Neben den von Neutrinos erzeug- 5 1 Einleitung ten Leptonen, gibt es noch die in Luftschauern erzeugten Myonen, die die gleichen Reaktionen im Detektor erzeugen. [Joh11] Daher verwendet IceCube zur Klassifizierung der Daten unter anderem das Klassifikationsverfahren Random Forest [BS01] oder das der Boosted Decision Trees [BPR05]. Diese Verfahren versuchen mithilfe von Entscheidungsbäumen eine Klassifikation durchzuführen. Zusätzlich dazu werden vorher noch harte Schnitte angesetzt, um einen Großteil des Untergrunds von vornherein aus den Daten zu entfernen. [Col12] In der Arbeit geht es darum, die physikalischen Datensätze mithilfe eines Clusteralgorithmus zu untersuchen. Ziel ist es zu überprüfen, ob sich eine automatisierte Clustersuche zur Unterteilung oder Analyse der Daten eignet. Insbesondere sind die aus physikalischen Zusammenhängen entstehenden Cluster interessant. Solche Cluster sind für weitere Analysen von Interesse, da sie zusätzliche Informationen über die in ihnen zusammengefassten Daten erzeugen. Das Clustering könnte Daten zu Gruppen zusammenfassen, die in nachfolgenden Berechnungen unterschiedlich behandelt werden [Sch11], [Fre12]. Weiterhin könnte der Algorithmus Zusammenhänge in den Daten finden, die nicht direkt erkennbar sind. Diese Arbeit ist wie folgt gegliedert: Das zweite Kapitel erklärt die physikalischen Grundlagen der Astroteilchen, der zu Grunde liegenden Daten und wie diese gemessen wurden. Im Anschluss werden die verwendete Algorithmen zur Clusterung und Bestimmung der Güte beschrieben. Das dritte Kapitel beschreibt vier mögliche neue Attribute, die aus der Clusterberechnung gewonnen werden können. Diese werden in zwei Klassen unterteilt: die Ereignisspezifischen Attribute, die nur für das Ereignis gelten und die Cluster-spezifischen Attribute, die für eine Menge von Ereignissen gelten, da diese dem gleichen Cluster angehören. Das vierte Kapitel beschäftigt sich mit der Untersuchung des Clusterings. Dies beinhaltet unter anderen, ob sich Cluster bilden und wie die Parameter gewählt werden sollten, um ein möglichst optimales Clustering zu erhalten. Das letzte Kapitel untersucht einige physikalische Eigenschaften der Cluster. Damit wird überprüft, ob die gefunden Cluster physikalischer Natur sind und nicht nur ein Artefakt der Messung oder der verwendeten Methoden. 6 2 Theorie In diesem Kapitel werden die theoretischen Grundlagen für die physikalisch aufgenommen Daten erklärt. Im Anschluss wird der verwendeten PSCKMPP (Parallel Streaming Coreset k-Means++) Cluster-Algorithmus [Bul12] beschrieben. 2.1 Physikalische Grundlagen Der nachfolgende Abschnitt beschäftigt sich mit den physikalischen Grundlagen. Es wird auf die Astroteilchen eingegangen, sowie der verwendete Detektor beschrieben. 2.1.1 Astroteilchen Aus dem Kosmos erreichen verschiedene Teilchen die Erde. Darunter fallen nicht geladene Teilchen wie Photonen und Neutrinos, sowie geladene Teilchen, wie Protonen. Nachdem diese von einer Quelle emittiert wurden, durchlaufen sie den Raum und unterliegen dort, abhängig von ihren Eigenschaften, verschiedenen Wechselwirkungsprozessen (siehe Abb. 2.1). Photonen haben den Vorteil, dass sie nicht geladen sind. Somit können diese direkt von der Quelle zur Erde gelangen, ohne abgelenkt zu werden. Der Nachteil von Photonen ist, das sie durch interstellare Gas- und Staubwolken absorbiert werden können und sich ihre Anzahl entsprechend dadurch verringert [UN81]. Des weiteren können Photonen mit anderen Photonen wechselwirken und so eine Paarproduktion anstoßen. Dies findet unter anderem mit dem Licht statt das andere Sterne aussenden (Extragalactic Background Light). [FRD10] Weiterhin unterliegen hoch energetischen γ-Teilchen ab einer Energie von 200 TeV, einer Wechselwirkung mit dem 3 K Mikrowellenhintergrund [Gre66]. Dieser Effekt führt dazu, dass hochenergetische Photonen nur aus Nachbargalaxien beobachtet werden können. Geladene Teilchen , wie Protonen werden von galaktischen Magnetfeldern abgelenkt, wodurch diese ihre Ursprungsinformation verlieren. Damit eignen sich die Teilchen 7 2 Theorie Abbildung 2.1: Vereinfachte Übersicht über die verschiedenen Teilchenarten und ihrem Entstehungsort und den möglichen Wechselwirkungen mit dem Weltraum. Die Neutrinos können ungestört von der Quelle zur Erde gelangen. Im Gegensatz dazu wird die Gammastrahlung abhängig von ihrer Energie absorbiert oder Wechselwirkt mit anderen Photonen. Die elektrisch geladenen Teilchen werden dagegen abgelenkt und verlieren ihre Ursprungsinformation. [Wag04] 8 2.1 Physikalische Grundlagen nicht zur Untersuchung von Quellen, da es nicht möglich ist zu bestimmen aus welcher Quelle diese stammen. Dadurch kann mit geladenen> Teilchen nur das kosmische Spektrum untersucht werden, welches die Erde erreicht. [DGST] Neutrinos haben keine der Einschränkungen der anderen kosmischen Teilchen. Dies liegt an ihrem geringem Wechselwirkungsquerschnitt, sowie an der Tatsache, dass Neutrinos nicht geladen sind. Dadurch eigenen sich diese Teilchen, unter anderem, zur Untersuchung von Quellen hoch energetischer Strahlung, da diese nicht Abgelenkt und nicht Absorbiert werden. [GK07] 2.1.2 Quellen hochenergetischer Neutrinos Als mögliche Quellen für hochenergetische Neutrinos kommen mehrere Objekte in Frage, dazu zählen AGN (Aktive Galaktische Kerne) und GRB (Gamma Ray Bursts) [WB]. Aktive galaktische Kerne sind supermassive schwarze Löcher, welche sich im Zentrum einer Galaxie befinden. Aufgrund ihrer großen Anziehungskraft, bildet sich um das Zentrum eine Akkretionsscheibe. Weiterhin bilden sich, ausgehend von den Polen, hochenergetische Jets, die mehrere Millionen Lichtjahre ins All hineinreichen. [Tad08] Gamma Ray Bursts sind Ausbrüche von stark energetischer Gammastrahlung, die über ein breit gefächertes Spektrum verfügen. Die Dauer dieser kann von 10−3 s bis zu 103 s andauern, während dieser Zeit überstrahlt eine GRB alle in der Umgebung sichtbaren Objekte. [Mé02] 2.1.3 IceCube-Detektor Der IceCube-Detektor ist ein Neutrino-Teleskop, das als Nachfolger des AMANDA Detektors [Ama] am geographischen Südpol gebaut wurde. IceCube ist ein Mehrzweckdetektor. Eins seiner Hauptziele ist es, hochenergetische Neutrinos zu finden, wofür ein Detektorvolumen von einem Kubikkilometer instrumentiert wurde. Zur Detektion sind im Detektorvolumen digital optische Module (DOMs) in einer dreidimensionalen Gitterstruktur angebracht. Diese sind über senkrechte Kabel (Strings) mit der Oberfläche verbunden. Insgesamt verfügt jeder String über 60 DOMs, die in Abständen von 17 Meter angebracht sind. Diese Struktur wurde in einer Tiefe von 1450 bis 2450 Meter eingelassen. Der Detektor ist insgesamt aus 86 Strings aufgebaut, die ein sechseckiges Muster bilden. Die Entfernung der Strings zueinander beträgt annähernd 125 Meter. Weiterhin sind in der Mitte des Detektors 6 weitere Strings angebracht, 9 2 Theorie die Deep Core strings. Diese dienen einer besseren Auflösung von niederenergetischen Neutrinoereignissen im inneren des Detektors. [Joh11] Für die Analyse wird nicht der fertige Detektor mit seinen 86 Strings verwendet, sondern eine Version aus dem Jahre 2010, welcher nur 79 Strings verwendet. Diese Konfiguration ist in Abbildung 2.2 dargestellt. Abbildung 2.2: Darstellung der Position, der einzelnen Strings des IC79-Aufbaus, der 2010 fertig gestellt wurde. [Wos10] 10 2.2 Algorithmus 2.2 Algorithmus Zur Suche von Clustern in den gegebenen Daten wird auf den von Loydl [Llo82] entwickelten k-Means Algorithmus zurückgegriffen. Dieser wird in der verbesserten Form des Parallel Streaming Coreset k-Means++ [Bul12] Algorithmus verwendet. Der angepasste Algorithmus verwendet neben dem eigentlichem k-Means++ [AV07] zusätzlich noch eine Kernmengenberechnung [ALM+ 12], um die Menge an Daten zu reduzieren. Weiterhin wird diese reduzierte Menge verteilt verarbeitet [Bul12]. 2.2.1 Kernmenge Ein Problem von Datenanalysen sind große Datenmengen, die zu einer längeren Ausführungszeit führen kann. Um das Problem zu lösen, kann entweder versucht werden den Algorithmus zu beschleunigen, oder es wird die Datenmenge selbst reduziert ohne wichtige Informationen zu verlieren. In dem verwendeten Algorithmus wird der zweite Ansatz verfolgt, in dem das Konzept der Kernmengen genutzt wird. Die Idee hinter der Kernmengenberechnung ist es, die Datenpunkte so zusammenzufassen, dass die nachfolgende Clusterberechnung minimal davon beeinflusst wird. Die Kernmenge ist damit in der Lage die originalen Datenpunkte bezüglich des kMeans Clusterings zu repräsentieren, womit die berechneten Cluster für die Kernmenge auch als Cluster für die originale Datenmenge gelten [ALM+ 12]. Zu beachten ist, dass bei einer zu starken Reduktion des Datensatzes Information verloren werden können. 2.2.2 k-Means Beim k-Means werden k-Punkte gesucht, welche die euklidische Distanz zu den Datenpunkten minimal halten. Der Algorithmus wurde 1957 von Lloyd vorgeschlagen und 1982 in finaler Form veröffentlicht [Llo82]. Der Algorithmus zeichnet sich durch seine Einfachheit aus. Die Funktionsweise beruht auf der Wiederholung von zwei aufeinanderfolgen Schritten, welche hier als Durchlauf bezeichnet werden. Die Schritte werden solange wiederholt, bis eine Abbruchbedingung erreicht ist. Bevor der Algorithmus ausgeführt wird, werden zuerst k Punkte per Zufall ausgewählt, welche den initialen Clusterzentren entsprechen (siehe Abb. 2.3.A). Die als nächstes ausgeführten Schritte optimieren nur noch deren Position. Im ersten Schritt wird jeder Punkt dem nächstliegenden Clusterzentrum zugewiesen (siehe Abb. 2.3.B). Nun werden die zugewiesenen Punkte jeweils nach den Clusterzentren aufgeteilt und auf diesen Mengen der Mittelwert gebildet (siehe Abb. 2.3.C). Die berechneten Mittelwerte sind die neuen Clusterzentren und der Durchlauf ist abge- 11 2 Theorie schlossen. Nun wird die Abbruchbedingung untersucht, welche unterschiedlich gewählt werden kann. Sie muss jedoch sicherstellen, dass die bestimmten Punkte einem lokalem Minimum entsprechen. Ist ein Minimum gefunden, so kann der Algorithmus beendet werden, ansonsten wird ein weiterer Durchlauf gestartet. Der nächste Schritt dieses Durchlaufs ist in Abbildung 2.3.D dargestellt. A C B D Abbildung 2.3: Ein visualisierter k-Means Durchlauf. Die Kreise sind die ClusterZentren, welche die rechteckigen Datenpunkte in Cluster aufteilen sollen. [Wes] Kosten eines Clusters Für die Berechnung mittels eines k-Means Clusters ist die Definition der Kosten der Cluster essentiell. Denn der k-Means optimiert diesen Wert durch die Verschiebung 12 2.2 Algorithmus der Clusterzentren, somit kann darüber eine Abbruchbedingung definiert werden. Der k-Means bricht ab, wenn die Gesamtkosten nach einem Durchlauf anfangen zu steigen. Die Kosten eines Clusters c ∈ C bezüglich seiner ihm zugewiesenen Punkte Pc , ist definiert als: costc = X dist(p, c) (2.1) p∈Pc Für die Gesammtkosten aller Clusterzentren folgt: costC = X costc (2.2) c∈C 2.2.3 Anzahl der Clusterzentren Bei der Verwendung des k-Means Algorithmus, ist die Wahl der Anzahl der zu suchenden Clusterzentren entscheidend für die Güte des Clusters. Grundsätzlich muss die Anzahl der gesuchten Cluster größer oder gleich der Anzahl an möglichen Clustern sein, da ansonsten mehrere Cluster als ein großer Cluster erkannt werden. Daneben gibt es noch weitere Fallstricke, die beachtet werden müssen. Diese entstehen, weil der k-Means Algorithmus nach kreisförmigen Clustern mit gleichen Dichten sucht. Ist dies nicht der Fall, so kommt es zu Problemen, die hier näher erläutert werden und deren Lösungen in diesem Kapitel beschrieben werden. Dichteproblematik: Das Problem bei der Dichte der Datenpunkt ist, dass der k-Means Algorithmus die Distanz der Clusterzentren zu den Datenpunkten minimiert. Dadurch wird die Dichte nicht berücksichtigt, was zu fehlerhaften Clustern führen kann, wenn die Datenpunkte unterschiedliche Dichten aufweisen (siehe Abbildung 2.4). So werden Cluster, die eine geringe Dichte haben, aufgrund des großen Abstandes der Punkte zueinander mehrfach gesplittet. Zusätzlich können kleine Cluster mit hohen Dichten zu einem Cluster zusammengefasst werden (siehe Abb. 2.4 rechts Bild). Größenproblematik: Bei diesem Problem geht es darum, dass Cluster unterschiedliche Größen besitzen können. Ähnlich wie bei der Dichteproblematik, können auch hier Cluster in mehrere kleinere Cluster aufgeteilt werden oder sich mit anderen Clustern vermischen (siehe Abb. 2.5). 13 2 Theorie Abbildung 2.4: Visualisierung der Dichteproblematik. Es sind drei Cluster definiert, die alle die gleiche Menge an Punkten beinhalten (linkes Bild) und aufgrund ihrer unterschiedlichen Größen andere Dichten besitzen. Auf dem rechten Bild wurde Beispielhaft ein k-Means mit k = 3 ausgeführt. Die unterschiedlichen Dichten führen zu einer fehlerhaften Clusterung. Abbildung 2.5: Visualisierung der Größenproblematik. Es sind drei Cluster definiert, die alle die gleiche Dichte besitzen, deren Größen sich allerdings unterscheiden (linkes Bild). Dies führt bei der Beispielhaften Clusterung mit k = 3 zu Klassifikationen der Punkte zu den einzelnen Clustern (rechtes Bild). 14 2.3 Daten Vervielfältigung Formproblematik: Diese resultiert aus der Funktionsweise des k-Means, da nur kreisförmige Cluster gesucht werden. Sind die wahren Cluster dagegen nicht Kreisförmig, so kommt es auch hier zu Fehlrekonstruktionen wie in Abbildung 2.6 dargestellt. Abbildung 2.6: Visualisierung der Formproblematik. Es werden zwei Cluster definiert, wie in der rechten Abbildung. Aufgrund der nicht Kreisförmigen Cluster, kommt es bei der Beispielklassifikation zu einem falschem Clustering (linkes Bild). Lösungen: Eine Möglichkeit die Probleme zu lösen, wäre das Distanzmaß zu ändern, wie der Artikel Alternative c-means clustering algorithms [Wu202] untersucht. Der Ansatz kann zu weiteren Problemen führen, da die Änderung des Distanzmaßes die Form der gesuchten Cluster ändert. Es muss gesondert untersucht werden, ob das neue Distanzmaß auch wirklich praktikabel für das Problem ist. Stattdessen wird die Anzahl k der gesuchten Cluster-Zentren erhöht. Dadurch verliert man zwar die Information über die Anzahl an realen Clustern, dieses Wissen kann anschließend über eine weitere Berechnung aus den bestimmten Clustern gewonnen werden. Zum Beispiel können die berechneten Cluster als Grundlage einer hierarchischen Clusteranalyse verwendet werden, um damit die gesuchten Supercluster zu bestimmen. 2.3 Daten Vervielfältigung Das k-Means-Verfahren berechnet Cluster, die der Struktur der zugrundeliegenden Punkte entspricht. Die Qualität der berechneten Cluster ist dabei hauptsächlich von 15 2 Theorie der gewählten Anzahl k der Clusterzentren abhängig. Deshalb werden Qualitätsparameter definiert, wie die Gesamtkosten des Clusterings oder der Silhouettenkoeffizient (Abschnitt 3.1.2). Im Nachfolgenden wird beschrieben, wie mithilfe der berechneten Cluster neue Datenpunkte erzeugt werden können. Neben der offensichtlichen Benutzung zur Vervielfältigung der Daten, kann das Verfahren auch zur Qualitätsbestimmung des Clusterings verwendet werden. Dies kann erreicht werden, indem die duplizierten Daten mit den original Daten vergleichen werden. Hierbei entspricht ein kleiner Unterschied einem gut gewählten k. 2.3.1 Funktionsweise Eine Simulation erzeugt Ereignisse, die sich als Punkte in einem Hyperraum darstellen lassen. Die Punkte erzeugen eine Struktur im Raum, welche als Signatur der Simulation angesehen werden kann und für diese charakteristisch ist. Nun können neue Ereignisse erzeugt werden, indem die Simulation neu ausgeführt wird. Alternativ können neue Daten aus dem Cluster bestimmt werden, dabei werden per Zufall neue Punkte gewürfelt, welche die Struktur im Hyperraum (Signatur der Simulation) erhalten. Damit hätten die per Zufall gewürfelten Punkte die gleiche Signatur wie die Simulierten und wären somit ununterscheidbar. Im Anhang 1 wird die genaue Funktionsweise des Algorithmus anhand von Pseudocode beschrieben. Zu beachten ist, dass der Algorithmus davon ausgeht, dass die vorliegende Struktur die Punkte gut beschreibt. Ist dies nicht der Fall, wird sich die duplizierte Datenmenge von der originalen Datenmenge unterscheiden. Das könnte zum Beispiel sehr seltene Ereignisse betreffen, die sich unter Umständen nur schwer Clustern lassen und damit nicht in der finalen Struktur wiedergefunden werden. 16 3 Neue Attribute Aus der Berechnung der Cluster, lassen sich neue Attribute für die Ereignisse oder Cluster berechnen. Diese können in weiteren Analysen verwendet werden, mit dem Ziel weitere Erkenntnisse zu erhalten (z.B. Berechnung von Superclustern) oder bestehenden Algorithmen weitere Informationen zu übergeben. Bei der Verwendung der neuen Attribute könnte zum Beispiel eine höhere Trennschärfe erreicht werden. In diesem Kapitel werden die erzeugten Attribute vorgestellt und ihre Bedeutung erklärt. 3.1 Event-Attribute Für die einzelnen Ereignisse lassen sich, durch das Clustering, weitere Attribute bestimmen. Diese fügen dem Ereignis weitere Informationen als neues Attribute hinzu und können bei der weiteren Klassifizierung und Analyse der Ereignisse helfen. 3.1.1 Clusternummer Der k-Means-Algorithmus teilt die Events in Cluster ein, diese Information wird mithilfe einer eindeutigen Nummer für jeden Cluster als weiteres Attribut im Event gespeichert. Dieses Attribut kann daraufhin vielfältig eingesetzt werden. So wurde unter anderem in der Arbeit Data-Mining für den IceCube Detektor [Sch11] untersucht, ob das Aufteilen der Daten in Cluster eine weiter Verbesserung in der Klassifizierung mit Random Forest ermöglicht. Da dies der Fall zu sein scheint, wäre eine automatische Erkennung und Verwendung von Clustern interessant. Eine solche Erkennung kann zum Beispiel über die Clusternummer erreicht werden. 3.1.2 Silhouette Die Silhouette eines Ereignisses bezüglich eines Clusterings ist ein Maß dafür, wie gut das Event zum zugewiesenen Cluster passt. Ist die Silhouette klein, so könnte das Event auch zu einem anderem Cluster zugewiesen werden. Ist sie dagegen groß, so ist die Wahrscheinlich, dass der ausgewählte Cluster der richtige ist, groß. Weiterhin kann 17 3 Neue Attribute der Mittelwert aller Silhouetten der Punkte, auch als Qualitätsmaß für das Clustering benutzt werden. Je näher der Wert an Eins liegt umso besser ist das Clustering. Die Silhouette wird berechnet als: S(x) = S(x)B = min {S(x)B } (3.1) B∈Alle Cluster 0 , wenn dist(A, x) = 0 dist(B, x) − dist(A, x) max{dist(A, x), dist(B, x)} 1 X dist(A, x) = dist(a, x) nA , sonst (3.2) (3.3) a∈A Hierbei ist A, die Menge aller Punkte des Clusters, dessen Mitglied auch der zu untersuchende Punkt x ist. B ist die Menge aller Punkte eines beliebigen anderen Clusters. 3.2 Cluster-Attribute Cluster-Attribute sind spezielle Attribute, die weitere Eigenschaften über die Cluster beinhalten. Die Attribute gelten nicht für einzelne Ereignisse, sondern für eine Menge von Ereignissen (Cluster). Diese können entweder für eine weitere Clusteranalyse verwendet werden oder als zusätzliches Attribute den Events übergeben werden und so der Clusternummer weitere Informationen hinzufügen. 3.2.1 Loneliness Das Attribut Loneliness wurde auf der Idee des Dunn Index aufgebaut, der versucht mithilfe der Abstände der Cluster zueinander und der Größe dieser, ein Qualitätsmaß für das Clustering zu definieren [BP95]. Das Loneliness Attribut ist ein Maß für den Abstand des Clusters zum nächstem Cluster, gewichtet über die Größe der Cluster. Je größer der Wert, desto isolierter ist der Cluster im Hyperraum. Bei kleineren Werten ist es zudem ein Maß für die Überlappung mit dem nächsten Cluster. Die aus der Loneliness gewonnene Information ist insbesondere für reine Signal oder Untergrund Cluster interessant, da die Loneliness in Relation mit der Wahrscheinlichkeit steht, dass die Cluster noch mit Signal oder entsprechend Untergrund Ereignissen verunreinigt werden. Sollte zum Beispiel an einem Signalcluster direkt angrenzend ein 18 3.3 Verbesserungen Untergrundcluster sein, so ist die Wahrscheinlichkeit, dass ein Untergrund-Ereignis in den Signalcluster fällt größer, da von einer Streuung der Ereignisse auszugehen ist. Die Loneliness eines Clusters x wird definiert als L(x) = min c∈C d(x, c) ,mit C der Menge aller Cluster R(x) + R(c) Hierbei sollte beachtet werden, dass das Maß nur eine Näherung an das betrachtete Problem ist (Überschneidung von Custern) und für einen genaueren Wert müssten Hyperraum-Kugelschnitte berechnet werden. Darauf wird verzichtet, da die Loneliness nur ein ungefähres hinreichendes Maß ist, mit dem Ziel Hinweise für weitere Analysen zu bieten. 3.2.2 Signalanteil Das Attribut Signalanteil drückt aus, wie viel Prozent des Clusters aus Signal bestehen. Anders als die anderen Attribute, wird das Attribut aus den Monte Carlo Informationen gebildet und ist daher von diesen Abhängig. Die Information kann verwendet werden, um zum Beispiel Cluster mit zu wenig Signal aus den Ergebnissen auszuschließen, um falsche Klassifizierungen zu vermeiden. Weiterhin kann die Information verwendet werden, um eine Klassifizierung bezüglich einzelner Clustern zu bewerten. So könnten das Ergebnis eines Klassifizierers, wie zum Beispiel eines Random Forests, zusätzlich auf den Signalanteil pro Cluster untersucht werden und mit dem Ergebnis des Clusterings verglichen werden. 3.3 Verbesserungen Alle Attribute werden mithilfe der berechneten k-Means Cluster direkt berechnet. Dies ist nicht immer die beste Lösung, da die k-Means Cluster aufgrund der in Kapitel 2.2.3 beschriebenen Problematiken nicht direkt den Clustern entsprechen müssen. So kann es passieren, dasss bestimmte Cluster (Supercluster) in mehrere kleine Cluster aufgeteilt werden. Daher könnte zum Beispiel die Silhouette bezüglich des Cluster des k-Means nahe 0 sein, gegenüber dem Supercluster dagegen nahe 1 (siehe Abb. 3.1). Aus diesem Grund sollten für eine weitere Verbesserung der Attribute übergeordnete Supercluster bestimmt werden. Dies sollte die Aussage der einzelnen neuen Attribute weiter verbessern. 19 3 Neue Attribute Abbildung 3.1: Im Bild ist ein Supercluster abgebildet, der durch den k-Means in zwei Subcluster aufgeteilt wurde. In dem Beispiel wäre die Silhouette, der Punkte bei x ≈ 0 gleich 0, da nicht eindeutig feststellbar ist, ob die Punkte zu Cluster 1 oder 2 gehören. Bezüglich des Superclusters, wären die Silhouetten dagegen nahe der 1, womit eine komplett andere Aussage vorliegt. 20 4 Untersuchung der Monte Carlo Daten In diesem Kapitel werden die Monte Carlo Daten des IceCube Experiments untersucht. Es wird die Anzahl an benötigten Clusterzentren bestimmt, die benötigt wird, um die betrachteten Daten richtig zu clustern. Die verwendeten Datensätze sind im Anhang A.2 beschrieben. Für die Untersuchungen wurde ein Signal zu Untergrundverhältnis von 1:1 gewählt. Die Kernmengengröße wurde immer mit dem 200-fachen der Anzahl der gesuchten Clusterzentren k gewählt (siehe [Bul12]). 4.1 Anzahl der Clusterzentren Um die gewünschte Anzahl k an Clusterzentren zu bestimmen, werden mehrere Qualitätsmaße eingeführt, diese sollten so gut wie möglich erfüllt werden. Kosten: Die Summe aller Kosten der Cluster. Der Wert soll minimiert werden. (siehe 2.2.2) Recall Abstand: Größter Abstand zwischen Signal-Recall und Background-Recall für Cluster mit mindestens x Prozent Signal. Der Wert soll maximiert werden. Duplikation: Das Qualitätsmaß baut auf der Vervielfältigung der Datenmenge mithilfe des Duplikation-Algorithmus 2.3 auf. Dabei werden verschiedene Eigenschaften der Originalmenge und der duplizierten Menge miteinander verglichen. Der Unterschied zwischen den beiden Datenmengen sollte vernachlässigbar klein sein. Neben der Optimierung der oben genanten Qualitätsmaße, wird auch die Laufzeit in Betracht gezogen. Eine höhere Anzahl an Clusterzentren bedeutet auch eine höhere Laufzeit. Dies ist insoweit Problematisch, da einige Qualitätsmaße aufgrund ihrer Entstehungsart, bei einer erhöhten Anzahl an Zentren auch bessere Werte liefern, ohne einen wirklichen Mehrgewinn für das Clustering. Da schwer ersichtlich ist, wann dieser Zeitpunkt eintritt werden mithilfe der Qualitätsmaße unteren Grenzen bestimmt und der eigentliche Wert so gewählt, dass auch die Berechnung nicht zu lange dauert. 21 4 Untersuchung der Monte Carlo Daten 4.1.1 Duplikationsmaß Für das Duplikationsmaß wird der Duplikation-Algorithmus (siehe auch Abschnitt 2.3) verwendet. Dazu werden genau so viele Punkte n erzeugt, wie zur Erzeugung des Clusterings verwendet wurden. Im nächsten Schritt werden für alle Attribute Histogramme erzeugt, einmal für die duplizierte Menge und einmal für die originale Menge. Die quadratischen Differenz zwischen den einzelnen Bins der duplizierten und originalen Menge, werden nun berechnet und aufsummiert. Das Ergebnis ist das Duplikationsmaß (Pseudocode siehe Anhang A.3). Untersuchung der duplizierten Daten Die Duplikation erzeugt vergleichbare Verteilungen, wie die ursprünglichen Daten. Damit scheint der Ansatz zu funktionieren (siehe 4.1 und 4.2). Es ergeben sich zwar kleinere Unstimmigkeiten, die in erster Linie dem Duplikations-Algorithmus zuzuschreiben sind. Insbesondere wird zur Vereinfachung des Duplikation-Algorithmus, pauschal für alle Cluster eine Normal-Verteilung der beinhaltenden Datenpunkte angenommen. Diese Pauschalisierung führt bei Clustern für die dies nicht der Fall ist zu Fehlern in der Erzeugung. Abbildung 4.1: Vergleich des Zenitwinkels zwischen dem duplizierten Datensatz und dem zugrundeliegenden originalen Datensatz. 22 4.1 Anzahl der Clusterzentren Abbildung 4.2: Vergleich der Distanz des Ereignisschwerpunktes zwischen dem duplizierten Datensatz und dem zugrundeliegendem originalem Datensatz. Einzig die Attribute mit Peaks in ihrer Struktur erzeugen eine falsche Verteilung um die Position der Peaks herum (siehe 4.3 und 4.4). Das liegt wahrscheinlich an Ausreißern in den Datensätzen. Diese würden dazu führen, dass der Radius der Cluster zu groß bestimmt wird, womit die duplizierten Werte abflachen. Eine andere Möglichkeit für diese Differenz ist, dass das gewählte Attribut in der Form nicht fürs Clustering geeignet ist. 4.1.2 Auswertung Bei der Auswertung ist zu beachten, dass auf eine Angabe eines Fehlers verzichtet wurde. Dies liegt an der Art der Berechnung und der möglichen Aussage eines Fehlers. So kann der k-Means beliebig schlechte Cluster berechnen [SI]. Somit ist eine Angabe eines oberen Fehlers nicht sinnvoll, da hier eine obere Grenze suggeriert wird die nicht existiert oder nur schwer berechnet werden kann, da es sich hierbei um ein nicht polynomielles Problem handelt. Bei einer Angabe eines unteren Fehlers wird dagegen suggeriert, dass der Algorithmus bessere Ergebnisse liefern kann. Weiterhin ist für den k-Means++ Algorithmus gezeigt, dass die Wahrscheinlichkeit steigt die optimale Lösung zu erhalten, desto öfter man ihn ausführt [SI]. Folglich wird davon ausgegangen, dass die beste gefundene Lösung, nah 23 4 Untersuchung der Monte Carlo Daten Abbildung 4.3: Logarithmischer Vergleich der gesamten deponierten Ladung zwischen dem duplizierten Datensatz und dem zugrundeliegendem originalem Datensatz. Erkennbar ist die fehlende Duplizierung der sehr seltenen Ereignisse ab Qtot = 0.35 · 107 . Abbildung 4.4: Vergleich der maximalen Entfernung von zwei Doms in Z-Richtung, zwischen dem duplizierten Datensatz und dem zugrundeliegendem originalem Datensatz. 24 4.1 Anzahl der Clusterzentren genug an der optimalen Lösung ist, um diese zu repräsentieren und damit die untere Grenze liefert. Die einzelnen Messpunkte stellen, daher das beste Ergebnis dar das gefunden wurde. In einer konkreten Auswertung würde entsprechend, das Clustering mit den besten Gütemaßen, zur weiteren Verwendung, gewählt werden. Kosten Die Kosten, in Abhängigkeit von der Anzahl an Clustern, sind in Abbildung 4.5 abgebildet. Die Messwerte folgen bis circa 3500 Clusterzentren einem Potenzgesetz und gehen in einen logarithmischen Abfall über. Der Übergang in den logarithmischen Abfall, wird als untere Schranke für ein gutes k gewählt, da davon auszugehen ist, dass bis zu diesem Zeitpunkt der Abfall der Kosten, primär auf ein besseres Clustering zurückzuführen ist. Abbildung 4.5: Die Kosten der Cluster in Abhängigkeit, von der Anzahl an Clustern k. Zu beachten ist, dass die Kosten mit der gewählten Kernmengengröße (200 · k) dividiert wurden. Dies dient der Normierung, da die Kernmengengröße, die Kosten verkleinert. 25 4 Untersuchung der Monte Carlo Daten Recall Differenz Die Recall-Differenz verläuft bis zu einem k von circa 4000 in einer logarithmischen Funktion und geht daraufhin in eine lineare Funktion über. Dieser Übergang wird als untere Grenze für das k bestimmt, weil ab hier der Gewinn an Differenz nicht mehr stark steigt. Abbildung 4.6: Die Differenz zwischen dem Signal Recall und dem Untergrund Recall, aufgetragen gegen die Anzahl an Clusterzentren k. Duplikationsmaß Das Duplikationsmaß ist in Abbildung 4.7 abgebildet. Der Verlauf der Messpunkte folgt einem abfallenden Potenzgesetz, dass bei k = 2000 in eine Sättigung übergeht. Ab einem k von circa 3500 kommt es zu einem abrupten Abfall und es folgt ein zweites Potenzgesetz, dass bis 6000 gilt und danach in eine Sättigung übergeht. Diese zweite Sättigung wird als Hinweis gedeutet, dass das Clustering nicht mehr signifikant genug verbessert werden kann, um das Duplikationsmaß zu verbessern. Folglich wird 6000 als untere Grenze für die Clusteranzahl gewählt. Der zweistufige Abfall deutet darauf hin, dass der Algorithmus sich an einer Substruktur des Datensatzes aufhängt und weitere Clusterzentren von dieser Struktur aufgenommen werden. Erst eine weitere Erhöhung der Zentren ermöglicht ein Ausbrechen aus dieser Struktur. So ist zu vermuten, dass insbesondere die Dichteproblematik die erste Sättigung zu verantworten hat. 26 4.1 Anzahl der Clusterzentren Abbildung 4.7: Das Duplikationsmaß aufgetragen gegen das gewählte k. Es wurde immer der beste Wert gewählt. Laufzeit Aus den vorherigen Abschnitten wurden folgende untere Grenzen für die Anzahl an Clusterzentren bestimmt. Maß Untere Grenze Kosten Recall Abstand Duplikationsmaß 3500 4000 6000 Zusätzlich zu diesen Qualitätsmaßen, wird die durchschnittliche Laufzeit betrachtet. Die Laufzeit eines k-Means-Durchlaufs ist linear abhängig von der Anzahl an Clusterzentren [Bul12]. Die Anzahl der Durchläufe ist dagegen von mehreren Faktoren abhängig, steigt aber auch mit der Clusteranzahl. Da der k-Means Algorithmus, mehrmals ausgeführt werden muss, um das optimale Ergebnis zu erhalten, sollte die Laufzeit nicht zu hoch sein und somit die Anzahl an Clusterzentren möglichst klein gewählt werden. Aus der Überlegung wird für die nachfolgenden Untersuchungen die Clusteranzahl mit k = 6000 gewählt. Damit wird allen Qualitätsmaßen genüge getan und die Laufzeit möglichst klein gehalten. 27 5 Clustereigenschaften Im folgendem Kapitel werden verschiedene Eigenschaften der bestimmten Cluster untersucht. Aufgrund der großen Menge an möglichen Eigenschaften die untersucht werden können, wird nur ein ausgewählter Teil betrachtet. Für die Untersuchung wurde jedes Ereignis um das Attribut Signalanteil (siehe Abschnitt 3.2.2) erweitert. Zu beachten ist, dass das Verhältnis des Untergrunds zum Signal Monte Carlo mit 1 zu 1 gewählt wurde. Weiterhin werden wie aus dem vorherigem Kapitel bestimmt 6000 Clusterzentren gesucht. 5.1 Signalanteil Werden die gefunden Cluster anhand des prozentualen Anteils an Signal betrachtet, so ergibt sich die Verteilung in Abbildung 5.1. Abbildung 5.1: Menge an Clustern mit einem bestimmten Anteil an Signal. Zu erkennen ist die Konzentration der Cluster bei einem Signalanteil von unter 50 Prozent. Dies deutet darauf hin, dass bei den Clustern zum Beispiel eine starke 29 5 Clustereigenschaften Strukturierung vorliegt, welche eine große Menge an Clustern benötigen würde, um die Struktur akkurat wiederzugeben. Eine andere Möglichkeit der Erklärung könnte die Dichte sein, welche sich stark von Clustern mit höherem Signalanteil unterscheidet. Somit sammelt sich dort, für die Reduktion der Kosten, eine erhöhte Menge an Clustern. Zusätzlich wird die vorherige Betrachtung nach der Menge an Ereignissen in den Clustern gewichtet (siehe 5.2) und die Menge an Ereignissen in reinen Signalclustern bestimmt (Signalanteil=100%). Dieser Wert liegt bei: NSignalanteil=100% = 0.041 ± 0.004 (5.1) Abbildung 5.2: Menge an Clustern mit einem bestimmten Anteil an Signal und gewichtet mit der Menge an Ereignissen die diese beinhalten. Die Verteilung wurde aus den Clustern in 5.1 berechnet. Die Verteilung in Abbildung 5.2 lässt darauf schließen, dass das Clustering sich dazu eignet Signale zu erkennen, da es viele Signal-Ereignisse gibt, die sich in Clustern mit wenig Untergrund-Ereignissen befinden. Zudem lassen sich 4 Prozent der Signale mit sehr hoher Genauigkeit als solche erkennen. Weiterhin lässt die geringe Anzahl an reinen Untergrundclustern (20 ± 5) und die Verteilung der vermischten Cluster darauf schließen, dass der Untergrund-Hyperraum eine Teilmenge des Signal-Hyperraums ist und damit der Signal-Hyperraum größer ist. Dies ist zu erwarten, da in erster Linie der Untergrund nur von oberhalb des Detektors kommt und auch dessen Energie niedriger ist. 30 5.2 Reine Signalcluster 5.1.1 Schnitte Ein wichtiger Aspekt bei der Untersuchung der IceCube Monte Carlo Daten, ist es möglichst viel Untergrund von vorn herein herauszufiltern. Dazu werden unter anderem Schnitte auf verschiedenen Parametern gemacht. In diesem Abschnitt wird die Möglichkeit untersucht, Schnitte auf dem im Cluster enthaltenem Signalanteil zu verwenden. In Abbildung 5.3 sind die Recalls vom Signal und Untergrund in Abhängigkeit vom Signalschnitt dargestellt. Der größte Unterschied zwischen den Recalls, ist bei einem Schnitt von (50.5 ± 0.5)%, dies entspricht einem Signalrecall von 68 Prozent und einem Untergrundrecall von 20 Prozent. Zu beachten ist, dass das Signal-UntergrundVerhältnis 1:1 ist. Folglich muss für eine Berechnung der Präzision ein Korrekturfaktor berücksichtigt werden. Abbildung 5.3: Recall vom Signal Signalanteilschnitten. und Background bei verschiedenen 5.2 Reine Signalcluster Als nächstes wird untersucht, welche Eigenschaften reine Signal-Cluster (Signalanteil im Cluster ist 100%) besitzen. Dazu werden ausgewählte Attribute betrachtet. Zusätzlich 31 5 Clustereigenschaften werden je nach Attribut auch Cluster mit niedrigerem Signalanteil berücksichtigt. Dies dient in erster Linie dazu Tendenzen klarer darzustellen, da so mehr Cluster vorliegen. 5.2.1 Radius Das Attribut Radius stellt den Abstand der Schwerpunktes des Ereignisses zur Z-Achse des Detektors dar. Reine Signalcluster finden sich primär in zwei Abschnitten (siehe 5.4). Einerseits nah der Mitte des Detektors (um die 150 m) und anderseits ab einem Radius von 300 m bis 500 m. Es ist davon auszugehen, dass insbesondere im Mittelsegment des Detektors (Radius 250 m bis 300 m) eine Trennung Problematisch ist, hier scheint die Verunreinigung mit dem Untergrund am größten zu sein. Abbildung 5.4: Die Verteilung des Radius bei zwei verschiedenen Reinheiten des Signalanteils. Links bei einer Reinheit von 100 Prozent und Rechts bei einer Reinheit von 99 Prozent. 32 5.2 Reine Signalcluster 5.2.2 Rekonstruierter Zenithwinkel Im nachfolgenden wird die Verteilung des rekonstruierten Zenithwinkels betrachtet. In Abbildung 5.5.A ist die Verteilung für reine Cluster dargestellt. So werden reine Cluster nur unter dem Horizont gefunden. Dies passt zu den vorherigen Ergebnissen, dass der Untergrund-Hyperraum größtenteils oberhalb von 90 Grad im Zenith liegt. A: 100 Prozent Reinheit B: 95 Prozent Reinheit Abbildung 5.5: Der rekonstruierte Zenithwinkel bei zwei verschiedenen Reinheiten des Signalanteils. Links bei einer Reinheit von 100 Prozent und Rechts bei einer Reinheit von 95 Prozent. Bei einer Signalreinheit von 95 Prozent verändert sich die Verteilung entsprechend zu Abbildung 5.5.B. Interessant ist das Aufkommen der Cluster mit einem Zenithwinkel von unter 90 Grad. Wenn es gelingen würde diese von dem restlichen Untergrund zu trennen, würde so vielleicht eine Möglichkeit entstehen, Neutrinosignale mit einem Zenithwinkel kleiner 90 Grad zu finden und zu untersuchen. Die Möglichkeit einer Verbesserung der Trennung wird zudem durch weitere Analysen unterstützt. So wird bei einem Clustering mit 8000 Zentren ein Cluster in diesem Bereich gefunden (siehe Abbildung 5.6). Weiterhin ergibt die Clustersuche auf den ungewichteten Daten eine Vielzahl an Clustern im niedrigem Zenith, was darauf schließen lässt, dass das Clustering Probleme mit der dort auftretenden Dichte hat. 33 5 Clustereigenschaften Abbildung 5.6: Der Zenithwinkel bei einer Reinheit der Signalcluster von 100 Prozent und einem Clustering mit k = 8000. 5.3 Energie Viele Attribute der betrachteten Ereignisse sind abhängig von der Energie des Ursprungsteilchens. So ist zum Beispiel die Gesamtmenge der gemessenen Ladung in den DOMs (QTot) abhängig von der Energie des Myons. Daraus ergibt sich die Frage, ob die gefunden Cluster eine Energieabhängigkeit aufweisen. Die Frage wird in dem Abschnitt untersucht. Die Signalcluster zeigen alle eine Potenzgesetz-Abhängigkeit in der Verteilung. Beispielverteilungen sind in 5.7 dargestellt. Eine solche Verteilung würde auf eine Abhängigkeit zur Energieverteilung der Signal-Teilchen hindeuten. Dies würde bedeuten, dass entweder eine Energieschätzung der Signal-Teilchen nicht möglich ist, oder dass der k-Means die Energieabhängigkeit nicht auflösen kann. Dies könnte an einer starken Dichteabhängikeit liegen, worauf die Potenzgesetz Abhängigkeit Hinweise gibt (höhere Energien sind seltener in Clustern vorhanden und haben somit eine andere Dichte). Eine Potenzgesetz-Abhängigkeit der Energieverteilung in den Clustern deutet darauf hin dass für eine mögliche Clusterung nach der Energie, die Betrachtung der Dichte essentiell ist. Reinen Untergrundcluster weisen eine gaußförmige Verteilung auf. Dies lässt darauf schließen, dass diese Cluster eine Energieabhängigkeit bezüglich einer bestimmten Energie haben. Weiterhin liegen diese Energien bei um die 106 bis 107 GeV. Dies deutet 34 5.3 Energie A B Abbildung 5.7: Energieverteilung von zwei reinen Signalclustern. Zu erkennen ist die Verteilung der Energien, die einem Potenzgesetz folgt. darauf hin, dass diese bei diesen Energien eine gute Energieauflösung stattfindet, die sich auch deutlich in der Clusterstruktur macht. A B Abbildung 5.8: Energieverteilung von zwei reinen Untergrundclustern. Zu erkennen ist die gaußförmige Verteilung der Energien. 35 6 Resumee und Ausblick Das Ziel der Arbeit war es zu untersuchen, ob sich innerhalb der IceCube Monte Carlo Daten Cluster finden lassen, und ob diese physikalische Relevanz besitzen und sich diese damit für weitere Untersuchungen eignen. Dazu wurde mithilfe verschiedener Qualitätsmaße die Anzahl an benötigten Clusterzentren für den k-Means-Algorithmus bestimmt. Die Untersuchung brachte hervor, dass die vorliegenden Daten starke Dichte-Strukturen aufweisen, die für ein gutes Clustering zu berücksichtigen sind. Daraus ergab sich das Problem, dass der Wert für die Anzahl an Clusterzentren sehr hoch gewählt werden muss, um ein gutes Clustering zu produzieren. Jenes führt zu einer längeren Laufzeit des Algorithmus, sowie dazu, dass Supercluster aufgeteilt werden, womit der Algorithmus in der derzeitigen Form nicht optimal für das gegebene Problem ist. Weiterhin ergab die Analyse der duplizierten Punkte, dass sich in den Daten mit hoher Wahrscheinlichkeit Ausreißer, oder Mini-Cluster befinden, die das Ergebnis des Clusterings beeinflussen. Bei der Untersuchung der Clusterung nach der Energie, wurde eine potenzgesetzmäßige Abhängigkeit in der Energieverteilung der Ereignisse im Cluster gefunden. Hierbei wäre eine genauere Untersuchung der Dichtestruktur interessant. So ist es denkbar, dass eine Clusterung bezüglich der Energie nicht stattfindet, da sich diese in einer Dichtestruktur deutlich macht, die nicht durch den k-Means effizient aufzulösen ist. Die Ergebnisse weisen alle darauf hin, dass der k-Means-Algorithmus nicht der optimale Weg ist, die IceCube-Daten zu clustern. Dennoch bietet er eine Grundlage zur Untersuchung der Daten an, die als Fundament weiterer Verbesserungen dienen kann. Zur Verbesserung des Clusterings können nun weitere Schritte vorgenommen werden. So kann Untersucht werden, ob die Wahl des Distanzmaßes, hier der Euklidischen Norm (p-Norm mit p = 2), wirklich die optimale Wahl ist. Nach einer Untersuchung von Aggarwal et.Al. [AHK01] hat sich gezeigt, dass bei hoch dimensionalen Daten die Wahl einer p-Norm mit p < 1 von Vorteil sein kann und so zum Beispiel die Cluster besser gewählt werden. Zudem scheinen die kleineren Normen stabiler gegenüber Rauschen zu sein. 37 6 Resumee und Ausblick Eine andere Möglichkeit der Verbesserung ist die Änderung des Algorithmus. Dabei ist zu beachten, dass aufgrund der hohen Dimension viele Clusteralgorithmen nicht mehr praktikabel sind [Bel57]. Der neue Algorithmus, sollte dabei folgende Probleme behandeln: Datenmenge: Schnelle Berechnung bei großen Datenmengen. Dimension: Der Algorithmus muss in der Lage sein, Effizient mit einer hohen Anzahl an Dimensionen zurecht zu kommen. Dichte: Die Dichtestruktur der Daten muss Berücksichtigung finden. Ausreißer: Ausreißer in den Clustern müssen erkannt und berücksichtigt werden. Aufgrund der hohen Dimension sind klassische Algorithmen, wie der BIRCH [ZRL96] nicht Praktikabel, da durch die Dimension, die Laufzeit zu stark wächst. Um diesen Problem zu entgehen, können nun zwei Wege untersucht werden. Die erste Möglichkeit ist es zu versuchen verschiedene Clusteralgorithmen mit unterschiedlichen Eigenschaften mit dem Ziel zu kombinieren, die jeweiligen schwächen zu kompensieren. Ein solcher Ansatz wurde in der Arbeit A Novel Density based improved k-means Clustering Algorithm – Dbkmeans [MD] untersucht. Der Ansatz verband den k-Means mit dem DBScan Algorithmus [EKSX96], wodurch ein Dichteoptimierter k-Means entstand. Die zweite Möglichkeit wäre es die Verwendung von Subspace basierten Cluster zu untersuchen. Diese betrachten bei der Berechnung nicht den kompletten Hyperraum, sondern arbeiten auf Unterräumen die zum Schluss zusammengeführt werden. Dadurch wird effektiv in der Berechnung eine kleinere Dimension betrachtet, im Gesamtergebnis allerdings eine Lösung für den kompletten Hyperraum gefunden. Zusammenfassend bietet die clusterbasierte Untersuchung der betrachteten Daten, erste positive Ergebnisse, die bereits jetzt Anlass zur näheren Betrachtung erfordern. Dabei sollte insbesondere Augenmerk auf die Verbesserung der Verfahren Wert gelegt werden, da hier womöglich weitere Informationen erschlossen werden können. 38 A Anhang A.1 Duplikations-Algorithmus Die Idee der Vervielfältigung der Daten ist es mithilfe eines Clusterings und eines entsprechend daraus bestimmten Zufalls, neue Punkte zu erzeugen. Der Algorithmus sieht folgendermaßen aus: Algorithmus 1 Berechnung eines neuen Punkts aus dem k-Means Clustering 1: Wähle, gewichtet nach der Anzahl der Punkte in den Clustern, einen Cluster c zufällig aus. 2: for ∀ a in Attribute do 3: Nimm den minimalen (mina ) und maximalen (maxa ) Wert von a in c. 4: Wähle zufällig einen Normal-verteilten Wert x aus dem Bereich mina bis maxa aus. 5: x ist der Wert des Attributs für den neuen Punkt. 6: end for 7: Füge alle erzeugten Attribute zusammen und der neue Punkt ist bestimmt. A.2 Verwendete Datensätze Die verwendeten Datensätze sind: Corsika 6271 Der Level 3 Monte-Carlo Background-Datensatz bestehend aus 4 742 447 Events. Die Events sind ungewichtet. Nugen 6308 Der Level 3 Monte-Carlo Signal-Datenstz bestehend aus 5 889 473 Events. Die Events entsprechen dem E −1 Spektrum. Zusätzlich wurden sie vor dem Clustering, auf das richtigen Spektrum umgewichtet. Das Mischverhältnis der beiden Datensätze wurde mit 1 zu 1 gewählt. Dies wird damit begründet, dass damit zwar die Dichtestruktur falsch ist, dies nicht sehr Problematisch ist, da die Positionen der Punkte für ein korrektes Funktionieren des Algorithmus relevanter sind. Zudem kann die Dichtestruktur später mithilfe einer Umgewichtung wiederhergestellt werden. 39 A Anhang A.3 Duplikationsmaß Im folgenden wird die Berechnung des Duplikationsmaßes als Pseudocode beschrieben. Zu beachten ist, dass die Wahl der Duplizierten Punkte n groß genug sein muss, um auch kleine Cluster die m Punkten beinhalten und wo m << n gilt, zu berücksichtigen. Algorithmus 2 Berechnung des Duplikationsmaß 1: Erzeuge n Punkte mithilfe des Duplikations-Algorithmus A.1 2: for ∀ a in Attribut do 3: Erzeuge ein Histogramm Horg des Attributes a für die originale Datenmenge. 4: Erzeuge ein Histogramm Hdup des Attributes a für die duplizierte Menge. 5: Bestimme für jedes Bin des Histograms den quadratischen absoluten Fehler zwischen Horg und Hdup 6: end for 7: Summiere über alle bestimmten quadratischen Fehler auf. Dieser Wert ist das Duplikationsmaß. 40 Literaturverzeichnis [AHK01] Aggarwal, CharuC. ; Hinneburg, Alexander ; Keim, DanielA.: 2001 [ALM+ 12] Ackermann, Marcel R. ; Lammersen, Christiane ; Märtens, Marcus ; Raupach, Christoph ; Sohler, Christian ; Swierkot, Kamil: StreamKM++: A Clustering Algorithm for Data Streams. (2012) [Ama] Amanda: Amanda (Antarctic Muon and Neutrino Detector Array). http: //amanda.uci.edu/, [AV07] Arthur, David ; Vassilvitskii, Sergei: k-means++: the advantages of careful seeding. In: Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, 2007 (SODA ’07) [Bel57] Bellman, Richard: Dynamic Programming. 1. Princeton University Press, 1957 [BP95] Bezdek, J.C. ; Pal, N.R.: Cluster validation with generalized Dunn’s indices. In: Artificial Neural Networks and Expert Systems, 1995. Proceedings., Second New Zealand International Two-Stream Conference on, 1995, S. 190–193 [BPR05] Byron P. Roe, Ji Zhu(U. M. Hai-Jun Yang Y. Hai-Jun Yang: Boosted decision trees, a powerful event classifier. (2005) [BS01] Breiman, Leo ; Schapire, E.: In: Machine Learning 45 (2001), Nr. 1. – ISSN 0885–6125 [Bul12] Bulinski, Michael: Parallelisierung von Clustering Algorithmen. (2012), August [Col12] Colaboration, IceCube: IceCube Detektor. http://icecube.wisc. edu/, August 2012 41 Literaturverzeichnis [DGST] Dolag, Klaus ; Grasso, Dario ; Springel, Volker ; Tkachev, Igor: Constrained simulations of the magnetic field in the local Universe and the propagation of ultrahigh energy cosmic rays. In: Journal of Cosmology and Astroparticle Physics 2005, Nr. 01, S. 009 [EKSX96] Ester, Martin ; Kriegel, Hans peter ; S, Jörg ; Xu, Xiaowei: A densitybased algorithm for discovering clusters in large spatial databases with noise, AAAI Press, 1996, S. 226–231 [FRD10] Finke, J. D. ; Razzaque, S. ; Dermer, C. D.: Modeling the Extragalactic Background Light from Stars and Dust. In: apj 712 (2010), März, S. 238–249 [Fre12] Freiwald, Jan: Datamining für den IceCube-Detektor. (2012) [GK07] Giunti, Carlo ; Kim, Chung W.: Fundamentals of Neutrino Physics and Astrophysics. (2007) [GQRS] Gandhi, Raj ; Quigg, Chris ; Reno, Mary H. ; Sarcevic, Ina: Ultrahighenergy neutrino interactions. In: Astropart.Phys. 5, S. 81–110 [Gre66] Greisen, Kenneth: End to the Cosmic-Ray Spectrum? In: Phys. Rev. Lett. 16 (1966), Apr, S. 748–750 [Joh11] Johansson, Henrik: Searching for an Ultra High-Energy Diffuse Flux of Extraterrestrial Neutrinos with IceCube 40. (2011) [Llo82] Lloyd, Stuart P.: Least squares quantization in pcm. In: IEEE Transactions on Information Theory 28 (1982), S. 129–137 [MD] Mumtaz, K. ; Duraiswamy, Dr. K.: A Novel Density based improved k-means Clustering Algorithm – Dbkmeans [Mé02] Mészáros, P.: THEORIES OF GAMMA-RAY BURSTS. In: Annual Review of Astronomy and Astrophysics 40 (2002), Nr. 1, S. 137–169 [(Pa] (Particle Data Group), Beringer, J. .: Review of Particle Physics. In: Phys. Rev. D 86 [Sch11] Scheriau, Florian: Data-Mining für den IceCube Detektor. (2011), Dezember 42 Literaturverzeichnis [SI] Selim, Shokri Z. ; Ismail, M. A.: K-Means-Type Algorithms: A Generalized Convergence Theorem and Characterization of Local Optimality. In: IEEE Transactions on Pattern Analysis and Machine Intelligence 6 [Tad08] An introduction to active galactic nuclei: Classification and unification. In: New Astronomy Reviews 52 (2008), Nr. 6, S. 227 – 239. – ISSN 1387–6473 [UB02] Unsöld, A. ; Baschek, Bodo: Der neue Kosmos: Einführung in die Astronomie und Astrophysik (German Edition). 7. Aufl. 2002. Korr. Nachdruck. Springer, 2002. – ISBN 3540421777 [UN81] Umebayashi, T. ; Nakano, T.: Fluxes of Energetic Particles and the Ionization Rate in Very Dense Interstellar Clouds. In: pasj 33 (1981), S. 617 [Wag04] Wagener, Wolfgang: Design and Realisation of a new AMANDA Data Aquisition System with Transient Waveform Recorders. (2004), Oktober [WB] Waxman, Eli ; Bahcall, John: High energy neutrinos from astrophysical sources: An upper bound. In: Phys. Rev. D 59 [Wes] Weston.pace: k-Means Clustering [Wos10] Woschnagg, Kurt: Distances.i79.jpg. https://wiki.icecube.wisc. edu/index.php/File:Distances.i79.jpg, Januar 2010 [Wu202] Alternative c-means clustering algorithms. In: Pattern Recognition 35 (2002), Nr. 10, S. 2267 – 2278. – ISSN 0031–3203 [ZRL96] Zhang, Tian ; Ramakrishnan, Raghu ; Livny, Miron: BIRCH: An Efficient Data Clustering Method for Very Large Databases. 1996 43 Eidesstattliche Versicherung Ich versichere hiermit an Eides statt, dass ich die vorliegende Bachelorarbeit mit dem Titel Clusteruntersuchung von IceCube-MC-Daten selbständig und ohne unzulässige fremde Hilfe erbracht habe. Ich habe keine anderen als die angegebenen Quellen und Hilfsmittel benutzt sowie wörtliche und sinngemäße Zitate kenntlich gemacht. Die Arbeit hat in gleicher oder ähnlicher Form noch keiner Prüfungsbehörde vorgelegen. Ort, Datum Unterschrift Belehrung Wer vorsätzlich gegen eine die Täuschung über Prüfungsleistungen betreffende Regelung einer Hochschulprüfungsordnung verstößt handelt ordnungswidrig. Die Ordnungswidrigkeit kann mit einer Geldbuße von bis zu [50.000,00] geahndet werden. Zuständige Verwaltungsbehörde für die Verfolgung und Ahndung von Ordnungswidrigkeiten ist der Kanzler/die Kanzlerin der Technischen Universität Dortmund. Im Falle eines mehrfachen oder sonstigen schwerwiegenden Täuschungsversuches kann der Prüfling zudem exmatrikuliert werden (§ 63 Abs. 5 Hochschulgesetz - HG - ). Die Abgabe einer falschen Versicherung an Eides statt wird mit Freiheitsstrafe bis zu 3 Jahren oder mit Geldstrafe bestraft. Die Technische Universität Dortmund wird ggf. elektronische Vergleichswerkzeuge (wie z.B. die Software ”turnitin”) zur Überprüfung von Ordnungswidrigkeiten in Prüfungsverfahren nutzen. Die oben stehende Belehrung habe ich zur Kenntnis genommen. Ort, Datum Unterschrift