Vorlesung I

Werbung
Moderne Methoden der Datenanalyse WS 2010/11
1
Übungen Moderne Methoden der Datenanalyse WS 2010/11
Dr. Anze Zupanc
Tutoren: Bastian Kronenbitter, Markus Röhrken
Donnerstags, 15.30 FE/6
http://www-ekp.physik.uni-karlsruhe.de/~zupanc/WS1011/
2
Start
Idee
NeuroBayes
Idee
Hintergrund
Ziele
NeuroBayes
f(t|x)
Beispiele
Historie
Anwendung
Prinzip
Funktion
Beispiel
Konkurrenz
Projekt l
Forschung
Projekt ll
Spiel
Ablauf
Summary
A
A
B
Belle-Experiment am japanische Forschungszentrum KEK:
Sehr erfolgreiches Experiment, >400 Physiker aus aller Welt.
>400 Veröffentlichungen.
Beschleuniger hält Weltrekord an Luminosität.
Ca. 1 Milliarde Ereignisse mit 2 B-Mesonen über 10 Jahre vermessen
Prof. Dr. M. Feindt
Stibo Systems NEXT Keynote
München 7.10.2010
Daten jetzt mit neuer Software (NeuroBayes) reanalysiert
(1042 Zerfallsketten mit 71 neuronalen Netzwerken,
Entspricht mehreren 100 Doktorarbeiten)
Effizienzsteigerung um +130% bei gleichem Untergrundlevel
(entspricht ca. weiteren 10 Jahren Datennahme)
Signal
mit NeuroBayes
Untergrund
Signal
(klassisches
Verfahren)
Flexibilität:
Arbeiten mit NeuroBayes erlaubt stufenlose Einstellung von
Signalreinheit oder –Effizienz.
z.B. auch gleiche Signal-Effizienz:
Unterdrückung des Untergrundes um ca. Faktor 10!
Untergrund
(klassisches Verfahren)
Signal
Untergrund
mit NeuroBayes
Erfolgreich
im Wettbewerb
mit anderen
Data-MiningMethoden
Ab 2009: neue Regeln: nur noch 2 Teams pro Universität
und 2009…
Aufgabe:
Prognosen über den Buchumsatz von 8 Buchtiteln
in 2500 Buchhandlungen. (Libri)
Siegerteam : Uni Karlsruhe II (Studenten von
Prof. Dr. M. Feindt, u.a. 2 Phi-T-Praktikanten)
mit NeuroBayes®-Unterstützung
und 2010....
Aufgabe:
Optimierung von individuellen Kundenbindungsmaßnahmen in Online-Shop. (Libri)
Siegerteam : KIT II (Studenten von Prof. Dr. M. Feindt,
u.a. 2 Phi-T-Praktikanten)
mit NeuroBayes®-Unterstützung
Historie
Nach sehr vielen erfolgreichen Anwendungen in der ElementarteilchenphysikGrundlagenforschung Potenzial von NeuroBayes® für die Wirtschaft erkannt.
High-Tech-Ausgründung aus
Elite-Universität Karlsruhe nutzt und
optimiert NeuroBayes® für die Wirtschaft.
2000-2002 NeuroBayes®-Spezialisierung
für die Wirtschaft in Universität
Karlsruhe
2002: Phi-T GmbH gegründet
2008: Gemeinsame Gründung der 50-50 Projektund Vertriebstochter Phi-T products&services
mit dem OTTO-Konzern.
Exklusivrechte an und Weiterentwicklung und
Anwendungen von NeuroBayes®.
>35 Mitarbeiter, hauptsächlich promovierte Physiker.
Rechnernutzung in der Physik
Statistische Methoden der Datenanalyse
• • • • Einführung
Wahrscheinlichkeit
diskrete und kontinuierliche Verteilungen
Beispiele
9
Statistische Methoden der Datenanalyse
Literatur
V. Blobel, E. Lohrmann
Statistische und numerische Methoden der Datenanalyse,
Teubner, Stuttgart 1998
G. Cowan
Statistical Data Analysis, Clarendon, Oxford, 1998
R.J. Barlow
Statistics, Wiley1989
D.S. Sivia
Data Analysis – A Bayesian Tutorial, Clarendon, Oxford 1996
+viele mehr, z.B. Brandt-Dahmen, Datenanaylse (recht mathematisch)
10
Statistik: Einführung
Vorhersehbar
Bei einfachen klassischen physikalischen Prozessen ist
das Ergebnis exakt vorhersagbar
(eine Ursache erzeugt eine
eindeutige Wirkung,
Determinismus)
Beispiele hierfür sind:
Pendel, Planetenbahnen,
Billard, Elektromagnetismus…
11
Statistik: Einführung
Zufall
Rein zufällige Ereignisse sind prinzipiell nicht vorhersagbar
(auch bei genauer Kenntnis der Ausgangssituation!)
Beispiele hierfür sind:
• Lottozahlen (Zu viele
Einflussgrößen, deterministisches Chaos)
• radioaktiver Zerfall
(Quantenmechanik)
• Elektronisches Rauschen
• Meßfehler
12
Statistik: Einführung
Wahrscheinlichkeit
Viele Systeme: Mischung aus
vorhersagbarer Komponente und
Zufallskomponente.
! Wahrscheinlichkeitsaussage, Statistik.
Extraktion der vorhersagbaren Komponente
Bestimmung von Modell-Parametern aus Messdaten
13
Statistik: Einführung
OPAL Experiment am LEP
Quantenmechanik:
Jedes Mal
passiert etwas
anderes!
14
Statistik: Einführung
Experiment: Messe Häufigkeitsverteilungen
15
Statistik: Wahrscheinlichkeit
Definition Wahrscheinlichkeit
Frequentist-Wahrscheinlichkeit = ,,objektive´´ Definition
für beliebig wiederholbare Ereignisse oder bei
Vohandensein von Symmetrien anwendbar
Bayes-Wahrscheinlichkeit = ,,subjektive´´ Definition
auch für einmalige Ereignisse anwendbar
Streit der Schulen zwischen Frequentisten und Bayesianern
16
Statistik: Wahrscheinlichkeit
Definition Wahrscheinlichkeit 2
Frequentist-Definition von Wahrscheinlichkeit
Kombinatorische Definition:
Wenn ein Ereignis in n verschiedenen Arten auftreten kann, die alle gleiche
Wahrscheinlichkeit haben, und wenn k Ereignisse davon die Eigenschaft A aufweisen, ist die
Wahrscheinlichkeit für A: P(A) = k/n
Empirische Definition:
Eine Beobachtung ist unter identischen Bedingungen unabhängig voneinander n mal
wiederholt.
Wenn Eigenschaft A dabei k mal beobachtet wird, ist das Verhältnis k/n die empirische
Wahrscheinlichkeit. Die Wahrscheinlichkeit P(A) wird definiert als der Grenzwert für
unendlich viele Beobachtungen n.
Beide Definitionen können kritisiert werden:
Kombinatorisch: Schlange, die sich in den Schwanz beisst.
Empirisch: Grenzwert kann in der Praxis nie erreicht werden.
Viele Probleme: Experimente nicht wiederholbar
17
Statistik: Wahrscheinlichkeit
Definition Wahrscheinlichkeit 3
Formale Definition von Wahrscheinlichkeit: Kolmogorov-Axiome (1931)
Betrachte Elementarereignisse ei
!"
ei
ej
positiv
additiv
normiert
18
Statistik: Wahrscheinlichkeit
Kombinationen von Wahrscheinlichkeiten
Bedingte Wahrscheinlichkeit, dass
A wahr ist, wenn B wahr ist.
!"
A
B
19
Statistik: Wahrscheinlichkeit
Reverend Thomas Bayes
(1702 – 1761)
Wahrscheinlichkeit ist der Grad des
Glaubens, dass ein Experiment ein
bestimmtes Ergebnis haben wird.
-Subjektive Wahrscheinlichkeit(erfüllt Kolmogorov-Axiome !)
Essay Towards Solving a Problem in the Doctrine of Chances
(1763), posthum veröffentlicht in
Philosophical Transactions of the Royal Society of London.
20
Statistik: Wahrscheinlichkeit
Beispiele für Bayes-Wahrscheinlichkeit
Frequenz-Aussagen oft nicht möglich. Dann ist Bayes- Interpretation
die einzig mögliche:
Wahrscheinlichkeit ist der Grad des Glaubens, dass eine Aussage
zutrifft:
Das Teilchen in diesem Ereignis ist ein Positron.
Die Natur ist supersymmetrisch.
Es wird morgen regnen.
Deutschland wird 2008 Fussball-Europameister.
Es hat am 8. März 1792 in Kairo geregnet.
Oft kritisiert, weil ,,subjektiv‘‘ und ,,unwissenschaftlich‘‘. Beruht
jedoch auf einfacher Wahrscheinlichkeitsrechnung und ist, richtig
angewendet, nicht im Widerspruch zu Frequentist-Ansatz.
21
Statistik: Wahrscheinlichkeit, Bayes' Theorem
Bayes’ Theorem:
Bedingte (conditional) Wahrscheinlichkeiten:
Wegen
gilt:
Bayes´ Theorem
22
Statistik: Wahrscheinlichkeit, Bayes' Theorem (2)
Besonders wichtig durch die Interpretation A=Theorie B=Daten
Likelihood
Posterior
Prior
Evidenz
23
Statistik: Wahrscheinlichkeit, Bayes' Theorem (3)
Bsp: AIDS-Test
Wahrscheinlichkeit in
allgemeiner Bevölkerung:
Ziemlich zuverlässiger AIDS-Test
(Resultat + oder -):
a priori-Wissen
Messung,
Likelihoods
Wie besorgt sollte man sein, wenn man ein positives Testresultat hat?
d.h. wie groß ist (die a posteriori-) Wahrscheinlichkeit P(AIDS|+)?
24
Statistik: Wahrscheinlichkeit, Bayes Theorem (4)
Bsp.: AIDS-Test (2)
Die Posterior-Wahrscheinlichkeit P(AIDS|+) beträgt nur 3,2%!
Warum? Wegen der kleinen Prior-Wahrscheinlichkeit von 0.01% und
der nicht vernachlässigbaren Mißidentifikationswahrscheinlichkeit!
Vorsicht: Prior nicht richtig, wenn man zu einer Risikogruppe gehört!
25
Statistik: Wahrscheinlichkeit, Bayes' Theorem (5)
Bayes’sche vs. klassische Statistik
Klassische Statistik ist nur Sonderfall der Bayes-Statistik:
Likelihood Prior
Posterior
Evidenz
Maximieren der Likelihood statt
der a posteriori-Wahrscheinlichkeit
heisst:
Implizite Annahme, dass die
Prior-Wahscheinlichkeit flach
verteilt ist, d.h. jeder Wert ist
gleich wahrscheinlich.
Hört sich vernünftig an, ist aber falsch!
Heisst nicht, dass man nichts weiss!
26
Statistik: Wahrscheinlichkeit, Bayes' Theorem (6)
Nicht-informativer Prior
27
Statistik: Zufallsgrößen
Diskrete Zufallszahlen
28
Statistik: Zufallsgrößen
Wahrscheinlichkeitsdichte
29
Statistik: Zufallsgrößen
Verteilungsfunktion
30
Statistik: Zufallsgrößen
Erwartungswert und Varianz
31
Statistik: Zufallsgrößen
Histogramme
Häufigkeitsverteilung:
Anzahl Ereignisse
in endlichen Intervallen
(Bins)
PDF f(x) = Histogramm
mit unendlicher Statistik,
Binbreite Null,
normiert auf Fläche 1
32
Herunterladen