Moderne Methoden der Datenanalyse WS 2010/11 1 Übungen Moderne Methoden der Datenanalyse WS 2010/11 Dr. Anze Zupanc Tutoren: Bastian Kronenbitter, Markus Röhrken Donnerstags, 15.30 FE/6 http://www-ekp.physik.uni-karlsruhe.de/~zupanc/WS1011/ 2 Start Idee NeuroBayes Idee Hintergrund Ziele NeuroBayes f(t|x) Beispiele Historie Anwendung Prinzip Funktion Beispiel Konkurrenz Projekt l Forschung Projekt ll Spiel Ablauf Summary A A B Belle-Experiment am japanische Forschungszentrum KEK: Sehr erfolgreiches Experiment, >400 Physiker aus aller Welt. >400 Veröffentlichungen. Beschleuniger hält Weltrekord an Luminosität. Ca. 1 Milliarde Ereignisse mit 2 B-Mesonen über 10 Jahre vermessen Prof. Dr. M. Feindt Stibo Systems NEXT Keynote München 7.10.2010 Daten jetzt mit neuer Software (NeuroBayes) reanalysiert (1042 Zerfallsketten mit 71 neuronalen Netzwerken, Entspricht mehreren 100 Doktorarbeiten) Effizienzsteigerung um +130% bei gleichem Untergrundlevel (entspricht ca. weiteren 10 Jahren Datennahme) Signal mit NeuroBayes Untergrund Signal (klassisches Verfahren) Flexibilität: Arbeiten mit NeuroBayes erlaubt stufenlose Einstellung von Signalreinheit oder –Effizienz. z.B. auch gleiche Signal-Effizienz: Unterdrückung des Untergrundes um ca. Faktor 10! Untergrund (klassisches Verfahren) Signal Untergrund mit NeuroBayes Erfolgreich im Wettbewerb mit anderen Data-MiningMethoden Ab 2009: neue Regeln: nur noch 2 Teams pro Universität und 2009… Aufgabe: Prognosen über den Buchumsatz von 8 Buchtiteln in 2500 Buchhandlungen. (Libri) Siegerteam : Uni Karlsruhe II (Studenten von Prof. Dr. M. Feindt, u.a. 2 Phi-T-Praktikanten) mit NeuroBayes®-Unterstützung und 2010.... Aufgabe: Optimierung von individuellen Kundenbindungsmaßnahmen in Online-Shop. (Libri) Siegerteam : KIT II (Studenten von Prof. Dr. M. Feindt, u.a. 2 Phi-T-Praktikanten) mit NeuroBayes®-Unterstützung Historie Nach sehr vielen erfolgreichen Anwendungen in der ElementarteilchenphysikGrundlagenforschung Potenzial von NeuroBayes® für die Wirtschaft erkannt. High-Tech-Ausgründung aus Elite-Universität Karlsruhe nutzt und optimiert NeuroBayes® für die Wirtschaft. 2000-2002 NeuroBayes®-Spezialisierung für die Wirtschaft in Universität Karlsruhe 2002: Phi-T GmbH gegründet 2008: Gemeinsame Gründung der 50-50 Projektund Vertriebstochter Phi-T products&services mit dem OTTO-Konzern. Exklusivrechte an und Weiterentwicklung und Anwendungen von NeuroBayes®. >35 Mitarbeiter, hauptsächlich promovierte Physiker. Rechnernutzung in der Physik Statistische Methoden der Datenanalyse • • • • Einführung Wahrscheinlichkeit diskrete und kontinuierliche Verteilungen Beispiele 9 Statistische Methoden der Datenanalyse Literatur V. Blobel, E. Lohrmann Statistische und numerische Methoden der Datenanalyse, Teubner, Stuttgart 1998 G. Cowan Statistical Data Analysis, Clarendon, Oxford, 1998 R.J. Barlow Statistics, Wiley1989 D.S. Sivia Data Analysis – A Bayesian Tutorial, Clarendon, Oxford 1996 +viele mehr, z.B. Brandt-Dahmen, Datenanaylse (recht mathematisch) 10 Statistik: Einführung Vorhersehbar Bei einfachen klassischen physikalischen Prozessen ist das Ergebnis exakt vorhersagbar (eine Ursache erzeugt eine eindeutige Wirkung, Determinismus) Beispiele hierfür sind: Pendel, Planetenbahnen, Billard, Elektromagnetismus… 11 Statistik: Einführung Zufall Rein zufällige Ereignisse sind prinzipiell nicht vorhersagbar (auch bei genauer Kenntnis der Ausgangssituation!) Beispiele hierfür sind: • Lottozahlen (Zu viele Einflussgrößen, deterministisches Chaos) • radioaktiver Zerfall (Quantenmechanik) • Elektronisches Rauschen • Meßfehler 12 Statistik: Einführung Wahrscheinlichkeit Viele Systeme: Mischung aus vorhersagbarer Komponente und Zufallskomponente. ! Wahrscheinlichkeitsaussage, Statistik. Extraktion der vorhersagbaren Komponente Bestimmung von Modell-Parametern aus Messdaten 13 Statistik: Einführung OPAL Experiment am LEP Quantenmechanik: Jedes Mal passiert etwas anderes! 14 Statistik: Einführung Experiment: Messe Häufigkeitsverteilungen 15 Statistik: Wahrscheinlichkeit Definition Wahrscheinlichkeit Frequentist-Wahrscheinlichkeit = ,,objektive´´ Definition für beliebig wiederholbare Ereignisse oder bei Vohandensein von Symmetrien anwendbar Bayes-Wahrscheinlichkeit = ,,subjektive´´ Definition auch für einmalige Ereignisse anwendbar Streit der Schulen zwischen Frequentisten und Bayesianern 16 Statistik: Wahrscheinlichkeit Definition Wahrscheinlichkeit 2 Frequentist-Definition von Wahrscheinlichkeit Kombinatorische Definition: Wenn ein Ereignis in n verschiedenen Arten auftreten kann, die alle gleiche Wahrscheinlichkeit haben, und wenn k Ereignisse davon die Eigenschaft A aufweisen, ist die Wahrscheinlichkeit für A: P(A) = k/n Empirische Definition: Eine Beobachtung ist unter identischen Bedingungen unabhängig voneinander n mal wiederholt. Wenn Eigenschaft A dabei k mal beobachtet wird, ist das Verhältnis k/n die empirische Wahrscheinlichkeit. Die Wahrscheinlichkeit P(A) wird definiert als der Grenzwert für unendlich viele Beobachtungen n. Beide Definitionen können kritisiert werden: Kombinatorisch: Schlange, die sich in den Schwanz beisst. Empirisch: Grenzwert kann in der Praxis nie erreicht werden. Viele Probleme: Experimente nicht wiederholbar 17 Statistik: Wahrscheinlichkeit Definition Wahrscheinlichkeit 3 Formale Definition von Wahrscheinlichkeit: Kolmogorov-Axiome (1931) Betrachte Elementarereignisse ei !" ei ej positiv additiv normiert 18 Statistik: Wahrscheinlichkeit Kombinationen von Wahrscheinlichkeiten Bedingte Wahrscheinlichkeit, dass A wahr ist, wenn B wahr ist. !" A B 19 Statistik: Wahrscheinlichkeit Reverend Thomas Bayes (1702 – 1761) Wahrscheinlichkeit ist der Grad des Glaubens, dass ein Experiment ein bestimmtes Ergebnis haben wird. -Subjektive Wahrscheinlichkeit(erfüllt Kolmogorov-Axiome !) Essay Towards Solving a Problem in the Doctrine of Chances (1763), posthum veröffentlicht in Philosophical Transactions of the Royal Society of London. 20 Statistik: Wahrscheinlichkeit Beispiele für Bayes-Wahrscheinlichkeit Frequenz-Aussagen oft nicht möglich. Dann ist Bayes- Interpretation die einzig mögliche: Wahrscheinlichkeit ist der Grad des Glaubens, dass eine Aussage zutrifft: Das Teilchen in diesem Ereignis ist ein Positron. Die Natur ist supersymmetrisch. Es wird morgen regnen. Deutschland wird 2008 Fussball-Europameister. Es hat am 8. März 1792 in Kairo geregnet. Oft kritisiert, weil ,,subjektiv‘‘ und ,,unwissenschaftlich‘‘. Beruht jedoch auf einfacher Wahrscheinlichkeitsrechnung und ist, richtig angewendet, nicht im Widerspruch zu Frequentist-Ansatz. 21 Statistik: Wahrscheinlichkeit, Bayes' Theorem Bayes’ Theorem: Bedingte (conditional) Wahrscheinlichkeiten: Wegen gilt: Bayes´ Theorem 22 Statistik: Wahrscheinlichkeit, Bayes' Theorem (2) Besonders wichtig durch die Interpretation A=Theorie B=Daten Likelihood Posterior Prior Evidenz 23 Statistik: Wahrscheinlichkeit, Bayes' Theorem (3) Bsp: AIDS-Test Wahrscheinlichkeit in allgemeiner Bevölkerung: Ziemlich zuverlässiger AIDS-Test (Resultat + oder -): a priori-Wissen Messung, Likelihoods Wie besorgt sollte man sein, wenn man ein positives Testresultat hat? d.h. wie groß ist (die a posteriori-) Wahrscheinlichkeit P(AIDS|+)? 24 Statistik: Wahrscheinlichkeit, Bayes Theorem (4) Bsp.: AIDS-Test (2) Die Posterior-Wahrscheinlichkeit P(AIDS|+) beträgt nur 3,2%! Warum? Wegen der kleinen Prior-Wahrscheinlichkeit von 0.01% und der nicht vernachlässigbaren Mißidentifikationswahrscheinlichkeit! Vorsicht: Prior nicht richtig, wenn man zu einer Risikogruppe gehört! 25 Statistik: Wahrscheinlichkeit, Bayes' Theorem (5) Bayes’sche vs. klassische Statistik Klassische Statistik ist nur Sonderfall der Bayes-Statistik: Likelihood Prior Posterior Evidenz Maximieren der Likelihood statt der a posteriori-Wahrscheinlichkeit heisst: Implizite Annahme, dass die Prior-Wahscheinlichkeit flach verteilt ist, d.h. jeder Wert ist gleich wahrscheinlich. Hört sich vernünftig an, ist aber falsch! Heisst nicht, dass man nichts weiss! 26 Statistik: Wahrscheinlichkeit, Bayes' Theorem (6) Nicht-informativer Prior 27 Statistik: Zufallsgrößen Diskrete Zufallszahlen 28 Statistik: Zufallsgrößen Wahrscheinlichkeitsdichte 29 Statistik: Zufallsgrößen Verteilungsfunktion 30 Statistik: Zufallsgrößen Erwartungswert und Varianz 31 Statistik: Zufallsgrößen Histogramme Häufigkeitsverteilung: Anzahl Ereignisse in endlichen Intervallen (Bins) PDF f(x) = Histogramm mit unendlicher Statistik, Binbreite Null, normiert auf Fläche 1 32