Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg Prof. Markus Schumacher, Dr. Stan Lai Physikalisches Institut Westbau 2 OG E-Mail: [email protected] [email protected] http://terascale.physik.uni-freiburg.de/lehre/ws_1213/statmethoden_ws1213 Kapitel 3 Wahrscheinlichkeitsdichtefunktionen (Fortsetzung) M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Binomial-Verteilung Betrachte N unabhängige Messungen/Experimente (Bernoulli-Versuche): Ausgang jedes Experimentes ist entweder ”Erfolg” oder “Misserfolg” Die Wahrscheinlichkeit für Erfolg (Misserfolg) sind p bzw. (1-p) Definiere diskrete ZV als Anzahl der Erfolge n (0 ≤ n ≤ N). Wkt. für eine spezielle Reihenfolge von n Erfolgen und (N-n) Misserfolgen ist: Aber Anordnung ist unwichtig Kombinatorik: es gibt Möglichkeiten (Permutationen) n Erfolge in N Versuchen einzuordnen. Geamtwkt. für n Erfolge ist die Summe der Wkt. für jede Permutation. M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Binomial-Verteilung (2) Die Binomialverteilung lautet: Zufallsvariable Parameter Für den Erwartungswert und die Varianz findet man: M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Binomial-Verteilung (3) Verteilungen für verschiedene Parameter p und Anzahl der Versuche N: M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Multinomialverteilung Wie Binomial aber nun m verschiedene Ausgänge an Stelle von zwei, mit Wahrscheinlickeiten für die einzelnen Ausgänge: Für N Versuche suchen wir die Wahrscheinlichkeit das folgende Ergebnis zu erhalten: n von Möglichkeit 1, 1 n2 von Möglichkeit 2, ... nm von Möglichkeit m. Die Wkt.dichtefunktion ist die Multinomialverteilung für M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 N! 1 f (n 1,in ...,“nim” ; p pn1eilen ...pnmmkann, . Ergebnisse und und damit(2.18) wieder eine 1 , ...,“pnicht m ) = i ” unt ert n !...n ! Multinomialverteilung 1 m (2) ilung f ür n i erhält . Damit gilt wieder rt ungswert und die Varianz von n i zu ermit t eln reicht es sich klar zu machen, Nun betrachte Möglichkeit i asert‘Erfolg’, alle und anderen alswieder “Misserfolg”. Ergebnisse in “ i ” und “ nichtEi[n ” iunt eilen kann, damit eine (2.19) ] = N pi ilung f ür n i erhält . Damit gilt wieder V [n i ] = nNi binomialverteilt pi (1 − pi ) (2.20) → alle individuellen mit Parametern N, pi E [n i ] = N pi (2.19) m i = 1 ni = N , d.h. nicht alle n i sind st at ist isch unabhängig. Genauer sind V [n i ] = N pi (1 − pi ) für (2.20) alle i n i , n j immer negat iv korreliert . Es gilt m i = 1 ni = N , d.h. nicht alle n i sind st at ist isch unabhängig. Genauer sind Für die (I. ungleich ergibt sich: cov[n , n jiv] korreliert = E [(n E [n i j)])(n [n j ])] (2.21) n i , n j immer negat Es i Kovarianzen i − gilt j − E cov[n i , n j ] = = E [n i n j ] − E [n i ]E [n j ] E [(n i − E [n i ])(n j − E [n j ])] (2.22) (2.21) Negative Korrelation: = N (N − 1)pi p[n (2.23) j −] (N pi )(N pj ) = E [n i n j ] − E [n i ]E (2.22) j wenn in einer Klasse mehr − N− p1)p (2.24) i pj i .pj − (N pi )(N pj ) = =N (N (2.23) Ereignisse sind, müssen irgendwo welche = − N pi pj . (2.24)fehlen onskoeffizient ist ent sprechend onskoeffizient ist ent sprechend cov[n i , n j ] ρn i n j =cov[n , n ] = − i j σn i σn j = − ρn n = pi pj . p p i j (1 − pi )(1 −. pj ) (2.25) (2.25) σn i σn j (1 − pi )(1 − pj ) Schumacher, S. Lai Beispiel f ür eine Stat. Mult Methoden der Datenanalyse WiSe 2012/2013 3:M. Ein typisches inomialvert eilung ist ein Hist ogramm. Die i j Multinomialverteilung (3): Beispiele repräsentiert ein Histogramm Mit m bins, N (bekannt) Gesamteinträgen Zerfall eines instabilen Teilchens A: (1) ABC, (2) ADE, (3) AFG Mit bekannten Zerfallswahrscheinlichkeiten für alle drei Modi. (nBC, nDE, nFG) folgt Multinomialverteilung. Textanalyse: Auftreten der einzelnen Buchstaben des Alphabets. (nA, …,nZ) folgt Multinomialverteilung. M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 λ (λ exp(i k)) exp(i kn) exp(− λ) = exp(− λ) n! n! Poissonverteilung =∞ 0 i λn (λ exp(i k)) n exp(iλ) kn) exp(− λ)k))= =exp(− λ) exp(− exp(λ exp(i exp(λ(exp(i k) − 1)). n! n! Betrachte Grenzfall der Binomialverteilung mit =0 (2.28) (2.28) i exp(− λ) exp(λ exp(i k)) = exp(λ(exp(i k) − 1)). (2.29) (2.29) t beispielhaft die Poissonvert eilungen für λ = 1, 3, 10, 50. F ürkonstant ganzzahhrscheinlichkeit f ür n = λeilungen und nfür= λ λ= −1, 3, 1 10, gleich und maximal. gt beispielhaft die Poissonvert 50. Fgroß ür ganzzah→ Vert n ffolgt an, hrscheinlichkeit dass die ür eilung n der = λ Poissonverteilung: fund ür kleine n = λλ−asymmet 1 gleich groß rischund ist ,maximal. während sie sich man, dass die Vert eilung für kleine λ asymmet risch ist, weilung ährend (s.u.). sie sich mmet rischen Vert eilung annähert, der Gaußvert ymmet rischen Verteilung annähert, der Gaußverteilung (s.u.). nd Varianz der Poissonvert eilung sind nd Varianz der Poissonvert eilung sind ∞ n n λ λn E [n] = exp(− λ) = λ, E [n] = n exp(− λ) = λ, n! n! n=n= 0 0 ∞ ∞ ∞ VV[n] [n] = = n n 2λ 2λ λ) exp(− λ) (n (n − − λ) = λ. n! n! exp(− λ) = λ. n= 0 (2.30) (2.30) (2.31) (2.31) n= 0 ichung einer Poisson-vert eilt en Zufallsvariable ist also gleich der Wurzel √ en Zufallsvariable ist also gleich der Wurzel chung einer Poisson-vert eilt wert . Dies ist das wicht ige “ n-Geset z” , eines der am häufigst en ver√ ert .der Dies das igeeines “ n-Geset z” , eilt eines der am häufigst sse Statist ist ik. Derwicht Fehler Poisson-vert en Meßergebnisses - en versse derder St Ereignisse at ist ik. Der eines eilteinem en Meßergebnisses Anzahl mit Fehler einem best immtPoisson-vert en Ausgang in stat ist inn durch Wurzel desmit Ergebnisses abgesch ätztenwerden. nzahl derdieEreignisse einem best immt Ausgang in einem st at ist iM. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 λ (λ exp(i k)) exp(i kn) exp(− λ) = exp(− λ) n! n! Poissonverteilung =∞ 0 i λn (λ exp(i k)) n exp(iλ) kn) exp(− λ)k))= =exp(− λ) exp(− exp(λ exp(i exp(λ(exp(i k) − 1)). n! n! Betrachte Grenzfall der Binomialverteilung mit =0 (2.28) (2.28) i exp(− λ) exp(λ exp(i k)) = exp(λ(exp(i k) − 1)). (2.29) (2.29) t beispielhaft die Poissonvert eilungen für λ = 1, 3, 10, 50. F ürkonstant ganzzahhrscheinlichkeit f ür n = λeilungen und nfür= λ λ= −1, 3, 1 10, gleich und maximal. gt beispielhaft die Poissonvert 50. Fgroß ür ganzzah→ Vert n ffolgt an, hrscheinlichkeit dass die ür eilung n der = λ Poissonverteilung: fund ür kleine n = λλ−asymmet 1 gleich groß rischund ist ,maximal. während sie sich man, dass die Vert eilung für kleine λ asymmet risch ist, weilung ährend (s.u.). sie sich mmet rischen Vert eilung annähert, der Gaußvert ymmet rischen Verteilung annähert, der Gaußverteilung (s.u.). nd Varianz der Poissonvert eilung sind nd Varianz der Poissonvert eilung sind ∞ n n λ λn E [n] = exp(− λ) = λ, E [n] = n exp(− λ) = λ, n! n! n=n= 0 0 ∞ ∞ ∞ VV[n] [n] = = n n 2λ 2λ λ) exp(− λ) (n (n − − λ) = λ. n! n! exp(− λ) = λ. n= 0 (2.30) (2.30) (2.31) (2.31) n= 0 ichung einer Poisson-vert eilt en Zufallsvariable ist also gleich der Wurzel √ en Zufallsvariable ist also gleich der Wurzel chung einer Poisson-vert eilt wert . Dies ist das wicht ige “ n-Geset z” , eines der am häufigst en ver√ ert .der Dies das igeeines “ n-Geset z” , eilt eines der am häufigst sse Statist ist ik. Derwicht Fehler Poisson-vert en Meßergebnisses - en versse derder St Ereignisse at ist ik. Der eines eilteinem en Meßergebnisses Anzahl mit Fehler einem best immtPoisson-vert en Ausgang in stat ist inn durch Wurzel desmit Ergebnisses abgesch ätztenwerden. nzahl derdieEreignisse einem best immt Ausgang in einem st at ist iM. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Poissonverteilung (2) M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Gleichverteilung Betrachte kontinuierliche Zv x mit -∞ < x < ∞ . Die Gleichverteilung lautet: Bemerkung: für beliebige ZV x mit Kumulativerteilung F(x) gilt, dass die ZV y = F(x) gleichverteilt in [0,1] ist. M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Exponentialverteilung Die Exponential-WDF für kontinuierliche ZV x ist definiert als: Beispiel: Zerfallszeit eines instabilen Teilchens (τ = mittlere Lebensdauer) Kein Gedächtnis (einzigartig für Exp-WDF) M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Gauss- oder Normalverteilung Dies Gauss- oder Normal-WDF für eine kontinuierliche ZV x ist definiert als: Spezialfall: µ = 0, σ2 = 1 (‘Standard-Gauss’): Wenn y aus Gauss-WDF mit µ, σ2, dann folgt x = (y - µ) / σ M. Schumacher, S. Lai Stat. Methoden der Datenanalyse der ϕ(x). WiSe 2012/2013 Gaussverteilung(2) : Kumulativverteilung M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Gauss- oder Normalverteilung (3) M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Gauss- oder Normalverteilung (4) M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Gauss-WDF und Zentraler Grenzwertsatz Die Gaussverteilung ist von so großer Bedeutung weil jede ZV, welche die Summe aus einer großen Anzahl kleiner Zahlenbeiträge ist, gemäß ihr verteilt ist. Die folgt aus dem “Zentralen Grenzwertsatz”: Gegeben n unabhängige ZV xi mit endlicher Varianzen σi2, aber ansonsten beliebigen WDFs. Betrachte die ZV y als Summe Im Grenzfall n → ∞ gilt, dass y einer Gaussverteilung folgt mit Messfehler sind oft die Summe aus vielen kleinen Beiträgen. Daher können Werte häufig als gaussverteilt angenommen werden. Der ZGS kann unter Verwendung der charakteristischen Funktionen bewiesen werden (siehe z.B. Cowan Kapitel 10). M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Zentraler Grenzwertsatz (ZGS) (2) Für endliche n, gilt der ZGS in “guter” Näherung wenn die Fluktuationen der Summe der ZV nicht durch einen (oder wenige) Beiträge dominiert wird. Vorsicht vor Messungen mit nicht-Gausschen Fehlern Gutes Beispiel: Geschwindigkeitskomponente vx von Luftmolekülen “OK”-Beispiel: totale Ablenkung durch Coulomb-Vielfachstreung (Seltende Ablenkungen unter große Winkeln ergeben nicht-gaussische Ausläufer) Schlechtes Beispiel: Energieverlust von geladenem Teilchen in dünner Gasschicht. (Seltene Kollisionen tragen Großteil des Energieverlustes Landau-WDF). Gutes Beispiel: Größe des Menschen. Viele Faktoren beinflussen Größe. Schlechtes Beispiel: Gewicht des Menschen. Dominiert durch Essverhalten. M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Zentraler Grenzwertsatz bei der Arbeit M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Mehrdimensionale Gaussverteilung Mehrdimensionale Gauss-WDF für Vektor von ZV sind Spaltenvektoren sind transponierte (Zeilen-)Vektoren Für n = 2 ist die WDF gegeben durch: wobei ρ = cov[x1, x2]/(σ1σ2) der Korrelationskoeffizient ist. M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Mehrdimensionale Gaussverteilung M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Chi-Quadrat-(χ2)-Verteilung Die Chi-Quadrat-WDF für kontinuierliche ZV z (z ≥ 0) ist definiert als: n = 1, 2, ... = Anzahl der Freiheitsgrade “FG” Für unabhängige Gauss-ZV xi, i = 1, ..., n, mit Mittelwerten µi, Varianzen σi2, folgt einer χ2 WDF mit n FG. Beispiel: Test der Güte der Anpassung im besonderen im Zusammenhang mit der Methode der kleinsten Quadrate. M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Quantile der Chi-Quadrat-(χ2)-Verteilung Frodesen et al. M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Quantile der Chi-Quadrat-(χ2)-Verteilung (2) Lutz Feld M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Beta-Verteilung Die Beta-WDF für eine kontinuierliche ZV x im Intervall [0,1| ist definiert als Wird oft verwendet um WDF zu approximieren, die eine kontinuierliche ZV in eine gewissen Bereich beschrieben [a,b] beschreiben. M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Beta-Verteilung: Eigenschaften Für a=b=1 ergibt sich die Gleichverteilung in [0,1] Für a=1, b=2 (oder umgekehrt) Dreiecksverteilung f(x)=2-2x und f(x)=2x Für a=b=2 Parabelverteilung f(x)=6x(1-x) Für a,b>1: ein Modalwert bei x=(a-1)/(a+b-2) Für a und/oder b<1: f(0) und/oder f(1) unendlich (J-Form) M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Beta-Verteilung: Herleitung Seien ym und yn zwei ZV die nach Chi2-WDF mit m bzw. n Freiheitsgraden verteilt sind Dann folgt ZV x = ym/(ym+yn) einer Beta-WDF mit α=m/2 und β =n/2 Wir erkennen Produkt von Beta-WDF für x mal Chi-Quadrat-WDF mit n+m Freiheitsgraden für y M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Gamma-Verteilung Die Gamma-WDF für eine kontinuierliche ZV x im Intervall [0,∞] ist definiert als Oft benutzt um eine WDF im Bereich [0,∞] zu parametrisieren. Beschreibt auch z.B. - Summe von n ZV aus Exponentialverteilung - Zeit bis zum nten Ereignis in einem Poisson-Prozess M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Studentsche t-Verteilung ν = Anzahl der Freiheitsgrade (nicht notwendigerweise ganzzahlig) ν = 1 ergibt Cauchy-WDF ν → ∞ ergibt Gauss-WDF M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Studentsche t-Verteilung (2) M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Studentsche t-Verteilung (3) Wenn x ZV aus Gauss-WDF mit µ= 0, σ2 = 1, und z ZV aus χ2-WDF mit n Freiheitsgraden, dann ist ZV t = x / (z/n)1/2 verteilt gemäß Studentscher t-WDF mit ν = n Freiheitsgraden. Diese ZV taucht in Problemen auf, in denen man das Verhältnis Von Stichprobenmittelwert und Stichprobenvarianz betrachtet. Studentsche t-WDF liefert Glockenkurve mit adjustierbaren Ausläufern von Gauss-WDF (ν→ ∞) bis Cauchy-WDF (ν = 1). Entwickelt in 1908 von William Gosset, der unter dem Pseudonym "Student" für die Guinness-Brauerei arbeitete. M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Zusammenhang zwischen WDFs M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Zusammenhang zwischen WDFs M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013 Tabellarische Übersicht M. Schumacher, S. Lai Stat. Methoden der Datenanalyse WiSe 2012/2013