Kurzer Überblick über ausgewählten Grundlagen der Wahrscheinlichkeitstheorie und der Statistik zusammengestellt von Prof. Dr. Tatjana Lange Fachbereich Elektrotechnik Fachhochschule Merseburg Inhalt: I. Ausgewählte Grundlagen der Wahrscheinlichkeitstheorie II. Ausgewählte Grundlagen der Statistik III. Sonstige nützliche mathematische Formeln Januar 1998 I. Ausgewählte Grundlagen der Wahrscheinlichkeitstheorie 1. Zufall und Zufallsvariable.......................................................................................3 2. Relative Häufigkeit und Wahrscheinlichkeit ..........................................................3 2.1. Begriffe ....................................................................................................3 2.2. Rechenregeln für Wahrscheinlichkeiten: .................................................4 3. Wahrscheinlichkeitsverteilung ................................................................................5 3.1. Wahrscheinlichkeit, Verteilungsfunktion und Dichtefunktion für eine Zufallsvariable ..........................................................................................5 3.2. Wahrscheinlichkeiten und Verteilungsfunktionen für zwei Zufallsvariable X und Y:..................................................................................7 4. Erwartungswert und Varianz; Momente höherer Ordnung:....................................8 5. Gesetz der großen Zahlen und zentraler Genzwertsatz .........................................9 6. Ausgewählte Verteilungen: ...................................................................................10 6.1. Verteilungen diskreter Zufallsvariabler: ..................................................10 6.1.1. Bernoulli-Verteilung (Binomial-Verteilung) .............................10 6.1.2. Poisson-Verteilung .....................................................................11 6.1.3. Hypergeometrische Verteilung:..................................................11 6.2. Verteilungen stetiger Zufallsvariabler: ....................................................12 6.2.1. Exponentialverteilung ................................................................12 6.2.2. Normalverteilung........................................................................12 6.2.3. Chi-Quadrat-Verteilung .............................................................13 6.2.4. Student-Verteilung .....................................................................13 6.2.5. Fisher-Verteilung .......................................................................13 II. Ausgewählte Grundlagen der Statistik 1. Statistische Meßzahlen: .........................................................................................15 2. Schätzverfahren und ihre Eigenschaften ...............................................................16 3. Ausgewählte Schätzfunktionen / Schätzverfahren ................................................18 3.1. Die Moment-Methode..............................................................................18 3.2. Die Maximum-Likelihood-Methode........................................................19 3.3. Ergänzung zur Maximum-Likelihood-Methode ......................................19 3.4. Bayes-Schätzung ......................................................................................23 4. Konfidenzintervall-Schätzung ...............................................................................24 5. Hypothesentest.......................................................................................................25 6. Schätzen und Testen bei normalverteilter Stichprobe ..........................................26 7. Vergleich von Erwartungswerten und Varianzen .................................................27 8. Vergleich von Erwartungswerten und Varianzen .................................................28 9. Test über eine beliebige Wahrscheinlichkeit (approximativer Gauß-Test) ..........29 10. Vergleich zweier Wahrscheinlichkeiten ...............................................................29 11. Lineare Regression ...............................................................................................30 III. Sonstige nützliche mathematische Formeln 1. Einige endliche Reihen....................................................................... 2. Etwas Kombinatorik ......................................................................... 3. Einige Logarithmengesetze und Exponentialgleichungen ....................... 4. Einige Ableitungen und Integrale ....................................................... Dr. Tatjana Lange Formelsammlung ..........32 ..........32 ..........33 ..........33 Seite 2 Statistik.doc I. Ausgewählte Grundlagen der Wahrscheinlichkeitstheorie 1. Zufall und Zufallsvariable • Zufall / zufälliges Ereignis: Bei Zusammentreffen von Ereignissen spricht man vom Zufall, wenn zwischen ihrem Eintreten kein oder nur ein unwesentlicher innerer Zusammenhang besteht. Ein Ereignis hängt vom Zufall ab, wenn sein Eintreten weder sicher noch unmöglich ist, sondern mit einer gewissen Wahrscheinlichkeit erfolgt. Diese Zufallsgesetzmäßigkeiten, die durch entsprechende Wahrscheinlichkeitsverteilungen erfaßt werden, nennt man stochastische Gesetzmäßigkeiten. • Zufallsvariable: Eine Zufallsvariable ist eine solche Variable (Veränderliche), die ihre Werte in Abhängigkeit vom Zufall, d.h. nach einer Wahrscheinlichkeitsverteilung annimmt. Man unterscheidet diskrete und stetige Zufallsvariable. Eine diskrete Zufallsvariable kann nur endlich viele (oder abzählbar unendlich viele) Werte annehmen (z.B. Menge der natürlichen Zahlen). Eine stetige Zufallsvariable kann (überabzählbar) unendlich viele Werte annehmen (z.B. alle Werte aus einem Intervall). 2. Relative Häufigkeit und Wahrscheinlichkeit 2.1. Begriffe Der Begriff Wahrscheinlichkeit ist aus der Beobachtung und Erfahrung entstanden.: Tritt bei N-maliger Durchführung eines Versuches ein bestimmtes zufälliges Ereignis Ai (oder Zufallsvariable) ni mal auf, so bezeichnet man mit (ni N ) die relative Häufigkeit des Ereignisses Ai . Bei gleichbleibenden Versuchsbedingungen schwankt die relative Häufigkeit bei wachsendem N immer weniger um einen bestimmten, praktisch konstanten Wert. Diese Zahl nennt man die Wahrscheinlichkeit der zufälligen Ereignisses Ai und bezeichnet sie mit P( Ai ) . Dr. Tatjana Lange Formelsammlung Seite 3 Statistik.doc 2.2. Rechenregeln für Wahrscheinlichkeiten: 1) Für jedes zufälligen Ereignisses Ai gilt: 0 ≤ P( Ai ) ≤ 1 2) Ist das Ereignis Ai unmöglich, so gilt: P( Ai ) = 0 3) Ist das Ereignis Ai sicher, so gilt: P( Ai ) = 1 4) Sind A und B zufällige Ereignisse, die einander ausschließen, so gilt P( A oder B ) = P( A ∨ B ) = P( A) + P(B ) Sind insgesamt N Ereignisse A1 , A2 ,....., AN , möglich, so gilt verallgemeinert: N P( A1 ∨ A2 ∨ ..... ∨ AN , ) = å P( Ai ) i =1 5) Schließen die Ereignisse A und B einander nicht aus, so gilt: P( A oder B ) = P( A ∨ B ) = P( A) + P(B ) − P( A, B ) Hierbei ist P( A, B ) die gemeinsame Wahrscheinlichkeit (Verbundwahrscheinlichkeit) der Ereignisse A und B, d.h. die Wahrscheinlichkeit dessen, daß beide Ereignisse gleichzeitig (zusammen) auftreten. 6) Sind die Ereignisse A und B voneinander unabhängig, so gilt für die gemeinsame Wahrscheinlichkeit: P( A, B ) = P(B, A) = P( A) ⋅ P(B ) = P(B ) ⋅ P( A) 7) Sind die Ereignisse A und B voneinander abhängig, so gilt für die gemeinsame Wahrscheinlichkeit: P( A, B ) = P(B, A) = P( A) ⋅ P(B A) = P(B ) ⋅ P ( A B) Hierbei ist P(B A) die Wahrscheinlichkeit, mit der das Ereignis B unter der Bedingung (Annahme) eintritt, daß das Ereignis A bereits eingetreten ist (bzw. sicher eintreten wird). Die Wahrscheinlichkeiten Wahrscheinlichkeiten. P(B A) und P(A B ) nennt man bedingte 8) Sind die Ereignisse A und B voneinander unabhängig, so gilt: P(A Dr. Tatjana Lange B ) = P ( A) , P(B Formelsammlung A ) = P (B ) Seite 4 Statistik.doc 9) Wenn die Ereignisse H1 , H2 ,....., H N , ein vollständiges Ereignisfeld bilden und einander ausschließen, also N å P(H ) = 1 i i =1 und P (H i , H j ) = 0 für beliebige i ≠ j ist, so gilt für die Wahrscheinlichkeit des von den Ereignissen Hi abhängigen Ereignisses A folgender Satz über die totale Wahrscheinlichkeit: P ( A) = å P (H i ) ⋅ P ( A Hi ) N i =1 10) Bayes'sche Formel: P(H i A) = P(H i ) ⋅ P ( A P ( A) Hi ) = P (H i ) ⋅ P ( A å P(H ) ⋅ P(A Hi ) N j =1 j Hj ) 3. Wahrscheinlichkeitsverteilung 3.1. Wahrscheinlichkeit, Verteilungsfunktion und Dichtefunktion für eine Zufallsvariable Der Umgang mit zufälligen Ereignissen und Wahrscheinlichkeiten wird durch den Übergang zu Zufallsvariablen und Wahrscheinlichkeitsverteilungen sehr viel einfacher. Dieser Übergang wird vollzogen, indem man die Menge Ω aller möglichen Ergebnisse eines Experiments durch eine entsprechende Menge X reeller Zahlen (den Zufallsvariablen) ersetzt: X :Ω → , - reelle Zahlengerade Verteilungsfunktion FX ( x ) : M Der Wert der Verteilungsfunktion FX ( x ) im Punkt x gibt die Wahrscheinlichkeit an, mit der der Wert der Zufallsvariablen X kleiner/gleich x ist: FX ( x ) = F ( x ) = P ( X ≤ x ) Dr. Tatjana Lange Formelsammlung Seite 5 Statistik.doc diskrete Zufallsvariable: stetige Zufallsvariable: M Ist X eine diskrete Zufallsvariable, die M Ist X eine stetige Zufallsvariable, so die Werte läßt sich nur die Wahrscheinlichkeit angeben, mit der diese Zufallsvariable x1 , x2 ,..., x N X Werte aus dem Intervall x1 , x2 mit den Wahrscheinlichkeiten annimmt: P( X = x1 ), P( X = x 2 ),..., P( X = x N ) P( x1 ≤ X ≤ x 2 ) = annehmen kann, so wird die Wahrscheinlichkeitsverteilung durch eine treppenförmige Verteilungsfunktion bestimmt. x2 ò f (u )du x1 Die Funktion f (x ) nennt man die Dichte der Zufallsvariablen X. Der Zusammenhang zwischen der Vertei- Der Zusammenhang zwischen der Dichte f ( x ) und der Verteilungsfunktion F ( x ) lungsfunktion und den Wahrscheinlichist gegeben mit: keiten der diskreten Zufallsvariablen ist gegeben mit: x F (x ) j j F ( x ) = P( X ≤ x ) = ò f (u )du ; f ( x ) = F (x j ) = P(X ≤ x j ) = å P( X = xi ) = å P(xi ) i =1 dx −∞ i =1 1 1 F(x) 0,8 0,8 0,6 F(x) 0,6 P(x) 0,4 0,4 0,2 f(x) 0,2 0 x 0 0 1 2 3 4 5 6 7 8 9 M Eigenschaften und Gesetze: -10 -5 0 5 10 0 ≤ F (x ) ≤ 1 F (− ∞ ) = 0 da P( X ≤ −∞ ) = 0 F (+ ∞ ) = 1 da P( X ≤ +∞ ) = 1 F ( x1 ) ≤ F ( x 2 ) falls x1 ≤ x 2 P( x1 ≤ X ≤ x 2 ) = P( X ≤ x 2 ) − P( X ≤ x1 ) = F ( x 2 ) − F ( x1 ) N å P(xi ) = 1, i =1 0 ≤ P ( xi ) ≤ 1 ò f (x )dx = 1 −∞ i =b P ( x a ≤ X ≤ xb ) = å P ( xi ) P ( x a ≤ X ≤ xb ) = i =a Dr. Tatjana Lange ∞ xb ò f (x )dx xa Formelsammlung Seite 6 Statistik.doc 3.2. Wahrscheinlichkeiten und Verteilungsfunktionen für zwei Zufallsvariable X und Y: diskrete Zufallsvariable: stetige Zufallsvariable: M Gemeinsame Verteilungsfunktion: F ( x , y ) = P( X ≤ x , Y ≤ y ) falls X und Y statistisch unabhängig: F ( x , y ) = FX ( x ) ⋅ FY ( y ) M Gemeinsame Wahrscheinlichkeit: M Gemeinsame Dichte: falls X und Y statistisch unabhängig falls X und Y statistisch unabhängig P (X = x i , Y = y j ) = P ( x i , y j ) = P ( x i ) ⋅ P ( y j ) f ( x, y ) = f ( x ) ⋅ f ( y ) J I y x F ( x I , y J ) = P( X ≤ x I , Y ≤ y J ) = å å P( X = xi , Y = y j ) ò ò f (u, v)dudv F ( x, y ) = j =1 i =1 − ∞− ∞ M Summe zweier Zufallsvariablen Z = X + Y : N P( Z = z ) = å P( X = xi , Y = z − xi ) f X +Y ( z ) = i =1 falls X und Y statistisch unabhängig ò f ( x, z − x)dx −∞ falls X und Y statistisch unabhängig N P( Z = z ) = å P( X = xi ) P(Y = z − xi ) i =1 Dr. Tatjana Lange ∞ Formelsammlung f X +Y ( z ) = ∞ ò f ( x) f ( z − x)dx −∞ Seite 7 Statistik.doc 4. Erwartungswert und Varianz; Momente höherer Ordnung: diskrete Zufallsvariable: stetige Zufallsvariable: M Erwartungswert: N E ( X ) = å xi P( X = xi ) ∞ ò x ⋅ f ( x) ⋅ dx E( X ) = i =1 −∞ E ( aX + b) = a ⋅ E ( X ) + b Wenn Z = X + Y , dann E ( Z ) = E ( X + Y ) = E ( X ) + E (Y ) E ( α ⋅ X + β ⋅ Y ) = α ⋅ E ( X ) + β ⋅ E (Y ) M Varianz: N Var ( X ) = å xi − E ( X ) p( X = xi ) 2 i =1 ( Var ( X ) = ∞ ò [x − E ( X )] ⋅ f ( x) ⋅ dx 2 i −∞ ) ( ) Var ( X ) = E [ X − E ( X )] = E X 2 − [E ( X )] 2 2 Var ( aX + b ) = a 2Var ( X ) Wenn Z = X + Y , dann Var ( Z ) = Var ( X + Y ) = Var ( X ) + Var (Y ) + 2Cov ( X , Y ) Var ( α ⋅ X + β ⋅ Y ) = α 2 ⋅Var ( X ) + β 2 ⋅Var (Y ) + 2 ⋅ α ⋅ β ⋅ Cov ( X , Y ) Für statistisch unabhängige Zufallsvariable X und Y gilt: Var ( Z ) = Var ( X + Y ) = Var ( X ) + Var (Y ) Var ( α ⋅ X + β ⋅ Y ) = α 2 ⋅Var ( X ) + β 2 ⋅Var (Y ) M Momente k-ter Ordnung: N E ( X ) = å xik P ( X = xi ) k E( X k ) = i =1 ∞ òx k −∞ Tschebyscheff'sche Ungleichung: P(Y − E (Y ) ≥ ε ) ≤ Dr. Tatjana Lange ⋅ f ( x) ⋅ dx Formelsammlung Var (Y ) ε2 Seite 8 Statistik.doc 5. Gesetz der großen Zahlen und zentraler Genzwertsatz M Schwaches Gesetz der großen Zahlen Wenn X i - beliebige, identisch verteilte unabhängige Zufallsvariable mit (bekannten) E(X i ) = E(X ) = µ und Var ( X i ) = Var ( X ) = σ 2 so gilt für beliebige α > 0 : ö æ1 n lim Pçç å X i − µ ≥ α ÷÷ = 0 n →∞ ø è n i =1 M Zentraler Grenzwertsatz: Wenn X i - beliebige, identisch verteilte unabhängige Zufallsvariable mit (bekannten) E(X i ) = E(X ) = µ und Var ( X i ) = Var ( X ) = σ 2 so gilt für die Summe dieser Zufallsvariablen n Y = å Xi i =1 ö æ E (Y ) = å E ( X ) = n ⋅ E ( X ) ÷ ç ç Var (Y ) = Var ( X ) = n ⋅ Var ( X )÷ å ø è für hinreichend große n: appr . Y ~ N (E (Y ),Var (Y )) bzw. Y − E (Y ) appr . Var (Y ) ~ N (0,1) also æ y − E (Y ) ö ÷ P(Y ≤ y ) ≈ Φç ç Var (Y ) ÷ è ø Stetigkeitskorrektur: ð Für diskrete Zufallsvariable gilt: Dr. Tatjana Lange æ k − E (Y ) + 0.5 ö ÷, P(Y ≤ k ) ≈ Φç ÷ ç ( ) Var Y ø è Formelsammlung k = 0,1,2,..., n Seite 9 Statistik.doc 6. Ausgewählte Verteilungen: 6.1. Verteilungen diskreter Zufallsvariabler: 6.1.1. Bernoulli-Verteilung (Binomial-Verteilung) æ nö n−k P( X = k ) = P (k ) = çç ÷÷ p k (1 − p ) èkø X~B(n,p) æ nö n! çç ÷÷ = è k ø k!⋅(n − k )! Erwartungswert: E ( X ) = np Varianz: Var ( X ) = np (1 − p ) Sonstige Beziehungen: wenn Xi ~ B(1,p) dann Y = å X i ~ B(n,p) n i =1 Beispiele: 1 1 n=1 ; p=0,1 0,6 0,4 0,2 0,6 0,4 0,2 k 0 2 4 6 8 10 12 14 16 18 0 1 2 4 6 8 10 12 14 16 18 1 n=2 ; p=0,1 0,6 0,4 0,2 0,8 P(X=k) 0,8 P(X=k) k 0 0 n=2 ; p=0,5 0,6 0,4 0,2 k 0 k 0 0 2 4 6 8 10 12 14 16 18 0 0,4 2 4 6 8 10 12 14 16 18 n=20 ; p=0,1 n=20 ; p=0,5 0,4 n=10 ; p=0,1 n=10 ; p=0,5 0,3 0,2 0,1 0,3 P(X=k) P(X=k) n=1 ; p=0,5 0,8 P(X=k) P(X=k) 0,8 0,2 0,1 k k 0 0 0 2 4 Dr. Tatjana Lange 6 8 10 12 14 16 18 0 Formelsammlung 2 4 6 8 10 12 14 16 18 Seite 10 Statistik.doc 6.1.2. Poisson-Verteilung X~PV( λ ) P( X = k ) = P( k ) = λk − λ e k! Erwartungswert: E( X ) = λ Varianz: Var ( X ) = λ Sonstige Beziehungen: wenn Xi ~ PV( λ ) dann Y = å X i ~ PV(n λ ) n i =1 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0,3 0,25 λ=0,5 λ=5 P(X=k) P(X=k) Beispiele: λ=2 0,2 λ=10 0,15 k 0,1 0,05 k 0 0 2 4 6 8 10 12 14 16 18 0 2 4 6 8 10 12 14 16 18 20 6.1.3. Hypergeometrische Verteilung: X~H(N,M,n) æ M öæ N − M ö çç ÷÷çç ÷ k øè n − k ÷ø è P( X = k ) = P(k ) = æNö çç ÷÷ ènø æ nö n! çç ÷÷ = è k ø k!⋅(n − k )! Erwartungswert: Varianz: Sonstige Beziehungen: ( ) falls n N ≤ 0,05 dann X ~ H ( N , M , n) → X ~ B(n, M N ) • P(X=k) Beispiele: N=100; M=50; n=25 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 N=100; M=50; n=5 k 0 2 4 6 8 10 12 14 16 18 20 Dr. Tatjana Lange vergleiche B(n=5, p=(M/N)=0,5): 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 n=5 ; p=0,5 k 0 Formelsammlung 2 4 6 8 10 12 14 16 18 20 Seite 11 Statistik.doc 6.2. Verteilungen stetiger Zufallsvariabler: 6.2.1. Exponentialverteilung f ( x ) = λ e − λx , x ≥ 0, λ ≥ 0 X~Exp( λ ) Erwartungswert: E( X ) = 1 λ Varianz: Var ( X ) = 1 λ2 Beispiele: 1 λ=1 f(x) 0,8 λ=0,5 0,6 λ=0,2 0,4 0,2 x 0 0 2 4 6 8 10 6.2.2. Normalverteilung X~N( µ , σ 2 ) f ( x) = 1 2π ⋅ σ e 1 æ x −µ ö − ç ÷ 2è σ ø 2 Erwartungswert: E( X ) = µ Rückführung auf die Standard-NV Y~N(0,1): Varianz: Var ( X ) = σ 2 P( X ≤ x ) = P(Y ≤ ( x − µ) σ ) = Φ (( x − µ) σ ) n Sonstige Beziehungen: • wenn Xi ~ N( µ i , σ i2 ) dann Y = å X i ~ N( å µ i , å σ i2 ) (für stochastisch unabhängige X i ) • wenn X ~ N( µ , σ 2 ) dann U = α + β X ~ N ( α + βµ , β 2 σ 2 ) i =1 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 -10 µ=0 ; σ=1 µ=0 ; σ=2 f(x) f(x) Beispiele: µ=0 ; σ=0,5 x -5 Dr. Tatjana Lange 0 5 10 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 -10 Formelsammlung µ=−5 ; σ=1 µ=−5 ; σ=2 µ=−5 ; σ=0,5 x -5 0 5 10 Seite 12 Statistik.doc 6.2.3. Chi-Quadrat-Verteilung U~ χ 2n Wenn Y1 ,....., Yn ~ N (0,1) , f(x) 0,15 alle Yi unabhängig und χ2 -Verteilung r r=3 0,10 n U := å Yi 2 0,05 i =1 dann U ~ χ 2n x 0,00 0,0 ( χ 2 -verteilt mit n Freiheitsgraden) Erwartungswert: E (U ) = n Varianz: Var (U ) = 2 n 3,0 6,0 9,0 12,0 15,0 18,0 6.2.4. Student-Verteilung V~ tn Wenn Y ~ N (0,1) und U ~ χ 2n f(x) 0,4 (Y, U- unabhängig) t n-Verteilung n=5 N(0,1) sowie 0,2 V := Y ⋅ n U x dann V~ tn -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 ( tn -verteilt mit n Freiheitsgraden) Erwartungswert: E (V ) = 0 Varianz: Var (V ) = für n ≥ 3 n n−2 für n ≥ 3 P(V ≤ y )→ Φ( y ), ∀y Sonstige Beziehungen: n →∞ 6.2.5. Fisher-Verteilung V~ Fr ,s Wenn Y ~ χ 2r und U ~ χ 2s 0,9 (Y, U- unabhängig) sowie 0,69 V := 1 r 1 s Y U Fr,s- Verteilung r=10, s=30 0,3 r=4, s=2 x 0,0 dann V~ Fr ,s ( Fr ,s -verteilt mit n und m Freiheitsgraden) Dr. Tatjana Lange f(x) 0,0 Formelsammlung 1,0 2,0 3,0 Seite 13 Statistik.doc 6.3. Approximationen: H(N,M,n) hypergeometrische Verteilung Binomialapproximation M n p= falls ≤ 0.05 N N λ = n.p falls n ≥50; PV( λ ) Binomialverteilung B(n,p) falls n. p.(1- p ) ≥ 9 oder np ≥ 5 und p ≤0.5 µ = n.p σ 2 = n.p.(1- p ) N(µ ,σ 2) Dr. Tatjana Lange p ≤0.1; np ≤10 PoissonVerteilung µ=λ σ2 =λ Normalverteilung Formelsammlung Seite 14 Statistik.doc II. Ausgewählte Grundlagen der Statistik 1. Statistische Meßzahlen: M Aritmetisches Mittel / Empirische Erwartung: 1 n x = å xi n i =1 M Median: Ordnet man die Zahlen einer Meßreihe der Größe nach, so daß x1 ≤ x2 ≤..... ≤ xn , so heißt die Zahl ìï x (n +1 ) falls n ungerade ~ x =í 2 ïî x(n2 ) falls n gerade Median. M Empirische Varianzen: s2 = 1 n ( x i − x )2 å n i =1 s *2 = 1 n ( x i − x )2 å n − 1 i =1 s und s* heißen empirische Standardabweichungen. M Empirische Momente höherer Ordnung: mk = Dr. Tatjana Lange 1 n k å xi n i =1 Formelsammlung Seite 15 Statistik.doc 2. Schätzverfahren und ihre Eigenschaften Schätzung Schätzung von Parametern Punktschätzung: Intervallschätzung: Mit Hilfe einer Schätzfunktion wird ein einzelner Mit Hilfe einer Schätzfunktion werden eine obere Schätzwertes für den und einer unteren Grenze unbekannten Parameter für den unbekannten Wert aus den Stichprobendaten eines Parameters aus den ermittelt: Stichprobendaten bestimmt. θ=θ (bzw. je eines Schätzwertes für mehrere unbekannte Parameter) Ä Konfidenzintervall: θu ≤ θ ≤ θ o Das Konfidenzintervall wird dabei so bestimmt, daß es den wahren Wert des Parameters mit einer Wahrscheinlichkeit von (1- α ) überdeckt: P( θ u≤ θ ≤ θ o ) = (1-α ) Zur Durchführung eines statistischen Verfahrens wird oft nicht die Stichprobe selbst, sondern ein daraus berechneter Funktionswert t = g (x , x , ... , x ) n n 1 2 n benutzt. Dieser Funktionswert ist Realisierung einer Zufallsvariablen Tn = g n(X 1, X ,2... , X n). Diese Zufallsvariable heißt Stichprobenfunktion oder Statistik . Falls sie zur Schätzung von Parametern benutzt wird, nennt man sie Schätzfunktion oder Schätzer . Falls sie zur Durchführung eines Tests benutzt wird, nennt man sie auch Testfunktion oder Teststatistik . Dr. Tatjana Lange Formelsammlung Test von Hyphothesen: (statistischer Test) Mit Hilfe einer Testfunktion wird zwischen zwei Hypothesen bzgl. des Werts des unbekannten Parameters, z.B. H0 :θ=θ 0 oder H1 : θ≠θ 0 entschieden: Für den Wert des unbekannten Parameters wird eine Nullhypothese (z.B. H 0 : θ=θ0 ) und eine Gegenhypothese (z.B. H : θ≠θ ) 1 0 formuliert. Unter Vorgabe einer Irrtumswahrscheinlichkeitα wird für die Nullhypothese ein Ablehnbereich ermittelt. Aus den Stichprobendaten wird der Wert einer Schätzfunktion bestimmt. Liegt der Wert der Schätzfunktion innerhalb des Ablehnbereiches, so wird die Nullhypothese verworfen und die Gegenhypothese angenommen. Die Wahrscheinlichkeit, daß H 0 falscherweise abgelehnt wurde, ist gleich α. (Fehler 1. Art) Seite 16 Statistik.doc M Erwartungstreue Schätzer: M Lineare Schätzer: Ein Schätzer T heißt erwartungstreu (unverzerrt, unbiased) für den zu schätzenden Parameter υ , wenn Ein Schätzer T heißt linear, wenn die Schätzfunktion g linear ist, d.h. gilt. mit konstanten α i . E (T ) = υ T = g ( X 1 , X 2 ,... X n ) = å α i xi Ein Schätzer T heißt asymptotisch erwartungstreu, wenn lim(E (T )) = υ n →∞ gilt. M Effizienter / Wirksamer Schätzer: Ein Schätzer T heißt wirksamer (effizienter) als ein anderer Schätzer T , wenn () ~ Var (T ) ≤ Var T M Konsistente Schätzer: Ein Schätzer T heißt konsistent, wenn er mit wachsendem n nach Wahrscheinlichkeit gegen υ konvergiert, d.h. wenn lim P (T − υ ≥ α ) = 0 ∀α > 0 n →∞ Dr. Tatjana Lange Formelsammlung Seite 17 Statistik.doc 3. Ausgewählte Schätzfunktionen / Schätzverfahren 3.1. Die Moment-Methode Methode Beispiel Zur gegebenen Stichprobenrealisation (x1 , x2 ,..., xn ) einer Zufallsvariablen X mit der Verteilung F (x υ) soll der unbekannte Verteilungsparameter υ geschätzt werden. Dazu stellt man den zu schätzenden Parameter υ durch das k-te Moment der Verteilung dar υ = ξ(E (X k )) , E (X k ) = ò x k f (x υ)dx Gegeben sei die Stichprobenrealisation (x1 , x2 ,..., xn ) einer exponentialverteilten Zufallsvariablen X: X ~ Exp(λ ) , d.h. ìλe − λx , falls x ≥ 0 f ( x ) = f (x λ ) = í î 0 , sonst Der unbekannte Verteilungsparameter λ soll geschätzt werden. Das 1. Moment der Exponentialverteilung und ersetzt anschließend das ∞ 1 − λx k ( ) = ist E X mathematische Moment E (X ) durch das ò0 x ⋅ λe dx = λ . entsprechende empirische Moment 1 1 Folglich ist λ = bzw. λ = n 1 n k æ1 n k ö mk = å xi , also υˆ = ξ(mk ) = ξç å xi ÷ 1 E(X ) n i =1 Dr. Tatjana Lange èn i =1 ø Formelsammlung n åx i i =1 Seite 18 Statistik.doc 3.2. Die Maximum-Likelihood-Methode Methode Beispiel Zur gegebenen Stichprobenrealisation (x1 , x2 ,..., xn ) einer Zufallsvariablen X mit der Verteilung F (x υ) soll der unbekannte Verteilungsparameter υ geschätzt werden. Dazu bestimmt man mittels einschlägiger Optimierungsmethoden den Wert des Parameters υ so, daß die Wahrscheinlichkeit der Stichprobenrealisation maximal wird: P(x1 , x 2 ,..., x n υ) Þ max bzw. Gegeben sei die Stichprobenrealisation (x1 , x2 ,..., xn ) einer binomialverteilten Zufallsvariablen X: X ~ B(1, p ) , d.h. P( X = xi ) = p xi (1 − p ) 1− xi Die Wahrscheinlichkeit der Stichprobe ist folglich P (x1 , x 2 ,..., x n p ) = ∏ P ( X = xi ) n i =1 1− xi n = ∏ p xi (1 − p ) i =1 f (x1 , x 2 ,..., x n υ) Þ max ; xi = 0,1 ∀i = p å xi (1 − p ) n − å xi n æ n ö æ ö ln P(x1 , x 2 ,..., x n p ) = ç å x i ÷ ln p + ç n − å x i ÷ ln (1 − p ) i =1 è i =1 ø è ø z.B. durch d P (x1 , x 2 ,..., x n υ) = 0 dυ n 1 n 1 æ d ö ln P(x1 , x 2 ,..., x n p ) = å x i − ç n − å xi ÷ = 0 1− p è dp p i =1 i =1 ø Rein rechnerisch läßt sich oft der Ansatz ln P (x1 , x 2 ,..., x n υ) Þ max Folglich ist p = bzw. d ln P (x1 , x 2 ,..., x n υ) = 0 dυ 1 n å xi . n i =1 Für die Stichprobe (1,0,0) gilt also besser bearbeiten. pˆ = 1 (1 + 0 + 0) = 1 3 3 3.3. Ergänzung zur Maximum-Likelihood-Methode Wir betrachten eine Zufallsvariable X, die folgende 2 Werte annehmen kann: ì1 mit der Wahrscheinlichkeit p X =í î0 mit der Wahrscheinlichkeit (1 - p) d.h. X~B(1,p), wobei p der Verteilungsparameter der Binomialverteilung ist. Typisches Anwendungsbeispiel: Qualitätskontrolle: ì 1 bedeutet → i - tes Gerät intakt xi = í î0 bedeutet → i - tes Gerät defekt Aus einer größeren Lieferung von Geräten sollen nur auf zufällige Art und Weise 3 Geräte entnommen und überprüft werden. Das Ergebnis sei wie folgt: x1 = 1, x2 = 0, x3 = 0 Dr. Tatjana Lange Formelsammlung Seite 19 Statistik.doc Aus dieser Stichprobe (1,0,0) soll nun der Wert des Verteilungsparameter p geschätzt werden. x1 Wäre p bekannt, so könnte man die x2 x3 theoretische Auftrittswahrscheinlichkeit Auftrittswahrscheinlichkeit der Realisation: der vorliegenden Stichprobe (1,0,0) 0 0 0 (1 − p) ⋅ (1 − p) ⋅ (1 − p) berechnen, die dann durch die Formel 0 0 1 (1 − p) ⋅ (1 − p) ⋅ p p ⋅ (1 − p ) ⋅ (1 − p ) gegeben wäre. 0 1 0 (1 − p) ⋅ p ⋅ (1 − p) 0 1 1 (1− p ) ⋅ p ⋅ p Beachte: 1 0 0 p ⋅ (1 − p ) ⋅ (1 − p ) Ebenso könnte man die theoretischen 1 0 1 p ⋅ (1 − p ) ⋅ p Auftrittswahrscheinlichkeiten der anderen 1 1 0 p ⋅ p ⋅ (1 − p ) möglichen Stichprobenrealisationen 1 1 1 p⋅ p⋅ p berechnen (→ siehe nebenstehende Tabelle). Hier interessiert aber nur die vorliegende Stichprobenrealisation (1,0,0), deren Auftrittswahrscheinlichkeit p ⋅ (1 − p) ⋅ (1 − p) eine Funktion des Verteilungsparameters p ist (s. Bild 1). Wahrscheinlichkeit der Stichprobenrealisation 1, 0, 0, in Abhängigkeit von p 0,16 max. 0,14 p(1-p)(1-p) 0,12 0,1 0,08 Aus Bild 2 kann man erkennen, daß die Maxima der Auftrittswahrscheinlichkeiten aller 8 möglichen Stichprobenrealisationen bei unterschiedlichen Werten des Verteilungsparameters p erreicht werden. Für die gegebene Stichprobe (1,0,0) ist der optimale Wert für p = 1 3 . 0,06 0,04 0,02 0 0 0,2 0,4 0,6 0,8 1 p=0,33 Bild 1: Auftrittswahrscheinlichkeit der Stichprobe (1,0,0) als Funktion von p Der Grundgedanke der Maximum-Likelihood-Methode ist nun denkbar einfach: Man nimmt für die gegebene Stichprobenrealisation (1,0,0) den Wert des Verteilungsparameters p als den zutreffendsten von allen Möglichen Werten 0 ≤ p ≤ 1 an, bei dem die theoretische Auftrittswahrscheinlichkeit eben dieser Stichprobe (1,0,0) ihren größtmöglichen Wert erreicht, hier also p =1 3. Da für jeden anderen Wert p ≠ 1 3 die Auftrittswahrscheinlichkeit der vorliegende Stichprobenrealisation kleiner wäre, ist es widersinnig Dr. Tatjana Lange Formelsammlung Seite 20 Statistik.doc anzunehmen, daß es im vorliegenden Fall einen besseren Schätzwert als p = 1 3 geben kann. Beachte: Es erfolgt kein Vergleich mit den theoretischen Auftrittswahrscheinlichkeiten der anderen denkbaren Kombinationen von ( x1, x2 , x3) , da diese ja nicht eingetreten sind und damit nicht zur Diskussion stehen. Mathematisch ausgedrückt bedeutet das, daß die Auftrittswahrscheinlichkeit p ⋅ (1 − p ) ⋅ (1 − p ) der Stichprobe (1, 0, 0) maximiert werden muß, also p⋅(1− p)⋅(1− p) → max d.h. ( ) d 1 p⋅ (1− p)2 = 0 Þ (1− p)2 −2p(1− p) = 0 Þ (1− p) −2p = 0 Þ p = dp 3 Dr. Tatjana Lange Formelsammlung Seite 21 Statistik.doc Werte des Verteilungsparametrs p: 0,9 0,8 p=0,05 p=0,95 0,7 0,6 p=0,2 0,5 p=0,8 Bei p=0,33333 hat die Stichprobenrealisation (1,0,0) ihre maximale Auftrittswahrscheinlichkeit 0,4 0,3 p=0,4 p=0,6 0,2 A 0,1 0 '0-0-0' '0-0-1' '0-1-0' '0-1-1' '1-0-0' '1-0-1' '1-1-0' '1-1-1' 0,05 0,1 0,15 0,2 0,25 0,3 0,333333333 0,35 0,4 0,45 0,5 0,55 0,6 0,65 0,7 0,75 0,8 0,85 0,9 0,95 Stichprobenrealisationen Bild 2: Theoretische Auftrittswahrscheinlichkeiten der möglichen Stichprobenrealisationen in Abhängigkeit vom Verteilungsparameter p Dr. Tatjana Lange Formelsammlung Seite 22 Statistik.doc 3.4. Bayes-Schätzung Methode Beispiel Die Bayes-Schätzung ist eine Schätzung mit Vorinformation über den zu schätzenden Parameter υ , d.h. es sind bestimmt a-priori Wahrscheinlichkeiten bezüglich der Werte, die der zu schätzende Parameter annehmen kann, gegeben: Für eine binomialverteilte Zufallsvariable X ~ B(1, p ) seien folgende Werte des Parameters p mit den a-priori Wahrscheinlichkeiten P(H i ) möglich: P(H i ) = P(υ = υ i ), i = 1,2,...; å P(H i ) = 1 p = p1 = 0,1 mit P(H 1 ) = 0,4 p = p 2 = 0,3 mit P(H 2 ) = 0,6 Das Ereignis A sei das Beobachtungsergebnis, also eine Stichprobenrealisation: Als Beobachtungsergebnis (Ereignis A) liegt folgende Stichprobenrealisation vor: (x , x ,..., x ) . 1 2 n (x1 , x2 ,..., x10 ) = (1,1,0,0,0,0,0,0,0,0) Mit Hilfe der Bayes'schen Formel P(H i A) = P( H i ) ⋅ P ( A H i ) Daraus ergeben sich folgende a-posteriori P( A) Wahrscheinlichkeiten für die beiden werden nun für alle vorgegebenen Mög- Lösungsmöglichkeiten: lichkeiten die aposteriori Wahrschein10 lichkeiten P(H i A), i = 1,2,... berechnet, P(H 1 ) ⋅ ∏ P(X = x j H 1 : p = p1 ) j =1 wobei P(A H i ) die Wahrscheinlichkeit der P(H A) = 1 P ( A) gegebenen Stichprobenrealisation unter 8 2 0.4 ⋅ 0.1 ⋅ (1 − 0.1) 1.72 −3 der Annahme ist, daß υ = υi zutrifft: P(H 1 A) = = ( P (H i ) ⋅ ∏ P ( X = x j H i : υ = υ i ) n P(H i A) = j =1 P ( A) ) P ( A) P (H 2 ) ⋅ ∏ P (X = x j H 2 : p = p 2 ) 10 P ( A) P(H 2 A) = Als Schätzwert wird der Wert υ = υi mit der größten a-posteriori Wahrscheinlichkeit P(H i A) angenommen. j =1 ( P( A) ) 0.6 ⋅ 0.3 2 ⋅ (1 − 0.3) 3.11−3 P(H 2 A) = = P ( A) P ( A) 8 Hinweis: Es genügt, die Zähler in der Bayes'schen Hier ist P(H A) > P(H A) , folglich gilt 2 1 Formel für die verschiedenen i zu verp = p2 = 0. 3 gleichen. Dr. Tatjana Lange Formelsammlung Seite 23 Statistik.doc 4. Konfidenzintervall-Schätzung Verfahren M Allgemeiner Ansatz: Beispiel Zur gegebenen Stichprobenrealisation (x1 , x2 ,..., xn ) einer Zufallsvariablen X mit der Verteilung F (x υ) soll ein Konfidenzintervall für den unbekannten Verteilungsparameter υ geschätzt werden. X sein eine normalverteilte Zuvallsvariable: X ~ N (µ, σ 2 ) Die Varianz σ 2 sei bekannt; zu schätzen ist der unbekannte Wert des Parameters µ. Sei T = g (x1 , x 2 ,..., x n υ) ein Schätzer für den Parameter υ und FT (t ) die Verteilungsfunktion des Schätzers T. Die Wahrscheinlichkeit, daß die Realisation des Schätzers im Intervall tα / 2 ≤ t ≤ t1−α / 2 liegt, ist P(t α / 2 ≤ t ≤ t1−α / 2 ) = 1 − α , t α/2 und t1−α / 2 die wobei entsprechenden Quantile der Verteilung FT (t ) des Schätzers sind. Als Schätzer für µ wird die Funktion 1 n å Xi −µ n i =1 n ~ N (0,1) T= σ gewählt. Die Realisation t des Schätzers liegt mit einer Wahrscheinlichkeit von (1 − α ) im Intervall tα / 2 ≤ t ≤ t1−α / 2 , wobei hier t α/2 und t1−α / 2 die entsprechenden Quantile der Standard-Normalverteilung sind, also t α / 2 = − t1−α / 2 ; t1− α / 2 = Φ −1 (1 − α / 2 ) . Die Schätzfunktion T = g (x1 ,..., x n υ) Folglich gilt wird nun nach υ̂ = ς(t ) umgestellt. 1 n å xi − µ Dann ergibt sich das Konfidenzt α / 2 ≤ n i =1 n ≤ t1− α / 2 σ intervall zum Niveau (1 − α ) für den "" " """ ! =t zu schätzenden Parameter υ zu σ σ 1 n 1 n [ς(t α / 2 ) ≤ υ ≤ ς(t1−α / 2 )] . t1− α / 2 ≤ µ ≤ å xi + t1− α / 2 å xi − n i =1 n i =1 n n α nennt man auch Irrtums- wahrscheinlichkeit. Konfidenzintervalle für die mathematische Erwartung E ( X ) bei unbekannter Verteilungsklasse von X M nach Tschebyscheff: M nach dem ZGWS: æ σ σ ö ≤ E(X ) ≤ x + ÷÷ = 1 − α Pçç x − α⋅n α⋅n ø è mit σ = Var ( X ); Dr. Tatjana Lange æ σ −1 Φ Pçç x − n è Φ −1 ( )= z 1 1− α Formelsammlung ( ) ≤ E(X ) ≤ x + 1− α 2 1−α / 2 σ n Φ −1 ( )ö÷÷ = 1 − α 1− α 2 ø - Quantil der Standard-NV Seite 24 Statistik.doc 5. Hypothesentest M Hypothetischer Ansatz: H0 : ν = ν0 gegen H1: ν = ν1 M Testfunktion T = g ( X 1 , X 2 ,..., X n υ) Nimmt die Rrealisation t der Testfunktion T = g (X 1 ,..., X n υ) einen Wert größer k an, so wird die Nullhypothese H0 abgelehnt. Dichte der Statistik T, falls H0 zutrifft. Dichte der Statistik T, falls H1 zutrifft. M Fehler 1. Art: α = P ( T > k H0 : ν = ν 0 ) β α M Fehler 2. Art: k = kritische Grenze Ablehnbereich für H0 β = P ( T ≤ k H1: ν = ν1 ) B = {(x1 ,..., x n ) : t > k } M Ablehnbereich: H0 zutreffend H1 zutreffend H0 wird angenommen o.k.: (1 − α ) Fehler 2. Art: β H1 wird angenommen Fehler 1. Art: Dr. Tatjana Lange Formelsammlung α o.k.: (1 − β ) Seite 25 Statistik.doc 6. Schätzen und Testen bei normalverteilter Stichprobe: Hypothetischer Ansatz Ablehnbereich bzw. kritischer Bereich 1. H0 : ν = ν0 gegen H1: ν ≠ ν0 B = {z : z ≥ z1−α / 2 } 2. H0− : ν ≤ ν0 gegen H1− : ν > ν0 B − = {z : z ≥ z1−α } 3. H0+ : ν ≥ ν0 gegen H1+ : ν < ν0 B + = {z : z ≤ z α } z1− α / 2 , z1−α , zα - Quantile der Verteilung des gewählten Schätzers für ν Die Null-Hypothese wird abgelehnt, wenn der Wert des gewählten Schätzers im Ablehnbereich B liegt, also t ∈ B . Test über Bedingung Test µ NV-Test T := X − µ 0 n ~ N (0,1) σ 2 bekannt Schätzer / Konfidenzintervall σ é ù σ σ z1− α / 2 ≤ µ ≤ x + z1− α / 2 ú êx − n n ë û z1−α / 2 = Φ −1 (1 − α / 2 ) → (1 − α / 2) -Quantil der Standard-Normalverteilung µ σ2 t-Test unbekannt T: = X − µ0 n − 1 ~ t n −1 S é ù S S z1− α / 2 ≤ µ ≤ x + z1− α / 2 ú êx − n −1 n −1 ë û z1−α / 2 → (1 − α / 2) -Quantil der t n −1-Verteilung σ2 µ bekannt χ 2n -Test T := 1 σ 02 n 2 å ( xi − µ ) i =1 = n ⋅ σˆ 2 σ 02 ; 2 ⋅ T ~ χ 2n 2 σ0 σ é n ⋅ σˆ 2 n ⋅ σˆ 2 ù 1 n 2 2 ˆ ( x i − µ )2 σ = ≤ σ ≤ ; å ê ú zα / 2 û n i =1 ë z1−α / 2 z1−α / 2 , zα / 2 → Quantile der χ 2n -Verteilung σ2 µ unbekannt χ n2 −1 -Test T := 1 2 σ0 n⋅S 2 å (xi − x ) = 2 n i =1 σ0 2 = (n − 1) ⋅ S * 2 σ 02 ; 2 ⋅ T ~ χ 2n −1 2 σ0 σ é n ⋅ s2 n ⋅ s2 ù 1 n 2 2 2 ≤σ ≤ ê ú ; s = å (xi − x ) zα / 2 û n i =1 ë z1−α / 2 z1−α / 2 , zα / 2 → Quantile der χ n2 −1 -Verteilung Dr. Tatjana Lange Formelsammlung Seite 26 Statistik.doc 7. Vergleich von Erwartungswerten und Varianzen: M Voraussetzungen: Zweifache Stichprobe: X , X ,..., X ; Y , Y ,..., Y ; 1 2 n 1 2 m X i ~ N (µ x , σ 2x ) ; Y j ~ N (µ y , σ 2y ) ; X i und Yj unabhängig Hypothetischer Ansatz Ablehnbereich bzw. kritischer Bereich 1. H0 : ν x = ν y gegen H1: ν x ≠ ν y B = {z : z ≥ z1−α / 2 } 2. H0− : ν x ≤ ν y gegen H1− : ν x > ν y B − = {z : z ≥ z1−α } 3. H0+ : ν x ≥ ν y gegen H1+ : ν x < ν y B + = {z : z ≤ z α } z1−α / 2 , z1−α , zα - Quantile der Verteilung ders gewählten Teststatistik. Die Null-Hypothese wird abgelehnt, wenn der Wert der Realisation t der Teststatistik im Ablehnbereich B liegt, also t ∈ B . Test über Bedingung Test µx ,µ y NV-Test T := σ 2x bekannt; Teststatistik: X −Y n ~ N (0,1) 2 σ 2x σ y + n m σ 2y bekannt z1−α / 2 , z1−α , zα -Quantile der StandardNormalverteilung; zα = − z1−α µx ,µ y X −Y σ 2x = σ 2y = σ 2 ; doppelter T : = nS + mS t-Test σ 2 x 2 unbekannt 2 y n + m−2 ~ t n + m− 2 1 1 + n m 1 n 1 m 2 2 ( ) ;... ( y i − y )2 x − x s = å å i y n i =1 m i =1 s x2 = z1−α / 2 , z1−α , zα -Quantile der t n + m−2 -Verteilung; zα = − z1−α σ 2x , σ 2y keine F -Test T := S x*2 ~ F(n −1,m−1) ; S *y 2 s *x2 = m 1 n (xi − x )2 ; s *y2 = 1 å ( yi − y )2 å n − 1 i =1 m − 1 i =1 z1−α / 2 , z1−α , zα -Quantile der F(n −1, m −1) -Verteilung; 1 zα = z1−α Dr. Tatjana Lange Formelsammlung Seite 27 Statistik.doc 8. Vergleich von Erwartungswerten und Varianzen: M Voraussetzungen: Verbundene Stichprobe: ( X , Y ), ( X , Y ),..., ( X , Y ) ; 1 1 2 2 n n æ æ µ i ö æ σ 2x ( X i , Yi ) ~ N çç çç ÷÷, çç è è ν i ø è σ xy σ xy ö ö÷ ÷ ; d.h. X i , Yi normalverteilt, σ 2y ÷ø ÷ø aber nicht unabhängig Hypothetischer Ansatz 1. i B − = {z : z ≥ z1−α } n H0− : ∀ µ i ≤ νi gegen H1− : ∃ µ i > νi i=1 3. B = {z : z ≥ z1−α / 2 } n H0 : ∀ µ i = νi gegen H1: ∃ µ i ≠ νi i=1 2. Ablehnbereich bzw. kritischer Bereich i B + = {z : z ≤ z α } n H0+ : ∀ µ i ≥ νi gegen H1+ : ∃ µ i < νi i=1 i z1− α / 2 , z1−α , zα - Quantile der Verteilung der gewählten Teststatistik. Die Null-Hypothese wird abgelehnt, wenn der Wert der Realisation t der Teststatistik im Ablehnbereich B liegt, also t ∈ B . Test über Bedingung µ i , νi Test σ 2 = σ 2x + σ 2y − 2σ xy t-Test unbekannt Teststatistik: T: = D D n − 1 = * n ~ t n −1 ; SD SD D= 1 n å Di ;... Di = X i − Yi n i =1 S D2 = 1 n (Di − D )2 å n i =1 z1− α / 2 , z1−α , zα - Quantile der t n−1Verteilung; zα = − z1−α Dr. Tatjana Lange Formelsammlung Seite 28 Statistik.doc 9. Test über eine beliebige Wahrscheinlichkeit (approximativer GaußTest): M Voraussetzungen: Einfache Stichprobe: X , X ,..., X ;n - groß !!! 1 2 n X i ~ B(1, p ) ; po ∈ 0, 1 Hypothetischer Ansatz Ablehnbereich bzw. kritischer Bereich 1. H0 : p = p0 gegen H1: p ≠ p0 2. H0− : p ≤ p0 gegen H1− : p > p0 3. H0+ : p ≥ p0 gegen H1+ : p < p0 Test über Test p B = {z : z ≥ z1−α / 2 } B − = {z : z ≥ z1−α } B + = {z : z ≤ z α } Teststatistik: X − p0 approx. T := NV-Test p 0 (1 − p appr . ) n ~ N (0,1) ; vgl. ZGWS z1− α / 2 , z1−α , zα - Quantile der Standard-NV; zα = − z1− α 10. Vergleich zweier Wahrscheinlichkeiten: M Voraussetzungen: Doppelte Stichprobe: X , X ,..., X ; Y , Y ,..., Y ; 1 2 n 1 2 m n und m- groß !!! X i ~ B(1, p1 ) ; Y j ~ B(1, p 2 ) Hypothetischer Ansatz Ablehnbereich bzw. kritischer Bereich 1. H0 : p1 = p2 gegen H1: p1 ≠ p2 2. H0− : p1 ≤ p2 gegen H1− : p1 > p2 3. H0+ : p1 ≥ p2 gegen H1+ : p1 < p2 Test über Test p1 , p2 B = {z : z ≥ z1−α / 2 } B − = {z : z ≥ z1−α } B + = {z : z ≤ z α } Teststatistik: konserv. T := X − Y ; Annahme: T 1 1 1 NV-Test + 2 n appr . ~ N (0,1) m z1− α / 2 , z1−α , zα - Quantile der Standard-NV; zα = − z1− α Dr. Tatjana Lange Formelsammlung Seite 29 Statistik.doc 11. Lineare Regression: y M Gegeben: y1 Yi = a + bxi + U i ; i = 1, 2,..., n y2 U i , Yi - Zufallsvariable yi -Relalisation von Yi xi . - vorgegebene Werte y3 y=a+bx x M Gesucht: a , b - unbekannte Parameter M Voraussetzung: U 1 ,U 2 ,...,U n - stochastisch unabhängig E (U i ) = 0; Var (U i ) = σ 2 > 0 M Punktschätzung: Test über Schätzer / Konfidenzintervall a,b σ2 S xy b = 2 ; sx ; a = Y − bx mit S xy = 1 n 1 n 2 ( ) ( ) und ( x i − x )2 x − x Y − Y S = å å i x i n i =1 n i =1 σ 2 = ( 1 n 2 Ei mit Ei = Yi − aˆ + bˆxi å n − 2 i =1 ) M Konfidenzintervallschätzung: Test über Bedingung a,b Konfidenzintervall: ( U i ~ N 0, σ 2 ) Pæç bˆ − z ç è 1− α / 2 ⋅ σˆ 2 ≤ b ≤ bˆ + z1−α / 2 ⋅ 2 ( x x ) − å i σˆ 2 2 å ( xi − x ) ö ÷ = 1− α ÷ ø æ σˆ 2 å x i2 σˆ 2 å x i2 ç P aˆ − z1− α / 2 ⋅ ≤ a ≤ aˆ − z1− α / 2 ⋅ 2 2 ç n å ( xi − x ) nå ( xi − x ) è ö ÷ = 1− ÷ ø z1−α/ 2 - Quantil der t n−2 -Verteilung; a , b , σ 2 - wie bei Punktschätzung σ2 ( U i ~ N 0, σ 2 ) æ (n − 2)σˆ 2 (n − 2)σˆ 2 ö÷ = 1 − α Pçç ≤ σ2 ≤ z α / 2 ÷ø è z1− α / 2 z1−α / 2 , zα / 2 → Quantile der χ 2n−2 -Verteilung Dr. Tatjana Lange Formelsammlung Seite 30 Statistik.doc M Hypothesentest: Hypothetischer Ansatz Ablehnbereich bzw. kritischer Bereich 1. H0 : ν = ν0 gegen H1: ν ≠ ν0 B = {z : z ≥ z1−α / 2 } 2. H0− : ν ≤ ν 0 gegen H1− : ν > ν 0 B − = {z : z ≥ z1−α } 3. H0+ : ν ≥ ν 0 gegen H1+ : ν < ν 0 B + = {z : z ≤ z α } Test über Bedingung a Teststatistik: ( U i ~ N 0, σ 2 ) T = (aˆ − a 0 ) nå ( xi − x ) σˆ 2 å xi2 2 ~ t n−2 z1− α / 2 , z1−α , zα - Quantile der t n−2 -Verteilung; zα = − z1− α a , σ 2 - wie bei Punktschätzung b ( U i ~ N 0, σ 2 ) ( T = bˆ − b0 ) å (x i − x) σˆ 2 2 ~ t n−2 z1− α / 2 , z1−α , zα - Quantile der t n−2 -Verteilung; zα = − z1− α b , σ 2 - wie bei Punktschätzung σ2 ( U i ~ N 0, σ 2 ) T = (n − 2 ) σˆ 2 ~ χ 2n − 2 2 σ z1− α / 2 , z1−α , zα → Quantile der χ 2n−2 -Verteilung Dr. Tatjana Lange Formelsammlung Seite 31 Statistik.doc III. Sonstige nützliche mathematische Formeln 1. Einige endliche Reihen n åk = k =1 n(n + 1) 2 n åk2 = k =1 n(n + 1)(2n + 1) 6 n 2 (n + 1) 2 k = å 4 k =1 n 3 2. Etwas Kombinatorik: Formel Beispiel M Anzahl der Kombinationen von n Elementen zur k-ten Klasse ohne Wiederholung: M 4 Elemente a b c d zur 2-ten Klasse: ab, ac, ad, bc, bd, cd æ 4ö 4! K 42 = çç ÷÷ = =6 è 2 ø 2!⋅2! æ nö n! K = çç ÷÷ = è k ø k!⋅(n − k )! k n M Anzahl der Kombinationen von n Elementen zur k-ten Klasse mit Wiederholung: M 4 Elemente a b c d zur 2-ten Klasse: ab, ac, ad, bc, bd, cd, aa, bb, cc, dd æ 4 + 2 − 1ö 5! ÷÷ = = 10 K 42 = çç è 2 ø 2!⋅3! æ n + k − 1ö (n + k − 1)! ÷÷ = K nk = çç è k ø k!⋅(n − 1)! M Anzahl der Permutationen von n Elementen (ohne Wiederholung): Pn = n ! M Anzahl der Variationen von n Elementen zur k-ten Klasse ohne Wiederholung: M 3 Elemente a b c: abc acb b c a cab cba P3 = 3! = 6 ab, ba ac, ca, ad, da, bc, cb, bd, db, cd, dc æ 4ö 4! V42 = çç ÷÷ ⋅ 2!= = 12 2! è 2ø æ nö n! V = çç ÷÷ ⋅ k!= (n − k )! èkø M 4 Elemente a b c d zur 2-ten Klasse: ab, ba ac, ca, ad, da, bc, cb, bd, db, cd, dc, aa, bb, cc, dd Vnk = n k Dr. Tatjana Lange c M 4 Elemente a b c d zur 2-ten Klasse: k n M Anzahl der Variationen von n Elementen zur k-ten Klasse mit Wiederholung: b a V24 = 2 4 = 16 Formelsammlung Seite 32 Statistik.doc 3. Einige Logarithmengesetze und Exponentialgleichungen: ax = b Þ x = log a b = log c b log c a log a ( A ⋅ B ) = log a A + log a B log a C n = n ⋅ log a C æ Aö log a ç ÷ = log a A − log a B èBø log a A = log b A log b a 4. Einige Ableitungen und Integrale: Ableitungen (x )' = n ⋅ x n (a )' = a x x n −1 ⋅ ln a Integrale (ln x )' = 1 n ò x dx = x (e )' = a ⋅ e ax ax x n +1 n +1 ax ò a dx = ln a x ax ò x ⋅ e dx = (u ⋅ v )' = u ⋅ v'+u '⋅v Dr. Tatjana Lange ' æ u ö u '⋅v − u ⋅ v' ç ÷ = v2 èvø ò dx = ln x x òe ax dx = 1 ax e a e ax (ax − 1) a2 ò u( x) ⋅ v' ( x) ⋅ dx = u ( x) ⋅ v( x) − ò u' ( x) ⋅ v( x) ⋅ dx Formelsammlung Seite 33 Statistik.doc