Induktive Statistik Kapitel IV - Stichprobenfunktionen (Statistiken) Georg Bol [email protected] Markus Höchstötter [email protected] 11. Januar 2007 Georg Bol, Markus Höchstötter Aufgabe der schließenden Statistik: Festlegung einer Entscheidung auf der Grundlage eines Stichprobenergebnisses Entscheidungsverfahren: Zu jedem möglichen Stichprobenergebnis wird die zugehörige Entscheidung bestimmt. ⇒ Entscheidungsfunktion δ : X → A X Stichprobenraum, A Aktionenraum (Menge der Entscheiungsmöglichkeiten) gesucht: “beste“ Entscheidungfunktion (benötigt wird dazu ein Bewertungskriterium s.u.) Kapitel IV - Stichprobenfunktionen (Statistiken) 1 Georg Bol, Markus Höchstötter Problem: X ⊂ IRk ist i.a. sehr umfangreich, d.h. es gibt sehr viele, teilweise auch wenig sinnvolle Entscheidungsfunktionen. Ansatz: Das Stichprobenergebnis enthält auch Informationen, die für die Entscheidung unwesentlich sind, z.B. die Reihenfolge der Messwerte bei einer Stichprobe mit Zurücklegen. ֒→ Reduktion der Daten auf den für die Entscheidung wesentlichen Kern durch eine Auswertung des Stichprobenergebnisses (z.B. mit Methoden der deskriptiven Statistik) Kapitel IV - Stichprobenfunktionen (Statistiken) 2 Georg Bol, Markus Höchstötter Beispiele: 1. Kontrolle einer Warenpartie: Stichprobenergebnis (x1, x2, ..., xn) mit xi = 0 i − te Stichprobeneinheit ist gut 1 i − te Stichprobeneinheit ist schlecht Auswertung: Anzahl schlechter Einheiten = n P xi i=1 (Oder: Anzahl guter Teile, Stichprobenausschussanteil, ...) Kapitel IV - Stichprobenfunktionen (Statistiken) 3 Georg Bol, Markus Höchstötter 2. Justierung einer Maschine: x1, x2, ..., xn Messwerte n P 1 xi Stichprobenmittelwert n i=1 ist Kandidat für ein sinnvolles Auswertungsverfahren. Kapitel IV - Stichprobenfunktionen (Statistiken) 4 Georg Bol, Markus Höchstötter Stichprobenfunktion: X Stichprobenraum einer Stichprobe X1, X2, ..., Xn T : X → IRk heißt Stichprobenfunktion T (X1, X2, ..., Xn) = T (X) ist dann Zufallsvariable Kapitel IV - Stichprobenfunktionen (Statistiken) 7 Georg Bol, Markus Höchstötter Beispiele für Stichprobenfunktionen: 1. T (x1, x2, ..., xn) = x3 bzw. xi für i ∈ {1, 2, ..., n}. T erhält in der Regel nicht die gesamte Information der Stichprobe, da nur eines des Stichprobenergebnisse benutzt wird. 2. T (x1, . . . , xn) = (x(1), . . . , x(n)), d.h. die Stichprobenergebnisse werden ihrer Größe nach geordnet (x(1), . . . , x(n) ist die geordnete Urliste zu x1, . . . , xn). T heißt Ordnungsstatistik und erhält bei einer Stichprobe mit Zurücklegen alle relevanten Informationen, da in diesem Fall die Reihenfolge der Ergebnisse keine Bedeutung hat. Aber: Keine Datenreduktion. Kapitel IV - Stichprobenfunktionen (Statistiken) 8 Georg Bol, Markus Höchstötter 3. T (x1, . . . , xn) = xz , xz Zentralwert (Median) von x1, x2, ..., xn, heißt Stichprobenmedian(-zentralwert). 4. T (x1, . . . , xn) mit T (x1, . . . , xn) = 1 n n P xi i=1 heißt Stichprobenmittelwert. Beispiele 3 und 4 sind Kandidaten für Auswertungen bei Untersuchungen, die mit Lageparametern zu tun haben. Kapitel IV - Stichprobenfunktionen (Statistiken) 9 Georg Bol, Markus Höchstötter 5. T (x1, . . . , xn) mit T (x1, . . . , xn) = 1 n n P i=1 (xi − x̄)2, x̄ = Stichprobenmittelwert, heißt Stichprobenvarianz. 6. T (x1, . . . , xn) T (x1, . . . , xn) = 1 n−1 n P (xi − x̄)2, x̄ = Stichprobenmittelwert, i=1 heißt korrigierte Stichprobenvarianz. Beispiele 5 und 6 kommen bei Untersuchungen zu Streuungsparametern einer Verteilung in Betracht (aber auch die Stichprobenspannweite, die mittlere absolute Abweichung der Stichprobe, der Quartilsabstand der Stichprobe, ...). Kapitel IV - Stichprobenfunktionen (Statistiken) 10 Georg Bol, Markus Höchstötter Frage: Welche Auswertungen sind sinnvoll? Welche Stichprobenfunktionen dürfen verwendet werden, ohne gute Entscheidungsverfahren auszuschließen? Antwort: T sollte alle Informationen der Stichprobe über die entscheidungsrelevante Größe (Zustand) erhalten. Wie kann dies überprüft werden? Kapitel IV - Stichprobenfunktionen (Statistiken) 11 Georg Bol, Markus Höchstötter 1. Kontrolle einer Warenpartie: Intuition: Anzahl der schlechten Teile in der Stichprobe enthält alle Informationen über den Ausschussanteil, d.h. zwei Stichprobenergebnisse x = (x1, . . . , xn) und x′ = (x′1, . . . , x′n) mit übereinstimmender Anzahl schlechter Teile unterscheiden sich nicht bezüglich ihrer Information über den Ausschussanteil. Ist dies richtig? Kapitel IV - Stichprobenfunktionen (Statistiken) 12 Georg Bol, Markus Höchstötter Dazu: Wahrscheinlichkeitsverteilung der Stichprobe X1, . . . , Xn auf Teilbereich mit k schlechten Teilen: T (X1, . . . , Xn) = k ֒→ Bedingte Wahrscheinlichkeitsverteilung unter der Bedingung: T (X1, . . . , Xn) = k Kapitel IV - Stichprobenfunktionen (Statistiken) 13 Georg Bol, Markus Höchstötter P (X = x | T (X) = k) = P (X1 = x1, . . . , Xn = xn | n X Xi = k) i=1 P (X1 = x1, . . . , Xn = xn und n P Xi = k) i=1 = P( n P Xi = k) i=1 = Kapitel IV - Stichprobenfunktionen (Statistiken) 0 n P i=1 P (X1 =x1 ,...,Xn =xn ) (nk)pk (1−p)n−k n P xi 6= k xi = k i=1 14 Georg Bol, Markus Höchstötter X1, X2, . . . , Xn unabhängig: Dann P (X1 = x1, . . . , Xn = xn) = P (X1 = x1) · P (X2 = x2) · . . . · P (Xn = xn) Mit P (Xi = 1) = p und P (Xi = 0) = 1 − p n Y Px n P (Xi = xi) = p i=1 Kapitel IV - Stichprobenfunktionen (Statistiken) i=1 i Px n · (1 − p) n− i=1 i 15 Georg Bol, Markus Höchstötter Damit: P (X = x | n X Xi = k) = i=1 = pk (1−p)n−k (n)pk (1−p)n−k k Kapitel IV - Stichprobenfunktionen (Statistiken) 0 0 1 n k ( ) n P i=1 n P xi 6= k xi = k i=1 n P i=1 n P xi 6= k xi = k i=1 16 Georg Bol, Markus Höchstötter Die bedingte Wahrscheinlichkeitsverteilung hängt also nicht von p ab, die Variation des Stichprobenergebnisses im Teilbereich mit T (X1, . . . , Xn) = k ist also unbeeinflusst vom Ausschussanteil p und damit auch ohne Information über p. Kapitel IV - Stichprobenfunktionen (Statistiken) 17 Georg Bol, Markus Höchstötter 2. Fehleranzahlen Bei der Produktion von Teilen können ein oder mehrere Fehler entstehen (z.B. Lackierfehler an Automobilkarossen). Die Anzahl der Fehler an einer Produkteinheit entspreche einer Zufallsvariable Y . Y sei Poisson-verteilt mit Parameter λ, λ sei unbekannt. Durch eine Stichprobe soll Information über λ ermittelt werden. Stichprobenergebnis: x1, x2, . . . , xn (xi ganze Zahl ≥ 0) Kapitel IV - Stichprobenfunktionen (Statistiken) 18 Georg Bol, Markus Höchstötter Vermutung: Wesentliche Information über den Parameter λ des Stichprobenergebnisses ist die Gesamtzahl der Fehler (oder die durchschnittliche Fehlerzahl). Zugehörige Stichprobenfunktion ist: T (x1, . . . , xn) = n P xi i=1 Überprüfung der Vermutung: Stichprobe mit Zurücklegen, d.h. X1, X2, . . . , Xn unabhängig, identisch verteilt wie Y P (X = x1, . . . , Xn = xn | T (X1, . . . , Xn) = Kapitel IV - Stichprobenfunktionen (Statistiken) n X Xi = k) = ? i=1 19 Georg Bol, Markus Höchstötter P X = x1, . . . , Xn = xn ! n X Xi = k T (X1, . . . , Xn) = i=1 = Kapitel IV - Stichprobenfunktionen (Statistiken) n P 0 i=1 P X =k) P( P (X=x) n i=1 i n P xi 6= k xi = k i=1 20 Georg Bol, Markus Höchstötter mit P (X = x) = P (X1 = x1, . . . , Xn = xn) = P (X1 = x1) · P (X2 = x2) · . . . · P (Xn = xn) = = λx1 −λ x1 ! e · ... · λxn −λ xn ! e n Q λxi −λ ( xi! e ) i=1 Kapitel IV - Stichprobenfunktionen (Statistiken) 21 Georg Bol, Markus Höchstötter n P Xi ist Poisson-verteilt mit Parameter nλ: i=1 P( n P Xi = k) = i=1 Damit ist: (nλ)k −nλ k! e Q( = P P( X =k) P (X=x) n i=1 i λxi e−λ ) x ! i=1 i (nλ)k −nλ k! e ( = Pn xi 1 i=1 e−nλ xi ! )λ i=1 (nλ)k −nλ k! e Q n = Kapitel IV - Stichprobenfunktionen (Statistiken) Q n n 1 xi ! i=1 nk k! 22 Georg Bol, Markus Höchstötter Die bedingte Wahrscheinlichkeitsverteilung n P P X1 = x1, . . . , Xn = xn T (X1, . . . , Xn) = Xi = k = i=1 k! nk n Q i=1 1 xi ! ist also unabhängig vom Parameter λ. Welche spezielle Stichprobe mit (x1, x2, . . . , xn) mit Gesamtfehlerzahl k vorliegt, liefert demnach keine Information über λ. Eine Stichprobenfunktion T enthält also die Information der Stichprobe über den Parameter der Verteilung, wenn die bedingte Wahrscheinlichkeit des Stichprobenvektors mit T (X) = t als Bedingung nicht vom Parameter abhängt. T heißt dann suffizient bezüglich des Parameters. Kapitel IV - Stichprobenfunktionen (Statistiken) 23 Georg Bol, Markus Höchstötter Definition: Sei Γ der Parameterraum zur Verteilungsannahme einer diskreten Zufallsvariable Y . X = (X1, . . . , Xn) sei eine Stichprobe zu Y mit Stichprobenraum X . Eine Stichprobenfunktion T : X → IRk heißt suffizient bzgl. γ ∈ Γ, wenn Pγ (X = x | T (X) = t) für alle x ∈ X und t ∈ IRk mit Pγ (T (X) = t) 6= 0 von γ unabhängig ist, also allein von x und t abhängt. Kapitel IV - Stichprobenfunktionen (Statistiken) 24 Georg Bol, Markus Höchstötter Folgerung: Wegen Pγ (X = x) = P (X = x | T (X) = t)Pγ (T (X) = t) ist bei suffizientem T die Wahrscheinlichkeitsverteilung zerlegt in zwei Faktoren, von denen P (X = x | T (X) = t) nur von x (t ergibt sich aus T (x) = t) und Pγ (T (X) = t) von γ und t abhängt. Kapitel IV - Stichprobenfunktionen (Statistiken) 25 Georg Bol, Markus Höchstötter Es gilt demnach mit P (X = x|T (X) = t) = h(x) und Pγ (T (X) = t) = g(T (x), γ) (*) Pγ (X = x) = g(T (x), γ)h(x). Aus (*) folgt aber : Pγ (X = x|T (X) = t) = Pγ (X = x, T (X) = t) = Pγ (T (X) = t) g(T (x), γ)h(x) P Pγ (X = x̃) x̃∈X : T (x̃)=t = g(T (x), γ)h(x) P = g(T (x̃), γ)h(x̃) x̃∈X : T (x̃)=t = h(x) P h(x̃) g(t, γ)h(x) P g(t, γ)h(x̃) x̃∈X : T (x̃)=t hängt nicht von γ ab x̃∈X : T (x̃)=t Kapitel IV - Stichprobenfunktionen (Statistiken) 25 Georg Bol, Markus Höchstötter Im diskreten Fall ist eine Stichprobenfunktion genau dann suffizient bezüglich einem Parameter γ, wenn sich die Wahrscheinlichkeitsverteilung des Stichprobenvektors entsprechend (*) in Faktoren zerlegen lässt. (Faktorisierungstheorem von Neyman). Beispiele: 1. Bernoulliverteilung: P (X1 = x1, . . . , Xn = xn) = P (X1 = x1) · . . . · P (Xn = xn) Px n i Px n− = pi=1 (1 − p) n i=1 i = g(T (x), p)h(x) mit h(x) = 1 Kapitel IV - Stichprobenfunktionen (Statistiken) 26 Georg Bol, Markus Höchstötter 2. Poissonverteilung: P (X = x) = P (X1 = x1, . . . , Xn = xn) = P (X1 = x1) · . . . · P (Xn = xn) = λx1 −λ x1 ! e Px · ... · λxn −λ xn ! e = n =λ i=1 i n Q i=1 λxi −λ ( xi! e ) 1 e−nλ x1!x2!·...·x = g(T (x), λ)h(x) n! Px n i −nλ mit g(T (x), λ) = λi=1 e , T (x) = n P i=1 Kapitel IV - Stichprobenfunktionen (Statistiken) xi und h(x) = 1 x1 !x2 !·...·xn ! 27 Georg Bol, Markus Höchstötter Im stetigen Fall sind die analogen Betrachtungen mit der Dichtefunktion durchzuführen. Beispiel: 1. Exponentialverteilung Sei Y exponentialverteilt mit Parameter λ > 0, X1, X2, . . . , Xn eine einfache Stichprobe mit Zurücklegen zu Y . Dann gilt fX,λ(x1, . . . , xn) = n Q λe−λxi i=1 Px −λ = λn e Kapitel IV - Stichprobenfunktionen (Statistiken) n i=1 i = ... 28 Georg Bol, Markus Höchstötter = g( n P i=1 n Px n −λ mit g(T (x), λ) = λ e xi, λ) · h(x) i=1 i , T (x) = n P xi und h(x) = 1. i=1 Zur Berechnung der bedingten Dichte unter der Bedingung T (X) = n P Xi = t i=1 wird die Verteilung von n P Xi i=1 benötigt. Kapitel IV - Stichprobenfunktionen (Statistiken) 29 Georg Bol, Markus Höchstötter Man erhält (s. Übungsaufgabe aus der Wahrscheinlichkeitstheorie) die Erlang-Verteilung mit Stufenzahl n mit der Dichtefunktion f (t) = λn (n−1)! 0 Kapitel IV - Stichprobenfunktionen (Statistiken) tn−1e−λt t ≥ 0 t<0 30 Georg Bol, Markus Höchstötter . . . und damit die bedingte Dichte f(X,λ|T (X)=t)(x) = n Q λe−λxi i=1 λn n−1 e−λt (n−1)! t Px n n = −λ λ e n P i=1 i Px n −λ λn xi)n−1e (n−1)! ( i=1 i=1 i 1 = (n − 1)! P n ( xi)n−1 i=1 für x = (x1, . . . , xn) mit P Kapitel IV - Stichprobenfunktionen (Statistiken) xi = t. 31 Georg Bol, Markus Höchstötter Die Dichte lässt sich also analog in zwei Faktoren zerlegen und die bedingte Dichte ist unabhängig vom Parameter. Die Stichprobenfunktion T (x1, x2, . . . , xn) = n P xi i=1 ist also suffizient bezüglich λ. Kapitel IV - Stichprobenfunktionen (Statistiken) 32 Georg Bol, Markus Höchstötter 2. Normalverteilung Sei Y N (µ, σ 2)-verteilt, also mit der Dichte fY,µ,σ2 (y) = − √ 1 e 2πσ 2 Kapitel IV - Stichprobenfunktionen (Statistiken) (y−µ)2 2σ 2 33 Georg Bol, Markus Höchstötter Dann ist für eine Stichprobe X mit Zurücklegen: fX,µ,σ2 (x1, . . . , xn) = n Y i=1 = = = Kapitel IV - Stichprobenfunktionen (Statistiken) √ 1 2πσ 2 1 p (2πσ 2)n p (2πσ 2)n p 1 1 (2πσ 2)n (x −µ) − i 2 e 2σ 2 P − e n (x −µ)2 i 2 i=1 2σ − 12 ( e 2σ − 12 2σ e P x −2µ P x +nµ ) n 2 i i=1 Px n i=1 n i=1 i 2 P n 2 µ xi nµ2 i σ2 − i=1 2σ 2 e e 34 Georg Bol, Markus Höchstötter Dieser Ausdruck hängt außer von den Parametern µ und σ 2 nur von n P i=1 x2i und n P xi i=1 ab. Die zweidimensionale Stichprobenfunktion T (x1, . . . , xn) = ( n P i=1 Kapitel IV - Stichprobenfunktionen (Statistiken) xi, n P i=1 x2i ) ist suffizient bezüglich (µ, σ 2). 35 Georg Bol, Markus Höchstötter In den Beispielen spielt die Exponentialfunktion eine wesentliche Rolle, da das Produkt von Exponentialfunktionen mit der Exponentialfunktion der Summe der Exponenten übereinstimmt: n Q Pz n zi e =e i=1 i i=1 Folgerung: Immer wenn wir die Wahrscheinlichkeiten bzw. die Dichte der Zufallsvariable als Exponentialfunktion schreiben können, haben wir gute Aussichten, eine suffiziente Statistik zu erhalten. Kapitel IV - Stichprobenfunktionen (Statistiken) 36 Georg Bol, Markus Höchstötter Beispiele: 1. Poissonverteilung: Pλ(Y = y) = λy y! 1 · e−λ = ey ln λ y! · e−λ Daraus folgt für eine einfache Stichprobe X = (X1, . . . , Xn) mit Zurücklegen n n Y Y λxi −λ 1 xi ln λ −λ ( e )= Pλ(X = x) = ( e e ) xi! x! i=1 i=1 i " n # n Y 1 ln λ xi i=1 ( ) e = e−nλ x! i=1 i P Kapitel IV - Stichprobenfunktionen (Statistiken) 37 Georg Bol, Markus Höchstötter 2. Normalverteilung: fµ,σ2 (y) = = √ √ 1 2πσ 2 1 2πσ 2 (y−µ)2 − 2σ 2 =√ ·e · 2 − µ2 e 2σ −y 2 2σ 2 ·e y2 − 2 + µy2 2σ σ 1 ·e 2πσ 2 ·e µ2 − 2 2σ ·e 2µy 2σ 2 Daraus folgt für eine einfache Stichprobe X = (X1, . . . , Xn) mit Zurücklegen fµ,σ2 (x) = n Y fµ,σ2 (xi) = i=1 Kapitel IV - Stichprobenfunktionen (Statistiken) √ 1 2πσ 2 2 − µ2 2σ ·e n − 12 2σ ·e Px n i=1 2 i P ·e n µ x 2σ 2 i=1 i 38 Georg Bol, Markus Höchstötter Nennen wir den Parameter γ, so ist in beiden Beispielen die Wahrscheinlichkeit bzw. die Dichte von der Form P b (γ)τ (y) r (+) a(γ)h(y)ek=1 Kapitel IV - Stichprobenfunktionen (Statistiken) k k 39 Georg Bol, Markus Höchstötter Beispiele 1. Poissonverteilung: r=1 1 γlnλ e−λ y! e a(γ)h(γ)eb(y)τ (y) mit a(γ) = e−γ , h(y) = Kapitel IV - Stichprobenfunktionen (Statistiken) 1 y! , b(γ) = ln γ, τ (y) = y 41 Georg Bol, Markus Höchstötter Beispiele 2. Normalverteilung a(γ)h(y)eb1(γ)τi(y)+b2(γ)τ2(y) r=2 mit a(µ, σ 2) = √1 σ2 · 2 − µ2 e 2σ b1(µ, σ 2) = − 2σ1 2 b2(µ, σ 2) = Kapitel IV - Stichprobenfunktionen (Statistiken) µ σ2 , h(y) = √1 , 2π , τ1(y) = y 2, , τ2(y) = y. 42 Georg Bol, Markus Höchstötter Aus der Darstellung (+) für die Wahrscheinlichkeit bzw. Dichte einer Zufallsvariable ergibt sich unmittelbar für die Wahrscheinlichkeit bzw. Dichte einer Stichprobe mit Zurücklegen n Y P b (γ)τ (x ) r (a(γ)h(xi)ek=1 k k i ) = a(γ)n i=1 " n Y P b (γ) P τ (x ) n r # h(xi) ek=1 i=1 k i=1 k i = g(T (x), γ)h̃(x) mit T (x) = n X i=1 τ1(xi), . . . , n X ! τr (xi) , i=1 P b (γ) P τ (x ) r g(T (x), γ) = a(γ)nek=1 n k i=1 k i , h̃(x) = n Y h(xi) i=1 Kapitel IV - Stichprobenfunktionen (Statistiken) 43 Georg Bol, Markus Höchstötter Falls bei der Verteilung der Zufallsvariable Y eine Darstellung der Form (+) vorliegt, nennen wir die Verteilungsannahme der Zufallsvariable eine Exponentialfamilie. Exponentialfamilie: P b (γ)τ (y) • Y diskret r Pγ (Y = y) = a(γ)h(y)e j=1 j j P b (γ)τ (y) • Y stetig r fY,γ (y) = a(γ)h(y)e j=1 Kapitel IV - Stichprobenfunktionen (Statistiken) j j 44 Georg Bol, Markus Höchstötter Folgerung: T (x) = ( n P τ1(xi), . . . , i=1 n P τr (xi)) i=1 ist suffiziente Stichprobenfunktion bezüglich γ. Kapitel IV - Stichprobenfunktionen (Statistiken) 45 Georg Bol, Markus Höchstötter Beispiel: Gammaverteilung Dichte der Gammaverteilung ist fα,λ(y) = 1 α α−1 −λy λ y e Γ(α) 0 y≥0 y<0 Γ(α) ist dabei die Gammafunktion an der Stelle α; für eine natürliche Zahl n gilt Γ(n) = (n − 1)! Hinweis: Für α = n erhalten wir also die Erlang-Verteilung mit Stufenzahl n. Kapitel IV - Stichprobenfunktionen (Statistiken) 46 Georg Bol, Markus Höchstötter Mit a(α, λ) = 1 α λ , Γ(α) h(y) = b1(α, λ) = α − 1, b2(α, λ) = −λ, 1 y≥0 0 y<0 τ1(y) = ln(y), τ2(y) = y gilt fα,λ(y) = a(α, λ)h(y)eb1(α,λ)τ1(y)+b2(α,λ)τ2(y) Kapitel IV - Stichprobenfunktionen (Statistiken) 47 Georg Bol, Markus Höchstötter Damit ist n n X X xi) ln(xi), T (x) = ( i=1 i=1 suffizient bezüglich α und λ. Kapitel IV - Stichprobenfunktionen (Statistiken) 48 Georg Bol, Markus Höchstötter Sei T eine suffiziente Stichprobenfunktion, so sollte die Entscheidung (Schlussfolgerung) aus dem Stichprobenergebnis nur vom Auswertungsergebnis bei T abhängen, d.h. sind x = (x1, . . . , xn) und x̃ = (x˜1, . . . , x˜n) zwei Stichprobenergebnisse mit T (x) = T (x̃), so sollten die Entscheidungen bei x und x̃, übereinstimmen. Damit wird die Menge der möglichen Entscheidungsverfahren stark reduziert, falls eine geeignete suffiziente Statistik benutzt wird. Kapitel IV - Stichprobenfunktionen (Statistiken) 49 Georg Bol, Markus Höchstötter x, x′ - δ X T ? ? X T ′ δ 3 A δ(x) = δ ′(T (x)) = δ ′(T (x′)) 3 = δ(x′) δ = δ′ ◦ T T (x) = T (x′) Reduktion auf die wesentliche Information zur Entscheidungsfindung. Kapitel IV - Stichprobenfunktionen (Statistiken) 50 Georg Bol, Markus Höchstötter Sei X T die Menge der möglichen Auswertungsergebnisse bei der Stichprobenfunktion T , also X T = {T (x)|x ∈ X } so ist δ T : X T → A eine Entscheidungsfunktion mit Benutzung von T , d.h. zum Stichprobenergebnis x wird zunächst die Auswertung T (x) berechnet und abhängig von diesem Auswertungsergebnis T (x) die Entscheidung δ(T (x)) getroffen. Kapitel IV - Stichprobenfunktionen (Statistiken) 51 Georg Bol, Markus Höchstötter Behauptung: Wird eine Stichprobenfunktion T aus einer Darstellung der Wahrscheinlichkeits verteilung von Y als Exponentialfamilie gewonnen, so sind zwei Entscheidungsfunktionen mit Benutzung von T durch ihren Erwartungswert nahezu vollständig festgelegt. Kapitel IV - Stichprobenfunktionen (Statistiken) 52 Georg Bol, Markus Höchstötter Beispiel-Poisson-Verteilung: T (x1, . . . , xn) = n X xi i=1 ist suffizient bezüglich dem Parameter λ > 0. Seien δ1T und δ2T zwei Entscheidungsfunktionen mit Benutzung von T . Erwartungswert von δi ist Eλ(δiT (T (X))) = ∞ X δiT (k)Pλ(T (X) = k) = k=0 = ∞ X k=0 Kapitel IV - Stichprobenfunktionen (Statistiken) ∞ X k=0 n X δiT (k)Pλ( Xj = k) j=1 k (nλ) δiT (k) e−nλ k! 53 Georg Bol, Markus Höchstötter Stimmen die Erwartungswerte von δ1 und δ2 überein für alle λ > 0, so gilt ∞ X (nλ)k −nλ T T T T 0 = Eλ(δ1 (T (X))) − Eλ(δ2 (T (X))) = (δ1 (k) − δ2 (k)) e k! k=0 −nλ = e ∞ X (δ1T (k) k=0 − (nλ)k T δ2 (k)) k! Da e−nλ 6= 0 ist, ist dies gleichwertig mit ∞ X k=0 (δ1T (k) − Kapitel IV - Stichprobenfunktionen (Statistiken) (nλ)k T δ2 (k)) k! = 0 für alle λ > 0 ⇔ δ1T (k) = δ2T (k) für alle k. 54 Georg Bol, Markus Höchstötter Eine Stichprobenfunktion T mit der Eigenschaft, dass je zwei Funktionen δ1T und δ2T mit übereinstimmendem Erwartungswert auch selbst übereinstimmen, heißt vollständig. Kapitel IV - Stichprobenfunktionen (Statistiken) 55 Georg Bol, Markus Höchstötter Definition: Sei X eine Stichprobe zu Y , X der Stichprobenraum. Y habe eine parametrische Verteilungsannahme mit Parameter γ aus dem Parameterraum Γ. Eine Stichprobenfunktion(Statistik) T heißt vollständig bezüglich γ, wenn für je zwei Funktionen δ1T und δ2T aus Eγ (δ1T (T (X))) = Eγ (δ2T (T (X))) für alle γ ∈ Γ folgt, dass Pγ (δ1T (T (X)) = δ2T (T (X))) = 1 gilt. Kapitel IV - Stichprobenfunktionen (Statistiken) 56 Georg Bol, Markus Höchstötter Satz: Sei X eine Stichprobe zu Y , deren Verteilung sich als Exponentialfamilie schreiben lässt, d.h. es gilt P b (γ)τ (y) r Y diskret : Pγ (Y = y) Y stetig : fY,γ (y) dann ist T (x1, . . . , xn) = n X = a(γ)h(y)e τ1(xi), . . . , i=1 eine suffiziente und vollständige Statistik, wenn j=1 n X j j ! τr (xi) i=1 B = {(b1(γ), . . . , br (γ)) | γ ∈ Γ} ⊂ IRr einen offenen Quader im IRr enthält. Kapitel IV - Stichprobenfunktionen (Statistiken) 57 Georg Bol, Markus Höchstötter Folgerungen: Sei X1, X2, . . . , Xn eine einfache Stichprobe mit Zurücklegen zu Y . Dann ist T (x1, . . . , xn) = n P xi i=1 suffizient und vollständig, . . . Kapitel IV - Stichprobenfunktionen (Statistiken) 58 Georg Bol, Markus Höchstötter . . . falls y a) Bernoulli-verteilt mit Parameter p ∈ [0, 1], (Übungsaufgabe: Man stelle die Wahrscheinlichkeitsverteilung von Y als Exponentialfamilie dar.) b) binomialverteilt mit Parameter p ∈ [0, 1], c) Poisson-verteilt mit Parameter λ > 0, d) exponentialverteilt mit Parameter λ > 0. Kapitel IV - Stichprobenfunktionen (Statistiken) 59 Georg Bol, Markus Höchstötter Beispiel-Normalverteilung: fµ,σ2 (y) = = √ √ 1 2πσ 2 1 2πσ 2 Kapitel IV - Stichprobenfunktionen (Statistiken) − ·e · (y−µ)2 2σ 2 2 − µ2 e 2σ ·e =√ −y 2 2σ 2 1 2πσ 2 ·e · 2 − y 2 + µy2 e 2σ σ · 2 − µ2 e 2σ 2µy 2σ 2 60 Georg Bol, Markus Höchstötter 1. µ und σ 2 unbekannt (und entscheidungsrelevant): a(µ, σ 2) = √1 σ2 · 2 − µ2 e 2σ b1(µ, σ 2) = − 2σ1 2 b2(µ, σ 2) = µ σ2 , h(y) = √1 , 2π , τ1(y) = y 2, , τ2(y) = y. ergibt eine Darstellung als Exponentialfamilie. Kapitel IV - Stichprobenfunktionen (Statistiken) 61 Georg Bol, Markus Höchstötter T (x1, . . . , xn) = ( n P xi, i=1 n P i=1 x2i ) ist eine suffiziente Statistik. Sie ist auch vollständig, da B 1 µ = {(− 2 , 2 )|µ ∈ IR, σ 2 > 0} 2σ σ = {(β1, β2)|β1 < 0, β2 ∈ IR} = IR− × IR einen offenen Quader im IR2 enthält. Kapitel IV - Stichprobenfunktionen (Statistiken) 62 Georg Bol, Markus Höchstötter 2. µ unbekannt (und entscheidungsrelevant), σ 2 fest: Der Parameterraum ist jetzt Γ = IR. Mit a(µ) = √1 σ2 b(µ) = µ σ2 · 2 − µ2 e 2σ , h(y) = √1 2π ·e y2 2σ 2 , , τ2(y) = y erhalten wir eine Darstellung als Exponentialfamilie, so dass n P xi T (x1, . . . , xn) = i=1 suffizient bezüglich µ ist. T ist auch vollständig, da µ B = { 2 |µ ∈ IR} = IR (enthält offenen Quader) σ Kapitel IV - Stichprobenfunktionen (Statistiken) 63 Georg Bol, Markus Höchstötter 3. σ 2 unbekannt (und entscheidungsrelevant), µ fest: a(σ 2) = √1 σ2 , h(y) = b(σ 2) = − 2σ1 2 √1 , 2π , τ (y) = (y − µ)2 ergibt jetzt eine Darstellung als Exponentialfamilie für den Parameter σ 2. Wegen 1 B = {− 2 |σ 2 > 0} = {x ∈ IR|x < 0} 2σ ist damit n X T (x1, . . . , xn) = (xi − µ)2 2 suffizient und vollständig bezüglich σ . Kapitel IV - Stichprobenfunktionen (Statistiken) i=1 64