Kapitel III Induktive Statistik 1. Einfuhrung Das Ziel der induktiven Statistik besteht darin, aus gemessenen Zufallsgroen auf die zugrunde liegenden Gesetzmaigkeiten zu schlieen. Im Gegensatz dazu spricht man von deskriptiver Statistik, wenn man sich damit beschaftigt, groe Datenmengen verstandlich aufzubereiten, beispielsweise durch Berechnung des Mittelwertes oder anderer abgeleiteter Groen. DWT c Susanne Albers 1 Einfuhrung 300/460 2. Schatzvariablen Wir betrachten die Anzahl X von Lesezugrien auf eine Festplatte bis zum ersten Lesefehler und nehmen an, dass Pr[X = i] = (1 p)i 1 p, setzen also fur X eine geometrische Verteilung an. Dahinter verbirgt sich die Annahme, dass bei jedem Zugri unabhangig und mit jeweils derselben Wahrscheinlichkeit p ein Lesefehler auftreten kann. Unter diesen Annahmen ist die Verteilung der Zufallsvariablen X eindeutig festgelegt. Allerdings entzieht sich der numerische Wert des Parameters p noch unserer Kenntnis. Dieser soll daher nun empirisch geschatzt werden. Statt p konnen wir ebensogut E[X ] bestimmen, da wir daraus nach den Eigenschaften der geometrischen Verteilung p mittels p = E[1X ] berechnen konnen. DWT c Susanne Albers 2 Schatzvariablen 301/460 Dazu betrachten wir n baugleiche Platten und die zugehorigen Zufallsvariablen Xi (fur 1 i n), d. h. wir zahlen fur jede Platte die Anzahl von Zugrien bis zum ersten Lesefehler. Die Zufallsvariablen Xi sind dann unabhangig und besitzen jeweils dieselbe Verteilung wie X . Wir fuhren also viele Kopien eines bestimmten Zufallsexperiments aus, um Schlusse auf die Gesetzmaigkeiten des einzelnen Experiments ziehen zu konnen. Dies ist das Grundprinzip der induktiven Statistik. Die n Messungen heien Stichproben, und die Variablen Xi nennt man Stichprobenvariablen. DWT c Susanne Albers 2 Schatzvariablen 302/460 Grundprinzip statistischer Verfahren Wir erinnern an das Gesetz der groen Zahlen (Satz 63) bzw. den Zentralen Grenzwertsatz (Satz 108). Wenn man ein Experiment genugend oft wiederholt, so nahert sich der Durchschnitt der Versuchsergebnisse immer mehr dem Verhalten an, das man im Mittel\ erwarten wurde. Je mehr Experimente wir also durchfuhren, umso " genauere und zuverlassigere Aussagen konnen wir uber den zugrunde liegenden Wahrscheinlichkeitsraum ableiten. Auf diesem Grundprinzip beruhen alle statistischen Verfahren. DWT c Susanne Albers 2 Schatzvariablen 303/460 Um E[X ] empirisch zu ermitteln, bietet es sich an, aus den Zufallsvariablen Xi das arithmetische Mittel X zu bilden, das deniert ist durch n X 1 Xi : X := n i=1 Es gilt E[X ] = n n 1X 1X E[X ] = E[X ] = E[X ]: n i=1 i n i=1 X liefert uns also im Mittel den gesuchten Wert E[X ]. Da wir X zur Bestimmung von E[X ] verwenden, nennen wir X einen Schatzer fur den Erwartungswert E[X ]. Wegen der obigen Eigenschaft ist X sogar ein so genannter erwartungstreuer Schatzer. DWT c Susanne Albers 2 Schatzvariablen 304/460 Denition 112 Gegeben sei eine Zufallsvariable X mit der Dichte f (x; ). Eine Schatzvariable oder kurz Schatzer fur den Parameter der Dichte von X ist eine Zufallsvariable, die aus mehreren (meist unabhangigen und identisch verteilten) Stichprobenvariablen zusammengesetzt ist. Ein Schatzer U heit erwartungstreu, wenn gilt E[U ] = : Bemerkung: Die Groe E[U ] nennt man Bias der Schatzvariablen U . Bei erwartungstreuen Schatzvariablen ist der Bias gleich Null. DWT c Susanne Albers 2 Schatzvariablen 305/460 Der Schatzer X ist also ein erwartungstreuer Schatzer fur den Erwartungswert von X . Ein wichtiges Ma fur die Gute eines Schatzers ist die mittlere quadratische Abweichung, kurz MSE fur mean squared error genannt. Diese berechnet sich durch MSE := E[(U )2 ]. Wenn U erwartungstreu ist, so folgt MSE = E[(U E[U ])2 ] = Var[U ]. Denition 113 Wenn die Schatzvariable A eine kleinere mittlere quadratische Abweichung besitzt als die Schatzvariable B , so sagt man, dass A ezienter ist als B . Eine Schatzvariable heit konsistent im quadratischen Mittel, wenn MSE ! 0 fur n ! 1 gilt. Hierbei bezeichne n den Umfang der Stichprobe. DWT c Susanne Albers 2 Schatzvariablen 306/460 Fur X erhalten wir wegen der Unabhangigkeit von X1 ; : : : ; Xn " n 1X MSE = Var[X ] = Var Xi n = n12 DWT c Susanne Albers n X i=1 # i=1 Var[Xi ] = n1 Var[X ]: 2 Schatzvariablen 307/460 Bei jeder Verteilung mit endlicher Varianz folgt MSE = O(1=n) und somit MSE ! 0 fur n ! 1. Der Schatzer X ist also konsistent. Aus der Konsistenz von X im quadratischen Mittel konnen wir mit Hilfe des Satzes von Chebyshev (siehe Satz 61) folgende Konsequenz ableiten. Sei " > 0 beliebig, aber fest. Dann gilt X] !0 Pr[jX j "] = Pr[jX E[X ]j "] Var[ 2 " fur n ! 1. Fur genugend groe n liegen also die Werte von X beliebig nahe am gesuchten Wert = E[X ]. Diese Eigenschaft nennt man auch schwache Konsistenz, da sie aus der Konsistenz im quadratischen Mittel folgt. DWT c Susanne Albers 2 Schatzvariablen 308/460 Als nachstes betrachten wir eine weitere von X abgeleitete Schatzvariable: S := v u u t 1 n X n 1 i=1 (Xi X )2 : Wir zeigen, dass S 2 ein erwartungstreuer Schatzer fur die Varianz von X ist. Sei := E[X ] = E[Xi ] = E[X ]. ( Xi X )2 = (Xi = (Xi + X )2 )2 + ( X )2 + 2(Xi )2 + ( Xi = ( = DWT c Susanne Albers n 2 n Xi ( X )2 )2 + ( 2 n X n j =1 X )2 2 Schatzvariablen )( ( Xi 2 )(Xj X n j 6=i X) ( Xi ) )(Xj ): 309/460 Fur je zwei unabhangige Zufallsvariablen Xi , Xj mit i 6= j gilt E[(Xi )(Xj )] = E[Xi ] E[Xj ] = (E[Xi ] ) (E[Xj ] ) = 0 0 = 0: Daraus folgt n 2 E[(Xi )2] + E[( X )2] n = n n 2 Var[Xi ] + Var[X ]: E[(Xi X )2 ] = DWT c Susanne Albers 2 Schatzvariablen 310/460 Wegen Var[Xi ] = Var[X ] und Var[X ] = n1 Var[X ] folgt nun E[(Xi X )2 ] = n 1 Var[X ]; n und somit gilt fur S 2 E[S 2 ] = 1 n X E[(Xi X )2 ] n 1 i=1 = n 1 1 n n n 1 Var[X ] = Var[X ]: S 2 ist also eine erwartungstreue Schatzvariable fur die Varianz von X . DWT c Susanne Albers 2 Schatzvariablen 311/460 Die vorangegangene Rechnung erklart, warum man als Schatzer nicht n 1X (X n i=1 i ! X )2 6= S 2 verwendet, wie man vielleicht intuitiv erwarten wurde. DWT c Susanne Albers 2 Schatzvariablen 312/460 Denition 114 Die Zufallsvariablen X := n n 1X 1 X Xi und S 2 := (Xi X )2 n n 1 i=1 i=1 heien Stichprobenmittel bzw. Stichprobenvarianz der Stichprobe X1 ; : : : ; Xn . X und S 2 sind erwartungstreue Schatzer fur den Erwartungswert bzw. die Varianz. DWT c Susanne Albers 2 Schatzvariablen 313/460 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen Wir betrachten nun ein Verfahren zur Konstruktion von Schatzvariablen fur Parameter von Verteilungen. Sei X~ = (X1 ; : : : ; Xn ): Bei X1 ; : : : ; Xn handelt es sich um unabhangige Kopien der Zufallsvariablen X mit der Dichte f (x; ). Hierbei sei der gesuchte Parameter der Verteilung. Wir setzen f (x; ) = Pr[X = x]; wobei ein Parameter der Verteilung ist. Wenn wir den Parameter explizit angeben wollen, so schreiben wir dafur auch f (x; ) = Pr [X = x]. Eine Stichprobe liefert fur jede Variable Xi einen Wert xi . Diese Werte fassen wir ebenfalls zu einem Vektor ~x = (x1 ; : : : ; xn ) zusammen. DWT c Susanne Albers 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen 314/460 Der Ausdruck L(~x; ) := n Y i=1 f (xi ; ) = n Y i=1 Pr [Xi = xi ] = Pr [X1 = x1 ; : : : ; Xn = xn ] unabh. entspricht der Wahrscheinlichkeit, dass wir die Stichprobe ~x erhalten, wenn wir den Parameter mit dem Wert belegen. Wir betrachten nun eine feste Stichprobe ~x und fassen L(~x; ) somit als Funktion von auf. In diesem Fall nennen wir L die Likelihood-Funktion der Stichprobe. DWT c Susanne Albers 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen 315/460 Es erscheint sinnvoll, zu einer gegebenen Stichprobe ~x den Parameter so zu wahlen, dass L(x; ) maximal wird. Denition 115 Ein Schatzwert b fur den Parameter einer Verteilung f (x; ) heit Maximum-Likelihood-Schatzwert (ML-Schatzwert) fur eine Stichprobe ~x, wenn gilt L(~x; ) L(~x; b) fur alle : DWT c Susanne Albers 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen 316/460 Beispiel 116 Wir konstruieren mit der ML-Methode einen Schatzer fur den Parameter p der Bernoulli-Verteilung. Es gilt Prp [Xi = 1] = p und Prp [Xi = 0] = 1 p. Daraus schlieen wir, dass Prp [Xi = xi ] = pxi (1 p)1 xi , und stellen die Likelihood-Funktion n Y L(~x; p) = pxi (1 p)1 xi i=1 auf. Wir suchen als Schatzer fur p den Wert, an dem die Funktion L maximal wird. Wir erhalten n ln L(~x; p) = X i=1 (xi ln p + (1 xi ) ln(1 p)) = nx ln p + (n nx) ln(1 p): P Hierbei bezeichnet x das arithmetische Mittel n1 ni=1 xi . DWT c Susanne Albers 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen 317/460 Beispiel (Forts.) Wir nden das Maximum durch Nullsetzen der Ableitung: d ln L(~x; p) dp = npx n1 npx = 0: Diese Gleichung hat die Losung p = x. DWT c Susanne Albers 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen 318/460 Beispiel 117 Die Zufallsvariable X sei N (; 2 )-verteilt, und wir suchen Schatzvariablen fur die Parameter und . Nach Denition der Likelihood-Funktion gilt L(~x; ; 2 ) = p1 2 n n Y i=1 exp (xi )2 : 2 2 Durch Logarithmieren erhalten wir X p ln L(~x; ; 2 ) = n(ln 2 + ln ) + i=1 n DWT c Susanne Albers (xi )2 : 2 2 319/460 Beispiel 117 Fur die Nullstellen der Ableitungen ergibt sich also n @ ln L X = xi2 =! 0; @ i=1 n (xi )2 =! 0; @ ln L n X = + @ i=1 3 = x und 2 = n 1X (x n i=1 i )2 : Wir haben also durch die ML-Methode fast\ das Stichprobenmittel und die " Stichprobenvarianz erhalten. Allerdings besitzt der Schatzer fur die Varianz hier den Vorfaktor n1 statt n 1 1 . Die ML-Schatzvariable fur die Varianz ist somit nicht erwartungstreu. DWT c Susanne Albers 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen 319/460 3. Kondenzintervalle Bei der Verwendung von Schatzvariablen geht man davon aus, dass der erhaltene Schatzwert nahe\ beim gesuchten Parameter liegt. Die Schatzungen werden " besser\, je groer die betrachtete Stichprobe ist. Diese Angaben sind aus " quantitativer Sicht naturlich unbefriedigend, da nicht erkennbar ist, wie gut man sich auf den Schatzwert verlassen kann. Die Losung dieses Problems besteht darin, statt einer Schatzvariablen U zwei Schatzer U1 und U2 zu betrachten. U1 und U2 werden so gewahlt, dass Pr[U1 U2 ] 1 : Die Wahrscheinlichkeit 1 heit Kondenzniveau und kann dem Sicherheitsbedurfnis\ angepasst werden. " DWT c Susanne Albers 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen 320/460 Wenn wir fur eine konkrete Stichprobe die Schatzer U1 und U2 berechnen und davon ausgehen, dass 2 [U1 ; U2 ] ist, so ziehen wir hochstens mit Wahrscheinlichkeit einen falschen Schluss. [U1 ; U2 ] heit Kondenzintervall. In vielen Fallen verwendet man nur eine Schatzvariable U und konstruiert mittels U1 := U und U2 := U + ein symmetrisches Kondenzintervall [U ; U + ]. DWT c Susanne Albers 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen 321/460 Sei X eine N (; 2 )-verteilte Zufallsvariable, und seien X1 ; : : : ; Xn n zugehorige Stichprobenvariablen. Gema der Additivitat der Normalverteilung (siehe Satz 106) ist 2 das Stichprobenmittel X ebenfalls normalverteilt mit X N (; n ). Wir suchen fur X ein symmetrisches Kondenzintervall. Nach Satz 93 ist standardnormalverteilt. DWT c Susanne Albers p X Z := n 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen 322/460 Fur Z betrachten wir das Kondenzintervall [ c; c] fur ein geeignetes c > 0 und setzen Pr[ c Z c] =! 1 : Auosen nach ergibt Pr X pcn X + pcn =! 1 : Das gesuchte Kondenzintervall lautet also K = [X DWT c Susanne Albers pcn ; X + pcn ] : 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen 323/460 Den Parameter c wahlen wir wie folgt: Pr[ c Z c] = (c) ( c) =! 1 : Wegen der Symmetrie von gilt ( x) = 1 (x) und wir erhalten (c) ( c) = 2 (c) 1 =! 1 () (c) = 1 2 ; also DWT c Susanne Albers c= 1 1 2 : 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen 324/460 Denition 118 X sei eine stetige Zufallsvariable mit Verteilung FX . Eine Zahl x mit FX (x ) = heit -Quantil von X bzw. der Verteilung FX . Denition 119 Fur die Standardnormalverteilung bezeichnet z das -Quantil. DWT c Susanne Albers 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen 325/460 Damit konnen wir das gesuchte Kondenzintervall angeben durch K= X DWT c Susanne Albers z(1 2 ) z(1 2 ) pn ; X + pn : 3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen 326/460 4. Testen von Hypothesen 4.1 Einfuhrung Bislang haben wir versucht, Parameter von Verteilungen zu schatzen. In der Praxis ist man jedoch oft an der eigentlichen Kenntnis dieser Parameter gar nicht interessiert, sondern man mochte gewisse, damit zusammenhangende Behauptungen uberprufen. Im Folgenden stellen wir die Bestandteile eines statistischen Tests anhand eines abstrakten Beispiels vor. Wir betrachten dazu eine Zufallsvariable X mit Pr[X = 1] = p und Pr[X = 0] = 1 p. Durch einen Test soll uberpruft werden, ob p < 1=3 oder p 1=3 gilt. DWT c Susanne Albers 4.1 Einfuhrung 327/460 Denition eines Tests Wir betrachten eine Stichprobe von n unabhangigen Stichprobenvariablen X1 ; : : : ; Xn , die dieselbe Verteilung wie die Zufallsvariable X besitzen. Zu einem zugehorigen Stichprobenvektor ~x mussen wir nun die Frage beantworten, ob wir fur diesen Versuchsausgang die Hypothese p 1=3\ annehmen oder ablehnen. " Sei K := f~x 2 Rn ; ~x fuhrt zur Ablehnung der Hypotheseg: K nennen wir den Ablehnungsbereich oder den kritischen Bereich des Tests. DWT c Susanne Albers 4.1 Einfuhrung 328/460 Gewohnlich wird K konstruiert, indem man die Zufallsvariablen X1 ; : : : ; Xn zu einer neuen Variablen T , der so genannten Testgroe, zusammenfasst. Dann unterteilt man den Wertebereich R von T in mehrere Bereiche, die entweder zur Ablehnung der Hypothese fuhren sollen oder nicht. Dabei betrachtet man meist ein einzelnes halboenes oder abgeschlossenes Intervall und spricht dann von einem einseitigen bzw. von einem zweiseitigen Test. e R enthalte die Werte von T , die zur Ablehnung der Hypothese f Die Menge K uhren sollen. Da wir Tests immer uber eine Testgroe denieren, werden wir der Einfachheit e als Ablehnungsbereich bezeichnen. K e R entspricht direkt dem halber auch K 1 n e Ablehnungbereich K = T (K ) R , wie wir ihn oben festgelegt haben. DWT c Susanne Albers 4.1 Einfuhrung 329/460