Teil A Wahrscheinlichkeitsrechnung 1 Wahrscheinlichkeitsraum und

Werbung
Statistik 1, WiSe 08/09, Martus
Teil A
Wahrscheinlichkeitsrechnung
1 Wahrscheinlichkeitsraum und Wahrscheinlichkeitsverteilung
Dieses Kapitel behandelt die grundlegenden Begriffe der Wahrscheinlichkeitsrechnung,
elementare Beispiele sowie die Berechnung von Wahrscheinlichkeiten mit kombinatorischen
Methoden. Ergänzende Informationen finden Sie in Kapitel 1, Abschnitt 1.1 bis 1.4 im Buch
von Bosch.
1.1 Vorbemerkung (Wahrscheinlichkeitsrechnung und Statistik)
Die Wahrscheinlichkeitsrechnung erlaubt es, Phänomene zu beschreiben, die durch den Zufall
gesteuert sind. Der zugrunde liegende Zufallsmechanismus wird dabei als bekannt
vorausgesetzt. In der Statistik versucht man dagegen, aufgrund von Beobachtungen auf den
zugrunde liegenden Zufallsmechanismus zurückzuschließen.
1.2 Beispiel (Einmaliger Münzwurf)
Eine unverfälschte Münze wird einmal geworfen. Die Wahrscheinlichkeit für „Kopf“ oder
„Zahl“ liegt bei jeweils 1/2. Wenn die Münze verfälscht ist, schreiben wir allgemein P(Kopf)
= p, P(Zahl) = 1-p.
1.3 Beispiel (Einmaliges Würfeln)
Ein unverfälschter Würfel wird einmal geworfen. Die Wahrscheinlichkeit für jede Augenzahl
von 1 bis 6 ist dann jeweils 1/6. Wenn der Würfel verfälscht ist, wird der Zufallsmechanismus
durch 5 Wahrscheinlichkeiten P(1), P(2), ..., P(5) festgelegt, die sechste ergibt sich durch die
Bedingung P(1) + P(2) + ... + P(6) = 1.
1.4 Beispiel (Zweimaliges Würfeln)
Ein unverfälschter Würfel wird zweimal geworfen. Die möglichen Versuchsergebnisse sind
also die 36 Paare (1,1), (1,2), ..., (6,6). Die Wahrscheinlichkeit P(i,j) ist für festes i,j = 1/36 (i,j
= 1,...,6). Wenn die Reihenfolge egal ist, gibt es 21 mögliche Ausgänge. Diese sind nicht
gleich wahrscheinlich: P(i,i) = 1/36 und P(i,j) = 1/18 für i ≠ j.
1.5 Definition (Zufallsexperiment, endlicher Wahrscheinlichkeitsraum und -verteilung)
Ein Experiment, bei dem man den Ausgang vorher nicht festlegen kann wird als
Zufallsexperiment bezeichnet. Münzwurf und Würfeln sind also Zufallsexperimente. Das
mathematische Objekt, mit dem Zufallsexperimente beschrieben werden ist der
Wahrscheinlichkeitsraum.
1
Statistik 1, WiSe 08/09, Martus
Eine endliche Menge Ω = {ω1, ω2,... ωm} zusammen mit einer Funktion P, für die gilt
P(ωi) ≥ 0 für i = 1,...,m
und
∑
P(ω i ) = 1
m
i =1
bezeichnen wir als endlichen Wahrscheinlichkeitsraum.
Einelementige Teilmengen von Ω heißen Elementarereignisse, beliebige Teilmengen heißen
Ereignisse. Die Funktion P heißt Wahrscheinlichkeitsverteilung.
Die Funktion P wird für beliebige Ereignisse A durch die Definition
P ( A) =
∑ω
∈A
P (ω )
auf die Potenzmenge von Ω fortgesetzt. Für die leere Menge setzen wir P(∅) = 0.
Manchmal bezeichnet man nicht nur das Paar (Ω,P) sondern die Komponente Ω alleine als
Wahrscheinlichkeitsraum. Wir werden immer vom Raum Ω und vom
Wahrscheinlichkeitsraum (Ω,P) sprechen.
Die Zuordnung eines Wahrscheinlichkeitsraums zu einem Zufallsexperiment wird als
Modellierung bezeichnet.
1.6 Definition (Laplaceraum)
Ein endlicher Wahrscheinlichkeitsraum Ω = {ω1, ω2,... ωm} mit
P(ωi) = 1/m
für i = 1,...,m
heißt Laplaceraum. Bei bekanntem m können die Wahrscheinlichkeiten direkt angegeben
werden (einmaliger Münzwurf, einmaliges Würfeln). Bei komplizierterem Ω kann m in
vielen Fällen mit kombinatorischen Methoden berechnet werden.
1.7 Beispiel (Lotto ohne Zusatzzahl, sechs richtige)
Beim Zahlenlotto werden aus einer Urne mit 49 Kugeln sechs Kugeln ohne Zurücklegen
gezogen. Die Wahrscheinlichkeit für sechs richtige ergibt sich als
1
⎛ 49 ⎞
⎜ ⎟
⎝6⎠
wobei allgemein
2
Statistik 1, WiSe 08/09, Martus
⎛n⎞
n!
⎜ ⎟=
⎝ k ⎠ k!( n − k )!
und n! = n•(n-1) •...•2•1 definiert wird.
1.8 Übungsaufgabe (Lotto ohne Zusatzzahl, drei richtige)
Berechnen Sie die Wahrscheinlichkeit, genau drei richtige zu ziehen (Formel und
Implementierung in R).
1.9 Anwendungsbeispiel (Mendelgesetze)
Ein Gen hat nur die Allele A und a, A ist dominant. In einem Kreuzungsexperiment werden
Individuen mit Genotyp (A,A) und Genotyp (a,a) gekreuzt. In der ersten (F1-) Generation
werden nur Nachkommen mit Genotyp (A,a) entstehen. Diese haben alle Phänotyp A. Werden
die Individuen der F1-Generation miteinander gekreuzt entsteht die F2-Generation.
1.10 Übungsaufgabe (Häufigkeiten in der F2-Generation)
Bestimmen Sie die Wahrscheinlichkeit, dass ein zufällig aus der F2-Generation ausgewähltes
Individuum Phänotyp a besitzt.
1.11 Übungsaufgabe (Hardy Weinberg Gesetz)
Ein Gen kommt in einer Population mit zwei Allelen, A und a, mit den relativen Häufigkeiten
p und q:=1-p vor. Mit welchen Häufigkeiten treten bei zufälliger Durchmischung die
Genotypen AA, Aa, aa auf?
1.12 Hinweis (Unendliche Wahrscheinlichkeitsräume)
Wahrscheinlichkeiten lassen sich auch für Wahrscheinlichkeitsräume mit unendlich vielen
Elementarereignissen definieren. Beispiele wären Wahrscheinlichkeiten für Anzahlen (z.B.
Zahl der Lebewesen einer Population) oder Messwerte (Intensitätsmessungen bei
Genexpressionsanalysen), die zumindest theoretisch unendlich viele Werte annehmen können.
Man unterscheidet zwischen abzählbar und überabzählbar unendlichen Mengen:
Für abzählbares Ω lässt sich 1.5 direkt übertragen. Für alle Teilmengen von Ω lässt sich P(A)
durch Aufsummieren berechnen (ggf. als unendliche Reihe).
Für überabzählbares Ω gibt es im allgemeinen drei Abweichungen zur Definition 1.5:
(1)
(2)
(3)
Es existieren Teilmengen, denen man keine Wahrscheinlichkeiten zuordnen kann
Die Einzelwahrscheinlichkeiten P(ω) sind gleich null
Die Wahrscheinlichkeiten für Teilmengen werden durch Integrale berechnet.
3
Statistik 1, WiSe 08/09, Martus
1.13 Beispiel (Gleichverteilung von Zufallszahlen)
Zumindest theoretisch kann man durch ein Zufallsexperiment eine Zahl aus dem Intervall
[0,1] so auswählen, dass jedes Intervall der Länge d (0 ≤ d ≤ 1) die Wahrscheinlichkeit d
erhält. Offenbar hat jede einzelne Zahl die Wahrscheinlichkeit 0. Die Menge aller rationalen
Zahlen hat unendlich viele Elemente aber Wahrscheinlichkeit 0.
1.14* Ausblick (Spezielle Teilmengen von [0,1])
Es gibt überabzählbare Mengen mit Wahrscheinlichkeit 0 (Cantor-Menge) und Mengen,
denen keine Wahrscheinlichkeit widerspruchsfrei zugeordnet werden kann (Vitali-Mengen).
Recht verständliche Darstellungen sind z.B. in Wikipedia zu finden.
1.15 Die Kolmogoroff Axiome
Allgemeine Wahrscheinlichkeitsräume kann man also nicht einfach über Elementarereignisse
definieren. Die allgemeine Definition erfolgt durch die Axiome von Kolmogoroff:
Eine Menge Ω = {ω1, ω2,.. } zusammen mit einer Funktion P, die für eine Teilmenge Α der
Potenzmenge Π von Ω definiert ist:
P(A) ≥ 0 für A ∈Α
P(Ω) = 1
für A∩B = ∅
P(A∪B) = P(A) + P(B)
Die letzte Bedingung gilt auch für Summen mit mehr als zwei Summanden, insbesondere
auch für abzählbar unendlich viele paarweise disjunkte Mengen. Aus der Summe wird dann
analog zu 1.5 eine unendliche Reihe.
Wir werden im Folgenden immer voraussetzen, dass den betrachteten Mengen A, B etc.
Wahrscheinlichkeiten zugeordnet werden können.
1.16 Direkte Folgerungen aus den Axiomen von Kolmogoroff
P(Ac) = 1-P(A)
P(∅) = 0.
A ⊆ B ⇒ P(A) ≤ P(B)
P(B\A) = P(B) - P(A ∩ B)
(Ac bezeichnet das Komplement von A in Ω)
(B\A umfasst alle Elemente von B, die nicht in A liegen)
Literatur für dieses Kapitel
Bosch, Karl. Elementare Einführung in die Wahrscheinlichkeitsrechnung, Vieweg Verlag,
9.Auflage 2006. (19.90 €).
4
Statistik 1, WiSe 08/09, Martus
2. Unabhängigkeit, Bedingte Wahrscheinlichkeit und die Bayes-Formel
Dieses Kapitel behandelt die Begriffe der Unabhängigkeit von Ereignissen und der bedingten
Wahrscheinlichkeit. Zwei Zufallsexperimente sind unabhängig, wenn das Ergebnis des einen
Experiments keine Prognose für das Ergebnis des zweiten Experiments erlaubt. Zwei
Ereignisse desselben Zufallsexperiments sind unabhängig, wenn das Auftreten des einen
Ereignisses keinen Rückschluss darauf zulässt, ob das andere Ereignis aufgetreten ist. Wenn
es aber Abhängigkeiten zwischen Zufallsexperimenten oder Ereignissen gibt, können diese
durch bedingte Wahrscheinlichkeiten quantifiziert werden. Die Bayes Formel erlaubt das
Vertauschen des zuerst eingetretenen und des prognostizierten Ereignisses. Ein wichtiges
Anwendungsbeispiel ist die Bewertung diagnostischer Tests.
Ergänzende Informationen finden Sie in Kapitel 1, Abschnitt 1.8 sowie im Buch von Harms ,
Kapitel 3, Abschnitt 3.4.
2.1 Definition (Unabhängigkeit von Ereignissen)
Zwei Ereignisse A und B heißen unabhängig, wenn gilt
P(A∩B) = P(A)•P(B)
2.2 Beispiel (zweifaches Würfeln)
Beim zweifachen Würfeln bezeichne A ein Ereignis, das nur den ersten Wurf betrifft (z.B.
Augenzahl des ersten Wurfs = 6) und B ein Ereignis, das nur den zweiten Wurf betrifft (z.B.
Augenzahl des zweiten Wurfs = 6). Offenbar gilt für unverfälschte Würfel P(A) = 1/6, P(B) =
1/6 und P(A∩B) = 1/36.
2.3* Ausblick (Produkträume)
Formal ist der in der Einleitung zu Kapitel 2 beschriebene Unterschied zwischen Ereignissen
desselben oder unterschiedlicher Zufallsexperimente irrelevant. Man kann zwei
Zufallsexperimente mit Räumen Ω1 und Ω2 als ein Experiment mit Raum Ω1 X Ω2
(kartesisches Produkt) auffassen. Man legt zunächst fest:
P(A X Ω2) • P(Ω1 X B) = P(A) • P(B)
(Die ersten beiden Symbole P beziehen sich auf die neue Wahrscheinlichkeitsverteilung in
Ω1 X Ω2 , das dritte auf die Verteilung in Ω1 und das vierte auf die Verteilung in Ω2)
Mit dieser Festlegung kennt man noch nicht die Wahrscheinlichkeiten der Mengen A X B für
beliebiges A und B. Wenn man diese aber kennt, kann man die Wahrscheinlichkeiten für
beliebige Mengen herleiten. Wenn immer gilt
P(A X B) = P(A X Ω2) • P(Ω1 X B) (= P(A) • P(B))
sind die beiden Experimente unabhängig.
5
Statistik 1, WiSe 08/09, Martus
2.4 Definition (Bedingte Wahrscheinlichkeit)
Für zwei Ereignisse A und B mit P(B) > 0 heißt
P( A | B) =
P( A ∩ B )
P( B)
die bedingte Wahrscheinlichkeit von A unter der Bedingung B und wird mit P(A|B)
bezeichnet. Man sagt auch kurz P von A unter der Bedingung B. Für P(B) = 0 definiert man
i.a. keine bedingten Wahrscheinlichkeiten.
2.5 Direkte Folgerungen aus der Definition der Unabhängigkeit
Die leere Menge und Ω sind von allen Ereignissen unabhängig.
Mit A und B sind auch die Paare (A,Bc), (Ac,B) und (Ac,Bc) unabhängig.
Zwei Ereignisse sind genau dann unabhängig, wenn P(A|B) = P(A)
Die letzte Folgerung rechtfertigt die mathematische Definition der Unabhängigkeit inhaltlich.
Die Äquivalenz gilt natürlich nur für P(B) > 0, da sonst P(A|B) nicht definiert ist.
2.6 Beispiel (Würfeln)
Die Ereignisse „gerade Augenzahl“ und „Augenzahl unter 3“ sind unabhängig. Die Ereignisse
„gerade Augenzahl“ und „Augenzahl unter 4“ sind dagegen abhängig.
2.7 Satz (Totale Wahrscheinlichkeit)
Stellt man die Definition der bedingten Wahrscheinlichkeit um, erhält man
P(A∩B) = P(A|B)•P(B).
Zusammen mit
P(A) = P(A∩B) + P(A∩Bc)
ergibt sich der Satz von der Totalen Wahrscheinlichkeit
P(A) = P(A∩B) + P(A∩Bc) = P(A|B)•P(B) + P(A|Bc)•P(Bc).
6
Statistik 1, WiSe 08/09, Martus
2.8 Satz (Bayes Formel)
Durch Einsetzen in die Formel der bedingten Wahrscheinlichkeit erhält man die berühmte
Formel von Bayes:
P (B | A) =
P ( A | B) • P ( B)
(
) ( )
P ( A | B ) • P ( B ) + P A | Bc • P Bc
Diese Formel erlaubt es sozusagen, die Denkrichtung umzukehren:
Aus den bedingten Wahrscheinlichkeiten B → A lassen sich die bedingten
Wahrscheinlichkeiten A → B berechnen. Allerdings muss man hierfür die unbedingte
Wahrscheinlichkeit P(B) kennen (P(Bc) = 1-P(B)).
2.9* Ausblick (allgemeine Form der Formel von Bayes)
Die Verallgemeinerung von 2.7 und 2.8 auf sog. Partitionen, also Systeme paarweise
disjunkter Mengen B1, B2, ..., Bm mit Ω = B1 ∪ B2 ∪ ... ∪ Bm erfolgt ganz analog.
2.10 Anwendungsbeispiel (Diagnostische Tests in der Medizin)
Für dieses wichtige Beispiel gehen wir von folgender Situation aus: In einer Gruppe von n
Personen konnte aufgrund aufwändiger Diagnostik festgestellt werden, wer krank (Ereignis
D+) und wer gesund war (Ereignis D-). Das D steht für die (wahre) Diagnose. Ein neues
Testverfahren lieferte ebenfalls nur zwei Ergebnisse, K und G für krank und gesund (Ereignis
T+ und T-). Insgesamt wurden die folgenden Häufigkeiten beobachtet:
K
Testergebnis
G
Gesamt
Wahrer Zustand laut Enddiagnose
K
G
Gesamt
T+
T+ ∩ D+
T+ ∩ DTest positiv
falsch positiv
richtig positiv
TT- ∩ DT- ∩ D+
Test negativ
richtig negativ
falsch negativ
D+
DΩ
krank
gesund
Die Bezeichnungen „richtig positiv“ etc. entsprechen den in der Medizin üblichen
Konventionen.
2.11* Ausblick („Modellierung“)
In dieser Studie wird ein Wahrscheinlichkeitsraum modelliert, indem die relativen
Häufigkeiten gleich den Wahrscheinlichkeiten des Raums Ω gesetzt werden. Man könnte also
sagen, die „Elementarereignisse“ sind die einzelnen Personen, die Ereignisse sind Mengen
von Personen. Man könnte aber auch abstrakt sagen, dass ein Wahrscheinlichkeitsraum
betrachtet wird, der durch Schnitte und Vereinigungen aus den Erzeugenden Mengen D+, D-,
T+, T- durch beliebige Schnitt und Vereinigungsoperationen erzeugt wird.
7
Statistik 1, WiSe 08/09, Martus
2.13 Fortsetzung des Anwendungsbeispiels 2.10 (Diagnostische Tests in der Medizin)
Die Güte eines diagnostischen Tests lässt sich anhand der bedingten Wahrscheinlichkeiten
P(D...|T...) und P(T...|D...) bemessen. Ein Test ist gut, wenn für viele Personen Diagnose und
Test übereinstimmen.
Die folgenden Bezeichnungen sind üblich:
P(TK|DK) := Sensitivität des Tests
P(TG|DG) := Spezifität des Tests
P(DK|TK) := Positiver Prädiktiver Wert des Tests
P(DG|TG) := Negativer Prädiktiver Wert des Tests
Eine weitere Bezeichnung ist in der Medizin „allgegenwärtig“:
P(DK)
:= Prävalenz
2.14 Übungsaufgabe (Bayessche Formel)
Zeigen Sie mit Hilfe der Bayes Formel wie man aus Sensitivität, Spezifität und Prävalenz den
positiven und negativen prädiktiven Wert berechnen kann.
2.15 Übungsaufgabe
Gehen Sie davon aus, dass ein diagnostischer Test eine Sensitivität von 90% und eine
Spezifität von 80% aufweist. Berechnen Sie nun mit Hilfe der Bayes Formel für Prävalenzen
0.5, 0.1, 0.01 und 0.001 jeweils den Positiven Prädiktiven Wert.
Literatur für dieses Kapitel
Bosch, Karl. Elementare Einführung in die Wahrscheinlichkeitsrechnung, Vieweg Verlag,
9.Auflage 2006. (19.90 €).
Harms, Volker. Biomathematik, Statistik und Dokumentation. Harms Verlag, 6. Auflage
1992. (ca. 20 €).
8
Statistik 1, WiSe 08/09, Martus
3 Diskrete und Stetige Wahrscheinlichkeitsverteilungen
Dieses Kapitel behandelt drei wichtige Beispiele diskreter Wahrscheinlichkeitsverteilungen,
also solcher Verteilungen, die auf endlich oder abzählbar unendlichen Räumen definiert sind
und zwei Beispiele stetiger Verteilungen. Diskrete Wahrscheinlichkeitsverteilungen lassen
sich - im Gegensatz zu stetigen Verteilungen - vollständig durch die Wahrscheinlichkeiten
der Elementarereignisse beschreiben. Ergänzende Informationen finden Sie in Kapitel 1.7,
Abschnitt 1.7.1, 1.7.3, im Kapitel 2.4, Abschnitt 2.4.1 sowie im Kapitel 5, Abschnitt 2.5.1 und
2.5.2 im Buch von Bosch.
3.1. Anwendungsbeispiel (klinische Studie)
In einer klinischen Studie wird ein Medikament an n Patienten überprüft. Die
Heilungswahrscheinlichkeit für jeden Patienten beträgt p. Man interessiert sich für die
Wahrscheinlichkeit, dass genau k Patienten (0 ≤ k ≤ n) geheilt werden.
Lösung:
Die gesuchte Wahrscheinlichkeit wird mit b(n,p,k) abgekürzt und lautet
⎛n⎞
n −k
b( n, p, k ) := ⎜⎜ ⎟⎟ ⋅ p k ⋅ (1 − p ) .
⎝k ⎠
Der Binomialkoeffizient ist definiert als
⎛n⎞
⎜⎜ ⎟⎟ :=
⎝k ⎠
n!
.
k ! ⋅ (n − k ) !
Wenn Sie sich dafür interessieren, wie Medikamentenstudien wirklich ablaufen, können Sie
das im Buch „Methodik klinischer Studien“ von M. Schumacher und G.Schulgen nachlesen
(Springer Verlag 2. Auflage 2007, ca. 30 Euro).
3.2 Definition (Binomialverteilung)
Die Wahrscheinlichkeitsverteilung b(n,p,k) heißt Binomialwahrscheinlichkeit. Der zugehörige
Raum ist Ω = {0, 1,2,...,n}. Die Binomialverteilung beschreibt die Wahrscheinlichkeit dafür,
k Treffer zu erzielen, wenn ein Zufallsexperiment n mal unabhängig wiederholt wird, das
Ergebnis jeweils Treffer oder Niete ist und die Wahrscheinlichkeit für einen Treffer bei jeder
Wiederholung identisch gleich p ist.
Die Formel für b(n,p,k) lässt sich in zwei Schritten herleiten:
Die Wahrscheinlichkeit, dass die ersten k Versuche Treffer sind und die restlichen n-k
Versuche Nieten ist aufgrund der Unabhängigkeit der Wiederholungen
p k ⋅ (1 − p )
n −k
.
9
Statistik 1, WiSe 08/09, Martus
Die Anzahl der Möglichkeiten, die k Treffer auf die n Versuche zu verteilen ist
⎛n⎞
⎜ ⎟.
⎝k⎠
3.3 Übungsaufgabe (Lösung mit R)
In einer Studie werden 15 Patienten behandelt. Wie groß ist die Wahrscheinlichkeit, dass
mindestens 11 Patienten geheilt werden, obwohl die Heilungswahrscheinlichkeit für jeden
Patienten nur 0.5 beträgt? Berechnen Sie auch die Wahrscheinlichkeit für mindestens 12
Heilungen.
In einer anderen Studie werden 150 Patienten behandelt. Wie groß ist die Wahrscheinlichkeit,
dass mindestens 110 Patienten geheilt werden, obwohl die Heilungswahrscheinlichkeit für
jeden Patienten nur 0.5 beträgt? Berechnen Sie auch die Wahrscheinlichkeit für mindestens
120 Heilungen.
3.4* Zum Weiterdenken:
In einer Studie mit einem neuen Medikament werden von 15 Patienten 11 geheilt. Es ist
bekannt, dass das herkömmliche Medikament 50% aller Patienten heilt. Sollte man aus dieser
Studie ableiten, dass das neue Medikament besser ist?
Zwei konkurrierende Pharmafirmen A und B entwickeln jeweils neue, etwa gleich teure
Medikamente, Aventix und Boehrix. Das herkömmliche Medikament Cibix ist billiger und
hat bekanntermaßen eine Heilungswahrscheinlichkeit von 50%. In einer Studie mit 15
Patienten werden von Aventix 12 geheilt. In einer anderen Studie werden von 150 Patienten
110 mit Boehrix geheilt. Eine Krankenkasse will nur eines der beiden Medikamente
finanzieren. Welches der beiden Medikamente sollte von der Kasse bezahlt werden?
3.5 Anwendungsbeispiel (DNA-Sequenzanalyse, vgl. Ewens und Grant, 2005)
Bei der DNA-Sequenzanalyse betrachtet man sogenannte Anker, kurze DNA-Sequenzen, die
im Genom eindeutig sind und deren Positionen bekannt sind. DNA-Fragmente, die Anker
enthalten, sind somit im Genom lokalisierbar.
In einer einfachen Modellierung geht man von folgenden Annahmen aus:
Die Anzahl von Ankern in einer DNA-Sequenz ist an jeder Stelle des Genoms
proportional zur Länge L dieser Sequenz mit identischem Proportionalitätsfaktor.
Beim Durchlaufen der Sequenz ist das Neuauftreten eines Ankers unabhängig davon,
wieviele Anker bereits aufgetreten sind.
Wie groß ist die Wahrscheinlichkeit für das Auftreten von k Ankern in einer Sequenz der
Länge L?
Lösung: Die Zahl der Anker ist angenähert Poisson-verteilt
10
Statistik 1, WiSe 08/09, Martus
3.6 Definition (Poissonverteilung)
Eine Wahrscheinlichkeitsverteilung auf dem abzählbar unendlichen Raum Ω = {0,1,2,3,...}
(natürliche Zahlen einschließlich 0) heißt Poissonverteilung mit Parameter λ, wenn für jedes k
∈ Ω die Wahrscheinlichkeit
λk
p(λ, k) := e −λ ⋅
k!
beträgt.
3.6 Übungsaufgabe
Berechnen Sie für beliebiges λ
p(λ,1) / p(λ, 0)
und allgemein
p(λ, k) / p(λ, k − 1)
Geben Sie Bedingungen dafür an, dass p(λ,k) genau ein oder genau zwei Maxima hat.
3.7 Geometrische Verteilung
Ein Zufallsexperiment mit den beiden möglichen Ausgängen „Treffer“ oder „Niete“ wird
unter identischen Bedingungen solange wiederholt, bis der erste Treffer beobachtet wird. Die
Wahrscheinlichkeit für einen Treffer betrage wieder p.
Das zugehörige Ω ist die Menge {1,2,3,...} (natürliche Zahlen ohne 0). Die
Wahrscheinlichkeit nach genau k Versuchen zum Erfolg zu kommen beträgt
g(k) = (1 − p )
k −1
p.
(k=1,2,...)
Begründung:
Dem Treffer in Versuch k müssen k-1 Nieten vorausgehen. Die Wiederholungen sind
unabhängig, jede Niete hat Wahrscheinlichkeit 1-p, der Treffer Wahrscheinlichkeit p.
3.8 Beispiel (Gleichverteilung)
Das Beispiel 1.13 kann verallgemeinert werden zum Zufallsexperiment „zufällige Auswahl
einer Zahl im Intervall [a,b]“. Man spricht von Gleichverteilung, wenn gleichlange
Teilintervalle von [a,b] gleiche Wahrscheinlichkeiten erhalten. Für ein Intervall [c,d] ⊆ [a,b]
gilt dann offenbar
P ([ c, d ]) =
d−c
.
b−a
11
Statistik 1, WiSe 08/09, Martus
Diese Wahrscheinlichkeit lässt sich geometrisch veranschaulichen:
Wir definieren f(x) = 1/(b-a) für x ∈ [a,b] und f(x) = 0 sonst. Dann ist die Fläche des
Rechtecks, das durch f definiert wird, gleich eins und die Wahrscheinlichkeiten der
Teilintervalle sind die Teilflächen über diesen Intervallen.
Wir bezeichnen die Intervalllänge d-c mit Δx und erhalten:
P ([ c, d ]) =
1
• ( d − c ) = f (x) • ( d − c ) = f (x)Δx
b−a
Diese Gleichung lässt sich auch als Integral schreiben
P ([ c, d ]) = ∫ f ( x ) dx
d
c
Diese Definition „funktioniert“ auch, wenn [c,d] nicht oder nicht vollständig in [a,b] enthalten
ist, weil f für alle reellen Zahlen definiert wurde.
3.9 Definition (Dichtefunktion stetiger Wahrscheinlichkeitsverteilungen)
Für eine Wahrscheinlichkeitsverteilung P auf Ω = ℜ mit
P ([ c, d ]) = ∫ f ( x ) dx
d
c
für alle c ≤ d heißt f die Dichtefunktion von P. Es gilt dann notwendigerweise
∫
+∞
−∞
f ( x ) dx = 1
Umgekehrt erhält man aus jeder nichtnegativen Funktion mit Gesamtintegral = 1 eine stetige
Wahrscheinlichkeit durch Gleichung 3.9-1. Durch Normierung erhält man für jede
nichtnegative Funktion f mit Gesamtintegral = S < ∞ eine Wahrscheinlichkeitsverteilung mit
Dichtefunktion f/S.
3.10 Normalverteilung
Die wichtigste Wahrscheinlichkeitsverteilung ist zweifellos die (Standard-) Normalverteilung.
Ihre Dichtefunktion lautet
2
1 − x2
f (x) =
e
2π
*
Diese Funktion heißt auch Glockenkurve.
12
Statistik 1, WiSe 08/09, Martus
3.11 Definition (Verteilungsfunktion)
Sowohl bei diskreten als auch bei stetigen Wahrscheinlichkeitsverteilungen interessiert man
sich besonders für die Wahrscheinlichkeiten P(]-∞,C]) und bezeichnet diese mit F(C). Die
Funktion F, die wiederum auf ganz ℜ definiert ist, heißt Verteilungsfunktion der betreffenden
Wahrscheinlichkeitsverteilung.
Für diskrete Wahrscheinlichkeitsverteilungen auf Räumen Ω = {ω1, ω2, ... } erhält man
F ( C ) = ∑ ω≤C P ( ω)
für kontinuierliche Wahrscheinlichkeiten mit Dichtefunktionen f erhält man
C
F ( C ) = ∫ f ( x )dx
−∞
In Übungsaufgabe 3.3 sollen für Binomialverteilungen Wahrscheinlichkeiten der Form 1-F(C)
berechnet werden.
3.12 Übungsaufgabe
Geben Sie für a < b die Verteilungsfunktion der Gleichverteilung auf dem Intervall [a,b] an.
3.13 Hinweise*
Die Verteilungsfunktion der Normalverteilung lässt sich nicht explizit berechnen, ist aber
tabelliert in Büchern und als Funktion in Statistikprogrammen abrufbar.
Für alle Wahrscheinlichkeitsverteilungen auf den reellen Zahlen lässt sich eine
Verteilungsfunktion angeben, aber nicht für alle stetigen Verteilungen eine Dichtefunktion. In
Anwendungen spielen aber nur stetige Verteilungen mit Dichtefunktion eine Rolle.
3.14 Übungsaufgabe
Berechnen Sie mit Hilfe von R für die Standard-Normalverteilung die Wahrscheinlichkeiten
der Intervalle
]-∞,1], ]-2, ∞] und [-2,2].
Literatur für dieses Kapitel
Bosch, Karl. Elementare Einführung in die Wahrscheinlichkeitsrechnung, Vieweg Verlag,
9.Auflage 2006. (19.90 €).
13
Statistik 1, WiSe 08/09, Martus
4. Zufallsvariablen, Erwartungswert und Varianz
Dieses Kapitel führt als letzten Grundbegriff der Wahrscheinlichkeitsrechnung die Zufallsvariable ein. Zufallsvariablen sind Funktionen auf Wahrscheinlichkeitsräumen (Ω,P) mit Bildbereich ℜ. Sie definieren auf ℜ Wahrscheinlichkeitsverteilungen, die man durch die Parameter
Erwartungswert (Durchschnitt) und Varianz (Abweichung vom Durchschnitt) beschreibt.
Ergänzende Informationen finden Sie in Abschnitt 2.1, 2.2 und 2.4 im Buch von Bosch.
4.1 Definition (Zufallsvariable)*
Eine Funktion X von einem Wahrscheinlichkeitsraum (Ω,P0) in die reellen Zahlen heißt reelle
Zufallsvariable. Die Verteilung der reellen Zufallsvariable wird definiert als
(
P ([ a, b ]) = P 0 X −1 [ a, b ]
)
4.2 Beispiel
Beim zweimaligen unverfälschten Würfeln ist das kartesische Produkt {1,...,6} X {1,...,6} =
Ω und P0(i,j) = 1/36. X sei die Augensumme der beiden Würfe. X-1(k) = {(i,j); i,j = 1,...,6; i+j
= k}. Es gilt z.B. P(2) = 1/36, P(7) = 1/6.
4.3 Hinweis
Bei stetigen Zufallsvariablen ist es egal, ob man die Intervallgrenzen zum Intervall
hinzunimmt oder nicht, das geschlossene Intervall [a,b], die halboffenen Intervalle ]a,b], [a,b[
und das offene Intervall ]a,b[ haben die gleiche Wahrscheinlichkeit. Bei diskreten Wahrscheinlichkeitsverteilungen gilt dies nicht, wenn a oder b positive Wahrscheinlichkeit haben.
4.4 Hinweise*
Es gibt auch Mischformen aus stetigen und diskreten Wahrscheinlichkeitsverteilungen bzw.
Zufallsvariablen: Im Rahmen einer onkologischen Studie wird für jeden Patienten die Zeit
von der Diagnose bis zum Tod dokumentiert. Die Studie endet nach 10 Jahren. Für die
verstorbenen Patienten ist die Zeit bis zum Tod im Prinzip eine stetige Zufallsvariable. Für die
dann noch lebenden Patienten kann lediglich das diskrete Ereignis „lebt länger als 10 Jahre“
gemessen werden.
Für stetige Zufallsvariablen kann man auch komplizierteren Mengen als den Intervallen
Wahrscheinlichkeiten zuordnen. Bezeichnet man eine derartige Menge mit A muss man
zusätzlich verlangen, dass der Menge X-1(A) in Ω überhaupt eine Wahrscheinlichkeit
zugeordnet werden kann (die Menge X-1(A) muss messbar in Ω sein).
14
Statistik 1, WiSe 08/09, Martus
4.5 Definition (Erwartungswert und Varianz)
Für eine diskrete Zufallsvariable X mit Verteilung P ist der Erwartungswert μ(X) und die
Varianz σ2(X) definiert durch (ersetze P(X(ω)) durch P0(X-1(ω)))
μ(X) :=
∑
X( ω)
X(ω) • P ( X ( ω) ) :=
∑ x • P(x)
(Summation im letzten Term nur über x - Werte mit positiver Wahrscheinlichkeit) und durch
∑ ( x − μ) P ( x )
2
σ 2 (X) :=
falls die entsprechenden Reihen konvergieren.
Für eine stetige Zufallsgröße X mit Dichtefunktion f(x) ist der Erwartungswert μ(X) und die
Varianz σ2(X) definiert durch
μ(X) :=
σ 2 (X) :=
∫
∞
−∞
t f (t)dt
∞
∫ [ t − μ(X)]
2
−∞
f (t)dt .
falls die entsprechenden Integrale existieren.
4.6 Beispiel
Aus der Funktion f(x) = 1/x (für x ≥ 1) und f(x) = 0 für x < 1 lässt sich auch durch
Normierung keine Wahrscheinlichkeitsverteilung definieren, weil
∞
∫ (1/ t ) dt = ∞ .
1
4.7 Beispiel (Erwartungswert der geometrischen Verteilung)*
Wir erhalten für die geometrische Verteilung (3.7)
μ = ∑ k =1 (1 − p )
∞
p•
(
k −1
p • k = p • ∑ k =1 (1 − p )
∞
)
k −1
∞
k
• k = p • ⎡ ∑ k =1 −∂ / ∂p (1 − p ) ⎤
⎣
⎦
=
(
)
⎡ ∂
⎤
∂
∂
1
∞
∞
k
k
− ⎡ ∑ k =1 (1 − p ) ⎤ = p •
− ⎡ ∑ k =0 (1 − p ) ⎤ = p • ⎢ −
⎥
⎦
⎦
∂p ⎣
∂p ⎣
⎢⎣ ∂p 1 − (1 − p ) ⎥⎦
=
⎡ ∂
p • ⎢−
⎣ ∂p
1⎤
1 1
= p• 2 =
⎥
p⎦
p
p
Das vierte Gleichheitszeichen ist eine Grenzwertvertauschung, die man eigentlich rechtfertigen müsste, das fünfte verwendet (1-p)0 = 1 , d.h. konstant als Funktion von p und deswegen
mit Ableitung nach p= 0, das sechste verwendet die Formel der geometrischen Reihe.
15
Statistik 1, WiSe 08/09, Martus
4.8 Übungsaufgabe
Berechnen Sie den Erwartungswert der Poissonverteilung.
4.9 Übungsaufgabe
Zeigen Sie:
Die Funktion f(x) = 1/x2 (für x ≥ 1) und f(x) = 0 für x < 1 definiert eine
Wahrscheinlichkeitsverteilung. Diese hat aber keinen Erwartungswert (und damit auch keine
Varianz).
Die Funktion f(x) = 1/x3 (für x ≥ 1) und f(x) = 0 für x < 1 lässt sich durch Normierung in eine
Dichtefunktion überführen. Diese hat zwar einen Erwartungswert, aber keine Varianz.
Die Funktion f(x) = 1/x4 (für x ≥ 1) und f(x) = 0 für x < 1 lässt sich durch Normierung in eine
Dichtefunktion überführen. Diese hat Erwartungswert und Varianz.
4.10 Satz (Erwartungswert und Varianz von Summen von Zufallsvariablen)
Seien X und Y beliebige reelle Zufallsvariable, für die Erwartungswert und Varianz existieren.
Dann gilt μ(X+Y) = μ(X) + μ(Y), μ(aX) = aμ(x) und σ2(aX) = a2σ2(X) für a beliebig aus R.
Für unabhängige X, Y gilt σ2(X+Y) = σ2(X) + σ2(Y).
Beweis:
Bis auf die letzte Aussage folgt alles direkt aus den Definitionen von Erwartungswert und
Varianz. Ein Beweis für die letzte Aussage findet sich z.B. bei Bosch, Abschnitt 2.2.6 für
diskrete Zufallsvariable und in Abschnitt 2.4.4 für stetige Zufallsvariablen.
4.11 Beispiel (Binomialverteilung)
Der Erwartungswert der Binomialverteilung b(n,p,k) ist np, die Varianz ist npq.
Dies folgt sofort aus Satz 4.10 und μ(X) = p und σ2(X) = p(1-p) für n= 1.
4.12 Beispiel (Normalverteilung)
Man kann zeigen, dass der Erwartungswert der Normalverteilung 0 und die Varianz 1 ist.
Literatur für dieses Kapitel
Bosch, Karl. Elementare Einführung in die Wahrscheinlichkeitsrechnung, Vieweg Verlag,
9.Auflage 2006. (19.90 €).
16
Statistik 1, WiSe 08/09, Martus
5 Grenzwertsätze und Standardisierung
Dieses Kapitel behandelt die wichtigsten Grenzwertsätze der Wahrscheinlichkeitsrechnung.
Diese haben einerseits theoretische Bedeutung, erlauben es aber auch, die Berechnung von
Wahrscheinlichkeiten zu vereinfachen. Ergänzende Informationen finden Sie in Kapitel 2,
Abschnitt 2.3.5 sowie in Kapitel 3, Abschnitt 3.3 im Buch von Bosch. Die mit * versehenen
Beweise dieses Abschnitts (kein Klausurstoff) finden Sie in theoretischeren Lehrbüchern wie
z.B. dem Lehrbuch von Chung.
5.1 Poissonscher Grenzwertsatz
Wir betrachten eine Folge Xn (n=1,2, ... ∞) von Zufallsgrößen, die alle nach b(n,pn,k) verteilt
sind mit konstantem Erwartungswert npn= λ für beliebiges n. Dann gilt für alle k
lim n→∞ b(n, p n , k ) = p(λ , k ).
Bemerkung:
Es genügt vorauszusetzen, dass npn→ λ für n→∞.
Beweis:*
Wir betrachten
λ
⎛n⎞ ⎛ λ ⎞ ⎛ λ ⎞
b(n, , k ) := ⎜⎜ ⎟⎟ • ⎜ ⎟ • ⎜1 − ⎟
n
⎝k ⎠ ⎝ n ⎠ ⎝ n ⎠
k
n−k
⎡⎛ λ ⎞ n − k ⎤
n − k + 1⎤
⎡ 1 ⎤ ⎡n n −1
k
= ⎢ ⎥•⎢ •
•K•
• λ • ⎢⎜1 − ⎟ ⎥.
n
n ⎥⎦
⎣ k !⎦ ⎣ n
⎣⎢⎝ n ⎠ ⎦⎥
[ ]
Die erste und die dritte Klammer haben bereits die gewünschte Form.
Die zweite Klammer geht (bei festem k) für n→∞ gegen 1, die letzte Klammer erfüllt
⎡ ⎛ λ ⎞ n − k ⎤ ⎡⎛ λ ⎞ n ⎤ ⎡⎛ λ ⎞ − k ⎤
⎢ ⎜ 1 − ⎟ ⎥ = ⎢⎜ 1 − ⎟ ⎥ • ⎢⎜ 1 − ⎟ ⎥ .
n ⎠ ⎥⎦ ⎢⎣⎝
n ⎠ ⎥⎦ ⎢⎣⎝
n ⎠ ⎥⎦
⎢⎣⎝
Die erste Klammer geht gegen e-λ, die zweite gegen 1 weil k fest ist und λ/n = pn → 0.
5.2 Diskussion des Anwendungsbeispiels 3.5
Im Beispiel zur DNA-Sequenzierung kann man sich vorstellen, dass in immer zahlreicheren
und immer kleineren Teilsequenzen des untersuchten DNA-Strangs immer nur ein oder kein
Anker auftritt. Bei Aufteilung in n gleichlange Teilsequenzen ist also die Zahl der Anker nach
b(1,pn,k) verteilt, die Gesamtzahl der Anker nach b(n,pn,k).
17
Statistik 1, WiSe 08/09, Martus
Der vorhergehende Satz rechtfertigt also die Annahme einer Poissonverteilung für die
Gesamtzahl der Anker.
Die Gesamtzahl der Anker kann natürlich nie größer als die Zahl der Basenpaare in der
untersuchten Gensequenz sein. Außerdem ist die Unabhängigkeitsannahme in 1.4 sehr
problematisch.
Dennoch eignet sich das Modell zur einfachen Beschreibung der Verteilung von
Ankerpunkten.
5.3 Definition (Standardisierung)
Es sei X eine reelle Zufallsvariable, für die μ (X) und σ2(X) existieren. Dann heißt die
Zufallsvariable Z mit
Z=
X − μ(X )
σ 2 (X )
die standardisierte Zufallsvariable für X.
Für Z gilt μ(X) = 0 und σ2 (X) = 1. Der Nenner σ 2 ( X ) heißt auch Standardabweichung oder
Streuung und wird mit σ (X) bezeichnet.
5.4 Definition (Allgemeine Normalverteilung)
Wir haben bislang nur die Standardnormalverteilung behandelt mit μ (X) = 0 und σ2(X) = 1.
Ersetzt man μ (X) durch eine beliebige Zahl führt dies zu einer Verschiebung der
Dichtefunktion (Glockenkurve) auf der x-Achse. Ersetzt man erhält man σ2(X) durch eine
beliebige positive Zahl führt dies zu einer Verbreiterung oder Verschmälerung der
Glockenkurve. Die zugehörigen kumulativen Wahrscheinlichkeiten werden nicht in Tabellen
angegeben, weil man durch Standardisierung jederzeit auf die Standardnormalverteilung
zurückrechnen kann.
5.5 Übungsaufgabe
Eine Zufallsvariable X sei normalverteilt mit Erwartungswert 1 und Varianz 4. Berechnen Sie
die Wahrscheinlichkeit dafür, dass X im Intervall von -1 bis 5 liegt. Stellen Sie dabei die
Schritte der Standardisierung detailliert da. Berechnen Sie die notwendigen kumulierten
Wahrscheinlichkeiten für die Standardnormalverteilung mithilfe von R.
5.6 Satz (de Moivre Laplace)
Es sei Xn, n→∞ eine Folge von binomial verteilten Zufallsgrößen mit festem p, also Xn ~
b(n,p,k) und es sei Zn die zugehörige Folge standardisierter Zufallsgrößen
18
Statistik 1, WiSe 08/09, Martus
Zn =
X n − np
npq
.
Dann lässt sich die Verteilung von Zn durch die Normalverteilung annähern. Damit ist
gemeint:
Für beliebige Konstanten -∞ < a < b < +∞ gilt
lim n→∞ P(a < Z n ≤ b ) =
1
2π
∫
b
a
e
− x2
2
dx
Beweisskizze*
Im ersten Schritt nähert man die Fakultäten in der Binomialverteilung
⎛n⎞ k
⎜⎜ ⎟⎟ ⋅ p ⋅ (1 − p )n −k
⎝k ⎠
mit der Stirlingschen Formel an:
⎛n⎞
n!≈ ⎜ ⎟
⎝e⎠
n
2π n .
Setzt man für die drei Fakultäten des Binomialkoeffizienten die entsprechenden Terme der
Stirlingformel ein, so erhält man
n
⎛n⎞ k
⎜⎜ ⎟⎟ ⋅ p ⋅ (1 − p )n − k ≈
k
⎝k ⎠
⎛k⎞
⎜ ⎟
⎝e⎠
⎛n⎞
⎜ ⎟ 2π n
n−k
⎝e⎠
p k ⋅ (1 − p )
n −k
⎛n−k⎞
2π k ⎜
2π (n − k )
⎟
⎝ e ⎠
und daraus durch Kürzen
n−k
k
⎛n⎞ k
n−k
⎜⎜ ⎟⎟ ⋅ p ⋅ (1 − p )
⎝k ⎠
⎛n⎞ ⎛ n ⎞
⎜ ⎟ ⎜
⎟
k⎠ ⎝n−k⎠
n−k
⎝
≈
p k ⋅ (1 − p ) .
2π n p (1 − p )
Man zeigt weiterhin, dass
k
⎛n⎞ ⎛ n ⎞
⎜ ⎟ ⎜
⎟
⎝k⎠ ⎝n−k⎠
n−k
p ⋅ (1 − p )
k
n−k
≈e
−
zk 2
2
erfüllt, wobei zk der standardisierte Wert für k ist.
Insgesamt erhalten wir also
19
Statistik 1, WiSe 08/09, Martus
k
⎛n⎞ ⎛ n ⎞
⎟
⎜ ⎟ ⎜
⎝k⎠ ⎝n−k⎠
n−k
p ⋅ (1 − p )
k
n−k
1
≈
2π n p (1 − p )
e
−
zk 2
2
Durch Aufsummieren der Wahrscheinlichkeiten aller Trefferzahlen k, für die zk im
gewünschten Intervall ]a,b] liegt, erhalten wir eine Riemannsumme, die gegen das im Satz
genannte Integral konvergiert (vgl. Chung, 1978, Seite 228-230).
Der Satz von de Moivre Laplace ist ein Spezialfall des Zentralen Grenzwertsatzes.
5.7 Satz (Zentraler Grenzwertsatz für identisch verteilte unabhängige Zufallsvariable)
Es sei X eine reelle Zufallsvariable, für die Erwartungswert und Varianz existiert, Xi (i=1,...,n)
seien identisch verteilte, unabhängige Zufallsvariable mit der Verteilung von X. Mit Sn
bezeichnen wir die Summe der Xi
S n = ∑i =1 X i
n
und mit Zn die Standardisierung von Sn, also
Zn =
S n − nμ ( X )
nσ 2 ( X )
Dann ist
lim n→∞ P(a < Z n ≤ b ) =
1
2π
∫
b
a
e
− x2
2
dx .
Beweis*: z.B. Chung, 1978, Seite 236-238.
5.8 Bemerkung*
Der Zentrale Grenzwertsatz lässt sich noch allgemeiner formulieren. Es genügt z.B., dass für
nicht identisch verteilte, aber unabhängige Zufallsvariable Xi die Erwartungswerte μ (Xi) und
Varianzen σ2(Xi) existieren und für die Varianzen σ2(Sn) der Summenvariable
S n = ∑i =1 X i
n
die folgende Summe von Integralen
2
1
n
(
)
x
−
E
(
X
PX i dx
∑
i
∫
Var (S n ) i =1 | xi − E ( X i )|≥εS n
für beliebiges ε > 0 gegen Null konvergiert (Lindeberg-Bedingung, Bauer, 1991, Seite 238245).
20
Statistik 1, WiSe 08/09, Martus
5.9 Schlussbemerkung
Der Zentrale Grenzwertsatz stellt bei vielen statistischen Anwendungen die "Rechtfertigung"
für den Gebrauch der Normalverteilung dar. So kann man aus der Formulierung in 5.7
ableiten, dass wiederholte Messungen derselben Größe am selben Individuum, wenn sie
unabhängig erfolgen, zu normalverteilten Durchschnittswerten führen (Normalverteilung der
gemittelten Messfehler).
Aus der allgemeineren Formulierung in 5.8 kann man folgern, dass die wahren (Messfehlerbereinigten) Werte von unterschiedlichen Individuen in einer Population normalverteilt sind
wenn der gesuchte Wert sich additiv aus vielen kleinen Einflüssen zusammensetzt, die
unabhängig sind und von denen keiner dominiert (Normalverteilung der „tatsächlichen“
biologischen Variabilität).
Analog kann man (aus 5.8, nicht aber aus 5.7) folgern, dass bereits die nicht gemittelten
Messfehler normalverteilt sind, wenn man davon ausgehen, dass sich diese Messfehler
ebenfalls additiv aus vielen kleinen Einflüssen zusammensetzt, die unabhängig sind und von
denen keiner dominiert (Normalverteilung der „ungewollten“ Messfehler).
Die wichtigste Konsequenz aus dem Zentralen Grenzwertsatz ist aber, dass sich ganz
allgemein Normalverteilung durch Summierung bzw. Mittelung von nicht
normalverteilten Variablen erzielen lässt.
5.10 Übungen
1. Programmieren Sie die Binomialverteilung für n =10 p = 0.4, n = 100, p = 0.04 und n =
1.000, p = 0.004 jeweils für k = 0,1,..., 10. Bestimmen Sie den Fehler der
Poissonapproximation.
2. Programmieren Sie die Binomialverteilung für p = 0.4 und n =10, 20, und n = 50. Stellen
Sie die gefundenen Wahrscheinlichkeiten in einem Stabdiagramm dar.
3. Stellen Sie die Wahrscheinlichkeiten aus 2. für die drei standardisierten Zufallsgrößen dar.
Literatur für dieses Kapitel
Bauer, Heinz. Wahrscheinlichkeitstheorie. De Gruyter, 4. Auflage 1991.*
Bosch, Karl. Elementare Einführung in die Wahrscheinlichkeitsrechnung, Vieweg Verlag,
9.Auflage 2006. (19.90 €).
Chung, K.L. Elementare Wahrscheinlichkeitstheorie und stochastische Prozesse. Springer
1978.*
(*: betrifft nur nicht Prüfungsrelevanten Stoff)
21
Statistik 1, WiSe 08/09, Martus
Teil B
Statistische Hypothesentests
Vorbemerkungen
Die Wahrscheinlichkeitsrechnung erlaubt es, Phänomene zu beschreiben, die durch den Zufall
gesteuert werden. Der zugrunde liegende Zufallsmechanismus wird als bekannt vorausgesetzt,
es werden Aussagen über die zu erwartenden Daten abgeleitet. Die Statistik kehrt diese
Schlussrichtung um. Anhand von Daten wird ein bestimmtes Wahrscheinlichkeitsmodell
konstruiert. Auf Basis dieses Modells werden dann Entscheidungen über den
zugrundeliegenden Zufallsmechanismus getroffen.
Eigentlich deckt diese Charakterisierung der Statistik nur die sog. „konfirmatorische“ (=
schließende oder Inferenz-) Statistik ab. Andere statistische Methoden behandeln lediglich die
Beschreibung - insbesondere die Visualisierung - von Daten und werden daher „deskriptive“
Statistik genannt. Diese Methoden sind für die praktische Arbeit von großer Bedeutung,
können aber hier nur am Rande behandelt werden.
Auch in der Statistik werden manchmal bestimmte Annahmen als bekannt vorausgesetzt. Man
spricht dann von Modellannahmen. Typische Modellannahmen sind z.B. die
Binomialverteilung oder Poissonverteilung für Häufigkeiten und die Normalverteilung für
Messdaten. Eine statistischen Analyse ermöglicht es beispielsweise, Entscheidungen über den
unbekannten Erwartungswert dieser Verteilungen zu treffen.
6 Statistische Hypothesentests
6.1 Vorbemerkungen
Statistische Hypothesentests stellen das wichtigste Hilfsmittel der konfirmatorischen Statistik
dar. Sie ermöglichen, Entscheidungen über wissenschaftliche Hypothesen aufgrund
empirischer Daten zu treffen. Dabei können zwar Fehlentscheidungen nicht ausgeschlossen
werden, aber deren Wahrscheinlichkeit kann begrenzt werden.
Die Anwendung statistischer Tests ist aber nicht frei von Fehlerquellen:
•
Man muss sich über die "Natur" der Fehlerwahrscheinlichkeiten im Klaren sein, wenn
man statistische Tests korrekt anwendet. Eine Hauptaufgabe des Statistikers besteht
darin, dem Anwender die korrekte Interpretation von Testergebnissen zu ermöglichen.
•
Wird die zu testende Hypothese oder die akzeptierte Fehlerwahrscheinlichkeit erst
nachträglich, nach Kenntnis aller oder eines Teils der Daten, festgelegt, bricht diese
Absicherung ganz oder teilweise zusammen.
•
Im Rahmen dieses Teils der Vorlesung wird der frequentistische Ansatz dargestellt. In
anderen Veranstaltungen wird die Bayesianische Sichtweise dargestellt.
22
Statistik 1, WiSe 08/09, Martus
6.2 Anwendungsbeispiel (Klinische Studie, vgl. 3.1-3.4)
Für ein neues Medikament soll gezeigt werden, dass die Heilungswahrscheinlichkeit π größer
als 0.5 ist. Hierfür werden n = 15 Patienten mit diesem Medikament behandelt und die
Häufigkeit k von Heilungen beobachtet.
Wie viele Patienten müssen mindestens geheilt werden, um mit einer
Fehlerwahrscheinlichkeit von α=0.05 den Nachweis von π > 0.5 zu erbringen?
Gemeint ist der Fehler, sich irrtümlich zugunsten des neuen Medikaments zu entscheiden: Die
Heilungswahrscheinlichkeit wäre dann maximal 0.5, in der Studie würden aber zufällig sehr
viele Patienten geheilt, d.h. die beobachtete relative Häufigkeit k/n wäre deutlich größer als
0.5.
Die Mindestzahl K von Heilungen, ab der der Nachweis von π > 0.5 erbracht ist, muss also so
hoch liegen, dass die Wahrscheinlichkeit für das Ereignis k ≥ K entsprechend gering, d.h.
maximal 0.05 ist.
Diese Wahrscheinlichkeit kann für beliebiges π mit Hilfe der Binomialverteilung berechnet
werden. Sie ist sicher für jede Wahl von K am größten, wenn π exakt gleich 0.5 ist. Wir
werden uns also für diesen Fall absichern und können uns darauf verlassen, dass die
Fehlerwahrscheinlichkeit nur geringer werden kann, wenn π sogar kleiner als 0.5 ist.
6.3 Beispiel (Fortsetzung)
Im folgenden Diagramm sind die Binomialwahrscheinlichkeiten b(15,0.5,k) dargestellt:
15 Patienten - H0: Heilungsrate 50%
Wahrscheinlichkeit [%]
25
98.2%
20
1.8%
15
10
5
0
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15
Anzahl geheilter Patienten
23
Statistik 1, WiSe 08/09, Martus
Unter der Annahme π = 0.5 ist die Wahrscheinlichkeit, 12 oder mehr Patienten zu heilen,
0.018. Man sieht leicht durch Nachrechnen, dass b(15,0.5,11) = 0.042 und somit b(15,0.5,k ≥
11) = 0.06 > 0.05. Man muss also mindestens 12 Patienten heilen, um π > 0.5 statistisch zu
„beweisen“.
6.4 Beispiel (Fortsetzung)
Für den Nachweis von π > 0.5 wird eine beobachtete Heilungshäufigkeit von 12/15 = 80%,
also deutlich mehr als 50%, verlangt!
Die beschriebene Studie wird natürlich mit der Absicht durchgeführt, diesen Nachweis zu
erbringen (andernfalls müsste der statistische Ansatz geändert werden!). Den Initiator der
Studie interessiert also, wie groß die Wahrscheinlichkeit für den Erfolg der Studie ist.
Diese Wahrscheinlichkeit hängt nun aber von der tatsächlichen Heilungswahrscheinlichkeit
des Medikaments ab. Die folgenden Grafiken zeigen, wie groß für unterschiedliches π die
Wahrscheinlichkeit eines Studienerfolgs (k ≥ 12) ist.
Aus den Grafiken geht klar hervor, dass die Studie eigentlich nur für π = 0.9 (oder größer)
erfolgversprechend ist.
Die Bezeichnung H0 und H1 in den Grafiken wird später erklärt.
24
Statistik 1, WiSe 08/09, Martus
15 Patienten - H1: Heilungsrate 60%
Wahrscheinlichkeit [%]
25
90.9%
20
9.1%
15
10
5
0
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15
Anzahl geheilter Patienten
15 Patienten - H1: Heilungsrate 70%
Wahrscheinlichkeit [%]
25
70.3%
20
29.7%
15
10
5
0
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15
Anzahl geheilter Patienten
25
Statistik 1, WiSe 08/09, Martus
15 Patienten - H1: Heilungsrate 80%
Wahrscheinlichkeit [%]
30
35.2%
25
64.8%
20
15
10
5
0
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15
Anzahl geheilter Patienten
15 Patienten - H1: Heilungsrate 90%
Wahrscheinlichkeit [%]
45
5.6%
40
94.4%
35
30
25
20
15
10
5
0
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15
Anzahl geheilter Patienten
26
Statistik 1, WiSe 08/09, Martus
6.5 Bemerkung
Für den Initiator der Studie ist die zweite Fehlerwahrscheinlichkeit entscheidend: Die
Wahrscheinlichkeit β dafür, dass die Studie nicht das Ziel von mindestens 12 Heilungen
erreicht, obwohl die Heilungswahrscheinlichkeit π größer als 0.5 ist.
Ist die tatsächliche Heilungswahrscheinlichkeit also z.B. π = 0.6, dann können wir aus der
entsprechenden Grafik ablesen, dass β = 1-0.091 = 0.909. Diese Studie wäre also unsinnig.
Der Ausweg besteht darin, die Zahl der Patienten zu erhöhen.
6.6 Beispiel (Fortsetzung)
Es werden n = 150 Patienten behandelt. Wegen b(150,0.5,k≥86) = 0.043 und b(150,0.5,k≥85)
> 0.05 müssen mindestens 86 Patienten geheilt werden. Aus den folgenden Grafiken kann
abgelesen werden, dass diese Studie recht erfolgversprechend ist:
150 Patienten - H0: Heilungsrate 50%
Wahrscheinlichkeit [%]
7
6
95.7%
4.3%
5
4
3
2
1
0
50 55 60 65 70 75 80 85 90 95 100 105 110 115 120
Anzahl geheilter Patienten
150 Patienten - H1: Heilungsrate 60%
Wahrscheinlickeit [%]
7
6
22.6%
77.4%
5
4
3
2
1
0
50 55 60 65 70 75 80 85 90 95 100 105 110 115 120
Anzahl geheilter Patienten
27
Statistik 1, WiSe 08/09, Martus
6.7 Algorithmus (Anwendung des Zentralen Grenzwertsatzes)
Zur Berechnung der Binomialwahrscheinlichkeiten in 6.6 benutzt man nicht die
Binomialverteilung (für die Zahl der Heilungen k) sondern die Normalverteilung der
standardisierten Zufallsgröße
Z=
X − μ (k )
σ 2 (k )
mit μ(k) = nπ und σ2 (k) = nπ(1-π).
Mit dem Zentralen Grenzwertsatz erhält man
1
b(n, p, k ≥ K ) ≈
2π
∫
−
∞
Z (K )
e
z2
2
dz
⎛
⎜=
⎜
⎝
1
2π np(1 − p)
∫
∞
K
−
e
( x − np ) 2
2 np (1− p )
⎞
dx ⎟ .
⎟
⎠
6.8 Beispiel (Fortsetzung)
In Medikamentenstudien ist man dazu verpflichtet, auch immer mit zu überprüfen, ob die
Studie (entgegen der Intention des Initiators) statistisch beweist, dass das neue Medikament
sogar deutlich schlechter als erwartet ist. Dies bedeutet, dass man auch den Fall π < 0.5
berücksichtigen muss.
Praktisch erfolgt dies dadurch, dass man den zulässigen Fehler von 0.05 zu gleichen Teilen
auf besonders hohe und besonders niedrige Heilungshäufigkeiten verteilt:
150 Patienten - H0: Heilungsrate 50%
Zweiseitiger Test
Wahrscheinlichkeit [%]
7
6
2.04%
2.04%
5
4
3
2
1
0
50
55
60
65
70
75
80
85
90
95 100 105 110 115 120
Anzahl geheilter Patienten
Man verlangt jetzt mindestens 87 Heilungen, statt 86.
28
Statistik 1, WiSe 08/09, Martus
6.9 Bemerkung
Wenn in der Studie statt der geforderten 87 Patienten z.B. 78 Patienten geheilt werden, hat
man den geforderten Nachweis von π > 0.5 nicht erbracht. Werden z.B. 90 Patienten geheilt,
hat man ihn erbracht.
Um zu demonstrieren, wie "nahe" das Ergebnis an der vorgeschriebenen Grenze K = 87 lag,
betrachtet man die Fehlerwahrscheinlichkeit, die zum beobachteten k gehört. Im ersten Fall
mit k = 87 gilt b(150,0.5,k≥78) = 0.342, im zweiten Fall b(150,0.5,k≥90) = 0.0012.
Beachtet man die in 6.8 geforderte Erweiterung auf den Nachweis von π < 0.5, so kann man
folgende Aussage treffen:
Wäre die zulässige Fehlerwahrscheinlichkeit α = 0.682 gewesen, hätten die 78 Patienten zum
Nachweis π > 0.5 ausgereicht, wäre die Fehlerwahrscheinlichkeit dagegen α = 0.0024
gewesen, hätten 90 Patienten zum Nachweis π > 0.5 ausgereicht (vgl. Abschnitt 6.17).
6.10 Definition (Formalisierung des statistischen Tests)
Ziel eines statistischen Tests ist es, eine Forschungshypothese zu „beweisen“. Gemeinsam ist
allen Tests:
•
•
Der Beweis ist nie zwingend sondern immer mit einer Fehlerwahrscheinlichkeit
behaftet.
Der Beweis wir immer indirekt geführt, man wiederlegt die Verneinung der
Forschungshypothese.
In der folgenden Tabelle werden die wichtigsten Begriffe aufgeführt:
Tabelle: Formalisierung des statistischen Tests
Abkürzung
H0
Name
Nullhypothese
H1
Alternative
keine allgemein übliche
Abkürzung
Testentscheidung
α-Fehler
Fehler 1. Art
α
Signifikanzniveau
β-Fehler
Fehler 2. Art
β
---
1-β
Macht
Interpretation
Aussage, die wiederlegt werden
soll
Aussage, die bewiesen werden
soll
Ablehnung oder Beibehaltung
der Nullhypothese aufgrund der
Studiendaten
Nullhypothese wird abgelehnt,
obwohl sie zutrifft
Wahrscheinlichkeit, den Fehler
erster Art zu begehen
Nullhypothese wird nicht
abgelehnt, obwohl die
Alternative zutrifft
Wahrscheinlichkeit, den Fehler
zweiter Art zu begehen
Gegenwahrscheinlichkeit zum
29
Statistik 1, WiSe 08/09, Martus
α, β
je nach Test unterschiedliche, aber einheitliche
Bezeichnungen (z, t, F, χ2)
Bezeichnungen analog zur
Prüfgröße (z.B. t-Verteilung)
keine allgemein übliche
Abkürzung
Power
Fehlerwahrscheinlichkeiten,
Irrtumswahrscheinlichkeiten
Prüfgröße
Prüfverteilung
Kritischer Bereich
Fehler 2. Art
Oberbegriff für Fehler 1. und
Fehler 2. Art
Zufallsvariable, mit der die
Studiendaten zusammengefasst
werden
Wahrscheinlichkeitsverteilungen
der Prüfgröße. Unterschiedlich,
je nachdem ob H0 oder H1
zutrifft
Ergebnisse der Prüfgröße, die
eine Ablehnung der
Nullhypothese erlauben
Den Zusammenhang zwischen den Fehlern erster und zweiter Art zeigt die folgende Tabelle
Tabelle: Fehlermatrix des statistischen Tests
Realität
Testentscheidung
Nullhypothese wird
nicht abgelehnt
Nullhypothese wird
abgelehnt
Nullhypothese trifft zu
Alternative trifft zu
Korrekte Entscheidung
1-α
Fehler 1. Art
α
Fehler 2. Art
β
Korrekte Entscheidung
1-β
Anmerkungen
•
•
•
Wenn kein Missverständnis möglich ist, sagt man auch „Der Fehler erster Art beträgt
5%“ obwohl eigentlich gemeint ist „Die Wahrscheinlichkeit für den Fehler erster Art
beträgt 5%“.
Die Alternative kann allgemein (z.B. „Heilungswahrscheinlichkeit > 50%“) oder
konkret („Heilungswahrscheinlichkeit = 60%“) formuliert werden. Die
Fehlerwahrscheinlichkeit β hängt von der konkreten Alternative ab, für α spielt es
keine Rolle, ob man sich auf eine konkrete Alternative festlegt oder nicht.
Es bezeichne K den Kritischen Bereich und T die Prüfgröße. Dann gilt P(K) = α falls
die Nullhypothese zutrifft und P(K) = 1-β, falls die (konkrete!) Alternative zutrifft.
6.11* Zum Weiterdenken
Vergleichen Sie die Begriffsbildungen zum statistischen Test mit denjenigen zum
diagnostischen Test. Begründen Sie, inwiefern man den Fehler erster Art mit 1- Sensitivität
und den Fehler zweiter Art mit 1-Spezifität vergleichen kann. Wie würde man beim
statistischen Test das Analogon für die beiden prädiktiven Werte interpretieren? Was würde
der Prävalenz entsprechen? Welches Problem würde sich also bei Anwendung der
Bayesschen Formel ergeben?
Man spricht im Rahmen der Medikamentenzulassung vom Fehler 1. Art als Patientenrisiko
und vom Fehler 2. Art als Herstellerrisiko. Auf welches Risiko wird somit das Patientenrisiko
reduziert? Gibt es auch andere Risiken für den Patienten?
30
Statistik 1, WiSe 08/09, Martus
6.11 Beispiel (Fortsetzung)
In der klinischen Studie mit 15 Patienten
lautet das einseitige Testproblem
H0: P ∈ ]0,0.5], H1: P ∈ ]0.5, 1[
und das zweiseitige Testproblem
H0: P ∈ {0.5}, H1: P ∈]0 , 0.5[ ∪ ]0.5, 1[.
Die Testentscheidung ordnet jedem möglichen Studienergebnis aus {0,1,...,15} die
Beibehaltung oder Ablehnung von H0 zu. Beim einseitigen Testproblem hatten wir uns
entschieden, H0 abzulehnen, falls k ≥ 12. Der kritische Wert K war also 12. Die Wahl von K
war aufgrund der Vorgabe erfolgt, dass die Wahrscheinlichkeit, H0 abzulehnen, obwohl H0
zutrifft, maximal 0.05 sein sollte.
6.12 Bemerkungen
Das Testproblem ist bewusst asymmetrisch formuliert:
Wenn man die Nullhypothese ablehnen kann, gilt die Alternative als statistisch
bewiesen.
Wenn man die Nullhypothese nicht ablehnen kann, gilt sie deswegen noch lange nicht
als statistisch bewiesen.
In den folgenden Abschnitten werden die bisher eher verwendeten Begriffsbildungen in einer
Serie von mathematischen Definitionen präzisiert (kein Prüfungsstoff).
6.13* Definition (statistischer Raum)
Gegeben sei eine Menge Ω zusammen mit einer Menge von Wahrscheinlichkeitsverteilungen
P auf Ω. Dann heißt das Paar (Ω ,P) statistischer Raum. Wir sprechen von einem
parametrischen statistischen Raum, wenn sich die Wahrscheinlichkeitsverteilungen in P
durch einen (üblicherweise reellwertigen) Parameter (oder Parametervektor im Rn)
beschreiben lassen, d.h. wenn man schreiben kann P = {Pθ | θ ∈ Θ}.
6.14* Definition (Testprobleme, Nullhypothese und Alternative, Entscheidungsfunktion,
kritischer Bereich, kritischer Wert)
Es sei (Ω, P) ein statistischer Raum mit P = {Pθ | θ ∈ Θ}. Θ0 und Θ1 seien zwei Teilmengen
von Θ mit Θ0 ∩ Θ1=∅.
31
Statistik 1, WiSe 08/09, Martus
Als Testproblem bezeichnet man die Aufgabe, aufgrund von Stichprobendaten zu
entscheiden, ob man die Annahme H0: P∈ Θ0 zugunsten der Annahme H1: P∈ Θ1 ablehnen
kann. H0 heißt Nullhypothese und H1 heißt Alternative.
Falls Θ = R, Θ0 = ]a,b] und Θ1 = ]b,c[, spricht man von einem einseitigen Testproblem, falls
Θ0={b} und Θ1 = ]a,b[∪]b,c[ spricht man von einem zweiseitigen Testproblem (-∞ ≤ a < b <
c ≤ ∞).
Als Entscheidungsfunktion bezeichnet man diejenige Funktion δ:Ω→{0,1}, die jedem
möglichen Versuchsergebnis ω den Wert 0 (keine Ablehnung der Nullhypothese) oder 1
(Ablehnung der Nullhypothese) zuordnet.
Als kritischen Bereich K bezeichnet man die Menge δ -1(1), also diejenigen
Versuchsergebnisse, die zur Ablehnung der Nullhypothese führen. Ist Ω reell und hat der
kritische Bereich die Gestalt eines Intervalls K = [K,∞[, bezeichnet man K als kritischen
Wert.
Wenn man vor die Entscheidungsfunktion eine Zufallsgröße X von Ω in einen einfacheren Ω'
"zwischenschaltet", bezeichnet man X als Prüfgröße und spricht dann analog vom kritischen
Wert für die Prüfgröße.
6.15* Definition (Fehler erster und Fehler zweiter Art, Macht, Machtfunktion)
Bei gegebenem Testproblem nennt man
Maxθ ∈Θ0 Pθ ( K )
den Fehler erster Art oder Signifikanzniveau und bezeichnet es mit α.
(K ist der kritische Bereich).
Für festes θ ∈ Θ1 nennt man
1 − Pθ ( K )
den Fehler zweiter Art.
Die Funktion
M : Θ → [0,1],
M (θ ) = Pθ ( K )
bezeichnet man als Machtfunktion.
6.16 Beispiel (Fortsetzung)
Im Beispiel mit 15 Patienten wurde der Fehler erster Art auf 0.05 begrenzt. Für den
einseitigen Test wurden der Fehler zweiter Art für die speziellen Alternativen θ = 0.60, θ =
0.70, θ = 0.80 und θ = 0.90 bestimmt. Die Machtfunktion ordnet jeder Alternative die Macht
des Tests zu. Sie hat auf ]0.5,1[ die Gestalt
32
Statistik 1, WiSe 08/09, Martus
1,00
0,80
macht
0,60
0,40
0,20
0,00
0,50
0,60
0,70
0,80
0,90
1,00
p
6.17 Definition (Überschreitungswahrscheinlichkeit)
Bei bekanntem Versuchsergebnis kann man das niedrigste Signifikanzniveau angeben, für das
das Studienergebnis noch signifikant gewesen wäre (vgl. Bemerkung 6.9). Es liegt bei
maximal α, wenn das Studienergebnis signifikant für α war und bei größer α, wenn das
Studienergebnis nicht signifikant für α war.
Dieses "optimale" Signifikanzniveau bezeichnet man als Überschreitungswahrscheinlichkeit
oder kürzer als p-Wert.
6.18 Beispiel (Fortsetzung)
Der p-Wert für k = 11 Heilungen war 0.06, derjenige für k = 12 Heilungen 0.018.
6 .19 Algorithmus (Fallzahlschätzung)*
Wenn man für eine Studie den Fehler zweiter Art begrenzen will, muss man die notwendige
Mindestfallzahl bestimmen. Dabei geht man folgendermaßen vor:
(0)
Man legt Nullhypothese, Alternative und das Signifikanzniveau α fest. Für eine
spezielle Alternative legt man den gewünschten Fehler zweiter Art β fest.
(1)
Für eine initiale Festlegung n der Fallzahl bestimmt man zunächst den kritischen Wert
K
(2)
Für das gefundene K und eine spezielle Alternative bestimmt man den Fehler zweiter
Art
β(n) .
33
Statistik 1, WiSe 08/09, Martus
(3)
Wenn β(n) > β muss n erhöht werden, wenn β(n) < β kann n verringert werden.
Schritt (1)-(3) wird solange wiederholt, bis man die notwendige Fallzahl gefunden hat.
Analog kann man auch für eine feste Fallzahl die mit dem vorgegebenen Fehler zweiter Art
„nachweisbare“ Alternative bestimmen. Nur bei sehr einfachen Testproblemen kann man für
diese Fragestellungen geschlossene Formeln angeben.
6.20 Beispiel (Fortsetzung)*
Für die Approximation der Binomial- durch die Normalverteilung lautet die geschlossene
Form der Fallzahlschätzung für den einseitigen Test
{z
n=
1−α
[π 0 (1 − π 0 )] + z1−β [π 1 (1 − π 1 )]}
(π 1 − π 0 )2
2
Dabei bezeichnet zγ das γ-Quantil der Standardnormalverteilung, also den z-Wert für den gilt:
1
2π
∫
zγ
−∞
−
e
z2
2
dz = γ
Es gilt z0.95 = 1.645 und z0.80 = 0.893. Die notwendige Fallzahl für π0 = 0.50 und π1 = 0.60 ist
{1.645
n=
[0.5 • (1 − 0.5)] + 0.893 [0.6 • (1 − 0.6)]}
(0.6 − 0.5)2
2
≈ 157 .
Für den zweiseitigen Test muss man α halbieren, also mit z0.975 (=1.96) statt z0.95 a(=1.645)
arbeiten.
6.21 Übungen
1. Diskutieren Sie das Beispiel 3.4 mit Hilfe der in Kapitel 6 definierten Begriffe.
2. Programmieren Sie die Machtfunktion wie in Beispiel 6.16 aber für n = 150 (Näherung der
Binomialverteilung durch die Normalverteilung verwenden!)
3. Simulieren Sie 3000 Durchläufe für die Studie aus Beispiel 6.2 jeweils mit p = 0.5 und p =
0.8. Bestimmen Sie, wie oft die Nullhypothese abgelehnt wird.
4. Simulieren Sie 3000 Durchläufe für die Studie aus Beispiel 6.6 mit p = 0.5. Bestimmen Sie
die beobachtete kumulierte Verteilungsfunktion der p-Werte.
34
Statistik 1, WiSe 08/09, Martus
7 Methodenkatalog
7.1 Vorbemerkungen und Überblick
In den folgenden Abschnitten werden wir einige statistische Tests vorstellen, die für
medizinisch / biologische Anwendungen von Bedeutung sind. Die zugrunde liegende Theorie
werden wird nur andeutungsweise behandeln, den Fehler erster Art immer auf 0.05 fixieren.
Wenn nicht anders angegeben wird immer zweiseitig getestet.
Für die Auswahl des korrekten statistischen Tests ist vor allem die Stichprobenstruktur von
Bedeutung. Wir werden uns mit den drei wichtigsten Situationen beschäftigen:
•
•
•
Eine Stichprobe wird gegen einen bekannten Wert verglichen.
Zwei Stichproben werden gegeneinander verglichen. Alle Werte können als
unabhängig betrachtet werden (meistens, weil sie von verschiedenen Patienten
stammen, die z.B. unterschiedliche Therapien erhalten oder zu unterschiedlichen
Diagnosegruppen gehören).
Zwei Stichproben werden gegeneinander verglichen. Jeweils ein Wert der ersten und
der zweiten Stichprobe sind voneinander abhängig. Ansonsten sind die Werte
unabhängig (meistens zwei Messungen am selben Patienten unter verschiedenen
Bedingungen, z.B. unter zwei Therapien, von der linken und rechten Körperseite, an
gesundem und krankem Gewebe).
Aus der Stichprobenstruktur und der Verteilung des zu untersuchenden Merkmals ergibt sich
dann jeweils der anzuwendende Test. Wir werden sehen, dass der dritte Fall auf den ersten
zurückgeführt werden kann.
Die in diesem Abschnitt vorgestellten Beispiele sollen lediglich den Rechenweg verdeutlichen
und stammen nicht aus realistischen Anwendungen. In der Übung werden reale
Anwendungsbeispiele behandelt.
7.2 Binomialtest
Dieser Test wurde in Kapitel 6 ausführlich behandelt. Wir analysieren eine Stichprobe, bei der
die Häufigkeit eines bestimmten Ereignisses interessiert:
Notation
n
k
Nullhypothese:
π = π0
Alternative:
π > π0 (einseitig)
π < π0 (einseitig)
π ≠ π0, (zweiseitig, d.h. π > π0 oder π < π0 )
Prüfgröße
k
Verteilung der Prüfgröße
unter der Nullhypothese
b(n,π0,k)
Stichprobenumfang
Häufigkeit des Ereignisses
35
Statistik 1, WiSe 08/09, Martus
Kritischer Wert (einseitig)
Das kleinste K mit
∑
n
k =K
b(n, π 0 , k ) ≤ 0.05
Wenn nicht die exakte Formel der Binomialverteilung sondern die Näherung des Zentralen
Grenzwertsatzes verwendet wird, ändert sich die Prüfgröße:
Notation
beobachtete Häufigkeit k/n
Dichtefunktion der Standardnormalverteilung
p −π0
Z=
n
π 0 • (1 − π 0 )
p
f
Prüfgröße
Verteilung der Prüfgröße
unter der Nullhypothese
Normalverteilung N(0,1)
Kritischer Wert (einseitig)
Das Z mit
∫
+∞
f ( z )dz = 0.05
Z
7.3 z-Test
Wir analysieren eine Stichprobe des Umfangs n von normalverteilten Daten. Wir wollen
zeigen, dass sich der Erwartungswert μ der zugrundeliegenden Wahrscheinlichkeitsverteilung
von einem vorgegebenen Wert μ0 unterscheidet. Wir gehen davon aus, dass die Varianz σ2
bekannt ist (in realen Beispielen eher die Ausnahme!).
Nullhypothese:
μ = μ0
Alternative:
μ > μ0 (einseitig)
μ < μ0 (einseitig)
μ ≠ μ0, (zweiseitig, d.h. μ > μ0 oder μ < μ0 )
_
x− μ 0
_
Prüfgröße
Z=
Verteilung der Prüfgröße
unter der Nullhypothese
Normalverteilung N(0,1)
f ( z)
Kritischer Wert (μ > μ0)
Kritischer Wert (μ < μ0)
Kritischer Wert (μ ≠ μ0)
σ2
1
=
2π
∫
Das Z mit ∫
Das Z mit ∫
Das Z mit
( x = Mittelwert der Stichprobe)
n
−
e
z2
2
dz
+∞
Z
Z
f ( z )dz = 0.05 , also Z = 1.645
−∞
Z
−Z
f ( z )dz = 0.05 , also Z = -1.645
f ( z )dz = 0.95 , also Z = 1.96
d.h.
∫
+∞
Z
f ( z )dz = 0.025 und
∫
−Z
−∞
f ( z )dz = 0.025
36
Statistik 1, WiSe 08/09, Martus
Beispiel (S bezeichne die Stichprobe):
S = (1.5,2.5,1.5,2.5), μ0 = 1, σ2 = 0.25, Z = (2-1)/√0.25)√4 = 1/0.5*2 = 4 > 1.96.
Wir können also die Nullhypothese ablehnen. Wir haben (statistisch) gezeigt, dass der
tatsächliche Erwartungswert größer als μ0 = 1 ist.
Sie kennen den z-Test schon aus Abschnitt 7.2. Nach Transformation der Häufigkeit auf eine
normalverteilte Variable wurde in 7.2 genau wie im jetzigen Abschnitt 7.3 weitergerechnet.
7.4 t-Test (für eine Stichprobe)
Im Gegensatz zu 7.3 kennen wir die Varianzen nicht, sondern schätzen sie aus der Stichprobe.
Wir behandeln hier nur den zweiseitigen Test, die einseitige Variante ist analog,
Die Varianz lässt sich aus der Stichprobe durch
s2 =
_
n ⎛
1
⎞
x
x
−
⎟
⎜ i
∑
i =1
n −1
⎠
⎝
2
schätzen.
Nullhypothese:
μ = μ0
Alternative:
μ ≠ μ0, (zweiseitig, d.h. μ > μ0 oder μ < μ0)
_
x− μ 0
Prüfgröße
t=
Verteilung der Prüfgröße
unter der Nullhypothese
t-Verteilung mit ν = n-1 Freiheitsgraden = tν (für beliebiges σ2!)
n
s2
⎛ν + 1 ⎞
Γ⎜
⎟
⎝ 2 ⎠
⎛ν ⎞
Γ⎜ ⎟ πν
⎝2⎠
f (t ,ν ) =
⎛ t2
⎜⎜1 +
⎝ ν
⎞
⎟⎟
⎠
ν +1
−
2
*
Es gilt Γ(0.5) = √π, Γ(n+0.5) = (n-0.5)• Γ(n-0.5) und Γ(n) = (n-1)! (jeweils n>0, ganzzahlig). Dadurch lassen
sich die Werte der Γ-Funktion für alle Freiheitsgrade bestimmen.
Kritischer Wert (μ ≠ μ0)
Das T mit
∫
T
−T
f (t )dt = 0.95 , im Beispiel T = 3.18
Beispiel:
S = (1.5,2.5,1.5,2.5), μ0 = 1, s2 = 1/3 = 0.33, t = (2-1)/√0.33)√4 = 2/0.57 = 3.46 > 3.18.
Wir können also die Nullhypothese ablehnen. Es ist statistisch bewiesen, dass der tatsächliche
Erwartungswert μ0 größer als 1 ist.
37
Statistik 1, WiSe 08/09, Martus
7.5 Chi-Quadrat Test (für zwei Stichproben)
Wir analysieren zwei nicht unbedingt gleichgroße, unabhängige Stichproben und beobachten
das Eintreten eines bestimmten Ereignisses. Z.B. könnte es sich um Patienten handeln, die
zufällig einer von zwei Therapien zugeordnet wurden und für die der Heilungserfolg
beobachtet wurde. Wir stellen hier nur den zweiseitigen Fall des Tests vor.
Notation
n1 ; n2 ; n
k1,obs ; k2,obs ; kobs
_
Stichprobenumfang Stichprobe 1, Stichprobe 2, Gesamtstichprobe
Beobachtete Häufigkeit Stichprobe 1, Stichprobe 2, Gesamtstichprobe
p
Relative Häufigkeit in der Gesamtstichprobe = kobs / n
k1,exp
Erwartete Häufigkeit erste Stichprobe, falls π = p , also p • n1
k2,exp
Erwartete Häufigkeit, zweite Stichprobe, falls π = p , also p • n2
_
_
_
Nullhypothese:
π1 = π2
Alternative:
π1 ≠ π2, (zweiseitig)
_
Prüfgröße
(k
χ2 =
− k1,obs )
2
1,exp
Verteilung der Prüfgröße
unter der Nullhypothese
k1,exp
(k
+
n1 − k1,exp
(k
+
− k 2,obs )
2
2 ,exp
k 2,exp
(k
+
− k 2,obs )
2
2 ,exp
n2 − k 2,exp
*
Chi-Quadrat-Verteilung mit einem Freiheitsgrad (asymptotisch)
1
X mit
t
1 −2 −2
t e
2π
f (x) =
Kritischer Wert
− k1,obs )
2
1,exp
∫
X
−∞
*
f (t )dt = 0.95 , also X = 3.84
Beispiel: In beiden Gruppen werden jeweils 40 Patienten behandelt. In der ersten Gruppe
werden 10, in der zweiten werden 30 Patienten geheilt. In beiden Gruppen wären somit je 20
Heilungen zu erwarten. Wir erhalten χ2 = 1/20•(100+100+100+100) = 20, wir haben also
(statistisch) nachgewiesen, dass π1 > π2.
7.6 t-Test (für zwei unabhängige Stichproben)
Wir gehen davon aus, dass ein Merkmal in zwei Gruppen normalverteilt ist und dass die
Varianzen zwar unbekannt, aber in beiden Gruppen gleich sind. Forschungshypothese ist,
dass sich die beiden Erwartungswerte unterscheiden. Die Normalverteilung der Daten und die
identische Varianz in beiden Gruppen sind dagegen Modellannahmen, die, egal ob H0 oder H1
zutrifft, als gegeben angenommen werden (aber gegebenenfalls mit statistischen Methoden
überprüft werden können).
38
Statistik 1, WiSe 08/09, Martus
Notation:
n1 ; n2 ; n
_
_
Stichprobenumfang Stichprobe 1, Stichprobe 2, Gesamtstichprobe
x1 ; x 2
Mittelwert Stichprobe 1, Stichprobe 2
s12 ; s 22
(empirische) Varianz Stichprobe 1, Stichprobe 2
Die als identisch angesehene wahre Varianz σ2 lässt sich aus den beiden Stichproben durch
s
2
(
n1 − 1) s12 + (n2 − 1) s 22
=
n1 + n2 − 2
*
schätzen.
Nullhypothese:
μ1 = μ2
Alternative:
μ1 ≠ μ2,
_
_
x1 − x 2
t=
Verteilung der Prüfgröße
unter der Nullhypothese
t-Verteilung mit ν = n1 + n2 - 2 Freiheitsgraden
(für beliebiges σ2!)
Kritischer Wert (μ ≠ μ0)
Das T mit
s2
•
n1 • n2
n1 + n 2
Prüfgröße
∫
T
−T
f (t )dt = 0.95 , im Beispiel T = 2.57
Beispiel:
_
_
S 1 = (1.5,2.5,1.5,2.5), S 2 = (2.5,3,3.5), x 1 = 2, s12 = 1/3 = 0.33, x 2 = 3, s 22 = 0.25, s2 =
1/5*(3*0.33+2*0.25) = 0.3, t = (2-3)/√0.3*√(12/7) = - 2.39 > - 2.57.
Wir können also die Nullhypothese nicht ablehnen. Wir haben aber deswegen nicht bewiesen,
dass der Erwartungswert in beiden Gruppen gleich groß ist.
7.7 t-Test (t-Test für abhängige = verbundene = paarige Stichproben)
Wir führen pro Proband zwei Messungen durch. Man könnte z.B. die Schmerzschwelle unter
zwei verschiedenen Schmerzmitteln messen oder den Blutdruck vor und nach Therapie
miteinander vergleichen.
In diesem Abschnitt gehen wir von Messungen einer kontinuierlichen Zufallsgröße aus, im
folgenden Abschnitt von ja/nein Messungen. Wir bezeichnen die beiden Zufallsvariablen mit
X1 und mit X2, die Stichproben entsprechend mit S1 und S2.
39
Statistik 1, WiSe 08/09, Martus
Notation:
Stichprobenumfang Stichprobe 1 (= Stichprobenumfang Stichprobe 2)
n
_
_
x1 ; x 2
Mittelwert Stichprobe 1, Stichprobe 2
di (i=1,...,n)
Individuelle Differenzen aus Stichprobe 1 und Stichprobe 2
_
_
_
_
d
Mittelwert der individuellen Differenzen, d = x1 − x 2
s d2
(empirische) Varianz der individuellen Differenzen
Nullhypothese:
μ1 = μ2
Alternative:
μ1 ≠ μ2 (zweiseitig, d.h. μ1 < μ2 oder μ1 > μ2)
Die Varianz lässt sich aus der Stichprobe durch
_
1
n ⎛
⎞
s =
d
d
−
∑
⎟
i =1 ⎜ i
n −1
⎝
⎠
2
2
schätzen.
_
d
Prüfgröße
t=
Verteilung der Prüfgröße
t-Verteilung mit ν = n-1 Freiheitsgraden
Kritischer Wert (μ ≠ μ0)
Das T mit
n
s d2
∫
T
−T
f (t )dt = 0.95
Wir setzen nicht voraus, dass X1 und X2 unabhängig sind, das wäre auch extrem unrealistisch.
Es wird auch nicht verlangt, dass X1 und X2 normalverteilt sein müssen. Wir setzen aber
voraus dass die Differenzen XD normalverteilt sind.
Beispiel:
X1
X2
XD
1
1
0
3
5
2
4
3
-1
3
5
2
5
6
1
4
6
2
2
2
0
4
6
2
5
4
-1
4
6
2
6
7
1
5
7
2
Wenn wir in die Prüfgröße einsetzen ist das genauso als würden wir auf SD den Test aus
Abschnitt 7.4 mit μ0 = 0 anwenden. Dies zeigt, dass der (abhängige) Zweitstichprobenfall
eigentlich ein Spezialfall des Einstichprobenfalls ist.
40
Statistik 1, WiSe 08/09, Martus
Mittlere Differenz:
Stichprobenvarianz der Differenzen:
Fallzahlfaktor √12
Prüfgröße t
Kritischer Wert (ν = 11)
1.0
1.455
3.46
2.872
2.20
Es ist statistisch gezeigt, dass die Werte der zweiten Stichprobe größer sind als diejenigen der
ersten.
Zum Vergleich:
Wenn X1 und X2 aus unabhängigen Stichproben kämen, wäre t = 1.44 und das Ergebnis nicht
signifikant. Der Grund liegt darin, dass die Varianz von X1 und X2 größer ist als diejenige von
D. Außerdem ist der Fallzahlfaktor bei unabhängigen Stichproben √[(12*12)/(12+12)] =
√(12/2) = √6 und bei abhängigen Stichproben √(12). Die Zahl der Freiheitsgrade ist allerdings
bei unabhängigen Stichproben größer als bei abhängigen (2n-2 gegenüber n-1).
7.8 Vorzeichentest (Vergleich zweier abhängiger Stichproben - Häufigkeiten)
Bei dichotomen (ja/nein) Variablen erhält man pro Proband ebenfalls zwei Messungen, die
wir als Zufallsvariablen mit X1 und mit X2 bezeichnen, also z.B. Heilung ja (1), nein (0).
Sowohl X1 als auch X2 können nur die Werte 0 und 1 annehmen. Die Differenzenvariable D =
X1 - X2 kann somit nur die Werte -1, 0 und 1 annehmen.
Zur Signifikanztestung ignoriert man die Null-Differenzen und vergleicht die positiven mit
den negativen Differenzen mit Hilfe des Binomialtests für π0 = 0.5 . Die Wahl von π0 ist
dadurch begründet, dass bei gleichen Heilungswahrscheinlichkeiten die Differenzen -1 und
+1 jeweils etwa gleichhäufig auftreten müssten.
Der Binomialtest wurde in Kapitel 6 ausführlich behandelt. Die Notation zeigt, dass man den
Vorzeichentest als Spezialfall des Binomialtests auffassen kann – ganz analog wie man den tTest für abhängige Stichproben als Spezialfall des t-Tests für eine Stichprobe auffassen kann.
Notation
n
k
π
Stichprobenumfang (nach Streichung von X1 = X2)
Beobachtete Häufigkeit von X1 > X2. ( falls X1 ≠ X2)
Wahrscheinlichkeit für X1 > X2. ( falls X1 ≠ X2)
Nullhypothese:
π = 0.5
Alternative:
π > 0.5
(einseitig)
π < 0.5
(einseitig)
π ≠ 0.5, (zweiseitig, d.h. π > 0.5 oder π < 0.5)
Prüfgröße
k (also identische Abbildung)
Verteilung der Prüfgröße
unter der Nullhypothese
b(n,0.5,k)
Kritischer Wert (einseitig)
Das kleinste K mit
∑
n
k =K
b ( n, 0.5, k ) ≤ 0.05
41
Statistik 1, WiSe 08/09, Martus
Wenn nicht die exakte Formel der Binomialverteilung sondern die Näherung des Zentralen
Grenzwertsatzes verwendet wird, ändert sich die Prüfgröße:
beobachtete Häufigkeit k/n
Dichtefunktion der Standardnormalverteilung
p − 0.5
p − 0.5
Z=
n=
n
0.5
0.5 • 0.5
Normalverteilung N(0,1)
Notation
p
f
Prüfgröße
Verteilung der Prüfgröße
unter der Nullhypothese
Kritischer Wert (einseitig)
Das Z mit
∫
+∞
Z
f ( z )dz = 0.05
Beispiel:
X1
1
1
0
1
0
1
1
0
1
1
1
1
X2
0
0
0
0
1
0
0
0
0
1
0
0
D
1
1
(0)
1
-1
1
1
(0)
1
(0)
1
1
Wir erhalten acht positive und eine negative Differenz. Drei Nulldifferenzen werden
gestrichen. Insgesamt müssen wir also einen Binomialtest mit n = 9, π0 = 0.5 und k = 8
rechnen.
Es gilt
∑
b(9,0.5, k ) + ∑k =8 b(9,0.5, k ) = 0.039.
k =0
1
9
Wir haben also (statistisch) nachgewiesen, dass die Heilungswahrscheinlichkeit unter der
ersten Therapie größer ist als unter der zweiten.
7.9 Vorbemerkung zu den Tests für nichtnormalverteilte Daten
Falls die Daten aufgrund der Skalierung von vornherein nicht normalverteilt sein können wie
z.B. bei Schulnoten (1-6) oder Erkrankungsstadien (sogenannte „Ordinalskalen“ ) der Fall
oder falls die beobachtete Werteverteilung bei Messwerten zu deutlich von der
Normalverteilung abweicht (z.B. unsymmetrische Verteilung von Labordaten) kann man für
die Analyse Tests verwenden, die auf der Rangtransformation der Daten beruhen (vgl.
Abschnitt 7.10).
Die Frage, ab wann Daten als normalverteilt anzusehen sind oder mit welchen Methoden dies
beurteilt werden sollte, kann leider nicht eindeutig beantwortet werden – eine der Grauzonen
der angewandten Statistik....
Für den Fall von unsymmetrisch verteilten Messwerten helfen manchmal Transformationen
(z.B. Logarithmusfunktion, Wurzelfunktion, Arcus Sinus Funktion für Prozentwerte).
42
Statistik 1, WiSe 08/09, Martus
7.10 Rangsummentest (=Mann-Whitney Test = Wilcoxon Test für unabhängige
Stichproben)
Zur Durchführung des Rangsummentests muss zunächst eine Rangtransformation
durchgeführt werden. Bei der Zuordnung von Rängen erhält der kleinste Wert der Stichprobe
den Rang 1, der zweitkleinste den Rang 2 und bei einer Stichprobe vom Umfang n der größte
Wert den Rang n. Tritt der gleiche Wert in einer Stichprobe mehrfach auf, werden mittlere
Ränge vergeben (s.u.).
Beispiel:
Durch zwei Antihypertensiva A und B soll der systolische Blutdruck gesenkt werden (Skala:
mmHg). 20 Patienten wurden randomisiert in zwei Gruppen mit jeweils 10 Patienten
aufgeteilt. Die erste Gruppe erhielt Medikament A, die zweite Gruppe Medikament B. In der
folgenden Tabelle sind die Differenzen vorher-nachher angegeben. Positive Werte sind also
erwünscht, da sie die Senkung des Blutdrucks zeigen.
A
B
Patient
Wert
Rang
Patient
Wert
Rang
1
13
6.5
11
17
14
2
11
3
12
19,5
18
3
17
14
13
18
16.5
4
18
16.5
14
16
12
5
14
8.5
15
17
14
6
9
2
16
13
6.5
7
15
11
17
11,5
4
8
0
1
18
32,5
20
9
14
8.5
19
21
19
10
12
5
20
14,5
10
Die angegebenen Rangwerte beziehen sich auf die Gesamtstichprobe. Der Wert 13 trat zwei
mal auf (Rangplätze 6 und 7), vergeben wurde zweimal der mittlere Rang 6.5 (analog für
Werte 14 und 18). Der Wert 17 trat drei mal auf, vergeben wurden nicht die Ränge 13, 14 und
15 sondern der mittlere Rang 14.
Weitere Durchführung:
(1) Berechnung der Rangsummen RA und RB in beiden Stichproben.
RA = 76, RB = 134
(2) Berechnung der beiden abgeleiteten Größen
UA = n1*n2 + n1*(n1+1)/2-RA
UB = n1*n2 + n2*(n2+1)/2-RB
UA = 10*10+10*11/2-76 = 79
UB = 10*10+10*11/2-134 = 21
(3) Berechnung des Minimums von UA und UB
Min(UA,UB) = 21
(4) Vergleich mit dem kritischen Wert (für Signifikanzniveau 5%, zweiseitig: 23).
43
Statistik 1, WiSe 08/09, Martus
Liegt der Wert der Stichprobe unter dem kritischen Wert, ist ein Unterschied zwischen beiden
Therapien nachgewiesen. Im vorliegenden Beispiel konnte also gezeigt werden, dass
tatsächlich ein signifikanter Unterschied zwischen beiden Therapien vorliegt.
7.11 Hinweise zum Rangsummentest*
Streng genommen prüft der Rangsummentest die Nullhypothese „Kumulierte Verteilungsfunktion in beiden Gruppen identisch“ vs. die Alternative „Kumulierte Verteilungsfunktion in
beiden Gruppen unterschiedlich“. Damit wäre er theoretisch auch zum Vergleich der
Varianzen zweier Stichproben mit gleichen Erwartungswerten geeignet. Für diese Fragestellungen ist er aber gerade nicht gedacht. Es geht vielmehr darum, zu prüfen, ob „im Schnitt“ in
der einen Stichprobe die Werte größer sind als in der anderen Stichprobe.
(Nur) für den Fall, dass die beiden Verteilungen durch Verschieben ineinander übergeführt
werden können (also insbesondere dass die beiden Varianzen identisch sind), prüft der
Rangsummentest die Nullhypothese „Gleichheit der Mittelwerte“.
Dennoch wird das Ergebnis für gewöhnlich im letztgenannten Sinn interpretiert!
7.12 Vorzeichenrangtest (= Wilcoxon Test für abhängige Stichproben)
Beispiel:
In einer Studie an 10 Patienten wurde der Einfluss eines Antihypertensivums auf die
Reduktion des linksventrikulären Masseindex untersucht. Die folgenden Ergebnisse wurden
gemessen:
Pat. Nr.
1
2
3
4
5
6
7
8
9
10
vorher
119.2
156.0
145.0
137.2
124.8
160.4
141.3
144.1
151.5
130.8
nachher
107.8
156.0
137.0
142.7
112.4
125.7
135.6
125.1
143.4
136.5
Differenz
-11.4
0
-8.0
5.5
-12.4
-34.7
-5.7
-19
-7.7
5.7
Vorzeichen
-
fällt
-
+
-
-
-
-
-
+
Rang
6
weg
5
1
7
9
2.5
8
4
2.5
Man bestimmt nun die Summe der Ränge positiver Differenzen, die Summe der Ränge
negativer Differenzen und das Minimum aus beiden:
R- = 6+5+7+9+2.5+8+4 = 41.5
R+ = 1+2.5 =3.5
Min(R-,R+) = 3.5
Man vergleicht das Ergebnis mit tabellierten bzw. aus Softwarepaketen abrufbaren kritischen
Werten. Das Ergebnis ist signifikant, wenn die der Stichprobenwert kleiner oder gleich dem
kritischen Wert ist. Im Beispiel ist der kritische Wert 5, sodass das Ergebnis signifikant wird.
44
Statistik 1, WiSe 08/09, Martus
7.13 Hinweise zum Vorzeichenrangtest*
Der Vorzeichenrangtest hat im Vergleich zum Rangsummentest ungünstigere theoretische
Eigenschaften. Der Test ist nur dann valide, wenn die Verteilung der Differenzen unter der
Nullhypothese symmetrisch ist. Dann wird die Nullhypothese „mittlere Differenz = 0“
getestet. Manche Autoren empfehlen daher, die Ränge zu ignorieren und einfach den
Vorzeichentest anzuwenden.
7.14 Zum Weiterdenken*
Ein gängiges Verfahren zur Prüfung der Normalverteilung ist die Anwendung eines
Signifikanztests (z.B. Kolmogoroff Smirnov Test). Ein Test kann aber die Frage, ab wann
Daten als normalverteilt anzusehen sind, nicht beantworten. Die Anwendung eines Tests mit
H0:
H1:
Daten sind normalverteilt
Daten sind nicht normalverteilt
widerspricht der Logik des statistischen Tests, denn im allgemeinen will man ja beweisen,
dass die Daten normalverteilt sind. Hinzukommt, dass die Macht eines derartigen Tests mit
zunehmender Fallzahl steigt, obwohl gerade bei großen Fallzahlen die Abweichung von der
Normalverteilung weniger gravierend ist als bei kleinen Fallzahlen.
Tests, die H0 und H1 einfach vertauschen sind nicht möglich, Modifikationen werfen
methodische Probleme auf, die über den Stoff dieser Vorlesung hinausgehen.
Für die praktische Arbeit empfiehlt es sich, die Entscheidung für oder gegen die
Normalverteilung von zwei Parametern abhängig zu machen, der Schiefe (Prüfung auf
Symmetrie der Dichtefunktion) und der Wölbung (= Kurtosis, Vergleich der Krümmung der
Dichtefunktion mit derjenigen einer Normalverteilung.) Eine Faustregel besagt, dass beide
Parameter zwischen –1 und +1 liegen sollten.
7.15 Übersicht der statistischen Tests
Die folgende Tabelle stellt alle statistischen Tests dar, die wir behandelt haben. Der Exakte
Fisher Test wird hier nur genannt, er ist nicht Thema der Vorlesung.
Stichprobe(n)
Skalierung
kategorielle
Daten
ordinale Daten
nicht
normalverteilte
stetige Daten
normalverteilte
Daten
Zwei unverbundene
Stichproben
Chi-Quadrat-Test
(n<20: Exakter Fisher
Test*)
Rangsummentest
t-Test für
unverbundene
Stichproben
Zwei
verbundene
Stichproben
Binomialtest
mit p = 0.5
Eine
Stichprobe
Binomialtest
mit p beliebig
Vorzeichenrangtest
oder
Vorzeichentest
t-Test für verbundene
Stichproben
t-Test für eine
Stichprobe
45
Statistik 1, WiSe 08/09, Martus
7.16 Übungsaufgabe
Ein Dozent will, dass Statistik Spaß macht und gibt 30 Studenten die Hausaufgabe, 100 mal
eine Münze zu werfen. Wir gehen davon aus, dass die Münzen tatsächlich unverfälscht sind.
Folgende Ergebnisse werden in der Übung präsentiert:
50 mal Kopf 50 mal Zahl
49 mal Kopf 51 mal Zahl
51 mal Kopf 49 mal Zahl
20
6
4
Studenten
Studenten
Studenten
Welcher Verdacht würde sich einem misstrauischen Übungsleiter aufdrängen? Wie könnte
man diesen Verdacht mit Hilfe eines statistischen Tests prüfen?
7.17 Bemerkungen
Es ist wichtig, die Formeln der Prüfgrößen der einzelnen Tests zu verstehen (im Gegensatz zu
den Formeln der Dichtefunktionen!), weil sie die Rationale dieser Tests verdeutlichen.
Die Chi-Quadrat Verteilung mit einem Freiheitsgrad ist die Verteilung des Quadrats einer
normalverteilten Zufallsgröße. Insbesondere gilt für die kritischen Werte 1.962 = 3.84.
7.18 Übungsaufgabe
Ein Dozent will die Leistungen von zwei Jahrgängen vergleichen. Welche Tests werden
verwendet, wenn die Leistungen
-
lediglich nach bestanden/nicht bestanden bewertet werden
-
mit Hilfe von Schulnoten (1-6) bewertet werden
-
mit Hilfe normalverteilter Punktzahlen (0-100) bewertet werden?
Welche Tests würden verwendet, wenn die Leistungen derselben Studenten in zwei
verschiedenen Fächern beurteilt werden sollten?
7.19 Übungsaufgabe
Berechnen Sie den t-Test aus Abschnitt 7.7 so, als wären die Stichproben unabhängig.
7.20 Zum Weiterdenken*
Im ersten Jahrgang von Aufgabe 7.18 gab es Proteste, dass die Veranstaltung A zu schwer sei.
Daher wurde sie im nächsten Jahrgang deutlich vereinfacht angeboten. Eine zweite
Veranstaltung B wurde dagegen unverändert angeboten.
Wie könnte man die Ergebnisse der Veranstaltung B nutzen, um zu überprüfen, ob eine
Änderung der Ergebnisse von Veranstaltung A tatsächlich auf dem geänderten Konzept
beruht und nicht einfach auf Unterschieden zwischen den Jahrgängen?
46
Statistik 1, WiSe 08/09, Martus
Teil C
Korrelation und Regression, Konfidenzintervalle
8.1 Vorbemerkung
Bei der Regressionsanalyse untersuchen wir die Möglichkeit, den Wert einer Zufallsgröße Y
aus dem Wert einer oder mehrerer anderer zufälliger oder deterministischer Variablen X bzw.
X1, X2,...,Xp vorherzusagen. Der hier behandelte, einfachste Fall ist durch vier Kriterien
charakterisiert:
•
•
•
•
Zur Vorhersage von Y wird nur eine Variable X verwendet.
Der Erwartungswert von Y hängt vom Vektor (β0, β1) linear ab, d.h. E(Y|X) =
β0+β1X.
X wird als deterministisch angenommen.
Bei gegebenen X ist Y normalverteilt mit von x unabhängiger, also konstanter
Varianz σ2.
Insgesamt ergibt sich also die Modellgleichung
bzw.
Yi = β0 + β1Xi + εi
mit εi ~ N(0,σ2)
Yi = E(Y|Xi) + εi
mit εi ~ N(0,σ2).
Man beachte, dass σ2 nicht von i abhängt (entspricht dem vierten Kriterium der Aufzählung
oben).
8.2 Anwendungsbeispiel (Diagnose des grünen Stars)
Grüner Star (Glaukom) ist eine Krankheit, bei der es zu Gesichtsfeldverlust kommt, der in
vielen Fällen verursacht ist durch Erhöhung des intraokularen Drucks und darauf folgende
Schädigung des Sehnervs. Die Entwicklung von Methoden zur Früherkennung dieser
Krankheit ist ein zentrales Forschungsgebiet der Augenheilkunde, weil die Schädigung des
Sehnerven irreversibel ist.
Die Perimetrie gilt als "Goldstandard" für die Erkennung funktioneller Schäden beim grünen
Star. Der Erlanger Flimmertest ist ein Schnelltest, der z.B. in Screeninguntersuchungen von
Risikogruppen verwendet werden soll. Man interessiert sich dafür, ob dieser Test die
Ergebnisse der Perimetrie grob vorhersagen kann.
Y:
Perimetrie
(Abweichung der Lichtunterscheidungsempfindlichkeit [dB], gemittelt über 59 Punkte des
Gesichtsfeldes, gegenüber Normalwerten)
X:
Erlanger Flimmertest
(Kontrastempfindlichkeitsmessung [%] auf Flimmerreiz, Stimulus im gesamten Gesichtsfeld)
47
Statistik 1, WiSe 08/09, Martus
Klinische Fragestellung:
Lässt sich das Ergebnis der Perimetrie aus dem Ergebnis des Erlanger Flimmertests durch
eine lineare Gleichung vorhersagen?
Stichprobe (verkleinert):
10 Augen von 10 Patienten mit beginnendem grünen Star aus dem Erlanger Glaukomregister
(Klinisches Register an der Universitäts-Augenklinik mit Poliklinik der Friedrich AlexanderUniversität Erlangen-Nürnberg).
Rohdaten:
Nr (=i)
Yi
Xi
1
6.1
13.2
2
9.7
12.5
3
4.1
15.5
4
8.8
10.1
5
4.0
12.5
6
7.9
11.9
7
7.4
8.9
8
6.4
10.2
9
10.4
5.4
10
10.3
8.3
Y: Stichprobe der Perimetriemessungen, X: Stichprobe der Flimmertestmessungen
Grafische Darstellung mit Regressionsgerade:
Gesichtsfeld Mittlerer Defekt (MD)
11
10
9
8
7
6
5
4
3
4
6
8
10
12
14
16
Erlanger Flimmertest
48
Statistik 1, WiSe 08/09, Martus
8.3 Die Kleinstquadrate Schätzung der Regressionsgerade
_
Der Mittelwert y einer Stichprobe ist derjenige Wert, der den Ausdruck
_
1
n ⎛
⎞
s =
y
y
−
⎟
⎜
∑
i
i =1
n −1
⎠
⎝
2
2
_
minimiert. y minimiert den quadrierten Abstand zu den beobachteten Werten. Man sagt auch
dass in der (einfachsten) Regressionsgleichung E(Y) = β0 eine Kleinstquadrateschätzung des
Parameters β0 darstellt, also
_
^
y = β0 .
Für die Schätzung der Regressionsgerade kommt ein weiterer Parameter, β1, dazu. Ziel ist es
jetzt, die Abstandsquadrate
∑ [ y − (β
i
i
0
+ β1 ⋅ xi )]
2
zu minimieren.
Man kann mit Methoden der Differentialrechnung zeigen, dass die Lösung durch die
folgenden Gleichungen gegeben ist:
^
β1 =
s yx
s xx
,
^
β0
=
^
y − β1 ⋅ x
In diesen Gleichungen bedeutet sxx die (Stichproben-) Varianz von X und syx die Kovarianz
von Y und X.
In der Formel der Kovarianz von Y und X wird der quadratische Term
_
⎞
⎛
⎜ xi − x ⎟
⎠
⎝
2
durch den gemischten Term
_
_
⎞
⎛
⎞⎛
⎜ xi − x ⎟⎜ y i − y ⎟
⎠
⎝
⎠⎝
ersetzt, COV(X,Y) = syx =
s2 =
_
_
1
n ⎛
⎞
⎞⎛
x
x
y
y
−
−
⎜
⎟.
⎜
⎟
∑
i
i
i =1
n −1
⎠
⎝
⎠⎝
49
Statistik 1, WiSe 08/09, Martus
8.4 Fortsetzung des Beispiels, Berechnung der Stichprobenparameter
Nr (=i)
1
2
3
4
5
6
7
8
9
10
Σ
Σ/10
Σ/9
Yi
Xi
6.1
9.7
4.1
8.8
4.0
7.9
7.4
6.4
10.4
10.3
75.1
7.51
13.2
12.5
15.5
10.1
12.5
11.9
8.9
10.2
5.4
8.3
108.50
10.85
_
_
_
(Yi- y )2
1.99
4.80
11.63
1.66
12.32
0.15
0.01
1.23
8.35
7.78
49.93
--5.55
Yi- y
-1.41
2.19
-3.41
1.29
-3.51
0.39
-0.11
-1.11
2.89
2.79
0
0
Xi- x
2.35
1.65
4.65
-0.75
1.65
1.05
-1.95
-0.65
-5.45
-2.55
0
0
_
(Xi- x )2
5.52
2.72
21.62
0.56
2.72
1.10
3.80
0.42
29.70
6.50
74.69
--8.30
_
_
(Yi- y )(Xi- x )
-3.31
3.61
-15.86
-0.97
-5.79
0.41
0.21
0.72
-15.75
-7.11
-43.84
---4.87
_
Mittelwerte x ,
_
Varianzen s y2 = s yy , s x2 = s xx
Kovarianz s yx
y
Y: Stichprobe der Perimetriemessungen, X: Stichprobe der Flimmertestmessungen
^
β1 =
s yx
s xx
=
− 4.87
8.30
= − 0.59,
^
β0
=
^
y − β1 ⋅ x
= 7.51 − (−0.59) • 10.85 = 13.88
Also lautet die Gleichung der geschätzten Regressionsgerade Y = 13.88 - 0.59•X.
8.5 Bemerkung: Gütemaße für die Anpassung der Regressionsgerade
Bisher haben wir noch keine Aussage darüber treffen können, wie „gut“ die Regressionsgerade zu den Daten passt. Dies ist Thema der folgenden Abschnitte. Wir untersuchen
insgesamt fünf Gütemaße, die im Folgenden motiviert und beschrieben werden. Es handelt
sich um
•
•
•
•
•
das Quadrat des Korrelationskoeffizienten
den Korrelationskoeffizienten
die Kovarianz
die Residualquadratsumme
die mittlere Wurzel aus der Residualquadratsumme.
Alle fünf Maße basieren auf den Residuen der Regressionsanalyse.
50
Statistik 1, WiSe 08/09, Martus
8.6 Definition (Vorhergesagte Werte, Residuen)
Für eine Regressionsanalyse heißen die Ergebnisse, die man durch Einsetzen der x-Werte in
^
die Regressionsgleichung erhält, „vorhergesagte Werte“. Man bezeichnet sie mit y i :
^
yi
^
^
= β0
+ β 1 xi ,
Die Differenzen aus beobachteten und vorhergesagten Werten
^
yi − yi
⎛ ^
yi − ⎜ β 0
⎝
=
+
⎞
⎠
^
β1 xi ⎟
heißen Residuen. Je größer (absolut) die Residuen, desto schlechter die Anpassung der
Regressionsgerade.
8.7 Fortsetzung des Beispiels: Berechnung der Residuen und der Residuenquadrate
Nr. (=i)
1
2
3
4
5
6
7
8
9
10
Σ
Σ/10
Σ/8
Yi
Xi
6.1
9.7
4.1
8.8
4.0
7.9
7.4
6.4
10.4
10.3
75.1
7.51
---
13.2
12.5
15.5
10.1
12.5
11.9
8.9
10.2
5.4
8.3
108.50
10.85
---
^
Yi
6.1
6.5
4.8
8.0
6.5
6.9
8.7
7.9
10.7
9.0
75.1
7.51
---
^
Yi - Yi
-0
3.2
-0.7
0.8
-2.5
1.0
-1.3
-1.5
-0.3
1.3
0
-----
^
(Yi - Yi )2
,00
10.0
0.5
0.7
6.5
1.0
1.6
2.2
0.1
1.7
24.2
--3.0
^
_
Yi - y
-1.4
-1.0
-2.7
0.4
-1.0
-0.6
1.1
0.4
3.2
1.5
0
-----
^
_
( Yi - y )2
1.9
0.9
7.5
0.2
0.9
0.4
1.3
0.2
10.2
2.2
25.7
-----
8.8 Definition: (quadrierter Korrelationskoeffizient, r2)
Da man ja immer die waagerechte Gerade y = y als triviale Regressionsgerade verwenden
könnte, weiß man, dass auf jeden Fall
2
2
⎛
⎞
∑ ⎜⎝ yi − yi ⎟⎠ ≤ ∑ ( yi − y ) .
^
51
Statistik 1, WiSe 08/09, Martus
Man kann sogar noch mehr zeigen:
2
2
2
∑ ⎛⎜⎝ yi − yi ⎞⎟⎠ + ∑ ⎛⎜⎝ yi − y ⎞⎟⎠ = ∑ ( yi − y )
^
^
Bei dieser Gleichung handelt es sich um eine typische Varianzzerlegung. Rechts steht (bis auf
den Faktor 1/[n-1]) die Stichprobenvarianz der y-Werte. Ganz links steht die Quadratsumme
der Residuen, also die „nicht erklärte“ Restvarianz. Der zweite Summand links beschreibt den
Anteil der Varianz, der durch die Regression erklärt wird. Je weiter die vorhergesagten yWerte vom Mittelwert entfernt sind, desto „wichtiger“ ist die Vorhersage durch die x-Werte.
∑ (y
2
Die Idee hinter r ist es, zu messen, welcher Anteil der Variabilität
2
i
− y ) durch die
Regressionsanalyse erklärt wird. Man definiert daher
2
∑ ⎛⎜⎝ y − y ⎞⎟⎠
2
^
=
r2
i
2
∑ ( yi − y )
= 1−
∑ ⎛⎜⎝ y
− yi ⎞⎟
⎠
^
i
2
∑ ( yi − y )
und bezeichnet diese Zahl als „Quadrat des Korrelationskoeffizienten“. r2 liegt zwischen 0
und 1 und kann als Prozentwert interpretiert werden.
Im Beispiel erhalten wir mit Hilfe der Tabellen aus 8.4 und 8.7 r2 = 25.7/49.9 = 0.51.
8.9 Definition: (Korrelationskoeffizient r)
Der Korrelationskoeffizient ist definiert durch
r
=
s yx
s yy s xx
=
∑ ( y − y )(x − x )
∑ ( y − y ) ∑ (x − x )
i
i
2
i
2
i
Man kann zeigen, dass das in 8.8 definierte r2 tatsächlich das Quadrat von r ist. Insbesondere
liegt r zwischen -1 und +1. Im Gegensatz zu r2 kann man an r erkennen, ob die Regressionsgerade steigt oder fällt. Dafür lässt sich r aber nicht als Prozentwert interpretieren.
Im Beispiel erhalten wir mit Hilfe der Tabelle aus 8.4 r = -43.8/√(49.9•74.7) = -0.72. Es gilt
in der Tat (-0.72)2 = 0.51
52
Statistik 1, WiSe 08/09, Martus
8.10 Definition (Kovarianz, COV)
Die Kovarianz wurde bereits in 8.3 zur Schätzung der Regressionsgeraden eingeführt. Wie
man leicht sieht, hängt die Kovarianz von der Skalierung der Merkmale ab, im Gegensatz zur
Korrelation r oder zu r2.
Die Kovarianz ist in den meisten Anwendungen der einfachen linearen Regressionsanalyse
nicht von Interesse. Sie stellt jedoch eine wichtige Größe in der multivariaten Analyse dar und
wird dort ausführlicher diskutiert.
In Abschnitt 8.3 hatten wir bereits die Kovarianz als syx = -4.87 berechnet.
8.11 Definition (Residualquadratsumme, RSSQ)*
Die Residualquadratsumme
^
Σ (yi - y i )2
ist besonders für den Vergleich unterschiedlich komplexer Modelle geeignet und wird im
Rahmen der multiplen Regression (Statistik 2) diskutiert.
Im Beispiel war RSSQ = 24.2.
8.12 Definition (Mittlere Wurzel aus der Residualquadratsumme, RRSSQ)*
Die mittlere Wurzel aus der Residualquadratsumme ist definiert als
RRSSQ
=
2
1
n
ˆ
(
)
y
−
y
.
∑
i
i
n − 2 i =1
Sie ist offenbar analog zur Standardabweichung definiert. Das bedeutet insbesondere, dass im
Bereich ±2•RRSSQ etwa 95% aller Residuen liegen.
Insofern gibt die RRSSQ die „direkteste“ Information über die Güte der Anpassung.
In unserem Beispiel war RRSSQ = 2.8. Das bedeutet, dass die Ergebnisse der Perimetrie in
etwa mit einer maximalen Abweichung von ± 5.6 dB durch den Flimmertest vorhersagbar
sind. Dies ist allerdings nur eine sehr grobe Interpretation. In Wahrheit ist die Anpassung im
Zentrum des Definitionsbereichs der x-Werte besser als am Rande.
53
Statistik 1, WiSe 08/09, Martus
8.13 Zusammenfassung
In der folgenden Tabelle sind die Gütemaße für die Regressionsgerade zusammengefasst:
Maß
Kriterium
Symbol
Dimension
abhängig von der
Skala von X
abhängig von der
Skala von Y
Interpretation
quadrierter
Korrelationskoeffizient
r2
dimensionslos
nein
Korrelationskoeffizient
Kovarianz
ResidualQuadratsumme*
r
dimensionslos
nein
Cov
dim(X)•dim(Y)
ja
RSSQ
dim(Y)2
nein
Wurzel der
Residualquadratsumme*
RRSSQ
dim(Y)
nein
nein
nein
ja
ja
ja
Prozentwert
Cosinus
Skalarprodukt
quadrierte
Vektornorm
Vektornorm
8.14 Signifikanztestung für einfache Regressionsanalysen (t-Test)*
Die statistischen Tests in Regressionsanalysen der Form
E(Y) = β0+β1X
können sich entweder auf β0 oder auf β1 oder auf beide Parameter zusammen beziehen. Im
allgemeinen interessiert man sich vor allem für den Test der Nullhypothese β1 = 0 gegen die
Alternative β1 ≠ 0. Nur dieser Test wird hier dargestellt.
Notation:
n
Stichprobenumfang
sxx
syy
sxy
Stichprobenvarianz von X
Strichprobenvarianz von Y
Stichprobenkovarianz von X und Y
RSSQ
Residuale Quadratsumme Σ (yi - y i )2
MRSSQ
mittlere residuale Quadratsumme
^
1/(n-Anzahl alle Modellparameter)*RSSQ
hier: 1/(n-2)*RSSQ
54
Statistik 1, WiSe 08/09, Martus
_
^
SSQ
Quadratsumme des „korrigierten Modells“, Σ( y i - y )2
MSSQ
mittlere Quadratsumme des korrigierten Modells
^
_
1/{Anzahl getestete Modellparameter} * Σ( y i - y )2
^
_
1/{1} * Σ( y i - y )2
^
_
= Σ( y i - y )2
Nullhypothese:
β1 =0
Alternative:
β1 ≠ 0
Prüfgröße
t=
Verteilung der Prüfgröße
unter der Nullhypothese
t-Verteilung mit ν = n-2 Freiheitsgraden
Kritischer Wert
Das T mit
MSSQ
MRSSQ
∫
T
−T
f (t )dt = 0.95 , im Beispiel T = 2.31
Beispiel (Fortsetzung):
Im Beispiel ergibt sich t = √[25.7/(24.2/8.0)] = 2.93.
Wir können also die Nullhypothese ablehnen. Wir haben bewiesen, dass das Ergebnis der
Perimetrie vom Flimmerwert abhängt.
8.15 Schlussbemerkungen*
•
•
•
•
Bei zwei Diagnoseverfahren stellt die statistische Signifikanz der Abhängigkeit eine
Minimalforderung dar. Es reicht also nicht, nachzuweisen, dass überhaupt ein
Zusammenhang existiert, sondern es kommt darauf an, wie gut die Vorhersage im
Einzelfall ist.
Der in 8.14 angegebene Ausdruck SSQ muss im allgemeinen durch die Zahl der
getesteten Parameter dividiert werden um MSSQ zu erhalten. Da β0 nicht getestet
wird, sondern nur ein Parameter, β1, ist diese Anzahl = 1 und somit MSSQ = SSQ.
^
Die beobachteten Residuen Yi - Yi sind nicht identisch mit den Fehlertermen der
Modellgleichung εi sondern sind Schätzungen dieser Fehlerterme. Im Gegensatz zu
den wahren Werten εi haben die beobachteten Residuen nicht konstante Varianz!
Die Meinungen, ob grundsätzlich r oder r2 das „bessere“ Zusammenhangsmaß ist,
gehen auseinander...
8.16 Übungen
8.17 Literatur
55
Statistik 1, WiSe 08/09, Martus
9. Konfidenzintervalle
9.1 Vorbemerkung
Wir haben bislang den Begriff der Schätzung intuitiv verwendet, ohne ihn mathematisch zu
präzisieren: Aus Zufallsexperimenten (Studien) erhalten wir relative Häufigkeiten von
Ereignissen und Mittelwerte kontinuierlicher Messgrößen. Diese Stichprobenparameter
interpretieren wir als Informationen über die dem Experiment zugrundeliegenden
theoretischen Parameter wie z.B. Wahrscheinlichkeiten oder Erwartungswerte.
Wenn man die Parameter „direkt“ berechnen kann, sind die Formeln für beobachtete Stichproben und
theoretische Wahrscheinlichkeitsräume praktisch identisch. Muss man zur Berechnung eines Parameters der
Stichprobe (z.B. Varianz) zuerst einen anderen ausrechnen (für die Varianzberechnung braucht man den
Mittelwert der Stichprobe) ändern sich die Formeln geringfügig (Faktor 1/(n-1) statt 1/n).
Bislang wurden die Schätzungen entweder zur Beschreibung der Versuchsergebnisse oder als
Zwischenergebnisse für statistische Tests verwendet. Wir haben uns aber bisher keine
Gedanken über die Genauigkeit der Schätzungen gemacht, obwohl klar ist, dass größere
Stichproben genauere Schätzungen liefern als kleinere. Wir erwarten natürlich von einer
Schätzung, dass bei einer großen Zahl von Wiederholungen der korrekte Wert beliebig genau
angenähert werden kann.
In diesem Kapitel lernen wir Methoden kennen, die es erlauben, die Genauigkeit von
Schätzungen zu bestimmen. Diese Methoden sind eng verwandt mit dem Vorgehen beim
statistischen Test.
9.2 Beispiel
Wir hatten in Abschnitt 7.3 den z-Test kennen gelernt. Anhand einer Stichprobe sollte geprüft
werden, ob bei bekannter Varianz für normalverteilte Daten die Nullhypothese μ = μ0
zugunsten der Alternative μ ≠ μ0 abgelehnt werden kann. Der Test erfolgt mit Hilfe der
Prüfgröße
z=
x − μ0
n
σ
wobei σ die bekannte Streuung und n die Fallzahl der Studie bezeichnet. Falls z ≥ 1.96 oder z
≤ -1.96 kann die Nullhypothese zum zweiseitigen Signifikanzniveau 5% abgelehnt werden.
Man kann die Formel für z im Prinzip nach jeder anderen Größe auflösen. Von besonderem
Interesse ist die Auflösung nach μ0. Es gilt
z ≥ 1.96 ⇔
x − μ0
σ
n ≥ 1.96 ⇔ x − μ 0 ≥
• 1.96
σ
n
und dies wiederum ist äquivalent zu
56
Statistik 1, WiSe 08/09, Martus
x−
σ
• 1.96 ≥ μ 0 .
n
Analog erhalten wir für z ≤ -1.96 die Bedingung
x+
σ
• 1.96 ≤ μ 0 .
n
Insgesamt ist also genau dann ein signifikantes Ergebnis beobachtet worden, wenn gilt
μ0 ≤ x −
σ
• 1.96
n
oder
μ0 ≥ x +
σ
• 1.96
n
bzw.
σ
σ
⎡
⎤
μ0 ∉ ⎢ x −
• 1.96, x +
• 1.96 ⎥ .
n
n
⎣
⎦
Dieses Intervall bezeichnet man als Konfidenzbereich (Confidence Region) oder
Konfidenzintervall (Confidence Interval, CI), die Ränder als Konfidenzgrenzen (Confidence
limits). Die Interpretation ist folgende:
Im Konfidenzintervall für x liegen diejenigen Werte von μ0, die man aufgrund der Stichprobe
nicht ablehnen kann, die als mögliche wahre Werte von μ0 angesehen werden können, also als
Werte, denen man „vertraut“. Je kleiner dieses Intervall ist, desto genauer ist die Schätzung.
Im Beispiel 7.3 erhält man CI = [2-0.5/√4*1.96, 2+0.5/√4*1.96] ≈ [1.5, 2.5].
9.3 Verallgemeinerung auf beliebiges α.
Wenn man analog zum Signifikanztest mit Niveau α = 5% das Konfidenzintervall berechnet,
sagt man auch das Vertrauens- oder Konfidenzniveau ist 95%, also 1-α. Da zweiseitig
getestet werden sollte, erhält man den Wert für z als 97.5%-Quantil der Normalverteilung.
Diese Quantil bezeichnet man mit z0.975 bzw. allgemein mit
z
1−
α
2
.
Man kann Konfidenzintervalle natürlich auch für andere Niveaus berechnen, die allgemeine
Formel lautet
⎡
⎤
σ
σ
•z α, x +
•z α ⎥
⎢x −
n 1− 2
n 1− 2 ⎦
⎣
Wir werden Konfidenzintervalle immer zweiseitig zum Niveau 95% berechnen.
57
Statistik 1, WiSe 08/09, Martus
9.4 Konfidenzintervall für den Erwartungswert normalverteilter Daten bei unbekannter
Varianz
Ganz analog wie für den z-Test kann man auch die Formel für den t-Test (Abschnitt 7.4.)
umstellen. Man ersetzt dann die theoretische Streuung s durch die beobachtete (geschätzte)
Streuung s und das Quantil z der Normalverteilung durch das entsprechende Quantil t der
jeweiligen t-Verteilung. Dieses Quantil ist nicht fix sondern hängt zusätzlich noch von der
Stichprobengröße ab.
⎡
⎤
s
s
•t
•t
⎢x −
α, x+
α⎥
n n −1, 1− 2
n n −1, 1− 2 ⎦
⎣
Im Beispiel erhält man zunächst s = 0.57, t = 3.18 und daraus als neues Konfidenzintervall CI
= [1.09, 2.91].
Für große Stichproben macht man keinen großen Fehler, wenn man mit t = 2 rechnet.
Die Größe s/√n bezeichnet man auch als Standardfehler, weil sie den Fehler der Schätzung
des Parameters quantifiziert. Im Gegensatz dazu bezeichnet die Standardabweichung s
„neutraler“ die Abweichung eines Werts vom Mittelwert oder Erwartungswert. Diese
Abweichung ist sozusagen „wahr“.
9.5 Exakte Konfidenzintervalle für Wahrscheinlichkeiten*
Die bisherigen Konfidenzintervalle beruhen alle auf dem Prinzip „welche Nullhypothesen
kann man ablehnen, welche nicht?“. Die Formeln waren recht einfach, weil sich die
Prüfgrößen z bzw. t ohne Probleme nach dem Parameter μ0 (der Nullhypothese) auflösen
ließen. Das Prinzip gilt genauso für Häufigkeiten, aber die Formeln sind deutlich schwieriger.
Wird ein Experiment n mal wiederholt und beträgt die Trefferhäufigkeit k1, dann lässt sich
nach folgender Formel prüfen, ob die Nullhypothese π = π0 zugunsten der Alternative π > π0
abgelehnt werden kann:
n
∑ k =k b(n, π0 , k)
1
Liegt der Wert dieser Wahrscheinlichkeit bei maximal 5% darf die Nullhypothese verworfen
werden. Analog würde man die Summe von 0 bis k1 betrachten, wenn die Alternative π < π0
wäre. Wenn man zweiseitig testet, muss man das größte k2 bestimmen, für das
k2
∑ b(n, π
k =0
0
, k) ≤
n
∑ b(n, π
k = k1
0
, k)
gilt und dann beide Summen zusammenzählen.
Für allgemeine n und k1 kann man die Gleichung
∑
n
k = k1
b(n, π0 , k) =α
nicht nach π0 auflösen.
58
Statistik 1, WiSe 08/09, Martus
Für konkrete n und k1 kann man numerisch (=systematisches Ausprobieren) dasjenige π0
finden, für das obige Gleichung für α=0.05 bzw. 0.025 erfüllt ist. Weil man nicht mit
angenäherten Wahrscheinlichkeiten sondern mit den exakten Formeln rechnet, bezeichnet
man die so bestimmten Konfidenzintervalle als „exakt“. Diese sind nicht schwer zu
programmieren, aber etwas unhandlich. Deswegen werden sie nur für kleine Stichproben
verwendet. Zwei Möglichkeiten mit Näherungsformeln zu rechnen werden in den nächsten
Abschnitten vorgestellt.
9.6 Angenäherte Konfidenzintervalle für Wahrscheinlichkeiten auf Basis der
Normalverteilung*
Die in 9.5 beschriebene Methodik ist sehr mühselig. Wenn man bei festem π für wachsendes
n die Annäherung der Binomialverteilung durch die Normalverteilung verwendet ist man im
Prinzip wieder in der Situation des z-basierten Konfidenzintervalls aus 9.2 / 9.3.
Wir erhalten:
Die Häufigkeit k/n schätzt die Wahrscheinlichkeit π und entsprechend schätzt (n-k)/n die
Wahrscheinlichkeit 1-π. Daraus ergibt sich für eine Beobachtung die Varianzschätzung π*(1π) und die Streuung √[π*(1-π)], für die Summe aus allen Beobachtungen die
Varianzschätzung n*π*(1-π), für den Mittelwert dieser Beobachtungen die Varianzschätzung
(1/n2)*n*π*(1-π) = 1/ n*π*(1-π) und die Streuung 1/√n*√[π*(1-π)].
Wenn wir also die Häufigkeit k/n als Schätzung für π verwenden, können wir das
Konfidenzintervall für π einfach mit der Formel
⎡
1
⎢ πˆ −
n
⎣
πˆ (1 − πˆ ) • z
α
1−
2
, x+
1
n
πˆ (1 − πˆ ) • z
α
1−
2
⎤
⎥
⎦
berechnen. Liegt die beobachtete relative Häufigkeit genau bei 0.5, ist die Formel angenähert
1
1
1
1 ⎤
⎡
⎤ ⎡
0.5 • 2, 0.5 +
0.5 • 2 ⎥ = ⎢0.5 −
, 0.5 +
⎢ 0.5 −
⎥.
n
n
n
n⎦
⎣
⎦ ⎣
Liegt die beobachtete relative Häufigkeit nur nahe bei 0.5, so erhält man mit π̂ ± 1/√n immer
noch eine passable Näherung. Für n = 100 und k = 50 ergibt sich also eine beobachtete
relative Häufigkeit von 0.5 mit einem Vertrauensbereich von 0.4 bis 0.6.
59
Statistik 1, WiSe 08/09, Martus
9.7 Eine Faustregel für die Zufallsschwankung beobachteter absoluter Häufigkeiten
Wenn bei großem n ein „kleines“ k beobachtet wird, kann man auch die Poisson-Näherung
der Binomialverteilung für statistische Tests und Konfidenzintervalle verwenden. Diese
Methode wird hier nicht dargestellt.
Für größeres k (entweder Poisson-verteilt oder binomialverteilt mit sehr großem n und daher
kleinem k/n) lässt sich aber folgende grobe Näherung verwenden:
(1)
k ist Schätzung des Erwartungswerts μ der Poissonverteilung
(2)
Bei Poissonverteilungen gilt μ = σ2 (Erwartungswert und Varianz sind identisch)
⇒
(3)
k ist auch Schätzung der Varianz der Poissonverteilung
⇒
(4)
√k ist Schätzung der Streuung der Poissonverteilung
(5)
Für große μ ist die Poissonverteilung angenähert normalverteilt N(μ,μ)
⇒
(6)
Ein angenähertes Konfidenzintervall für μ ist also [μ-2√μ, μ+2√μ]
⇒
(7)
Ein „Konfidenzintervall“ für k ist [k-2√k, k+2√k].
Beispiel:
Werden in einem Jahr 50 Verkehrsunfälle beobachtet, liegt das Konfidenzintervall auf Basis
der Poissonverteilung bei etwa 36 bis 64 Verkehrsunfällen.
Zum Vergleich:
Werden von 100 Patienten 50 geheilt, liegt das Konfidenzintervall mit Näherung durch die
Normalverteilung bei 40% bis 60%, was 40 bis 60 Heilungen entspricht. Dieses Intervalls hat
also eine Breite, die 20 Heilungen entspricht. Das Intervall für die Verkehrsunfälle hatte eine
Breite von 28, also fast das 1.5-fache.
9.8 Zum Weiterdenken
Was ergibt sich im Beispiel mit den Verkehrsunfällen und den Heilungen, wenn jede Zahl mit
100 multipliziert wird? Wie ändern sich die Diskrepanzen beider Methoden, wenn man
Absolutzahlen betrachtet, wie, wenn man Prozentwerte berechnet?
60
Statistik 1, WiSe 08/09, Martus
9.9 Abgeleitete Konfidenzintervalle für andere Parameter*
Konfidenzintervalle können analog für Varianzen, Korrelationskoeffizienten und
Regressionskoeffizienten berechnet werden, weil entsprechende Signifikanztests zur
Verfügung stehen. Der Test für den Regressionskoeffizienten in Abschnitt 8.14 zeigt z.B., wie
man ein Konfidenzintervall für diesen Parameter mit Hilfe der t-Verteilung berechnen kann.
Wenn man durch eine Funktion aus einem Parameter einen neuen generieren kann (z.B. durch
Wurzelziehen die Streuung s aus der Varianz s2 oder durch Quadrieren r2 aus dem
Korrelationskoeffizienten r) darf man einfach die Grenzen der Konfidenzintervalle
entsprechend transformieren. Wäre beispielsweise das Konfidenzintervall für s2 gleich [a,b],
dann wäre das Konfidenzintervall für s gleich [√a, √b]. Dieses Vorgehen klappt aber nicht,
wenn mehrere Parameter benötigt werden, um einen neuen Parameter zu berechnen. So kann
man z.B. aus den Konfidenzintervallen für sx, sy und sxy nicht direkt das Konfidenzintervall
für r berechnen.
9.10 Schlussbemerkung*
Beim statistischen Test werden Nullhypothese und Signifikanzniveau vorher festgelegt. PWert und Konfidenzintervall stellen Erweiterungen dieses Konzepts dar. Der P-Wert gibt an,
für welche Signifikanzniveaus die unveränderte Nullhypothese abgelehnt werden kann. Das
Konfidenzintervall gibt an, welche Nullhypothesen man bei unverändertem Signifikanzniveau
ablehnen kann. Allerdings verletzt das nachträgliche Ändern von Signifikanzniveaus oder
Nullhypothesen die Logik des statistischen Tests.
61
Herunterladen