|| || Ausgänge möglichen der Anzahl Ausgänge günstigen für der

Werbung
1
REPETITORIUM DER ANGEWANDTE STATISTIK I
1 RECHNEN MIT WAHRSCHEINLICHKEITEN
1.1 Begriff der Wahrscheinlichkeit
Zufallsexperiment (random experiment):
= ein (im Prinzip beliebig oft wiederholbarer) Vorgang mit verschiedenen Ausgängen ω1,
ω2, … (Elementarereignissen); welcher Ausgang bei Durchführung des Experimentes
eintritt, lässt sich nicht vorhersagen.
Ergebnismenge (Stichprobenraum, sample space):
Ω ={ ω1, ω2, …}
Z.B.: Zufallsexperiment:
Ausspielen eines Würfels ω1=1, ω2=2, ω3=3, ω4=4, ω5=5, ω6=6;
Ω ={1, 2, 3, 4, 5, 6}, ω1 ∈ Ω, …
Ereignis (event):
=Teilmenge E von Ω: E ⊂ Ω;
z.B. Ausspielen eines Würfels: E1 = „gerade Augenzahl“ = {2,4,6} = {ωi ∈ Ω | ωi gerade
Zahl}; man sagt, dass Ereignis E1 tritt ein, wenn beim Ausspielen des Würfels eine gerade
Zahl gewürfelt wird.
Zusammengesetzte Ereignisse:
oder - Verknüpfung:
E1 oder E2 = E1∪E2 (tritt genau dann ein, wenn E1 oder E2 eintritt)
und – Verknüpfung:
E1 und E2 = E1∩E2 (tritt genau dann ein, wenn sowohl E1 als auch E2 eintritt)
z.B. Ausspielen eines Würfels: Ereignis E1 = „gerade Augenzahl“, E2 = „ungerade
Augenzahl“
E1 oder E2 = Ω (sicheres Ereignis), E1 und E2 = {} = ∅ (unmögliches
Ereignis)
Besondere Ereignisse:
Elementarereignis = 1-elementige Teilmenge von Ω
sicheres Ereignis: Ω
komplementäres Ereignis von E: Ec={ ωi ∈ Ω | ωi ∉E}
disjunkte Ereignisse E1, E2: E1 und E2 = ∅
Laplace-Wahrscheinlichkeit P: {E: E ⊂ Ω} [0, 1]
Definiert für ein Zufallsexperiment (=Laplace-Experiment) mit gleichwahrscheinlichen
„Ausgängen“ (=Elementarereignisse der Ergebnismenge Ω) durch:
P( E ) =
Anzahl der für E günstigen Ausgänge | E |
=
Anzahl der möglichen Ausgänge
|Ω|
Anmerkungen:
Der Bezug zur jeweiligen Ergebnismenge Ω wird gelegentlich durch die ausführlichere
Schreibweise P(E|Ω) präzisiert.
Es sei A ein Ereignis der Ergebnismenge Ω und Ac das zu A komplementäre Ereignis.
Für das Verhältnis der Wahrscheinlichkeiten P(A|Ω):P(Ac|Ω) wird auch als Chance
(odds) von A gegen Ac (unter der Voraussetzung Ω) bezeichnet.
-
Elementare Eigenschaften von P(E):
1. Für jedes Ereignis E ist P(E) ≥ 0 (Nichtnegativität)
W. Timischl: Angewandte_Statistik_I_Repetitorium
09.10.13
2
2. Für das sichere Ereignis Ω ist P(Ω) =1 (Normiertheit).
3. Für zwei disjunkte Ereignisse E1, E2 gilt die spezielle Additionsregel: P(E1 oder E2) =
P(E1) + P(E2). Daraus folgt für zwei komplementäre Ereignisse E, Ec: P(Ec) = 1 –
P(E).
Relative Häufigkeit und Wahrscheinlichkeit (relative frequency and probability):
Es sei Ω die Ergebnismenge eines Zufallsexperimentes und A⊂ Ω ein Ereignis. Das
Experiment wird n-mal ausgeführt. Die Anzahl der Versuche, bei denen A eintritt, heißt die
absolute Häufigkeit kn(A) des Ereignisses A. Dividiert man durch n, erhält man die relative
Häufigkeit hn(A)=kn(A)/n des Ereignisses A bei n Versuchen. Offensichtlich gilt hn(A) ≥ 0
und hn(Ω) =1. Ferner gilt für zwei disjunkte Ereignisse A⊂ Ω und B⊂ Ω die Additionsregel
hn(A ∪ B) = hn(A) + hn(B).
Empirisches Gesetz der großen Zahlen:
Ein Zufallsexperiment (z.B. das Ausspielen eines Würfels) wird wiederholt ausgeführt,
wobei die einzelnen Versuchsausführungen als voneinander unabhängig vorausgesetzt
werden. Es zeigt sich dann, dass mit wachsender Anzahl n der Versuchsdurchführungen
die relativen Häufigkeiten eines Ereignisses A⊂ Ω sich so verhalten, als würden sie sich
einem festen Wert nähern. In den Anwendungen wird von diesem empirischen
Konvergenzverhalten Gebrauch gemacht, wenn man die Wahrscheinlichkeit P(A) eines
Ereignisses A durch dessen relative Häufigkeit hn(A) bei „großem“ n approximiert.
1.2 Bedingte Wahrscheinlichkeit (conditional probability)
Definition:
Für zwei Ereignisse A ⊂ Ω (A≠∅), B ⊂ Ω ist die Wahrscheinlichkeit P(B|A) von B unter der
Bedingung A (d.h. unter der Voraussetzung, dass A eingetreten ist):
P( B | A) =
P ( A und B)
P( A)
Veranschaulichung für ein Laplace-Experiment:
(Ω mit endlich vielen, gleichwahrscheinlichen Elementen):
P( B | A) =
A und B Ω
A Ω
=
A und B
A
Anmerkungen:
Aus der Definitionsgleichung für die bedingte Wahrscheinlichkeit P(B|A) folgt unmittelbar
die Multiplikationsregel (multiplication rule) für Wahrscheinlichkeiten: P(B∩A) = P(B|A)
P(A).
Im Allgemeinen sind die bedingten Wahrscheinlichkeiten P(B|A) und P(A|B) voneinander
verschieden. Wegen P(B∩A) = P(A∩B) = P(A|B) P(B) gilt der Zusammenhang: P(B|A)
P(A) = P(A|B) P(B).
-
Unabhängige Ereignisse (independent events) :
Definition:
Es seien A (A≠∅) und B zwei Ereignisse eines Zufallsexperimentes mit der
Ergebnismenge Ω. Das Ereignis B heißt unabhängig vom Ereignis A, wenn es für die
Wahrscheinlichkeit des Ereignisses B ohne Belang ist, ob A eintritt, d.h. wenn P(B) =
P(B|A) ist.
Folgerungen:
−
Ist das Ereignis B von A unabhängig, ist umgekehrt auch das Ereignis A vom Ereignis
B (B≠∅) unabhängig, d.h. P(A)=P(A|B).
W. Timischl: Angewandte_Statistik_I_Repetitorium
09.10.13
3
−
Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A von B
unabhängig), wenn P(B∩A) = P(B) P(A) gilt. Diese Gleichung wird
Multiplikationsregel für unabhängige Ereignisse genannt.
1.3 Formel von Bayes (Bayes‘ formula)
Satz von der totalen Wahrscheinlichkeit (theorem of total probabilities):
Es sei A ⊂ Ω (A≠∅, A≠Ω) und Ac das zu A komplementäre Ereignis. Dann gilt für jedes
beliebige Ereignis B aus Ω die Darstellung:
P ( B ) = P ( B | A) P ( A) + P ( B | Ac ) P ( Ac )
A posteriori-Wahrscheinlichkeit:
Durch Kombination der Definitionsgleichung der bedingten Wahrscheinlichkeit mit dem
Satz von der totalen Wahrscheinlichkeit ergibt sich die Formel:
P( A | B) =
P( A ∩ B)
P ( B | A) P ( A)
=
P( B)
P ( B | A) P ( A) + P ( B | A c ) P ( A c )
(Sonderfall der Bayes’sche Formel, P(A) ist die a priori-Wahrscheinlichkeit von A ohne
Kenntnis von B, P(A|B) die a posteriori-Wahrscheinlichkeit von A nach Kenntnis von B)
Diagnostischer Test:
Die Entscheidungssituation beim diagnostischen Test wird durch folgendes Schema
dargestellt:
Person ist gesund (D-)
Person ist krank (D+)
Test ist negativ (T-)
P(T-|D-)
= Spezifität
P(T-|D+)
(falsch-negatives
Ergebnis)
Test ist positiv (T+)
P(T+|D-)
(falsch-positives Ergebnis)
P(T+|D+)= Sensitivität
Für den positiven prädiktiven Wert ergibt sich mit Hilfe der Bayes’schen Formel die
Darstellung:
P( D+ | T+ ) =
P(T+ | D+ ) P( D+ )
P(T+ | D+ ) P( D+ ) + P(T+ | D− ) P( D− )
1.4 Musterbeispiele
1. Bei der Bearbeitung eines Problems sind 5 voneinander unabhängige Entscheidungen zu
treffen, von denen jede einzelne mit der Wahrscheinlichkeit α = 0,05 eine
Fehlentscheidung sein kann. Man bestimme die simultane Irrtumswahrscheinlichkeit
α_g, d.h. die Wahrscheinlichkeit, dass eine oder mehr als eine der Entscheidungen
falsch sind.
Präzisierung der Aufgabe:
Das zugrundeliegende Zufallsexperiment besteht aus 5 Entscheidungen, von denen jede entweder
richtig (=1) oder falsch (=0) sein kann. Die Ergebnismenge Ω ist die Menge aller geordneten 5erTupel (x1, x2, x3, x4, x5), wobei xi entweder den Wert 1 oder 0 annehmen kann. Insgesamt gibt bes
25 = 32 verschiedene Ausgänge des Zufallsexperiments. Es mögen nun F1, F2, F3, F4 und F5 die
Teilmengen aus Ω mit x1=0 (erste Entscheidung ist falsch), x2=0 (zweite Entscheidung ist falsch),
W. Timischl: Angewandte_Statistik_I_Repetitorium
09.10.13
4
x3=0, x4=0 bzw. x5=0 bezeichnen. Gemäß Angabe ist P(F1)=P(F2) = P(F3) = P(F4)=P(F5) =α =
0.05. Gesucht ist P(F1 ∪ F2 ∪ F3 ∪ F4 ∪ F5)
Lösungsansatz und numerische Lösung:
F1, F2, F3, F4 und F5 sind einander nicht ausschließende Ereignisse, so dass die Additionsregel
für einander ausschließende Ereignisse nicht angewendet werden kann. Es empfiehlt sich, zu den
Gegenereignissen R1, R2, R3, R4 bzw. R5 überzugehen, die die Ereignisse darstellen, dass die
erste, zweite, …, fünfte Entscheidung richtig ist. Es gilt P(R1) = P(R2) = P(R3) =P(R4)=P(R5)=1
− α. Auf Grund der Unabhängigkeit der Entscheidungen sind die Ereignisse R1, R2, R3, R4 und
R5 voneinander unabhängig. Wegen P(F1 ∪ F2 ∪ F3 ∪ F4 ∪ F5) = 1- P(R1 ∩ R2 ∩ R3 ∩ R4 ∩
R5) = 1-P(R1) P(R2) P(R3)P(R4)P(R5)=1-(1 - α)5 =1-0,955=22.62%
Lösung mit R:
>
+
>
>
>
alpha_g <- function(alpha,n) {
1 - (1-alpha)^n}
n <- 5
alpha <- 0.05
print(cbind(n, alpha_g(alpha, n)), digits=4)
n
[1,] 5 0.2262
Ergebnis:
Die Wahrscheinlichkeit beträgt 22,62%, dass von 5 unabhängigen Entscheidungen mindestens
eine falsch ist, wenn das Fehlerrisiko für die Einzelentscheidung 5% ist.
2. Bei einem Verfahren zur sterilen Abfüllung von Flaschen tritt mit der Wahrscheinlichkeit
p=0,1% ein Ausschuss (unsterile Flasche) auf. Es werden n Flaschen zufällig aus einem
(sehr großen) Produktionslos entnommen (Prüfstichprobe). Wie viele Flaschen müssen
zur Prüfung vorgesehen werden, damit mit mindestens 95%iger Sicherheit in der
Prüfstichprobe (wenigstens) eine unsterile Flasche auftritt?
Präzisierung der Aufgabe:
Das Produktionslos wird als sehr groß vorausgesetzt; der Ausschussanteil (d.h. die
Wahrscheinlichkeit, durch Zufallsauswahl eine defekte Einheit zu erhalten, ist p=0,1%. Wenn das
Produktionslos sehr groß im Vergleich zur Prüfstichprobe ist, kann der Auswahlvorgang als ein
„Ziehen mit Zurücklegen“ modelliert werden. Gesucht ist der Umfang der Prüfstichprobe, so dass
in der Prüfstichprobe mit 95%iger Wahrscheinlichkeit mindestens eine defekte Einheit auftritt.
Lösungsansatz und numerische Lösung:
Es sei X die Anzahl der defekten Einheiten in der Prüfstichprobe und n der (zu bestimmende)
Umfang der Prüfstichprobe. Nach Voraussetzung ist n klein im Vergleich zur Größe des
Produktionsloses. Die Prüfstichprobe kann man sich unter dieser Voraussetzung so erzeugt
denken, dass n-mal eine Einheit aus dem Produktionslos aufs Geratewohl ausgewählt wird und
bei jedem Auswahlvorgang die Wahrscheinlichkeit p für die Auswahl einer defekten Einheit
gleich p=0,001 ist. Die Wahrscheinlichkeit eine intakte Einheit auszuwählen, ist 1-p = 0.999; die
Wahrscheinlichkeit insgesamt n intakte Einheiten auszuwählen, ergibt sich aus der
Multiplikationsregel für unabhängige Ereignisse zu P(X=0)= (1-p)n = 0.999n. Das Gegenereignis
zu „n intakte Einheiten auszuwählen“ ist das Ereignis „mindestens eine defekte Einheit
auszuwählen“; die Wahrscheinlichkeit dafür ist P(X>=1)= 1-P(X=0) = 1-0.999n. Gesucht ist n
derart, dass P(X>=1) = 1-0,999n = 0.95 ist.
Lösung mit R:
Die Lösung der Gleichung 1-0,999n = 0.95 wird durch „Einsetzen“ von Werten für n gefunden.
>
>
>
+
+
+
>
options(digits=4)
n <- 1
repeat{
P <- 1-0.999^n
if (P >= 0.95) break
n <- n+1}
print(cbind(n, P))
W. Timischl: Angewandte_Statistik_I_Repetitorium
09.10.13
5
n
P
[1,] 2995 0.95
Ergebnis:
Für die Prüfstichprobe ist ein Mindestumfang von n= 2995 zu planen, damit – bei einem
Fehleranteil von 0,1% - mit einer Sicherheit von (zumindest 95%) mindestens eine fehlerhafte
Einheit „gezogen“ wird.
3. In einem Unternehmen mit 500 Beschäftigten werden im Zuge einer Grippeimpfung 300
geimpft. In der Folge erkrankten 50 Personen, von denen 15 geimpft waren. Wie groß ist
die Wahrscheinlichkeit dafür, dass a) eine Person erkrankt, b) eine geimpfte Person
erkrankt, c) eine erkrankte Person zur Gruppe der Geimpften gehört?
Präzisierung der Aufgabe:
Die Erkrankung einer Person wird durch den Auswahlvorgang simuliert, aus einer Gruppe von
500 Personen (von diesen gehören 15 der Kategorie krank/geimpft, 35 der Kategorie krank/nicht
geimpft, 285 der Kategorie gesund/geimpft und 165 der Kategorie gesund/nicht geimpft an) eine
Person aufs Geratewohl auszuwählen. Es sei E das Ereignis, dass die ausgewählte Person krank
ist, und G das Ereignis, dass die ausgewählte geimpft ist. Gesucht ist in Teilaufgabe a) die
(unbedingte) Wahrscheinlichkeit P(E), in Teilaufgabe b) die bedingte Wahrscheinlichkeit P(E|G)
und in Teilaufgabe c) die Wahrscheinlichkeit P(G|E).
Lösungsansatz und numerische Lösung:
a) P(E) = 50/500 = 10% (Laplace-Definition der Wahrscheinlichkeit)
b) P(E|G) = P(E und G)/P(G) = (15/500)/(300/500) = 5% (Definitionsgleichung der
bedingten Wahrscheinlichkeit)
c) P(G|E) = P(E und G)/P(E) = (15/500)/(50/500) = 30%
Ergebnis:
Die unbedingte Wahrscheinlichkeit für eine Erkrankung ist 10%, die Wahrscheinlichkeit der
Erkrankung einer geimpften Person beträgt 5% und die Wahrscheinlichkeit, dass eine erkrankte
Person vorher geimpft wurde, ist 30%.
4. Bei einem diagnostischen Verfahren zum Nachweis einer Erkrankung sei die
Wahrscheinlichkeit, ein falsch-positives (falsch-negatives) Ergebnis zu erhalten,
gleich 0,5% (2,5%). Die Wahrscheinlichkeit für das Auftreten der Krankheit in einer
bestimmten Zielgruppe sei 1,5%. Man berechne die Wahrscheinlichkeit, dass bei
positivem Ergebnis tatsächlich eine Erkrankung vorliegt.
Präzisierung der Aufgabe:
Es sei HIV+ das Ereignis, dass eine aus der Zielpopulation aufs Geratewohl ausgewählte Person
HIV-infiziert ist; die Wahrscheinlichkeit dieses Ereignisses ist laut Angabe P(HIV+)= 1,5%. Die
Wahrscheinlichkeit des Gegenereignisses HIV- (ausgewählte Person ist nicht HIV-infiziert)
beträgt P(HIV-) = 1-P(HIV+)=98,5%. Ein falsch-positives Ergebnis liegt vor, wenn eine gesunde
Person einen positivem Testbefund hat. Die Wahrscheinlichkeit dieses Ereignisses kann durch die
bedingte Wahrscheinlichkeit P(T+|HIV-) ausgedrückt werden. Ein falsch-negatives Ergebnis liegt
vor, wenn eine HIV-infizierte Person einen negativen Testbefund hat; die Wahrscheinlichkeit
dieses Ereignisses ist P(T-|HIV+). Gesucht ist die Wahrscheinlichkeit P(HIV+|T+) dafür, dass eine
Person mit positivem Testbefund tatsächlich HIV-infiziert ist.
Lösungsansatz und numerische Lösung:
Variante 1 (Lösung mit Bayes’scher Formel):
Mit bekannter Sensitivität P(HIV+|T+) und Spezifität P(HIV-|T-) des diagnostischen Tests sowie
der a priori-Wahrscheinlichkeit P(HIV+) kann die gesuchte Wahrscheinlichkeit kann mit der
Bayes’schen Formel in Form
W. Timischl: Angewandte_Statistik_I_Repetitorium
09.10.13
6
P(HIV+ | T +) =
P (T + | HIV+) P (HIV+)
P(T + | HIV+) P(HIV+) + P (T + | HIV-)P (HIV-)
dargstellt werden. Aus der Angabe ist bekannt:
P(HIV+)=0,015; P(HIV-)=0,985;
P(T+|HIV-)= 0,005; P(T-|HIV-)=1-P(T+|HIV-)=0,995
P(T-|HIV+)=0,025; P(T+|HIV+)=1-P(T-|HIV+)=0,975
Einsetzen in die Bayes’sche Formel liefert:
P(HIV+|T+)=0,975*0,015/[0,975*0,015 + 0,005*0,985] = 0,748
Variante 2 (Lösen mit der Laplace’sche Wahrscheinlichkeitsdefinition nach Übergang zu
absoluten Häufigkeiten):
Gegeben:
P(T+ | HIV-) =
P(T- | HIV+) =
P(HIV+) =
Gesucht:
P(HIV+|T+)
0,005
0,025
0,015
P(T- | HIV-) =
P(T+ | HIV+) =
P(HIV-)=
Berechnung: mittels Übergang zu absoluten Häufigkeiten;
Anzahl der Personen in der Zielgruppe =
0,995
0,975
0,985
1.000.000
1.000.000
HIV+
15000
T+
14625
P(HIV+ | T+)=
HIV985.000
T375
T+
4925
T980.075
0,7481
Ergebnis:
Die Wahrscheinlichkeit P(HIV+|T+) bei positivem Testbefund tatsächlich HIV-infiziert zu sein,
beträgt 74,8%.
2 WAHRSCHEINLICHKEITSVERTEILUNGEN
2.1 Diskrete Verteilungen (discrete distributions)
Diskrete Zufallsvariable (discrete random variables) :
Die Variation einer diskreten Zufallsvariablen X wird durch Angabe der Menge M der
(höchstens abzählbar unendlich vielen) möglichen Werte x1, x2, ... von X und durch
Angabe der Wahrscheinlichkeiten pi = P(X = xi) für xi ∈ M beschrieben. Die Funktion f:
{x|x reelle Zahl} [0,1] mit f(x) = pi = P(X = xi) für x=xi ∈ M und f(x)=0 für x ∉ M heißt
Wahrscheinlichkeitsfunktion von X. Man beachte, dass
p1 + p2 + ... = 1.
Permutationen und Kombinationen permutations, combinations):
• Definition von k-Faktorielle (k factorial):
k! (lies k Faktorielle; k = 2, 3,…) = 1⋅2⋅…⋅k; ferner definiert man: 0! = 1! = 1.
• Bedeutung von k!:
Gegeben sind k Zellen, die von 1 bis k durchnummeriert werden. Jede Zelle kann mit
einem Objekt belegt werden. Zur Auswahl stehende Objekte stammen aus ein- und
derselben Menge M mit n > k ≥ 1 verschiedenen Elementen. Jede Belegung der
Zellen heißt eine „k - Permutation von n Objekten“.
Anzahl P(k,n) der möglichen Belegungen:
P ( k , n) = n( n − 1)(n − 2) L ( n − k + 1), P (k , k ) = k! = k (k − 1)( k − 2) L1
W. Timischl: Angewandte_Statistik_I_Repetitorium
09.10.13
7
•
Definition des Binomialkoeffizienten (binomial coefficient):
n!
n, k ganzzahlig, n ≥ k ≥ 0:  n  =
 k  (n − k )!k!
 
•
Bedeutung des Binomialkoeffizienten:
Eine k - Kombinationen ist eine Zusammenstellungen von jeweils k ≤ n Objekten, die
aus einer Menge M mit n Elementen ausgewählt werden und bei denen es nicht auf
die Reihenfolge der Anordnung ankommt.
Anzahl der k-Kombinationen C(k,n):
n
C ( k , n ) = P ( k , n ) / k! =  
k 
•
R-Funktionen
factorial(), choose()
Wahrscheinlichkeitsfunktion der Binomialverteilung (binomial distribution):
Ein Zufallsexperiment wird n-mal wiederholt, die Wiederholungen erfolgen unabhängig
voneinander. Bei jeder einzelnen Durchführung des Experiments möge das Ereignis E
mit der Wahrscheinlichkeit p (=Erfolgswahrscheinlichkeit) eintreten. Dann gilt:
Die Zufallsvariable X = "Anzahl der Wiederholungen mit dem Ausgang E" ist
binomialverteilt mit den Parametern n und p (kurz X ∼Bn,p); die Werte der
Binomialverteilung Bn,p sind für x=0, 1, 2, ... , n durch
 n x
 p (1 −

 x
P( X = x) = B n, p ( x) = 
p) n− x
gegeben, für x ∉ {0, 1, 2, ..., n} ist Bn,p(x)=0.
R-Funktionen: dbinom(), pbinom(), qbinom(), rbinom()
Wahrscheinlichkeitsfunktion der Poissonverteilung (Poisson distribution):
Ein Zufallsexperiment wird n-mal wiederholt, die Wiederholungen erfolgen unabhängig
voneinander. Bei jeder einzelnen Durchführung des Experiments möge das Ereignis E
mit der Wahrscheinlichkeit p (=Erfolgswahrscheinlichkeit) eintreten. Dann gilt: X=
"Anzahl der erfolgreichen Ausgänge" ∼ Bn,p. Die Binomialverteilung strebt für p
0 und
konstant bleibendem Mittelwert np = λ gegen die sogenannte Poissonverteilung Pλ mit
den Funktionswerten
x
P( X = x) = P ( x) = e −λ λ
λ
x!
für x=0, 1, 2, ... und Pλ(x)=0 für x ∉ {0, 1, 2, ... }.
R-Funktionen: dpois(), ppois(), qpois(), rpois()
Wahrscheinlichkeitsfunktion der Hypergeometrischen Verteilung (hypergeometric
distribution):
Es seien M eine Menge von N Elementen, von denen a<N vom Typ A sind, und X die
Zufallsvariable „Anzahl der Elemente vom Typ A, wenn insgesamt n (n≤ a, n≤ N-a) aus
der Menge M gezogenen (und nicht wieder zurückgelegt) werden“. Dann ist X
hypergeometrisch verteilt mit den Parametern N, n und p = a/N (kurz X ∼ HN,n,p). Die
Funktionswerte der hypergeometrischen Verteilung HN,n,p sind
W. Timischl: Angewandte_Statistik_I_Repetitorium
09.10.13
8
 a  N − a 
 

x  n − x 

P ( X = x) = H N ,n , p ( x ) =
N
 
n
für x ∈ {0, 1, 2, ..., n} und HN, n, p(x)=0 für x ∉ {0, 1, 2, ..., n}; dabei wird n ≤ a und n ≤ n-a
angenommen.
R-Funktionen: dhyper(), phyper(), qhyper(), rhyper()
Lage- und Formmaße:
Mit der Wahrscheinlichkeitsfunktion f wird die Zufallsvariation einer diskreten
Zufallsvariablen X vollständig beschrieben. Eine Kurzbeschreibung der Zufallsvariation
erhält man, wenn man die Wahrscheinlichkeitsfunktion hinsichtlich ihrer „Lage“ auf der
horizontalen Achse (Merkmalsachse) und hinsichtlich ihrer „Form“ durch geeignete
Kennzahlen beschreibt.
Mittelwert (mean):
Das wichtigste Lagemaß ist der Mittelwert
µ X = ∑ xi f ( xi ) = x1 f ( x1) + x2 f ( x2 ) + L
i
von X; zur seiner Berechnung wird jeder Wert xi von X mit der entsprechenden
Wahrscheinlichkeit f(xi)=P(X= xi) multipliziert und die erhaltenen Produkte aufsummiert.
Statt Mittelwert von X sagt man auch Erwartungswert (expectation) von X und schreibt
dafür E[X].
Für eine mit den Parametern n und p binomialverteilte Zufallsvariable X ist E[X]=np; ist X
Poissonverteilt mit dem Parameter λ, gilt E[X]=λ.
Variance (variance):
Die Varianz ist ein Streuungsmaß, mit dem die Form der Verteilung einer diskreten
ZUfallsvariablen X hinsichtlich der Eigenschaft beschrieben wird, ob der Graph der
Wahrscheinlichkeitsfunktion einen flachen, langgestreckten Verlauf besitzt oder über
einen engen Bereich der Merkmalsachse konzentriert ist. Die Varianz von X wird als
mittlere quadratische Abweichung
Var[X ] = E ( X − µX )2  = ∑(xi − µX )2 f (xi )


i
der Variablenwerte um den Mittelwert µX=E[X] eingeführt und auch durch
bezeichnet. Die Quadratwurzel
σ X = σ X2
σ X2
aus der Varianz heißt die
Standardabweichung (standard deviation) von X.
Quantil, Median (quantile, median):
Für eine diskrete Zufallsvariable X mit der Wertemenge DX={x1, x2, ,,,} und der
Verteilungsfunktion F ist das p-Quantil das kleinste Element xp ∈ DX, das der Forderung
F(xp)=P(X ≤ xp) ≥ p genügt. Im Besonderen ist der Median bei diskretem X der kleinste
Wert x0.5 ∈ DX, der die Ungleichung F(x0.5)= P(X ≤ x_0.5) ≥ 0.5 erfüllt.
2.2 Stetige Verteilungen (continuous distributions)
Stetige Zufallsvariable (continuous random variables):
Die Variable X heißt eine stetige Zufallsvariable, wenn sie einem Zufallsexperiment
zugeordnet ist und eine auf der Ergebnismenge Ω des Zufallsexperimentes definierte
W. Timischl: Angewandte_Statistik_I_Repetitorium
09.10.13
9
reellwertige Funktion mit der Eigenschaft darstellt, dass für jedes Intervall (a, b) der
reellen Zahlenachse die Wahrscheinlichkeit P(a < X < b) existiert. Die Zufallsvariation
einer stetigen Zufallsvariablen X wird mit Hilfe der sogenannten ahrscheinlichkeitsdichte
f beschrieben. Diese ist eine für alle reellen x definierte nichtnegative Funktion, mit der
die Wahrscheinlichkeit P(a < X < b), dass X einen Wert zwischen a und b annimmt, als
„Fläche unter der Dichtekurve“ zwischen x=a und x=b dargestellt wird. Es folgt, dass die
Gesamtfläche unter der „Dichtekurve“ 1 Flächeneinheit ist.
Das Arbeiten mit stetigen Zufallsvariablen erfordert die Berechnung von „Flächen unter
der Dichtekurve“, d.h. die Berechnung von bestimmten Integralen der Art:
b
P(a < X < b) = ∫ f (ξ )dξ
a
In der Praxis erfolgt die Berechnung mit Hilfe von tabellierten Werten der sogenannten
Verteilungsfunktion F von X:
x
F : x → F ( x) = P( X < x) = ∫ f (ξ )dξ
−∞
Mittelwert und Varianz einer stetigen Zufallsvariablen:
Der Mittelwert µX oder Erwartungswert E[X] einer stetigen Zufallsvariablen X mit der
Dichtefunktion f wird durch das Integral
µ
+∞
= E[ X ] = ∫ xf ( x )dx
X
−∞
dargestellt. Die Varianz Var[X] (oder
σ X2 ) von X ist als der Erwartungswert der
quadratischen Abweichung der Zufallsvariablen X von ihrem Mittelwert µX definiert:
+∞
σ X2 = Var[ X ] = E[( X − µ X ) 2 ] = ∫ ( x − µ X ) 2 f ( x)dx
−∞
Die Quadratwurzel σ X = σ X2 aus der Varianz heißt die Standardabweichung von X.
Median, Quartil, Quantil (median, quartile, quantile):
• Neben dem Mittelwert und der Standardabweichung sind der Median und der
Quartilabstand (inter quartile range) weitere Maßzahlen zur Kennzeichnung der
zentralen Lage bzw. der Streuung einer stetigen Zufallsvariablen X.
Der Median x0,5 ist derjenige Wert von X, der mit 50%iger Wahrscheinlichkeit unterbzw. überschritten wird, d.h., für den gilt: P(X ≤ x0,5) = P(X ≥ x0,5) = 0.5. Die an der
Stelle x0,5 der Merkmalsachse errichtete Ordinate teilt die Fläche „unter“ der
Dichtekurve in zwei Hälften.
• Der Median ist ein Spezialfall eines allgemeineren Lagemaßes, des sogenannten pQuantils (quantile) mit xγ (0<p<1); xγ ist der durch die Forderung P(X ≤ xp) = p
festgelegte Wert von X, also jener Wert, der mit der Wahrscheinlichkeit p
unterschritten wird.
• Das 25%-Quantil x0.25 und das 75%-Quantil x0.75 heißen auch das untere bzw. das
obere Quartil. Die Differenz x0.75 - x0.25 aus dem oberen und unteren Quartil ist der
Quartilabstand.
Normalverteilung (normal distribution):
Die Zufallsvariable X heißt normalverteilt mit dem Mittelwert µ und der Varianz σ2
(kurz: X ∼ N(µ,σ2)), wenn die Dichtefunktion durch
W. Timischl: Angewandte_Statistik_I_Repetitorium
09.10.13
10




f : x → f ( x) = 1 exp- 1  ( x − µ ) 
σ
2

σ 2π




2 



(−∞ < x < +∞)
gegeben ist. Im Sonderfall µ = 0 und σ = 1 heißt X standardnormalverteilt.
R-Funktionen: dnorm(), pnorm(), qnorm(), rnorm()
2.3 Musterbeispiele
1. Bei einem Test werden 5 Aufgaben derart gestellt, dass es bei jeder Aufgabe 4
Antwortmöglichkeiten gibt, von denen genau eine die richtige ist. Wie groß ist die
Wahrscheinlichkeit, dass man mehr als die Hälfte der Aufgaben richtig löst, wenn die
Lösungsauswahl aufs Geratewohl erfolgt, d.h., jeder Lösungsvorschlag mit der
Wahrscheinlichkeit 1/4 gewählt wird?
Präzisierung der Aufgabe:
Die Lösung der 5 Aufgaben wird durch die 5-malige Wiederholung eines Zufallsexperimentes
modelliert; bei jeder Wiederholung ist die Wahrscheinlichkeit, aufs Geratewohl die richtige
Antwort zu finden, gleich 1/4. Die Anzahl der Wiederholungen (Aufgabenlösungen) mit der
richtigen Antwort ist eine binomialverteilte Zufallsvariable X mit den Parametern n=5 und p=1/4
(Erfolgswahrscheinlichkeit).
Lösungsansatz und numerische Lösung:
Gesucht ist die Wahrscheinlichkeit des Ereignisses, mehr als die Hälfte der Aufgaben richtig zu
lösen, d.h. die Wahrscheinlichkeit P(X>=3). Mit Hilfe der Gegenwahrscheinlichkeit P(X<=2), die
gleich dem Wert der Verteilungsfunktion der Binomialverteilung an der Stelle x=2 ist, kann die
gesuchte Wahrscheinlichkeit in der Form P(X>=3) = 1-P(X<=2) dargestellt werden.
Lösung mit R:
> PXgrgl3 <- 1 - pbinom(2, 5, 0.25); PXgrgl3
[1] 0.1035156
Ergebnis:
Die Wahrscheinlichkeit P(X>=3), mehr als die Hälfte der 5 Aufgaben richtig zu lösen, wenn die
vier möglichen Antworten aufs Geratewohl gewählt werden, beträgt 10,35%.
2. Ein Produktionslos enthält 100 Widerstände. Der Hersteller garantiert, dass höchstens
5% defekt sind. Jedes Los wird vor Lieferung geprüft, indem 10 Widerstände entnommen
werden. Sind alle 10 Widerstände in Ordnung, wird das Los zur Auslieferung
freigegeben. Wie groß ist bei diesem Prüfverfahren die Wahrscheinlichkeit, dass ein Los
zurückgewiesen wird, obwohl es den Bedingungen (höchstens 5% defekt) entspricht?
Lösungsansatz und numerische Lösung:
Wir nehmen den ungünstigsten Fall an, dass nämlich genau 5% der 100 Widerstände, also 5
Widerstände defekt sind. Die Entnahme der Prüfstichprobe möge nach dem Modell „Auswählen
ohne Zurücklegen“ erfolgen. Gesucht ist die Wahrscheinlichkeit für die Zurückweisung des Loses,
d.h. die Wahrscheinlichkeit dafür, dass die Anzahl X der defekten Widerstände in der
Prüfstichprobe größer als null ist.
Lösung:
Gesucht ist die Wahrscheinlichkeit P(X>0) = 1- P(X=0). Die Anzahl X ist eine hypergeometrisch
verteilte Zufallsvariable und stellt die defekten Widerstände dar, die man bei Zufallsauswahl aus
dem Produktionslos mit 95 intakten und 5 defekten Widerständen erhält.
Lösung mit R:
> PXgr0 <- 1-phyper(0, 5, 95, 10); PXgr0
W. Timischl: Angewandte_Statistik_I_Repetitorium
09.10.13
11
[1] 0.4162476
Ergebnis:
Die Wahrscheinlichkeit P(X>0), mindestens einen defekten Widerstand zu erhalten, wenn aus
einem Los mit 95 intakten und 5 defekten Widerständen ohne Zurücklegen ausgewählt wird,
beträgt 41,62%.
3. Für eine bestimmte Diagnosegruppe ist ein Laborparameter X normalverteilt mit einem
Mittelwert von 75 Einheiten und einer Standardabweichung von 10 Einheiten. Laborwerte
unter 55 und über 95 gelten als kritisch.
a) Wie groß ist die Wahrscheinlichkeit, dass X einen kritischen Wert annimmt? (4,55%)
b) Wie groß ist die Wahrscheinlichkeit, dass in einer Stichprobe von 5 Personen,
mindestens viermal ein nicht kritischer Wert gemessen wird? (98.1%)
Präzisierung der Aufgabe:
Nach Voraussetzung ist X eine normalverteilte Zufallsvariable mit dem Mittelwert 75 und der
Standardabweichung 10. Das Ereignis „X nimmt einen kritischen Wert an“ ist gleich dem
zusammengesetzten Ereignis „X<55 oder X>95“. In Teilaufgabe a) ist die Wahrscheinlichkeit
p=P(X<55 oder X>95) dieses Ereignisses gesucht. Um die Wahrscheinlichkeit in Teilaufgabe b)
zu bestimmen, betrachten wir das Auftreten eines kritischen Laborwertes an einer Person als ein
Zufallsexperiment, bei dem sich mit der Wahrscheinlichkeit p ein kritischer Wert ergibt. Das
Experiment wird 5mal wiederholt; dann ist die Anzahl Y der Wiederholungen mit einem
kritischen Laborwert binomialverteilt mit den Parametern n=5 (Anzahl der Wiederholungen des
Zufallsexperimentes) und p (Erfolgswahrscheinlichkeit).
Lösungsansatz und numerische Lösung:
In a) ist die Wahrscheinlichkeit p=P(X<55 oder X>95) = P(X<55) + P(X>95) gesucht, wobei X
eine normalverteilte Zufallsvariable darstellt. Mit F als Verteilungsfunktion von X kann p in der
Form p=F(55) + 1 – F(95) geschrieben werden.
In b) ist die Wahrscheinlichkeit P(Y<=1) zu bestimmen, wobei Y eine Bn,p-verteilte
Zufallsvariable ist.
Lösung mit R:
> # a)
> Pkritisch <- pnorm(55, 75, 10) + 1 - pnorm(95, 75, 10); Pkritisch
[1] 0.04550026
# b)
> PYklgl1 <- pbinom(1, 5, Pkritisch); PYklgl1
[1] 0.9811177
Ergebnis:
Die Wahrscheinlichkeit, in Teilaufgabe a) einen kritischen Wert zu erhalten, beträgt 4,55%. Mit
98,11%iger Wahrscheinlichkeit sind in einer Gruppe von 5 Personen mindestens 4 Personen ohne
kritischen Wert, d.h. höchstens eine Person mit einem kritischen Wert.
4. Die Masse (in mg) einer Wirksubstanz W in einem Präparat sei normalverteilt mit dem
Mittelwert 10 und der Varianz 0,25. Mit welcher Wahrscheinlichkeit wird ein Wert
außerhalb des 2-fachen Interquartilabstandes um den Mittelwert angenommen? (0.7%)
Präzisierung der Aufgabe:
Nach Voraussetzung ist die Masse X eine normalverteilte Zufallsvariable mit dem Mittelwert
µ=10 (mg) und der Varianz σ2 = 0,25 (mg2). Der Quartilabstand ist gleich der Differenz d = x0,75 x0,25 zwischen dem 75%-Quantil x0,75 und dem 25%-Quantil x0,25. Gesucht ist die
Wahrscheinlichkeit des zusammengesetzten Ereignisses X < µ-2d oder X > µ+2d.
Lösungsansatz und numerische Lösung:
Für die gesuchte Wahrscheinlichkeit P gilt: P=(X < µ-2d oder X > µ+2d) = P(X < µ-2d)+P(X <
W. Timischl: Angewandte_Statistik_I_Repetitorium
09.10.13
12
µ+2d) = 2 P(X < µ-2d). Mit F als Verteilungsfunktion (=Normalverteilungsfunktion) von X kann
P in der Form P=2F(µ-2d) geschrieben werden.
Lösung mit R:
> options(digits=4)
> mu <- 10 # Mittelwert
> std <- sqrt(0.25); std # Standardabweichung
[1] 0.5
> q075 <- qnorm(0.75, mu, std); q075 # 75%-Quantil
[1] 10.34
> q025 <- qnorm(0.25, mu, std); q025 # 25%-Quantil
[1] 9.663
> d <- q075 - q025; d # Quartilabstand
[1] 0.6745
> P <- 2*pnorm(mu-2*d, mu, std); P
[1] 0.006977
Ergebnis:
Die Wahrscheinlichkeit, dass X einen Wert außerhalb des 2-fachen Quartilabstands um den
Mittelwert annimmt, beträgt 0,7%.
3 PARAMETERSCHÄTZUNG: GENAUIGKEIT UND SICHERHEIT
3.1 Datenbeschreibung bei einem Merkmal
Zweck der Parameterschätzung (estimation of parameters):
Die Merkmalsvariation einer Zufallsvariablen X wird i. Allg. durch Wahrscheinlichkeitsverteilungen (Wahrscheinlichkeitsfunktionen bzw. Dichtefunktionen) mit
unbekannten Parametern modelliert. Für diese Parameter sind - mit Hilfe von univariaten
Zufallsstichproben - Schätzwerte zu ermitteln.
Wahrscheinlichkeitsdichte
Grundgesamtheit X
N(µ, σ2)
Zufallsstichprobe
Zufallsauswahl
x1, x2, ..., xn
Stichprobenfunktionen
µ
X
2σ
Stichprobenmittel
Parameterschätzung:
Schätzwert
Konfidenzintervall
Stichprobenstandardabweichung
Beschreibung von univariaten Stichproben (univariate samples):
•
durch grafische Darstellung der Merkmalswerte in Form von Punktdiagrammen (DotPlots) vor allem bei kleinen Stichproben;
•
tabellarisch durch eine Häufigkeitsverteilung ohne (bzw. mit) Klassenbildung, die
Aufschluss gibt über die Wahrscheinlichkeitsfunktion (Wahrscheinlichkeitsdichte) eines
W. Timischl: Angewandte_Statistik_I_Repetitorium
09.10.13
13
•
diskreten (bzw. stetigen) Merkmals, und deren grafische Darstellung durch
Stabdiagramme bzw. Histogramme;
numerisch durch Maßzahlen, die markante Eigenschaften der Verteilung zum Ausdruck
bringen, und deren grafische Darstellung (Mittelwerte mit Fehlerbalken, Boxplots) .
Häufigkeitsverteilung ohne Klassenbildung:
X = quantitatives diskretes Merkmal, das k (verschiedene) Werte a1, a2, ..., ak annehmen
kann. Beobachtung von X an n Untersuchungseinheiten
Stichprobe x1, x2, ..., xn
Abzählen der Untersuchungseinheiten mit dem Merkmalswert ai ergibt die absolute
Häufigkeit Hi (absolute frequency);
Division der absoluten Häufigkeit Hi durch den Stichprobenumfang n ergibt die
relative Häufigkeit (relative frequency) hi = Hi /n.
Darstellung der Häufigkeitsverteilung von X durch eine Häufigkeitstabelle (frequency
table) (=mit den Werten von X und den entsprechenden absoluten bzw. relativen
Häufigkeiten erstellte Wertetabelle) oder durch ein Stabdiagramm (bar chart) (=über
den auf der Merkmalsachse eingezeichneten Werten von X werden die absoluten
bzw. relativen Häufigkeiten als „Stäbe“ eingezeichnet)
R-Funktionen: table(), barplot()
Häufigkeitsverteilung mit Klassenbildung:
X = stetiges Merkmal und x1, x2, ..., xn eine Stichprobe von X;
Zerlegung der Merkmalsachse in gleich lange, aneinandergrenzende Intervalle (Klassen)
K1, K2, ..., Kl
Klasseneinteilung (grouping)
Anzahl der Klassen l ≈ n und Klassenbreite b = ( xmax − xmin ) / l
Klassengrenzen (class limits):
Festlegung der unteren Grenze c1 der ersten Klasse K1 derart, dass
c1 < xmin < c1+ b K1 =[c1, c1+ b); c2 = c1+ b ist die untere Grenze der zweiten
Klasse K2 = [c2, c2+ b); c3 = c2 + b die untere Grenze der dritten Klasse
K3 = [c3, c3+ b) usw.
Abzählen der Untersuchungseinheiten in der Klasse Ki ergibt die
absolute Klassenhäufigkeit (class frequency) H'i von Ki (= Anzahl der Merkmalswerte
xi
mit ci ≤ xi < ci+1); man beachte:
H'j = n!
j
∑
Division der absoluten Klassenhäufigkeit H'i durch den Stichprobenumfang n führt zur
relativen Klassenhäufigkeit h'i = H'i /n; man beachte:
h' j = 1 !
j
∑
Division der relativen Klassenhäufigkeit h'i durch die Klassenbreite b ergibt die
Häufigkeitsdichte di = h'i /b;
Histogramm (histogram):
Über jede Klasse Ki wird das Rechtecke mit der Breite b und der Höhe di errichtet
(dieses Histogramm heißt flächennormiert, weil die gesamte "Histogrammfläche" = 1
ist)
R-Funktion: hist()
Verteilungskennwerte (univariate Statistiken, univariate statistics):
X = quantitatives Merkmal mit den an n Untersuchungseinheiten beobachteten Werten
x1, x2, ..., xn.
Mittelwert (sample mean, Lagemaß):
x =  ∑ xi  / n = (x1 + x2 +L+ xn )/ n
 n

 i =1

W. Timischl: Angewandte_Statistik_I_Repetitorium
09.10.13
14
Interpretation des Mittelwerts:
a) Schätzwert für den "wahren" Wert µ von X (dabei wird angenommen, dass sich die
Messwerte additiv aus dem wahren Wert und einem regellos um Null streuenden
Messfehler zusammensetzen)
b) Schätzwert für den Mittelwert µ von X (dabei wird angenommen, dass X selbst
zufällig variiert)
R-Funktion: mean()
Varianz (variance) s2, Standardabweichung (standard deviation) s (Streuungsmaße):
n
1
s =
∑ ( xi − x ) 2 , s =
n − 1 i =1
2
s2
R-Funktionen: var(), sd()
Standardfehler (standard error) SE = s / n
Maß für die Zufallsstreuung des Mittelwerts (je größer n, desto genauer die
Mittelwertschätzung). Messergebnisse werden oft in der Form x ± SE dargestellt.
Weitere Lagemaße für die univariate Datenbeschreibung:
• Modalwert xmod (häufigster Merkmalswert, mode)
R-Funktion:
• kleinster und größter Merkmalswert xmin bzw. xmax
R-Funktionen: min(), max()
• p –Quantil (quantile) xp (0 ≤ p < 1):
anschauliche Charakterisierung:
xp = jener Wert, der von np Stichprobenwerten unterschritten und von n(1-p)
Stichprobenwerten überschritten wird (ist np nicht ganzzahlig, so nehme man dafür
den auf die nächste ganze Zahl gerundeten Wert).
Definition:
Stichprobe von X umfasse die n metrischen Werte x1, x2, ... , xn
Anordnung der Stichprobenwerte nach aufsteigender Größe ergibt die geordnete
Stichprobe x(1), x(2), ... , x(n)
Bestimme Zahl u = 1+(n-1)p und daraus die größte ganze Zahl [u] kleiner oder
gleich u; ferner setzen wir v= u-[u]
p –Quantil x p = (1 − v ) x ([ u ]) + vx ([ u ]+1)
Sonderfälle:
p = 50% (Median x0.5, median)
p = 25% (unteres Quartil x0.25, lower quartile)
p = 75% (oberes Quartil x0.75, upper quartile)
R-Funktionen: quantile(), summary()
Boxplot (boxplot):
Grafik zur groben Beschreibung der Häufigkeitsverteilung einer quantitativen
Variablen bestehend aus der Box mit den Quartilen gezeichneten Box und dem in der
Box liegenden Median sowie den Ausläufern bis zum kleinsten bzw. größten
Merkmalswert.
R-Funktion: boxplot()
Man beachte: Die Quartile x0.25 und x0.75 sind hier als Median der Merkmalswerte
kleiner bzw. größer als x0.5 definiert (die so berechneten Quartile werden im
Englischen auch als „hinges“ bezeichnet).
Schiefe (skewness, Formmaß zur Beschreibung der Asymmetrie):
Definition der Schiefe g als (standardisiertes) Moment dritter Ordnung:
W. Timischl: Angewandte_Statistik_I_Repetitorium
09.10.13
15
(
)
3
 n

g =  ∑ ( xi − x ) 3  / n s 1 − 1/ n 

 i =1
 
Bezeichnungen: linksschief (rechtssteil, g<0), rechtsschief (linkssteil, g>0)
Zentrieren und Standardisieren:
X = quantitatives Merkmal mit den an n Untersuchungseinheiten beobachteten
Werten x1, x2, ..., xn Mittelwert x und Standardabweichung s:
X → Z c = X − x (Zentriere n)
X → ZS =
X −x
(Standardi sieren)
s
3.2 Schätzfunktionen
Stichprobenmittel
Es sei X1, X2, ..., Xn eine Zufallsstichprobe, in der die Variablen Xi (i = 1, 2, …, n) die
Ergebnisse von n Beobachtungen ausdrücken. Zur Schätzung des Mittelwerts µ einer
N(µ, σ2)-verteilten Zufallsvariablen X verwendet man das Stichprobenmittel:
X = ( X 1 + X 2 + L + X n ) / n . Es gilt:
•
X i ≅ N (µ ,σ 2 ) ⇒ X ≅ N (µ ,σ 2 / n)
• X = Zufallsvariable mit den Werten 1 und 0, wobei P(X=1)=p;
X1, X2, ..., Xn = Zufallsstichprobe von X. Dann ist der Anteil
X = ( X 1 + X 2 + L + X n ) / n der Wiederholungen mit Xi = 1 Bn,p-verteilt mit dem
Mittelwert E[ X ] = p und der Varianz Var [ X ] = p (1 − p ) / n . Für großes n gilt die die
Approximation (Satz von Moivre-Laplace):
X=
1
( X 1 + X 2 + L + X n ) ≅ N  p, p(1 − p) 
n
n


• X = Zufallsvariable mit dem Mittelwert
µ
und der Varianz
σ 2;
X1, X2, ..., Xn = Zufallsstichprobe von X. Dann ist E[ X ] = µ , Var [ X ] = σ 2 / n und für
großes n (ab 30) gilt die Approximation (Zentraler Grenzwertsatz):
X ≅ N ( µ , σ 2 / n)
Stichprobenvarianz
Es sei X1, X2, ..., Xn eine Zufallsstichprobe, in der die Variablen Xi (i = 1, 2, …, n) die
Ergebnisse von n Beobachtungen ausdrücken. Zur Schätzung der Varianz σ2 einer
N(µ, σ2)-verteilten Zufallsvariablen X verwendet man die Stichprobenvarianz:
]
Dichtekurven der Chiquadratverteilung
0.5
[
1
(X1 − X )2 + (X 2 − X )2 + L + (X n − X )2
n −1
0.3
f=1
Dichte
R-Funktionen:
dchisq(), pchisq(), qchisq(), rchisq()
0.4
Hinsichtlich der Verteilung von S2 gilt,
dass ( n − 1) S 2 / σ 2 ≅ χ n2−1 , d.h. (n-1)S2/σ2
ist eine chiquadratverteilte Zufallsvariable
mit f = n - 1 Freiheitsgraden.
0.2
S2 =
0.1
f=3
0.0
f=5
W. Timischl: Angewandte_Statistik_I_Repetitorium
0
1
2
3
09.10.13
(n-1)S^2/sigma^2
4
16
Eigenschaften „guter“ Schätzfunktionen
Mittlerer quadratischer Fehler (mean-squared error):
Es sei
πˆ n = πˆ n ( X 1 , X 2 , K, X n )
eine Schätz(Stichproben)funktion für den
Verteilungsparameter π. Die Beurteilung der Güte einer Schätzfunktion kann mit der
erwarteten mittleren quadratischen Abweichung (dem mittleren quadratischen Fehler)
2
MSE = E[(πˆ n − π ) 2 ] = Var[πˆ n ] + (E[πˆ n ] − π )
erfolgen, die gleich der Summe aus der Varianz der Schätzfunktion und dem Quadrat
der Verzerrung (Bias) ist.
Forderungen an "gute" Schätzfunktionen:
∞ soll der Erwartungswert E[πˆ n ] der Schätzfunktion gegen den
Parameter π streben, d.h. die Schätzwerte sollen mit wachsender
Wahrscheinlichkeit um π konzentriert sein. dies trifft zu, wenn die Schätzfunktion
•
Für n
•
unverzerrt (erwartungstreu) ist.
Varianz soll für n
∞ gegen Null streben.
Anmerkungen:
• Schätzfunktionen, die die erste Forderung erfüllen, heißen asymptotisch
erwartungstreu. Gilt sogar E[πˆ n ] = π für alle n=1, 2, …, nennt man die Schätzfunktion
erwartungstreu (unbiased). Schätzfunktionen, die beiden Forderungen genügen,
heißen konsistent (im quadratischen Mittel).
• Das Stichprobenmittel πˆ n = X = ( X 1 + X 2 + K + X n ) / n ist eine erwartungstreue
Schätzfunktion für µ, d.h. E[ X ] = µ ⇒ Bias = 0 . Überdies gilt:
Var[ X ] = σ 2 / n n
→ 0 .
→∞
•
Die Stichprobenvarianz πˆ n = S 2 = ∑ ( X i − X ) /(n − 1) ist eine erwartungstreue
n
2
i =1
Schätzfunktion für σ , d.h. E[ S ] = σ 2 ⇒ Bias = 0 .
Überdies gilt: Var[ S 2 ] = 2σ 4 /( n − 1) n
→ 0 . Dagegen ist S ist keine
→∞
2
2
erwartungstreue Schätzfunktion für σ.
Maximum-Likelihood-Schätzer (maximum-likelihood estimator)
Likelihood-Funktion (likelihood function):
Es seien X eine (diskrete) Zufallsvariable mit der von dem zu schätzenden Parameter π
abhängigen Wahrscheinlichkeitsfunktion f(x|π) und x1, x2, ... , xn eine Zufallsstichprobe
von X. Wir bilden die so genannte Likelihood-Funktion:
n
L(π = π~ | x1, x2 ,K, xn ) = ∏ f (xi | π~)
i=1
Die Likelihood-Funktion ist die Wahrscheinlichkeit dafür, dass X die Realisationen x1,
x2,..., xn annimmt, wenn π~ der Schätzwert für π ist.
Maximum Likelihood-Prinzip:
Der Maximum Likelihood-Schätzer (kurz ML-Schätzer) für π ist jenes π~ , für das die
Likelihood-Funktion den größten Wert annimmt,d.h. die Maximumstelle von L.
Hinweise:
• Bei stetigen Zufallsvariablen tritt an die Stelle der Wahrscheinlichkeitsfunktion die
Wahrscheinlichkeitsdichte.
W. Timischl: Angewandte_Statistik_I_Repetitorium
09.10.13
17
•
Die ML-Schätzung des Mittelwertes ist gleichwertig mit der sogenannten
Kleinsten Quadrat-Schätzung (LS-Schätzung: "optimaler" Schätzwert ist jener,
der die Summe der Quadrate der Abweichungen der Beobachtungswerte vom
Schätzwert minimiert, LS=least-squares)
3.3 Intervallschätzung
Definition des Konfidenzintervalls (confidence interval)
Wir bezeichnen als Konfidenzintervall für einen unbekannten Parameter π einer
Verteilung das Intervall [U, O] der Zahlengeraden, das den Parameter π mit einer
vorgegebenen hohen Wahrscheinlichkeit 1-α einschließt, d.h., P(U ≤ π ≤ O) =
1-α. Zusätzlich geben wir die Symmetrieforderung P(U > π) = P(O < π) = α/2 vor.
Berechnung von Konfidenzintervallen
• Das (1-α)-Konfidenzintervall für die Varianz σ2 einer N(µ, σ2)- verteilten
Zufallsvariablen ist ein Intervall mit der unteren Grenze U = ( n − 1) S 2 / χ n2−1,1−α / 2 und
der oberen Grenze O = (n −1)S 2 / χ n2−1,α / 2 . Die Größen χ n2−1,1−α / 2 und χ n2−1,α / 2 sind das
•
(1-α/2)- bzw. das α/2-Quantil der Chiquuadratverteilung mit n-1 Freiheitsgraden.
Das (1-α)-Konfidenzintervall für den Mittelwert µ einer N(µ, σ2)- verteilten
Zufallsvariablen ist ein um das Stichprobenmittel symmetrisches Intervall
X − d , X + d mit der halben Intervallbreite d = t n −1,a −α / 2 S / n . Die Größe tn-1,1-α/2
[
]
ist das (1-α/2)-Quantil der t-Verteilung mit n-1 Freiheitsgraden.
t-Verteilung:
R-Funktionen: dt(), pt(), qt(), rt()
0.5
Dichtekurven der t-Verteilung
0.4
N(0,1)
Dichte
0.3
t(f=5)
0.0
0.1
0.2
t(f=1)
-3
-2
-1
0
1
2
3
Approximation für großes n (ab n=30):
Für „große“ Stichproben kann im Konfidenzintervall für µ das t-Quantil tn-1,1-α/2 durch
das von (n unabhängige) Quantil z1-α/2 der N(0,1)-Verteilung approximiert werden,
d.h. die halbe Intervallbreite kann einfacher durch d = z1−α / 2S / n ausgedrückt
werden. Löst man nach n auf, erhält man die für große n gültige Faustformel für den
Mindeststichprobenumfang zur Schätzung eines Mittelwerts mit der vorgegebenen
Genauigkeit ±d und der vorgegebenen Sicherheit 1-α :
W. Timischl: Angewandte_Statistik_I_Repetitorium
09.10.13
18
2
σ
z
n ≈  1−α / 2 
d


• Ein approximatives (1-α)-Konfidenzintervall für den Parameter p (Wahrscheinlichkeit)
einer Zweipunktverteilung ist das Agresti-Coull-Intervall. Es sei X eine zweistufig
skalierte Zufallsvariable mit den Werten 1 und 0, p = P(X =1) bzw. q = 1-p = P(X=0)
die Wahrscheinlichkeiten, mit denen diese Werte angenommen werden. Ferner seien
x1, x2, ..., xn eine Zufallsstichprobe vom Umfang n und m die Anzahl der
Wiederholungen mit xi = 1 und hn = m/n der Anteil der Wiederholungen mit xi = 1.
Dann sind die untere und obere Grenze uA bzw. oA eines (1-α) - Konfidenzintervalls
für p gegeben durch
u A = mW − l A , o A = mW + l A mit
m + z12−α / 2 / 2
mW (1 − mW )
mW =
und l A = z1−α / 2
2
n + z1−α / 2 / 2
n + z12−α / 2 / 2
Voraussetzung für die Approximation: nhn(1-hn) > 9
•
Ein exaktes (1-α)-Konfidenzintervall für den Parameter p ist das Clopper-PearsonIntervall mit den Grenzen
uC =
mF2 m , 2 ( n − m +1),α / 2
n − m + 1 + mF2 m , 2( n − m +1),α / 2
, oC =
(m + 1) F2 ( m +1), 2 ( n − m ),1−α / 2
n − m + (m + 1) F2( m +1), 2( n − m ),1−α / 2
Die Größen Ff1, f2, α/2 und Ff1, f2, 1-α/2 sind
das α/2- bzw. (1-α/2)-Quantil der
F-Verteilung mit den
Freiheitsgraden f1 und f2.
0.8
1.0
Dichtekurven der F-Verteilung
Dichte
0.6
F-Verteilung:
R-Funktionen: pf(), pf(), qf(), rf()
F(f=10,40)
0.0
0.2
0.4
F(f=5,2)
0.0
0.5
1.0
1.5
2.0
2.5
X
Eine grobe Faustformel für den Mindeststichprobenumfang zur Schätzung einer
Wahrscheinlichkeit mit der vorgegebenen Genauigkeit ±d und der vorgegebenen
Sicherheit 1-α ist
z

n ≈  1− α / 2 
 2d 
2
• Zwei- bzw. einseitige (1-α)-Konfidenzintervall für den Parameter λ der PoissonVerteilung erhält man wie folgt: Es seien X eine Poisson-verteilte Zufallsvariable mit
W. Timischl: Angewandte_Statistik_I_Repetitorium
09.10.13
3.0
19
dem Parameter λ, und x = 0, 1, 2,… die Realisierungen von X. Dann gilt:
Ein 2-seitiges (1-α)-Konfidenzintervall λu ≤ λ ≤ λo für λ ist ein Intervall mit der
Eigenschaft P(λu ≤ λ ≤ λo) = 1-α; die Intervallgrenzen sind:
1
2
1
2
λu = χ 22x ,α / 2 und λo = χ 22x+2,1−α / 2
1-seitige (1-α)-Konfidenzintervalle für λ sind Intervalle der Form
λ ≤ λo bzw. λ ≥ λu mit der Eigenschaft P(λ ≤ λo) = P(λ ≥ λu) = 1-α; λo und λu heißen
obere bzw. untere Vertrauensschranke für λ zur Sicherheit 1-α und sind zu
berechnen aus:
1
2
1
2
λo = χ 22x+2,1−α bzw. λu = χ 22x ,α
3.4 Musterbeispiele
1. Man vergleiche die durch die folgenden Stichproben gegebene Variation von X
(Spaltöffnungslänge in µm) bei diploiden und tetraploiden Biscutella laevigata mit Hilfe
der entsprechenden Box-Plots. Welche Bedeutung haben die im Boxplot verwendeten
Kenngrößen x0.5, x0.25, x0.75, xmin und xmax?
diploid
tetraploid
27, 25, 23, 27, 23, 25, 25, 22, 25, 23, 26, 23, 24, 26, 26
28, 30, 32, 29, 28, 33, 32, 28, 30, 31, 31, 34, 27, 29, 30
Präzisierung der Aufgabe:
Die gegebenen Stichprobenwerte sind Messwerte, die sich durch Messung der Spaltöffnungslänge
X an je n=15 Untersuchungseinheiten von diploiden bzw. tetraploiden Pflanzen ergeben haben.
Die Messwerte zeigen in jeder Gruppe eine Zufallsstreuung, die die Variation der Zufallsvariablen
X zum Ausdruck bringt. Die Variation von Zufallsvariablen wird durch Verteilungsfunktionen
modelliert, die in ihren charakteristischen Eigenschaften kurz durch Kennwerte beschrieben
werden. Ein oft verwendeter Satz von Kennwerten zur Beschreibung der Merkmalsvariation sind
die Quartile x0.5, x0.25 und x0.75 sowie der kleinste und größte Merkmalswert xmin bzw. xmax.
Lösungsansatz und numerisch/grafische Lösung:
Ein Boxplot ist ein mit den Kennwerten Median (x0.5), dem unteren und oberen Quartil (x0.25 bzw.
x0.75) sowie dem Kleinst- und Größtwert (xmin bzw. xmax) gezeichnetes Diagramm zur schnellen
Charakterisierung von wichtigen Eigenschaften einer Verteilung. Der Median x0.5 wird auch das
50%-Quantil genannt und stellt ein zentrales Lagemaß dar, um die die Stichprobenwerte streuen;
grob gilt, dass 50% der der Stichprobenwerte kleiner oder gleich dem Median sind. Die Quartile
x0.25 und x0.75 heißen auch unteres bzw. oberes Quartil, weil sie – grob gesprochen – die
Eigenschaft haben, dass 25% der Stichprobenwerte kleiner oder gleich x0.25 und ebenso viele
größer oder gleich x0.75 sind. Den Quartilen werden in der Regel noch der Kleinstwert xmin und der
Größtwert xmax beigefügt, die den Variationsbereich der Stichprobenwerte nach unten bzw. nach
oben begrenzen. Zu jeder Datenbeschreibung gehört auch die Angabe des Stichprobenumfangs n.
Lösung mit R:
> x_d <- c(27, 25, 23, 27, 23, 25, 25, 22, 25, 23, 26, 23, 24, 26, 26)
> x_t <- c(28, 30, 32, 29, 28, 33, 32, 28, 30, 31, 31, 34, 27, 29, 30)
> options(digits = 4)
> n_d <- length(x_d); n_t <- length(x_t)
> q_d <- quantile(x_d, probs=c(0, 0.25, 0.5, 0.75, 1))
> q_t <- quantile(x_t, probs=c(0, 0.25, 0.5, 0.75, 1))
> cat("diploide Stichprobe:", "\n", "n_d= ", n_d, "\n"); print(q_d)
diploide Stichprobe:
n_d= 15
0% 25% 50% 75% 100%
22
23 25
26
27
> cat("tetraploide Stichprobe:", "\n", "n_t= ", n_t, "\n"); print(q_t)
W. Timischl: Angewandte_Statistik_I_Repetitorium
09.10.13
20
tetraploide Stichprobe:
n_t= 15
0% 25% 50% 75% 100%
27.0 28.5 30.0 31.5 34.0
> boxplot(x_d, x_t, names= c(“diploid”, “tetraploid”), range=0)
Hinweis:
In der R-Funktion boxplot() werden die Quartile x0.25 und x0.75 als Mediane der Merkmalswerte
kleiner bzw. größer als x0.5 berechnet; die so berechneten Statistiken werden im Englischen auch
als „hinges“ bezeichnet.
Ergebnis:
Die Boxplots zeigen, dass der Median der diploiden Stichprobe deutlich unter dem Median der
tretraploiden Stichprobe liegt. Der Interquartilabstand IQR = x0.75 – x0.25 ist für jede Stichprobe 3
Einheiten, die Spannweite xmax – xmin ist in der diploiden Stichprobe mit 5 Einheiten kleiner als in
der tetraploiden Stichproben (7 Einheiten). Der Abstand der Mediane beträgt 5 Einheiten; das ist
mehr als der in beiden Stichproben übereinstimmende IQR.
2. Die Messung der Ozonkonzentration X während der Sommermonate ergab für eine
Großstadt die in der folgenden Tabelle enthaltenen Werte (Angaben in 10-2 ppm).
a) Man stelle die Häufigkeitsverteilung der Ozonkonzentration tabellarisch und
grafisch dar und charakterisiere die Verteilung durch den Mittelwert und die
Standardabweichung. Wie sind diese Maßzahlen zu interpretieren?
b) Man und trage die angepasste Dichtekurve der Normalverteilung in die
Histogrammdarstellung ein und vergleiche die aus den Stichprobenwerten
berechneten Quartile mit den Quartilen der angepassten Normalverteilung.
3,6
1,5
6,6
6,0
4,2
6,7
2,5
5,4
4,5
5,4
2,5
3,0
5,6
4,7
6,5
6,7
1,7
5,3
4,6
7,4
5,4
4,1
5,1
5,6
5,4
6,1
7,6
6,2
6,0
5,5
5,8
8,2
3,1
5,8
2,6
9,5
3,4
8,8
7,3
1,3
6,9
3,2
4,7
3,8
5,9
6,6
4,4
5,7
4,5
7,7
Teilaufgabe 2a (Häufigkeitsverteilung eines metrischen Merkmals):
Präzisierung der Aufgabe:
Da die Ozonkonzentration X eine stetige Variable ist, ist der Häufigkeitsverteilung eine geeignete
Klasseneinteilung zu Grunde zu legen. Der Mittelwert und die Standardabweichung werden aus
den gegebenen Stichprobenwerten berechnet.
W. Timischl: Angewandte_Statistik_I_Repetitorium
09.10.13
21
Lösungsansatz und numerisch/grafische Lösung:
Das Häufigkeitsverteilung wird grafisch mit der R-Funktion hist() erzeugt. Um das Histogramm
mit der Dichtekurve der angepassten Normalverteilung vergleichen zu können, werden die
Rechteckhöhen im Histogramm so normiert, dass die gesamte „Histogrammfläche“ gleich 1
beträgt (flächennormiertes Histogramm). Mit den in der Grafik verwendeten Festlegungen
(Klassengrenzen bzw. Klassenmitten) wird sodann die Häufigkeitstabelle erstellt, wobei für jede
Klasse die Klassenmitte, die absoluten und relativen Klassenhäufigkeiten sowie die
Klassenhäufigkeitsdichte angegeben werden. Der (arithmetische) Mittelwert ist – bei metrischen
Variablen mit symmetrischer Verteilung - das übliche Maß zur Kennzeichnung der zentralen Lage
der Verteilung; dieses Maß besitzt zwei bemerkenswerte Eigenschaften: Einmal ist die
(vorzeichenbehaftete) Summe der Abweichungen aller Stichprobenwerte gleich Null und zum
anderen sind die quadrierten Abweichungen von einem festen Wert am kleinsten, wenn dieser
Wert mit dem Mittelwert übereinstimmt. Die Quadratsumme der Abweichungen vom Mittelwert
dividiert durch den (um 1 verkleinerten) Stichprobenumfang ist als mittlere quadratische
Abweichung zu interpretieren und wird als Varianz bezeichnet; die Quadratwurzel aus der Varianz
ist Standardabweichung,
Lösung mit R:
Console:
> # Dateneingabe
> x <- c(3.6, 1.5, 6.6, 6.0, 4.2, 6.7, 2.5, 5.4, 4.5, 5.4,
+
2.5, 3.0, 5.6, 4.7, 6.5, 6.7, 1.7, 5.3, 4.6, 7.4,
+
5.4, 4.1, 5.1, 5.6, 5.4, 6.1, 7.6, 6.2, 6.0, 5.5,
+
5.8, 8.2, 3.1, 5.8, 2.6, 9.5, 3.4, 8.8, 7.3, 1.3,
+
6.9, 3.2, 4.7, 3.8, 5.9, 6.6, 4.4, 5.7, 4.5, 7.7)
> options(digits=4)
> n <- length(x)
> # Histogramm mit rel. Klassenhäufigkeitsdichten (Flächennormierung auf 1)
> grafik <- hist(x, freq=F, xlab="Ozonkonzentration in 1/100 ppm",
+
ylab="Klassenhäufigkeitsdichte", xlim=c(0, 12),
+
main="Flächennormiertes Histogramm, n=50")
> #
> # Häufigkeitstabelle
> names(grafik)
[1] "breaks"
"counts"
"intensities" "density"
"mids"
[6] "xname"
"equidist"
> anz_klassen <- length(grafik$mids); anz_klassen
[1] 9
> klassenmitte <- grafik$mids
> klassenbreite <- klassenmitte[2]- klassenmitte[1]; klassenbreite
[1] 1
> abs_klassen_H <- grafik$counts
> rel_klassen_H <- abs_klassen_H/n
> klassen_H_dichte <- rel_klassen_H/klassenbreite
> print(cbind(klassenmitte, abs_klassen_H, rel_klassen_H, klassen_H_dichte))
klassenmitte abs_klassen_H rel_klassen_H klassen_H_dichte
[1,]
1.5
3
0.06
0.06
[2,]
2.5
4
0.08
0.08
[3,]
3.5
5
0.10
0.10
[4,]
4.5
8
0.16
0.16
[5,]
5.5
15
0.30
0.30
[6,]
6.5
8
0.16
0.16
[7,]
7.5
4
0.08
0.08
[8,]
8.5
2
0.04
0.04
[9,]
9.5
1
0.02
0.02
> #
> # Mittelwert und Standardabweichung
> xquer <- mean(x)
> s <- sd(x)
> print(cbind(xquer, s))
xquer
s
[1,] 5.212 1.852
> abline(v=xquer, lty=2) # Einzeichnen des Mittelwerts (strichlierte Linie)
> abline(v=xquer-s, lty=3);
> abline(v=xquer+s, lty=3) # einfacher Streubereich um den Mittelwert
> n_streubereich <- length(x[x<xquer-s])+length(x[x>xquer+s]); n_streubereich
[1] 16
W. Timischl: Angewandte_Statistik_I_Repetitorium
09.10.13
22
Ergebnis:
Die strichlierte (vertikale) Linie im Histogramm markiert die Lage des Mittelwertes. Man erkennt,
dass die Rechteckflächen des Histogramms annähernd symmetrisch um die Mittelwertlinie
angeordnet sind; die punktierten (vertikalen) Linien markieren den einfachen Streubereich um den
Mittelwert. Im einfachen Streubereich liegen 16 der 50 Stichprobenwerte (d.h. ca. 30%).
Grafik (mit eingezeichneter Dichtekurve der angepassten Normalverteilung):
0.20
0.15
0.10
0.00
0.05
Klassenhäufigkeitsdichte
0.25
0.30
Flächennormiertes Histogramm, n=50
0
2
4
6
8
10
12
Ozonkonzentration in 1/100 ppm
Teilaufgabe 2b (Anpassung einer Normalverteilung):
Präzisierung der Aufgabe und Lösungsansatz:
Die Anpassung der Normalverteilung an die Häufigkeitsverteilung erfolgt so, dass der Mittelwert
und die Standardabweichung der Normalverteilung dem Stichprobenmittelwert bzw. der
Stichprobenstandardabweichung gleichgesetzt werden.
Lösung mit R:
Console:
> # Fortsetzung des R-Scripts von 2a
> # Einzeichnen der Dichtekurve der angepassten Normalverteilung
> curve(dnorm(x, mean=xquer, sd=s), lwd=2, ad=T)
> #
> # Berechnung der Quartile aus den Stichprobenwerten
> quartile_s <- quantile(x, probs=c(0.25, 0.75))
> cat("Quartile - Stichprobenwerte:", "\n"); quartile_s
Quartile - Stichprobenwerte:
25%
75%
4.125 6.425
> quartile_n <- qnorm(c(0.25, 0.75), mean=xquer, sd=s)
> cat("Quartile - Normalverteilung:", "\n", " 25%", "
75%", "\n"); quartile_n
Quartile - Normalverteilung:
25%
75%
[1] 3.963 6.461
Grafik: Siehe Teilaufgabe 2a
Ergebnis:
Die durch die Rechteckflächen des Histogramms dargestellte Häufigkeitsverteilung weicht – bis
auf die mittlere Klasse – nicht „wesentlich“ von der Normalverteilungsdichte ab. Die
W. Timischl: Angewandte_Statistik_I_Repetitorium
09.10.13
23
Übereinstimmung wird auch durch die geringen Abweichungen der aus den Stichprobenwerten
berechneten Quartile von den Quartilen der angepassten Normalverteilung zum Ausdruck
gebracht.
3. Im Zuge der statistischen Prozesslenkung werden aus einer Fertigung laufend
Stichproben entnommen und die zu überwachende Größe X gemessen. Es ergaben sich
zu zwei Zeitpunkten die folgenden Probenwerte:
Zeitpunkt
1
2
4,46
4,91
4,50
4,32
X
4,59
4,39
4,35
4,59
4,65
4,88
a) Man bestimme ein 95%iges Konfidenzintervall für den Mittelwert zum Zeitpunkt 1.
b) Wie müsste man die Fallzahl (Zeitpunkt 1) planen, um den Mittelwert von X mit
einer Genauigkeit von ±0,05 und einer Sicherheit von 99% schätzen zu können?
c) Man bestimme für den Zeitpunkt 2 ein 95%iges Konfidenzintervall für die
Standardabweichung.
Teilaufgabe 3a (Mittelwertschätzung):
Präzisierung der Aufgabe:
Wir nehmen X zum Zeitpunkt 1 als eine normalverteilte Zufallsvariable mit dem Mittelwert µ und
der Varianz σ2 an. Gesucht ist ein 95%-Konfidenzintervall für den Mittelwert µ.
Lösungsansatz und numerische Lösung:
Aus der Stichprobe wird der Mittelwert xquer als Schätzwert für µ bestimmt. Für das
Konfidenzintervall wird zusätzlich die Stichprobenstandardabweichung s als Schätzwert für σ
ermittelt. Damit ergibt sich der SE=s/√n (n ist der Stichprobenumfang). Die untere und obere
Grenze UG bzw. OG des 95%-Konfidenzintervalls ist:
UG = xquer – tn-1, 0.975 SE
OG = xquer + tn-1, 0.975 SE
Lösung mit R:
>
>
>
>
>
>
>
>
sample1 <- c(4.46, 4.5, 4.59, 4.35, 4.65)
xquer <- mean(sample1)
s <- sd(sample1)
SE <- s/sqrt(length(sample1))
t_quantil <- qt(0.975, length(sample1)-1)
UG <- xquer - t_quantil*SE
OG <- xquer + t_quantil*SE
print(cbind(UG, OG))
UG
OG
[1,] 4.365465 4.654535
Ergebnis:
Der gesuchte Mittelwert µ liegt mit einer Sicherheit von 95% im Intervall [UG, OG].
Teilaufgabe 3b (erforderlicher Mindeststichprobenumfang bei der Mittelwertschätzung):
Präzisierung der Aufgabe:
Wir nehmen X zum Zeitpunkt 1 als eine normalverteilte Zufallsvariable mit dem Mittelwert µ
und der Varianz σ2 an. Gesucht ist der erforderliche Mindeststichprobenumfang, um µ mit einer
Genauigkeit von ±0,05 und einer Sicherheit 1-α=99% schätzen zu können.
Lösungsansatz und numerische Lösung:
Zur Bestimmung des erforderlichen Mindeststichprobenumfangs nerf wird die für große
Stichproben zulässige Formel
W. Timischl: Angewandte_Statistik_I_Repetitorium
09.10.13
24
s
z
nerf =  1−α / 2 
 d 
2
verwendet. In dieser Formel ist z1-α/2 das (1-α/2)-Quantil der Standardnormalverteilung, s der aus
der Stichprobe bestimmte Schätzwert für σ und d=0,05 die Genauigkeit (d.h. die halbe
Intervallbreite des Konfidenzintervalls).
Lösung mit R:
> sample1 <- c(4.46, 4.5, 4.59, 4.35, 4.65)
> d <- 0.05
> sicherheit <- 0.99
> alpha <- 1-sicherheit
> z_quantil <- qnorm(1-alpha/2)
> s <- sd(sample1)
> n_erf <- (z_quantil*s/d)^2
> n_erf
[1] 35.96114
Ergebnis:
Es ist ein Mindeststichprobenumfang von n=36 erforderlich, um für den Mittelwert ein 99%iges
Konfidenzintervall der Länge 2d=0,1 zu erhalten. Die verwendete Formel ist wegen n=36 > 20
anwendbar, d.h. die Approximation des t-Quantils durch das entsprechende z-Quantil ist
gerechtfertigt.
Teilaufgabe 3c (Schätzung der Standardabweichung):
Präzisierung der Aufgabe:
Wir nehmen X zum Zeitpunkt 2 als eine normalverteilte Zufallsvariable mit dem Mittelwert µ
und der Varianz σ2 an. Gesucht ist ein 95%-Konfidenzintervall für die Standardabweichung σ.
Lösungsansatz und numerische Lösung:
Aus der Stichprobe (Umfang n) wird die Stichprobenstandardabweichung s als Schätzwert für σ
ermittelt. Die untere und obere Grenze UG bzw. OG des 95%-Konfidenzintervalls ist:
UG =
(n − 1) s 2
χ n2−1,1−α / 2
, OG =
(n − 1) s 2
χ n2−1,α / 2
Lösung mit R:
>
>
>
>
>
>
>
>
>
sample2 <- c(4.91, 4.32, 4.39, 4.59, 4.88)
n <- length(sample2)
s <- sd(sample2)
alpha <- 0.05
q1 <- qchisq(1-alpha/2, n-1)
q2 <- qchisq(alpha/2, n-1)
UG <- sqrt((n-1)*s^2/q1)
OG <- sqrt((n-1)*s^2/q2)
print(cbind(UG, OG))
UG
OG
[1,] 0.1628386 0.7810047
Ergebnis:
Die gesuchte Standardabweichung σ liegt mit einer Sicherheit von 95% im Intervall [UG, OG].
4. In einer Studie über die Behandlung von akuten Herzinfarktpatienten wurde eine neue
Therapie angewendet. Es wurden 120 Patienten therapiert, von denen 16 innerhalb von
4 Wochen verstarben.
a) Man schätze die Wahrscheinlichkeit p, dass ein Patient innerhalb von 4 Wochen
nach Herzinfarkt stirbt, und bestimme für p ein 95%-Konfidenzintervall.
b) Die Wahrscheinlichkeit für das Auftreten einer Erkrankung soll in einer
Risikogruppe mit einer Sicherheit von 90% und einer vorgegebenen Genauigkeit
von ± 0,05 bestimmt werden. Wie viele Probanden benötigt man für die Studie?
W. Timischl: Angewandte_Statistik_I_Repetitorium
09.10.13
25
Teilaufgabe 4a (Schätzwert und Konfidenzintervall für p):
Präzisierung der Aufgabe:
Die Wahrscheinlichkeit p eines Ereignisses E wird über dessen relative Häufigkeit h=m/n
geschätzt, mit der das Ereignis E bei wiederholter Ausführung des "Zufallsexperimentes" eintritt;
dabei bedeuten n die Anzahl der Ausführungen des Zufallsexperimentes und m die Anzahl der
Ausführungen mit dem Ausgang E. Die Anzahl der Wiederholungen, bei denen das Ereignis E
eintritt, ist binomialverteilt mit den Parametern n und p. Das Ergebnis der Schätzung wird i. Allg.
durch Angabe des Schätzwertes h (=relative Häufigkeit) und eines Konfidenzintervalls zu einer
angenommenen Sicherheit (meist 95%) dargestellt. Das Konfidenzintervall für p kann wegen
np(1-p) ≈ nhn(1-hn)=13.9 > 9 näherungsweise mit dem Agresti-Coull-Intervall oder exakt mit den
aufwendigen Clopper-Pearson-Intervall gerechnet werden.
Lösungsansatz und numerische Lösung:
Das „Zufallsexperiment“ besteht im konkreten Beispiel darin, dass ein Patient nach der
Behandlung die folgenden 4 Wochen nicht überlebt (Ereignis E) bzw. überlebt (Gegenereignis
Ec). In einer Studie werden 120 Patienten therapiert, d.h. das „Experiment“ wird 120mal
wiederholt (n=120). Unter den beobachteten Wiederholungen tritt das Ereignis E (Patient überlebt
nicht) 16mal auf, d.h. m=16 und hn = 16/120.
Benötigte Formeln:
Schätzwert für p: hn = m/n
Approximatives (1-α)-Konfidenzintervall für p nach Agresti-Coull:
u A = mW − l A , o A = mW + l A mit
mW =
m + z12−α / 2 / 2
mW (1 − mW )
und l A = z1−α / 2
2
n + z1−α / 2 / 2
n + z12−α / 2 / 2
Exaktes (1-α)-Konfidenzintervall für p:
pu =
mF2 m , 2 ( n − m +1),α / 2
n − m + 1 + mF2 m , 2 ( n − m +1),α / 2
, po =
(m + 1) F2 ( m +1), 2 ( n − m ),1−α / 2
n − m + (m + 1) F2 ( m +1), 2 ( n − m ),1−α / 2
Lösung mit R:
>
>
>
>
>
>
>
>
>
>
# Eingabedaten
n <- 120; m <- 16; alpha <- 0.05
options(digits = 4)
h <- m/n # Schätzwert für p
#
# Variante 1: Approximatives Konfidenzintervall (Agresti-Coull):
qz <- qnorm(1-alpha/2)
mW <- (m+qz^2/2)/(n+qz^2); lA <- qz*sqrt(mW*(1-mW)/(n+qz^2))
uA <- mW-lA; oA <- mW+lA
print(cbind(h, alpha, uA, oA))
h alpha
uA
oA
[1,] 0.1333 0.05 0.08275 0.2067
> #
> # Variante 2: Exaktes Konfidenzintervall (Clopper-Pearson):
> qu <- qf(alpha/2, 2*m, 2*(n-m+1)) # F-Quantil für untere Grenze
> qo <- qf(1-alpha/2, 2*(m+1), 2*(n-m)) # F-Quantil für obere Grenze
> uC <- m*qu/(n-m+1+m*qu); oC <- (m+1)*qo/(n-m+(m+1)*qo)
> print(cbind(h, alpha, uC, oC))
h alpha
uC
oC
[1,] 0.1333 0.05 0.07817 0.2075
> #
> # Variante 3: Nutzung der R-Funktione binom.confint() im Paket binom:
> library(binom)
> binom.confint(m, n, methods=c("ac", "exact"), conf.level=1-alpha)
method x
n
mean
lower upper
1 agresti-coull 16 120 0.1333 0.08275 0.2067
2
exact 16 120 0.1333 0.07817 0.2075
W. Timischl: Angewandte_Statistik_I_Repetitorium
09.10.13
26
Ergebnis:
Die Schätzung der Wahrscheinlichkeit p ergibt mit der relativen Häufigkeit als Schätzfunktion
den Wert h=0.1333; das entsprechende 95%-Konfidenzintervall ist [pu, po] = [0.07251, 0.1942]
(approximativ) bzw. [pu, po] = [0.07817, 0.2075] (exakt).
Teilaufgabe 4b (erforderlicher Mindeststichprobenumfang):
Präzisierung der Aufgabe:
Es sei X eine Zufallsvariable mit den Ausprägungen „Krankheit tritt ein“ und „Krankheit tritt
nicht ein“. Im ersten Fall ordnen wir X den Wert 1, im zweiten Fall den Wert 0 zu. Für die
Schätzung der Wahrscheinlichkeit p = P(X=1) wird eine Stichprobe benötigt. Deren Umfang n
soll so bestimmt werden, dass das 99%ige Konfidenzintervall für p die Länge 2d = 0,1 besitzt.
Lösungsansatz und Lösung:
Zur Bestimmung des erforderlichen Mindeststichprobenumfangs n wird die (für n>20 und
10 ≤ np ≤ n-10) zulässige Formel
z

n =  1−α / 2 
 2d 
2
verwendet. In dieser Formel ist z1-α/2 das (1-α/2)-Quantil der Standardnormalverteilung d=0,05
die Genauigkeit (d.h. die halbe Intervallbreite des Konfidenzintervalls).
Lösung mit R:
> d <- 0.05
> sicher <- 0.9
> alpha <- 1-sicher
> n_mindest <- (qnorm(1-alpha/2)/2/d)^2
> n_mindest
[1] 270.5543
Ergebnis:
Es ist ein Mindeststichprobenumfang von n=271 erforderlich, um für die Wahrscheinlichkeit p
ein (approximatives) 99%iges Konfidenzintervall der Länge 2d=0,1 zu erhalten.
W. Timischl: Angewandte_Statistik_I_Repetitorium
09.10.13
Herunterladen