kn n - ViLeS

Werbung
1. Wahrscheinlichkeitsrechnung – siehe erste Veranstaltung
2. Kombinatorik
Mit den Formeln der Kombinatorik lassen sich die Anzahlen möglicher Anordnungen von Ereignissen
errechnen. Also eine Anordnung von n Elementen (in k Klassen) oder eine Auswahl von k aus n. Unter
welchen Umständen welche Formel anzuwenden ist, ergibt sich aus folgendem Flußdiagramm:
Frage 1 : Handelt es
sich um die Anordnung
aller Elemente in einer
Gesamtmenge?
Frage 1a : Mit
Klassenbildung?
ja
ja
nein
Permutation
ohne Klassen:
n!
Permutation mit Klassen:
n!
k1!*k 2 !... * k m !
Frage 2 : Mit Berücksichtigung der
Anordnung innerhalb der
Teilauswahl?
nein
nein
Variation
ja
Frage 3 : Mit Wiederholung?
(d.h.: Kann ein Element mehrmals
ausgewählt werden?)
Kombination
Frage 3 : Mit Wiederholung?
(d.h.: Kann ein Element mehrmals
ausgewählt werden?)
nein
nein
ja
 n + k − 1 (n + k −1)!
=

k  (n − 1)!*k!
n!
(n − k )!
ja
nk
n!
 n =
 k  (n − k)!*k!
Zur Erinnerung: x!, sprich x Fakultät, wird so berechnet:
x! = x*(x-1)*(x-2)*...1 , also zum Beispiel:
6! = 6 * 5 * 4 * 3 * 2 * 1 = 720
3. Zusammenfassung der behandelten theoretischen Verteilungen
3.1 Binomialverteilungen (BV)
a) Voraussetzungen:
• dichotome Grundgesamtheit (zwei einander ausschließende Alternativen, bspw.: Ja/Nein)
• Anteilswert p, bzw q = 1 - p ist bekannt
• Auswahl vom Umfang n mit Wiederholung oder ohne Wiederholung wenn n/N < 0,05 .
b) Anwendung:
BV geben die Wahrscheinlichkeit an, daß bei einer Auswahl von n k Merkmalsträger vorhanden sind,
formal: P(k=kj) .Diese Wahrscheinlichkeiten können in Tabelle 9.11
c) Approximation
Wenn n*p*q>9 kann BV in eine Normalverteilung überführt werden. Die Stetigkeitskorrektur muß
aber berücksichtigt werden.
Wenn n 2 ( p ⋅(1 − p)) ≥ 2500 muß auch die Stetigkeitskorrektur nicht mehr angewandt werden.
3.2 Normalverteilungen (NV)
a) Voraussetzungen, Kennzeichen
• stetige Variable
• unimodal und symmetrisch
• Für ±∞ nähert sich die Funktion asymptotisch der x-Achse
b) Anwendung, Eigenschaften
Alle NV unterscheiden sich nur durch Lage und Streuung, also durch die Parameter _ und _.
Die NV mit µ = 0 und σ = 1 wird als Standardnormalverteilung [SNV: f(z)] definiert. Alle NVen
lassen sich über die Transformationsformel zi = σ zur SNV zurückrechnen. In Tabelle 9.32 sind die
Flächenanteile P(z>zi) tabelliert. Da jedem z-Wert der SNV über die Transformationsformel der x-Wert
einer beliebigen NV zugeordnet werden kann, erübrigen sich komplizierte Berechnungen der
Verteilungsfunktion einer bestimmten NV: Es reicht die simple Umrechnung mit Hilfe der
vorliegenden SNV-Tabelle.
xi − µ
3.3 χ 2 - Verteilungen
Im Tutorium werden Dichte- und Verteilungsfunktion von χ 2 gar nicht konkret dargestellt. Es wird nur
χ 2 als neue Variable erläutert: χ = ∑z i D.h., die Variable χ 2 wird aus konkreten quadrierten zWerten der Standardnormalverteilung (SNV) gebildet. Für die χ 2 - Funktion mit einem Freiheitsgrad
1
2
Litz, H.-P.: Statistische Methoden in den Wirtschafts- und Sozialwissenschaften, München 1997, Seite 354ff.
ebd. Seite 360.
(df=1) geht nur eine SNV, also für jeden χ 2 -Wert nur ein zi2 - Wert in die Variable ein. Für die χ 2 Verteilung mit vier Freiheitsgraden (f=4) ist dann: χ 2 = ∑ z12 + z22 + z32 + z24 (siehe Tabelle). Die
eigentliche χ 2 -Verteilung setzt sich erst aus den so zusammengefügten χ 2 -Werten zusammen. Die
φ   χ 
Dichtefunktion hat folgende Form:
 −1  −  (nicht merken!)
1
2
2 
f (χ) =
2φ
 φ −1 !
2 
χ
e
Es bleibt die Frage: Warum wird dieses χ 2 gebildet? Der Sinn ist, ein theoretisches Konstrukt zu
erhalten, um zu sehen, wie sich eine Kombination von SNVen verteilt (beachte: jede dieser SNVen
kann wiederum eine Umformung beliebiger Normalverteilungen darstellen!). In der umgekehrten
Betrachtung (also: verhalten sich bestimmte Verteilungen so, als ob sie einer gemeinsamen
Kombination/Konstruktion entstammen?) gewinnt die __-Verteilung ihre Wichtigkeit. Diese
Sichtweise wird ein Schwerpunkt bei der Analyse von Stichprobenverteilungen und den darauf
aufbauenden Hypothesentests und Konfidenzschätzungen sowie beim __-Unabhängigkeits- oder
Anpassungstest sein. Das ist der Grund, warum wir uns mit __ beschäftigen müssen. Dabei ist es nicht
notwendig, die Konstruktion dieser theoretischen Verteilung vollständig zu begreifen - ungleich
wichtiger ist die Anwendung in den genannten Test- und Schätzverfahren. Die Aufgaben 3 22 und
23 sind in diesem Kontext mehr als Übungen im Umgang mit der χ 2 - Verteilungstabelle anzusehen.
Zusammenfassend bedeutet das, daß eine tiefergehende Beschäftigung mit χ 2 gar nicht nötig ist - nur
die richtige Handhabung der Tabelle und das Wissen, wann diese Verteilung anzuwenden ist, sind
erforderlich. (Beachte: Approximation zur SNV bei φ ≥ 30 mit z = 2χ 2 − 2φ − 1
3.4 t-Verteilungen
Die t-Verteilung ist die letzte grundlegende theoretische Verteilung, die in Statistik II betrachtet wird.
Ähnlich wie χ 2 ist t auch eine Konstruktion aus anderen Variablen: t = Z
U
φ
Dabei ist Z der Wert einer Standardnormalverteilung und U ein Wert einer beliebigen χ 2 -Verteilung
(dann dividiert durch den dazugehörigen Freiheitsgrad) Die daraus resultierenden t-Werte bilden
wiederum eine eine eigene Dichte- und Verteilungsfunktion4. Genau wie bei χ 2 ist auch hier eine
tiefergehende Beschäftigung nicht von Nöten - es reicht die Anwendung! Wie χ 2 hängt auch t nur von
den Freiheitsgraden ab.
Welchen Sinn hat die t-Verteilung?
Genau wie χ 2 findet t (in dieser Veranstaltung) erst später Anwendung im Rückschluß von
Stichproben auf die Grundgesamtheit. Man kann auch sagen, daß t eine relativierte
Standardnormalverteilung für kleine Stichproben darstellt. Dementsprechend ist die t-Verteilung
ebenfalls ab φ ≥ 30 zur SNV approximierbar - in diesem Fall ganz einfach ohne großartige Formel,
schlicht: t = z .
t hat den Erwartungswert E(t) = 0 für φ ≥ 2 (vgl. SNV m= 0 !)
φ
und die Varianz VAR(t) =
für φ ≥ 3 (dieser Wert ist immer ≥ 1⇒ vgl. SNV: σ = 1
φ−2
1)
3
4
ebd. Seite 280.
Vgl. ebd. Seite 276 ff.
Im Gegensatz zur χ 2 - Verteilung ist t wieder (wie NV und SNV) symmetrisch und unimodal.
Nichtsdestotrotz ist die t- Verteilungstabelle ähnlich aufgebaut wie die χ 2 - Verteilungstabelle; nur
sind hier auch negative t-Werte vorhanden (nur nicht tabelliert, da sie aufgrund der
Symmetrieeigenschaft den positiven entsprechen). D.h. (wie bei NV und SNV), P(t>ti) = 1 - P(t<-ti).
Ebenso wie bei χ 2 ist es auch für die t-Verteilung schwierig, sinnvolle Alltagsbeispiele zu finden (in
den Aufgaben wird folglich auch darauf verzichtet). Die praktische Bedeutung der t-Verteilung wird
erst beim nächsten Schritt, den Stichprobenverteilungen, deutlich.
4. Stichprobenverteilungen
Die Verteilungen in Grundgesamtheiten (GG), die in dieser Veranstaltung untersucht werden, bzw.
über die etwas in Erfahrung gebracht werden soll, haben als Parameter entweder einen Mittelwert µ
(sowie Median, Modus) und eine Standardabweichung σ oder, soweit es sich um eine dichotome GG
handelt, einen Anteilswert π . Unter Stichprobenverteilung versteht man die Verteilung, die sich aus
den jeweiligen Parametern aller möglichen Stichproben eines Umfanges n aus einer bestimmten GG
ergibt (Vgl. Aufgabe5 26).
Um nun die Wahrscheinlichkeit auszurechnen, daß die Parameter einer zufällig ausgewählten
Stichprobe bestimmte Größen annehmen oder in gewissen Intervallen liegen, bedient man sich der
allgemeinen Stichprobenverteilungen, die jetzt mit den schon bekannten theoretischen Verteilungen
verknüpft sind (darum haben wir sie ja kennengelernt).
Der nächste entscheidende Schritt wird die umgekehrte Fragestellung bei Hypothesentests und
Konfidenzschätzungen sein (Wie groß ist die WS, eine zutreffende Stichprobe gezogen zuhaben, etc?)
Zunächst aber im Einzelnen: Die Stichprobenverteilungen unterteilt nach den einzelnen Parametern..
4.1 Die Verteilung der Stichprobenmittelwerte X i
Die Verteilung der Stichprobenmittelwerte ist abhängig von:
• Standardabweichung der GG bekannt?
• Verteilung der GG
• Größe des Stichprobenumfanges
Aus der Kombination der Voraussetzungen ergeben sich die
Stichprobenmittelwertverteilung (später durch Endlichkeitsfaktor ergänzt):
Fälle
GG normalverteilt? n > 30 ?
_ in GG bekannt?
Fall 1
ja
egal
ja
Fall 1
ja
ja
egal
Fall 3
nein
ja
nein
keine Aussage
nein
nein
nein
keine Aussage
ja
nein
nein
5
ebd. Seite 299.
drei
Fälle
der
σ
vor. D.h., die z-Transformation erfolgt
n
X −µ
X −µ
n
> 0,05 : Z =
mit der Formel: Z =
, bzw. bei
(mit EF)
N
σ/ n
σ
N −n
n N −1
Im Fall 2 liegt nahezu die gleiche NV vor, nur muß diesmal das unbekannte σ durch s$ geschätzt und
n
s (gilt auch für Fall 3!). Die z-Transformation verändert sich nun:
ersetzt werden. s$ =
n −1
X −µ
X −µ
n
Z=
> 0,05 : Z =
, bzw. bei
(mit EF)
N
s$ / n
N −n
s$
N −1
n
Im Fall 3 ist die Stpr. nicht mehr groß genug, es muß anstelle einer Normalverteilung eine t-Verteilung
φ
angenommen werden, mit φ = n − 1 , E(t) = 0 und VAR(t)=
; t selbst ergibt sich analog zur
φ−2
Im Fall 1 liegt eine NV mit µ X = _ = E( X ) und σ X =
z-Transformation: t =
X −µ
, bzw.: t =
s$ / n
X −µ
(mit EF)
s$
N −n
n N −1
4.2 Die Verteilung der „Stichprobenvarianzen“
Achtung! Hier ist es wichtig, die einzelne Notation ganz besonders genau zu beachten! Es wird nämlich
gerade nicht die Verteilung der Stichprobenvarianzen betrachtet (daher die „“), sondern eine doppelte
Modifikation ihrer selbst... Die erste Modifikation ist, daß anstatt s s$ 2 verwendet wird. Dieser
n −1
s$ ? folgt einer χ 2 -Verteilung mit φ = n-1
Parameter erfährt die zweite Modifikation, denn erst
σ?
Freiheitsgraden. Voraussetzung dafür ist immer, daß die GG normalverteilt ist. Es gibt hier nur zwei
Fälle zu unterscheiden:
n −1
Fall 1 : n ≤ 30 dann gilt: χ =
sˆ und
σ
Fall 2 : n>30 dann gilt Z = 2χ 2 − 2φ − 1 (Approximation!)
4.3 Die Stichprobenverteilung der Anteilswerte p bzw. der Merkmalsträger k
Grundvoraussetzung ist bei diesem Parameter natürlich, daß die GG dichotom ist. Im wesentlichen sind
zwei Fälle zu unterscheiden:
 n
n− k
Fall 1 : n*p*(1-p)<9 : dann ist k binomialverteilt; P(k)=  π k (1− π )
 k
1

K
±

 − nπ
2
Fall 2 : n*p*(1-p) ≥9 : dann ist k normalverteilt mit Z=
bzw. mit EF:
nπ (1 −π )
1

 K ± 2  − nπ
Z=
. Rechnet man mit dem Anteilswert p, ergibt sich
N −n
nπ (1− π )
N −1
p−π
p −π
Fall 2a: Z =
bzw. mit EF: Z =
π (1 − π )
π (1 − π ) N − n
n
n
N −1
5. Hypothesentests
Grundsätzliches
Es ist zuerst eine Vermutung über einen unbekannten Parameter der Grundgesamtheit zu stellen.
Dann wird eine Stichprobe (Stpr.) aus dieser Grundgesamtheit (GG) gezogen. Dann wird festgelegt,
wie hoch das Fehlerrisiko sein darf, erst dann wird getestet, ob der Parameter der Stp. die
Eingangshypothese und mit welcher Sicherheit (bzw. Irrtumswahrscheinlichkeit) unterstützt, oder ob
der ermittelte Wert sich so sehr vom vermuteten unterscheidet, daß die Stp. schon ein grober Ausreißer
sein müßte, um weiter anzunehmen, daß der tatsächliche Parameter der GG doch dem vermuteten
entspricht, d.h. also die Hypothese abzulehnen ist.
Entscheidend ist das korrekte Aufstellen der Hypothese, da zwei unterschiedliche Fehlerarten denkbar
sind:
1. der α - Fehler: Eine richtige Hypothese wird abgelehnt
2. der β - Fehler: Eine falsche Hypothese wird angenommen
Es lassen sich nicht beide Fehler gleichzeitig minimieren! Die hier vorgestellten Testverfahren laufen
auf eine Minimierung des α - Fehlers hinaus. Für die Testpraxis bedeutet dies, daß die Nullhypothese
immer so gestellt werden muß, daß der α -Fehler die schlimmeren Konsequenzen nach sich zieht als
der α -Fehler. In der Regel muß demzufolge die Hypothese im Sinne des Fragestellers negativ
formuliert sein. Dies ist bei der Punkthypothese so ohne weiteres nicht möglich - beim beidseitigen
Hypothesentest kann also von der negativen Formulierung abgesehen werden.
Zur Durchführung eines Hypothesentests ist es zunächst wichtig, sich klar zu machen, welcher
Parameter überhaupt getestet werden soll. Das klingt trivialer als es ist, denn aus manchen
Aufgabenstellungen ist dies nicht sofort ersichtlich. Dann lassen sich folgende schrittweisen
Testprozeduren anwenden:
5.1 Der Hypothesentest für den Mittelwert µ
1. Feststellung: Handelt es sich um einen links-, rechts- oder beidseitigen Test?
also, lautet die Frage
i) µ ≥ µ0 linksseitiger Test
ii) µ ≤ µ 0 rechtsseitiger Test
iii) µ = µ 0 beidseitiger Test
2. Signifikanzniveau α festlegen (individuelle Risikobereitschaft)
3. Ist σ bekannt? Wenn ja, Test 1 Wenn nein, weiter mit 4.)
4. Die Stichprobengröße
a) n>30 also Standardnormalverteilung anwenden (weiter zu Test 2)
b) n ≤ 30 also t-Verteilung anwenden (weiter zu Test 3)
Test 1 Bei n/N > 0,05. ist der EF zu berücksichtigen. EF=
N−n
, nur dann!
N −1
σ N −n
n N −1
σ N −n
ii) H 0 : µ ≤ µ 0 ⇒ X R = µ0 + Zα 0
n N −1
σ N −n
iii) H 0 : µ = µ0 ⇒ X R 1, 2 = µ0 ± Z α
0
n N −1
2
i) H 0 : µ ≥ µ 0 ⇒ X R = µ0 − Zα 0
Test 2 Bei n/N > 0,05. ist der EF zu berücksichtigen. EF=
N−n
, nur dann!
N −1
sˆ
N −n
n N −1
sˆ N − n
ii) H 0 : µ ≤ µ 0 ⇒ X R = µ0 + Zα 0
n N −1
sˆ N − n
iii) H 0 : µ = µ0 ⇒ X R 1, 2 = µ0 ± Z α
0
n N −1
2
i) H 0 : µ ≥ µ 0 ⇒ X R = µ0 − Zα 0
Test 3 Bei n/N > 0,05. ist der EF zu berücksichtigen. EF=
N−n
, nur dann
N −1
sˆ N − n
n N −1
sˆ N − n
ii) H 0 : µ ≤ µ 0 ⇒ X R = µ0 + tα 0
n N −1
sˆ N − n
iii) H 0 : µ = µ0 ⇒ X R 1, 2 = µ0 ± t α
0
n N −1
2
i) H 0 : µ ≥ µ 0 ⇒ X R = µ0 − tα 0
Entscheidungsregel
Liegt das in der Stichprobe ermittelte X innerhalb der durch den Test ermittelten Toleranzgrenzen,
kann die Nullhypothese mit auf dem vorher festgelegten Signifikanzniveau angenommen werden.
Liegt der Wert außerhalb, muß die Hypothese auf diesem Signifikanzniveau abgelehnt werden.
5.2 Test des Parameters σ
1. Festlegung der Fragestellung:
i) σ ≥ σ
0
linksseitiger Test
ii) σ ≤ σ 0 rechtsseitiger Test
iii) σ = σ 0 beidseitiger Test
2. Signifikanzniveau α festlegen (individuelle Risikobereitschaft)
3. Unterscheidung:
a) n ≤ 30 also Test 1
b) n>30 also Test 2
Test 1
i) sˆR =
σ0
χ
n −1 (1 −α0 ),φ
ii) sˆR =
σ0
χ
n −1 α 0 ,φ
iii) sˆR1 =
σ 0
χ
n−1
(1 −α 0 ) , φ
und
sˆR 2 =
2
σ0
χα
n − 1 20 ,φ
Entscheidung wie beim Test über µ
Test 2
i) s$R =
ii) s$R =
2φ − 1 − Zα 0
σ0
2φ
2φ − 1 + Zα 0
2φ
σ0
2φ − 1 − Z α 0
iii) s$R1 =
2
2φ
2φ − 1 + Z α 0
σ 0 und s$R2 =
2
2φ
σ0
5.3 Hypothesentest des Anteilswertes π
1. Feststellung: Handelt es sich um einen links-, rechts- oder beidseitigen Test?
also, lautet die Frage
i) π ≥ π 0 linksseitiger Test
ii) π ≤ π 0 rechtsseitiger Test
iii) π = π 0 beidseitiger Test
2. Signifikanzniveau α festlegen (individuelle Risikobereitschaft)
3. nπ 0 (1 − π 0 ) < 9 ⇒ Test 1
nπ 0 (1 − π 0 ) ? 9 ⇒ Test 2
Test 1
Achtung! Anstelle des p-Wertes wird in diesem Fall mit dem in der Binomialverteilung tabellierten kWert operiert. (p=k/n) Es läßt sich nunmehr kein exakter Wert als Grenze des Annahmeintervalls
berechnen. Statt dessen werden aus der entsprechenden Binomialverteilung die
Randwahrscheinlichkeiten [P(k)]solange aufaddiert, bis der Wert von α (bzw. jeweils α /2 beim
beidseitigen Test) erreicht worden ist. Der letzte einbezogenen k-Wert ist dann die Grenze des
Ablehnungsbereiches. Also gilt jeweils:
i) P(K ≤ k R ) = α ; ii) P(K ? k R ) = α ; iii) P(K ≤ k R1 ) =
α0
α
und P(K ? k R 2 ) = 0
2
2
Test 2
Nun ist wieder die Approximation zur Normalverteilung annehmbar und π 0 läßt sich mithilfe der zTransformation anhand der Standardnormalverteilung testen. Ist der Auswahlsatz n/N > 0,05 , ist
N−n
wieder der Endlichkeitsfaktor
mit einzubeziehen; in den Formeln ist er bereits mit dargestellt.
N −1
i) p R = π 0 − Zαo
ii) p R = π 0 + Zαo
π 0 (1 − π 0 ) N − n
n
N −1
π 0 (1 − π 0 ) N − n
n
N −1
iii) p R1, 2 = π 0 ± Z α o
2
π 0 (1 − π 0 )
n
N−n
N −1
Weitere besondere Hypothesentests
5.4. Der χ ?-Anpassungstest
1. Die Hypothese beim Anpassungstest lautet immer: „Eine bestimmte vorgefundene empirische
Verteilung läßt sich annährend als eine theoretische darstellen“ (positiv formuliert...)
2. Signifikanzniveau wie üblich wählen (Vorgabe)
3. Betrachtet man die Werte der empirischen Verteilung als beobachtete Werte fb und diejenigen der
theoretischen Verteilung als erwartete Werte fe , so ist die die Summe ihrer quadrierten Abweichungen
im Verhältnis zu fe wiederum als χ 2 -verteilt anzusehen: χ = ∑ ( f − f ) Anhand dieser Formel erhält
2
b
e
fe
man also einen bestimmten χ 2 -Wert aus dem Verhältnis von empirischer und theoretischer Verteilung.
Wäre er =0 , wären die beiden Verteilungen identisch. Die Hypothese lautet jedoch nur auf annähernde
Ähnlichkeit, sie kann also durch kleine Abweichungen immer noch als bestätigt angesehen werden.
Wie groß diese Abweichungen sein dürfen, hängt entscheidend vom gewählten Signifikanzniveau ab.
Der ermittelte χ 2 -Wert darf denjenigen der χ 2 -Verteilung mit φ (=Anzahl der Verteilungsklassen
minus 1) Freiheitgraden, der den Ablehnungsbereich α abgrenzt, nicht überschreiten. D.h., bei
2
χ 2 ≤ χ α ,φ kann die Hypothese angenommen werden.
5.5. Der χ 2 - Unabhängigkeitstest
1. Die Hypothese lautet beim Unabhängigkeitstest immer: „Die Ereignisse sind voneinander
unabhängig“, d.h., es besteht kein Zusammenhang zwischen den Ereignissen (negative
Formulierung...)
2. Signifikanzniveau α wie immer
3. Auch bei diesem Test werden wieder die Abweichungen zwischen einer empirischen und einer
theoretischen Verteilung überprüft. Die empirische Verteilung ist in diesem Fall die Kreuztabelle der
beiden empirisch vorgefundenen Ereignisse, die die fb darstellt (Kontingenztabelle). Die theoretische
Verteilung stellt dieselbe Kreuztabelle unter der Annahme der Unabhängigkeit dar, d.h., es wird
berechnet, wie die Verteilung aussehen müßte (also die fe), wenn es keinen Zusammenhang zwischen
den Ereignissen gäbe (Indifferenztabelle). Die Abweichungen zwischen diesen beiden Verteilungen
( f − fe)
sind dann wieder - analog wie beim Anpassungstest - als χ 2 -verteilt anzusehen: χ = ∑ b
fe
2
Dieser χ ?-Wert ist nun wieder mit demjenigen der χ Verteilung mit φ (=[Zeilenanzahl 1]*[Spaltenzahl - 1] )zu vergleichen. D.h. also wieder, daß bei χ 2 ≤ χ α2 ,φ die Hypothese angenommen
werden kann.
6. Konfidenzschätzungen
Generell können Konfidenzschätzungen als eine Art Umkehrung der Hypothesentests beschrieben
werden. Die Vorgehensweise ist von der Fragestellung her genau andersherum. Es wird zuerst eine
Stichprobe gezogen. Anhand dieser Stichprobe wird - wieder mit Hilfe der Stichprobenverteilungen als
theoretisches Gerüst - eine Aussage über einen Parameter der Grundgesamtheit (GG) formuliert. Dies
ist dann die Schätzung. In Abhängigkeit der Wahl der Irrtumswahrscheinlichkeit α erfolgt diese
Schätzung unter der Angabe des Konfidenzniveaus (1- α ). Die Präzision der Aussage wächst mit dem
Umfang der Stichprobe.
Es sind zwei Arten von Schätzungen zu unterscheiden:
I. Punktschätzung
Aus den Stichprobenverteilungen ist bekannt, daß die Erwartungswerte von X i , s$i , pi gleich den
tatsächlichen Parametern µ,σ ,π aus der GG sind. Ebenso ist bekannt, daß in den meisten einzelnen
Stichproben demzufolge Parameter zu finden sind, die ungefähr denen der Grundgesamtheit
entsprechen. Was liegt also näher, als den in der Stichprobe ermittelten Parameter als den besten
Schätzwert anzusehen? Bspw.: µ& = X i . Die Aussage, die zu machen ist, lautet in diesem Fall: „Mit
ziemlicher Wahrscheinlichkeit ist der Mittelwert der GG in etwa so groß wie der in der Stichprobe“.
Diese Schätzung ist aber eher qualitativer Natur, es können keine quantitativen Vertrauensangaben
gemacht werden, weder über die Präzision noch über die Wahrscheinlichkeit. Rückt man jedoch von
dem Vorhaben, den Parameter genau zu schätzen ab und begnügt sich mit einem Vertrauensintervall,
in dem der tatsächliche Parameter liegen müßte, lassen sich quantitative Aussagen treffen. Dies
geschieht mit:
II. Intervallschätzung
Diese Schätzmethode beruht auf einer Umformung beidseitiger Hypothesentests, daher ist die Anzahl
der möglichen Verfahren geringer.
6.1. Intervallschätzung für σ
1. Konfidenzniveau (1- σ ) festlegen
2. Ist σ aus GG bekannt? Ja = Verfahren 1 , Nein = weiter mit 3.
3. Die Stichprobengröße
a) n>30 also Standardnormalverteilung anwenden (weiter zu Verfahren 2)
b) n ≤ 30 also t-Verteilung anwenden (weiter zu Verfahren 3)
Verfahren 1 Bei n/N > 0,05. ist der EF zu berücksichtigen. EF=
N −n
N −1
, nur dann, hier aber
angegeben
σ
~=X ±Z
µ
α0
n
2
N−n
es ergibt sich ein Vertrauensintervall von K [µ 1 ≤ µ ≤ µ 2 ] = 1 − α
N −1
Verfahren 2 Bei n/N > 0,05. ist der EF zu berücksichtigen. EF=
N −n
N −1
, nur dann! hier aber
angegeben
s$
~=X ±Z
µ
α0
n
2
N−n
es ergibt sich ein Vertrauensintervall von K [µ 1 ≤ µ ≤ µ 2 ] = 1 − α
N −1
Verfahren 3 Bei n/N > 0,05. ist der EF zu berücksichtigen. EF=
N −n
N −1
, nur dann! hier aber
angegeben
s$
~=X ±t
µ
α0
n
2
N−n
es ergibt sich ein Vertrauensintervall von K [µ 1 ≤ µ ≤ µ 2 ] = 1 − α
N −1
6.2 Intervallschätzung für σ
1. Konfidenzniveau (1- α ) festlegen
2. Die Stichprobengröße
a) n ≤ 30 χ 2 -Verteilung anwenden (weiter zu Verfahren 1)
b) n>30 Approximation zur Standardnormalverteilung anwenden (weiter zu Verfahren 2)
Verfahren 1 kein Endlichkeitsfaktor
n−1
n−1
σ 12 = 2 s$? und σ 22 = 2
s$? es gilt also K σ 12 ≤ σ ? ≤ σ 22 = 1 − α
χ  α0
χ α0
[
1−
2
]
√
2 ↵
Verfahren 2 kein Endlichkeitsfaktor Achtung, hier σ anstelle σ 2 !
s$ 2φ
σ~
es gilt also K σ 1 ≤ σ ≤ σ 2 = 1 − α
2φ − 1 ± Z α 0
[
]
2
6.3 Intervallschätzung für π
1. Konfidenzniveau (1- α ) festlegen
2. Die Stichprobengröße
a) bei np(1-p)<9 ist die Stichprobe zu klein, um eine sinvolle Aussage treffen zu können, nur bei
b) np(1-p) ≥9 kann das Konfidenzintervall abgeschätzt werden.
Verfahren
Bei n/N > 0,05. ist der EF zu berücksichtigen. EF= N − n , nur dann, hier aber
N −1
angegeben
π~ = p ± Z α 0
2
p(1 − p)
n
N−n
es gilt K [π 1 ≤ π ≤ π 2 ] = 1 − α
N −1
7. Maximaler Schätzfehler und Stichprobengröße
Der maximale Schätzfehler e ist die Differenz zwischen den Parametern der Stichprobe und der
Grundgesamtheit, also e = X − µ oder e = p − π (nicht anwendbar für s, _). Über die soeben
dargestellten Schätzformeln läßt die nötige Stichprobengröße n feststellen, wenn man diesem
Schätzfehler eine gerade noch akzeptierte Obergrenze zuordnet. Durch Umformen ergibt sich:
Z α2 σ ?
7.1. Für Intervallschätzungen und beidseitige Hypothesentests von π :
n=
. Ist σ unbekannt
2
e?
(und so wird es normalerweise sein) , ist stattdessen s$ zu verwenden.
Z α2 π (1 − π )
7.2. Für Intervallschätzungen und beidseitige Hypothesentests von π : n =
2
. Beim
e?
Hypothesentest kann für π _eine halbwegs abgesicherte Hypothese eingesetzt werden. Bei der
Intervallschätzung kann auch p genommen werden, am sichersten ist es dabei aber, den Wert für p zu
wählen, der eine hohe Stichprobengröße n garantiert: p= 1 .
2
Beide Formeln können bei n/N>0,05 durch den Endlichkeitsfaktor erweitert werden.
Herunterladen