Zusammenfassung der Vorlesungen Statistik I und II von Konrad

Werbung
Zusammenfassung der Vorlesungen
Statistik I und II von Konrad Urbanski
TU Berlin, Wintersemester 2013/2014
Florian Wiesweg
16. Januar 2017
Dieses Werk ist lizenziert unter einer Creative Commons-Lizenz:
Namensnennung-Nicht-kommerziell-Keine Bearbeitung-3.0-Deutschland
(http://creativecommons.org/licenses/by-nc-nd/3.0/de/)
Inhaltsverzeichnis
1 Wichtiger Hinweis
4
2 Deskriptive Statistik
2.1 Grundlagen . . . . . . . . . . . . . . . . . . . .
2.2 Auswertung eindimensionalen Datenmaterials .
2.2.1 Datenformen . . . . . . . . . . . . . . .
2.3 Empirische Kennzahlen . . . . . . . . . . . . . .
2.3.1 Mittelwerte . . . . . . . . . . . . . . . .
2.3.2 Quantile . . . . . . . . . . . . . . . . . .
2.3.3 Steuungsmaße . . . . . . . . . . . . . .
2.4 Statistische Konzentrationsanalyse . . . . . . . .
2.4.1 Lorenz’sche Konzentrationsverteilung .
2.4.2 Gini-Koeffizient . . . . . . . . . . . . . .
2.4.3 Herfindahl-Index . . . . . . . . . . . . .
2.5 Auswertung zweidimensionalen Datenmaterials
2.5.1 Darstellung in einer Kontingenztafel . .
2.5.2 Abhängigkeitsmaße . . . . . . . . . . .
2.6 Lineare Regression . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
5
5
7
7
8
8
10
10
11
11
12
12
13
15
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
17
17
17
17
18
18
18
18
18
18
19
4 Stochastik
4.1 Eigenschaften von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Bestimmung einer Wahrscheinlichkeitsfunktion . . . . . . . . . . . . . . .
4.3 Rechenregeln für Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . .
4.3.1 Allgemeiner Additionssatz . . . . . . . . . . . . . . . . . . . . . . .
4.3.2 Bedingte Wahrscheinlichkeiten und stochastische Unabhängigkeit
.
.
.
.
.
20
20
21
22
22
22
3 Kombinatorik
3.1 Permutation . . . . . . . . . . . . . .
3.1.1 Ohne Wiederholung . . . . .
3.1.2 Mit Wiederholung . . . . . .
3.2 Variation . . . . . . . . . . . . . . . .
3.2.1 Ohne Wiederholung . . . . .
3.2.2 Mit Wiederholung . . . . . .
3.3 Kombination . . . . . . . . . . . . . .
3.3.1 Ohne Wiederholung . . . . .
3.3.2 Mit Wiederholung . . . . . .
3.4 Symmetrie des Binomialkoeffizienten
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4.4
4.5
4.6
4.3.3 Satz von Bayes . . . . . . . . . . . . .
Zufallsgrößen . . . . . . . . . . . . . . . . . .
4.4.1 Diskrete Zufallsvariablen . . . . . . .
4.4.2 Stetige Zufallsvariablen . . . . . . . .
4.4.3 Kennzahlen von Zufallsvariablen . . .
Stochastische Modelle . . . . . . . . . . . . . .
4.5.1 Diskrete stochastische Modelle . . . .
4.5.2 Stetige stochstische Modelle . . . . . .
Gesetze zu Beschränkung und Approximation
4.6.1 Tschebyscheffsche Ungleichung . . . .
4.6.2 Schwaches Gesetz der großen Zahlen .
4.6.3 Zentraler Grenzwertsatz . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Induktive Statistik
5.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Stichprobentheorie . . . . . . . . . . . . . . . . . . . . . .
5.2.1 Nicht-Zufällige Auswahl . . . . . . . . . . . . . . .
5.2.2 Zufällige Auswahl . . . . . . . . . . . . . . . . . .
5.2.3 Gleichgewichtung . . . . . . . . . . . . . . . . . .
5.3 Stichprobenfunktionen als Anwendung der Stochastik . .
5.3.1 Ausgewählte Stichprobenfunktionen . . . . . . . .
5.3.2 Gütekriterien für Stichprobenfunktionen . . . . . .
5.3.3 Konstruktion von Stichprobenfunktionen . . . . .
5.4 Schätztheorie . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4.1 Punktschätzung . . . . . . . . . . . . . . . . . . . .
5.4.2 Intervallschätzung . . . . . . . . . . . . . . . . . .
5.5 Testtheorie . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5.1 Parametrische Testtheorie . . . . . . . . . . . . . .
5.5.2 Nicht-parametrische Testtheorie . . . . . . . . . .
5.6 Median- und Quantilstest . . . . . . . . . . . . . . . . . . .
5.6.1 Erste Variante: Vorzeichentest . . . . . . . . . . . .
5.6.2 Zweite Variante: Vorzeichenrangtest von Wilcoxon
5.7 2x2-Feldertafelanalyse . . . . . . . . . . . . . . . . . . . . .
5.7.1 χ²-Test für zwei unabhängige Stichproben . . . . .
5.7.2 χ²-Test für zwei abhängige Stichproben . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
22
23
23
23
24
25
25
29
32
32
32
33
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
34
34
35
35
35
36
36
37
37
39
40
40
40
43
45
56
60
60
61
62
62
63
1 Wichtiger Hinweis
„Welchen Fehler haben wir bei diesem Test gemacht?
– Weiß man nicht, nur hoffentlich keinen!“
Dasselbe gilt natürlich auch für diese Zusammenfassung. Sie erhebt keinen Anspruch auf
Vollständigkeit oder gar Korrektheit und ist dementsprechend auch KEIN Referenzdokument. Sie soll den Besuch der Vorlesung oder der Übungen nicht ersetzen, sondern allenfalls angenehmer gestalten. Wenn Ihr es trotzdem darauf anlegen möchtet, nun ja, niemand
hindert Euch daran, aber beschwert Euch nachher bitte nicht bei mir, wenn Ihr eine falsche
Formel aus diesem Dokument auswendig gelernt habt. Es gilt wie immer Kopf einschalten
und mitdenken, gerade weil Konrad Urbanski eine Vorliebe für gemeine Aufgaben in Klausuren hat.
Auf Anfrage rücke ich den TEX-Code unter einer permissiveren Lizenz als der oben angegebenen heraus, falls Ihr daran Bedarf und ausreichend gute TEX-Kenntnisse habt. Änderungen und Korrekturen werde ich an diesem Text in Zukunft nicht mehr vornehmen, da die
Vorlesungen inzwischen zu lang zurückliegen. Ihr könnt mich wie folgt erreichen:
• E-Mail: [email protected]
• Facebook: https://www.facebook.com/flowiesweg
• Google Plus: https://plus.google.com/102139286985442170452
4
2 Deskriptive Statistik
2.1 Grundlagen
• Statistische Einheit (Merkmalsträger)
• Realisationsmöglichkeiten x
• Grundgesamtheit: Menge aller denkbaren statistischen Einheiten der Größe N
• Stichprobe: Echte Teilmenge der Grundgesamtheit der Größe n
• Statistische Masse: die betrachtete Grundgesamtheit oder die betrachtete Stichprobe
• Statistische Größe: X : Statistische Masse → {Realisationsmöglichkeiten}
• Skalierungsarten (nach Informationsgehalt sortiert; höherwertige Skalen können unter
Informationsverlust in geringerwertige Skalen transformiert werden). Je nach Skalierungsart sind daher auch unterschiedliche Transformationen zugelassen, bei denen die
enthaltenen Informationen nicht verfälscht werden.
Nominalskala: Nur die Verwendung der Ungleich- und Gleich-Relation möglich
Ordinalskala: Gleich-, Ungleich-, Größer- und Kleiner-Relation
Kardinalskala: Sinnvolle Differenzenbildung möglich
Diskrete Kardinalskala
quasi-stetige Kardinalskala
Stetige Kardinalskala
2.2 Auswertung eindimensionalen Datenmaterials
2.2.1 Datenformen
Urliste
Das n-Tupel der Beobachtungswerte x1 , ..., xn . x(i) bezeichnet dabei das i-te Element aus der
geordneten Urliste mit x(i) ≺ x(i+1) .
5
2 Deskriptive Statistik
Sortierte Daten
Sortierung nach den realisierten Ausprägungen a1 , ..., ak .
• Absolute Häufigkeitsverteilung:
∑
h : {Realisierte Ausprägungen} → N mit kj=1 h(aj ) = n
• Relative Häufigkeitsverteilung:
∑
f : {Realisierte Ausprägungen} → {t ∈ R|0 ≤ t ≤ 1} mit kj=1 f (aj ) = 1
• Grafische Darstellung mit einem Stabdiagramm (absolut und relativ) oder einem Kreissektorendiagramm (relativ)
• Kumulierte Häufigkeiten: Geben an wie viele (relativ) oder welcher Anteil (absolut)
der statistischen Einheiten maximal die Ausprägung x haben. Es handelt sich um an
den x = aj unstetige Treppenfunktionen.
Absolute kumulierte Häufigkeitsverteilung:
H : {Realisationsmöglichkeiten}
→N
∑
mit H(x) = j h(aj ) wobei aj ≤ x, limx→−∞ H(x) = 0, limx→∞ H(x) = n
Relative kumulierte Häufigkeitsverteilung:
F : {Realisationsmöglichkeiten}
→R
∑
mit F (x) = j f (aj ) wobei aj ≤ x limx→−∞ F (x) = 0, limx→∞ F (x) = 1
Grafische Darstellung der kumulierten Häufigkeit in einem X-Y-Diagramm.
Gruppierte Daten
Gruppierung nach den realisierten Ausprägungen in halboffenen Intervallen mit Gruppengrenzen gj : [g0 ; g1 [, [g1 , g2 [, ..., [gk−1 ; gk [). Die Wahl der Gruppengrenzen ist hierbei nicht trivial, im Allgemeinen muss sie an die Daten angepasst werden, d.h. Spitzen in den Daten
sollten durch Bildung vieler Gruppen an diesen Stellen erhalten bleiben)
• Zu jeder Gruppe werden Häufigkeitsverteilungen analog zu 2.2.1 definiert. Allerdings
handelt es sich dann bei den kumulierten Häufigkeiten um stetige, an den x = aj
undifferenzierbare Funktionen, da für die einzelnen Gruppen eine Gleichverteilung
angenommen wird (und man so dann linear interpolieren kann).
• Gruppenbreite: bj = gj − gj−1
• Gruppenmitte: mj =
1
2
· (gj + gj−1 )
• Grafische Darstellung mit einem Histogramm: Es wird nicht die Häufigkeit hj auf der
h
y-Achse abgetragen, sondern ein um die Gruppenbreite korrigierter Wert lj = bjj ,
damit die Balken flächentreu sind.
6
2 Deskriptive Statistik
2.3 Empirische Kennzahlen
2.3.1 Mittelwerte
Arithmetisches Mittel
∑1
xi
n
i
∑1
∑
:=
aj · h(aj ) =
aj · f (aj )
n
j
j
∑
∑1
mj · fj
mj hj =
:=
n
j
j
Urliste
x̄ :=
Sortierte Daten
Gruppierte Daten1
Eigenschaften:
• Erfordert kardinale Skalierung
∑
•
i (xi − x̄) = 0
• sehr ausreißerempfindlich
• bei linearer Transformation mit yi = a + bcdotxi folgt für den Mittelwert ȳ = a + b · x̄
Median
x̃ := x( n+1 )
2
1
:= (x( n2 ) + x( n2 +1) )
2
Erfordert ordinale Skalierung.
bei ungerader Anzahl statistischer Einheiten
bei gerader Anzahl statistischer Einheiten
Modus
x̊ := dasjenige x, für das h(x) maximal ist.
Erfordert nominale Skalierung.
Geometrisches Mittel
√
n
x1 · x2 · ... · xn
v
u n
u∏
n
=t
xi
x¯g :=
i=1
Sinnvoll v.a. bei exponentiellen Wachstumsprozessen (wie Verzinsung).
1
Durch
∑
j
mj wird die Merkmalssumme hier geschätzt
7
2 Deskriptive Statistik
Harmonisches Mittel
x¯h = ∑
1
1
i xi w i
mit wi ≥ 0,
∑
wi = 1
i
Braucht man manchmal bei gebrochenen Größen, wie z.B. Geschwindigkeit (ms−1 ), wenn
die Nennergröße gegeben ist (wie schnell war XY während der ganzen Stunde durchschnittlich?).
Lageregel
• Es gilt bei linkssteilen Daten: x̊ < x̃ < x̄.
• Es gilt bei symmetrischen Verteilungen: x̄ = x̃
• Es gilt bei eingipflig symmetrischen Verteilungen:x̄ = x̃ = x̊
• Es gilt bei rechtssteilen Daten: x̊ > x̃ > x̄.
2.3.2 Quantile
xq := dasjenige kleinste xi , für das F (xi ) ≥ q
Beispiele;
• x0.1 ; x0.2 ; . . . ; x0.9 Dezile
• x0.25 ; x0.5 ; x0.75 Quartile
Die Quantile werden häufig in Box-Plots dargestellt.
Es ist auch möglich, die Quantile zweier Datensätze gegeneinander zu plotten. Dies ist
dann ein sogenannter Q-Q-Plot, aus dem sich Informationen über die Lage der beiden Datensätze zueinander entnehmen lassen.
2.3.3 Steuungsmaße
Spannweite
xmax − xmin
Wahnsinnig ausreißerempfindlich.
Quantilsabstand
xp − x1−p
Ausreißerempflindlichkeit hängt ab von der Quantilswahl. Für p = 0.75 wird dies zum
Quartilsabstand.
8
2 Deskriptive Statistik
Durchschnittliche Abweichung
s̄ =
1∑
|xi − x̄|
n i
s2 =
1∑
(xi − c)2
n i
Empirische Varianz
Es wird hierbei x̄ als Referenzpunkt c genommen, da es sich bei Anwendung der Minimalmethode (Minimierung von s2 nach c) als optimaler Wert ergibt. Alternativ funktioniert das
auch irgendwie mit x̃.
!
∂c s2 = 0
⇔
n
∑
(xi − c) = 0
i=1
⇔ c = x̄
Es ergibt sich dann für andere Datenformen:
1∑
(xi − x̄)2
n i
∑
1∑
:=
(aj − x̄)2 · h(aj ) =
(aj − x̄)2 · f (aj )
n j
j
∑
1∑
:=
(mj − x̄)2 · hj =
(mj − x̄)2 · fj
n j
j
für die Urliste
s2 :=
für sortierte Daten
für gruppierte Daten2
Für die Varianz gibt es einen praktischen Verschiebungssatz, der sich trivial über die binomischen Formeln und ein paar Summensätze herleiten lässt.
n
1 ∑ 2
s = ·
xi − x̄2
n i=1
2
Außerdem gibt es einen weiteren, praktischen
Satz mit dem man die Standardabweichung
∪
einer Beobachtungsgesamtheit M = i Mi mit r disjunkten Mi aus den Standardabweichungen der Mi berechnen kann.
n :=
2
Durch
∑
∑
i
ni s2M =
1∑ 2 1∑
ni si +
ni (x̄i − x̄)
n i
n i
j mj wird die Merkmalssumme hier geschätzt
9
2 Deskriptive Statistik
Empirische Standardabweichung
√
Die empirische Standardabweichung ist die Wurzel der empirischen Varianz: s = σX s2
Variationskoeffizient
Der Variationskoeffizient ist eine maßstabsunabhänige Variante der Standardabweichung.
V :=
s
x̄
2.4 Statistische Konzentrationsanalyse
2.4.1 Lorenz’sche Konzentrationsverteilung
Gegeben sei eine kardinal skalierte statistische Größe mit den realisierten Ausprägungen aj .
Man definiert
V :=
∑
aj · h(aj ) =
∑
j
xi
i
uL (x) := F (x)
Absoluter Merkmalsbeitrag := aj · h(aj )
aj · h(aj )
Relativer Merkmalsbeitrag :=
V
vL : {Realisierte Ausprägungen} ∪ {0} → R
∑
mit vL (aj ) =
aj · h(aj ) wobei aj ≤ x,
j
lim F (x) = 0, lim F (x) = 1
x→−∞
x→∞
Die Tupel (uL (aj ); vL (aj )) werden als Lorenzkurve bezeichnet. Wichtig ist hierbei, dass
bei sortierten Daten keine Tupel zwischen den Tupeln für die aj liegen, da vL (aj ) nur für
die realisierten Ausprägungen definiert sind. Es sind also keine sinnvollen Interpretationen
von sich auf der Gerade zwischen den Tupeln befindenden Punkten möglich; in Diagrammen
sind dementsprechend höchstens gestrichelte Verbindungslinien zu ziehen.
uL (aj ) ist dann der Anteil der Marktteilnehmer, die ein Merkmalsausprägung von weniger
als aj haben, an allen Marktteilnehmern, wobei natürlich uL (0) = 0 und UL (aj,max ) = 1.
vL (x) ist der Anteil der Marktteilnehmer, die eine Merkmalsausprägung von weniger als x
haben, am gesamten Marktvolumen V .
Um hierbei auch gruppierte Daten verarbeiten zu können (für die obige Definitionen analog erstellt werden können), wird angenommen, dass innerhalb der Gruppen eine Einpunktverteilung vorliegt, d.h. jeder Martteilnehmer trägt den gleichen (höheren oder niedrigeren)
Anteil zum Marktanteil der Gruppe bei. Daher können dann auch Punkte auf der Verbindungslinie zwischen den Punkten für die Grenzen gj analog zu oben interpretiert werden.
Man darf sie hier dann durchziehen.
10
2 Deskriptive Statistik
2.4.2 Gini-Koeffizient
Um die Aussagen der Lorenz-Kurve noch weiter zu komprimierne wird der Gini-Koeffiziet G
eingeführt, der dem doppelten der zwischen der wirklich betrachteten Lorenzkurve und der
Lorenzkurve bei perfekter Einpunktverteilung eingeschlossenen Fläche F entspricht. Über
die Tatsache, dass die maximale Konzentration vorliegt, wenn ein Marktteilnehmer das gesamte Marktvolumen auf sich vereinigt, lässt mit einfachen Dreiecksberechnungen zeigen,
dass Gmax = 2Fmax = n−1
< 1. Selbstverständlich gilt auch 0 ≤ G.
n
G
Normierter Gini-Koeffizient: G∗ = Gmax
Anmerkung: Natürlich macht es nicht immer Sinn, einfach nur den Gini-Koeffizienten
zu vergleichen. Durch die Lorenzkurve können immer noch verschiedene Verteilungen beschrieben werden, sodass die Angabe der Lorenzkurve immer sinnvoll ist. Außerdem ist der
Gini-Koeffizient sehr leicht durch Wahl größerer Gruppen (bei sortierten Daten) zu manipulieren.
2.4.3 Herfindahl-Index
H=
n
∑
p2i
i=1
mit pi =
pi
V
1
≤H≤1
n
Auf den Herfindahl-Index wirken sich zwei Effekte aus:
1. Anzahlseffekt: Je mehr Teilnehmer sich auf einefzm Markt tummeln, desto weniger
konzentriert ist er.
2. Merkmalseffekt (relative Konzentration): Je mehr Marktanteil ein Teilnehmer auf sich
vereinigt, desto konzentrierter ist der Markt.
Zur Verbesserung der Vergleichbarkeit wäre es natürlich hilfreich, die Effekte isoliert betrachten zu können. Gegeben seien also zwei Märkte A, B mit den Anbieterzahlen nA , nB
und den Herfindahl-Indizes HA , HB . Ein um den Anzahlseffekt bereinigter Herfindahl-Index,
A
mit dem sich die beiden Märkte vergleichen lassen, ergibt sich dann mit HA′ = H
bzw. mit
nB
HB
′
′
′
HB = nA . Wenn HA , HB dann als Maß für den Merkmalseffekt und nA , nB als Maß für den
Anzahlseffekt verwendet werden, lassen sich einerseits die Wirkrichtungen der beiden Effekte feststellen, andererseits lässt sich mit HA , HB auch darauf schließen, ob bei gegenläufigen
Effekten einer den anderen überkompensiert.
11
2 Deskriptive Statistik
2.5 Auswertung zweidimensionalen Datenmaterials
Bei zweidimensionalem Datenmaterial handelt es sich um Urlisten, bei denen die Urlistenelemente 2-Tupel (xi , yi ) sind; dies gilt natürlich auch für die realisierten Ausprägungen (ai , bi )
bei sortierten Daten. Man definiert dann folgende Häufigkeiten:
• hij := h(ai , bj ): Wie häufig ist genau die Kombination der Merkmalsausprägungen
(ai , bj ) aufgetreten? Dies ist die simultane Häufigkeit
∑
• hi· := j h(ai , bj ): Wie häufig ist die Merkmalsausprägung ai aufgetreten? (Randhäufigkeit)
∑
• h·j :=
i h(ai , bj ): Wie häufig ist das Merkmalsausprägung bj aufgetreten? (Randhäufigkeit)
• Natürlich gibt es dazu auch noch relative Varianten: fij :=
hij
, fi·
n
:=
hi·
, f·j
n
:=
h·j
n
• Weiterhin definiert man relative bedingte Häufigkeiten, zu denen es kein absolutes
Pendant gibt. Diese geben an, wie häufig eine Merkmalsausprägung ai bei den Trägern
einer bestimmten Merkmalsausprägung bj des anderen Merkmals auftritt.
h
f (ai |bj ) := hij·j : Wie häufig tritt die Merkmalsausprägung ai bei den Trägern der
Merkmalsausprägung bj auf?
h
f (bj |ai ) := hiji · : Wie häufig tritt die Merkmalsausprägung bj bei den Trägern der
Merkmalsausprägung ai auf?
Man definiert nun die Unabhängigkeit zweier Merkmale über die bedingten Wahrscheinlichkeiten. Zwei Merkmale sind genau dann unabhängig, wenn ∀ai f (ai |b1 ) = f (ai |b2 ) =
· · · = f (ai |bl ) ⇔ ∀bj f (bj |a1 ) = f (bj |a2 ) = · · · = f (bj |ak ).
Folgerungen aus der Unabhängigkeit:
• ∀(i, j) f (ai |bj ) =
hi·
n
• ∀(j, i) f (bj |ai ) =
h·j
n
• ∀(i, j) hij =
hi ·hj
n
Die letzte Folgerung ist außerdem sehr praktisch, da mit ihr für jedes hij ein h̃ij bestimmt
werden kann, das bei Unabhängigkeit erwartet würde. Wenn dann ∀(i, j) hij = h̃ij , folgt
direkt die Unabhängigkeit der Merkmale.
2.5.1 Darstellung in einer Kontingenztafel
Die Kontingenztafel dient der Darstellung von sortierten zweidimensionalen Daten.
12
2 Deskriptive Statistik
b1 b2 . . . bl Randhäufigkeiten
h11 . . . . . . h1l
h1·
..
..
..
..
.
.
.
a2
.
..
..
..
..
..
.
.
.
.
.
ak
hk1 . . . . . . hkl
hk·
n
Randhäufigkeiten h·1 . . . . . . h·l
Zusätzlich zu den hij kann in den einzelnen Zellen noch das zugehörige h̃ij eingetragen
werden, um eine schnelle Antwort auf die Frage geben zu können, ob die Merkmale unabhängig sind.
a1
2.5.2 Abhängigkeitsmaße
Man sollte aus statistischer (Un-)Abhängigkeit nicht direkt auf kausale (Un-)Abhängigkeit
schließen. Es können Einflüsse durch eine gemeinsame Ursache vorliegen.
Kontingenzkoeffizient
Aus den hij und den h̃ij kann man glücklicherweise nicht nur einfach die Unabhängigkeit
feststellen, sondern auch im anderen Fall einen praktisches Maß für die Abhängigkeit konstruieren. Dieser Koeffizient kann für alle Skalierungen gebildet werden.
∑ (hij − h̃ij )2
χ :=
h̃ij
i,j
√
χ2
K :=
χ2 + n
mit 0 ≤ χ2
2
K
K1 :=
, Kmax =
Kmax
mit 0 ≤ K < 1
√
m−1
, m = min{k, l}
m
mit 0 ≤ K1 ≤ 1
Interpretation: Wenn K∗ = 0 sind die Merkmale unabhängig (folgt direkt aus der Definition der Unabhängigkeit). Wenn K∗ = 1 sind die Merkmale perfekt abhängig in dem
Sinne, dass aus der einer Merkmalsausprägung ai sicher auf eine Merkmalsausprägung bj
beim Merkmalsträger geschlossen werden kann.
Rang-Korrelationskoeffizient nach Kendall
Bei ordinal saklierten Merkmalen kann nicht nur die Stärke, sondern auch die Richtung dieses monotonen Zusammenhangs angegeben werden. Dabei wird mit der Variable P angegeben, wie oft bei pärchenweisen Vergleichen der Merkmalsträger die statistischen Größen
X, Y diese Merkmalsträger gleich herum anordnen (d.h. gleichzeitig aufsteigend), und mit
der Variablen Q, wie oft sie in unterschiedlicher Reihenfolge angeordnet werden(d.h. einmal
aufsteigend und einmal absteigend).
13
2 Deskriptive Statistik
τ :=
P −Q
(n)
2
mit − 1 ≤ τ ≤ 1
Falls bei einer Ordinalskala zwei Merkmalsträger die gleiche Rangposition zugeschrieben
wird (Bindungen), muss τ korrigiert werden. Bei P, Q ist zu beachten, dass bei pärchenweisen
Vergleichen, bei denen zwei Merkmalsträger von mindestens einer statistischen Größe auf
dem gleichen Rang angeordnet werden, weder als gleichzeitig aufsteigend noch als gleichzeitig absteigend sondern gar nicht gewertet werden. Weiterhin ist k die Anzahl der Bindungen
und gi die Länge der i-ten Bindung in der Rangreihe von X bzw. Y .
τ ∗ := √( )
n
2
τx,y =
1
2
k
∑
P −Q
√( )
n
− τx ·
− τy
2
gi · (gi − 1)
i=1
Kovarianz
Die Kovarianz gibt die gemeinsame mittlere Streuung zweier statistischer Größen an. Aus
ihr lässt sich ablesen ob ein linearer Zusammenhang existiert (falls sx y ̸= 0 ) und in welche
Richtung dieser geht, nicht jedoch, wie stark dieser ist.
1∑
(xi − x̄) · (yi − ȳ)
n i=1
n
sxy =
=
n
∑
xi · yi − n · x̄ȳ
Verschiebungssatz für die Kovarianz
i=1
y
+
ȳ
+
x̄
14
x
2 Deskriptive Statistik
Korrelationskoeffizient nach Bravais-Pearson
Eine normierte Variante der Kovarianz mit schönen Beschränkungen stellt der Korrelationskoeffizient nach Bravais-Pearson dar.
sxy
sx · sy
mit − 1 ≤ r ≤ 1
r :=
über Cauchy-Schwartz
Mit dem Verschiebungssatz lässt sich außerdem eine Form bestimmen, die sehr viel einfacher für große Datenmengen zu berechnen ist als das Original.
Partielle Korrelation
Falls eine Drittvariable Z Einfluss auf die beiden statistischen Größen X, Y hat, kann der
durch diese Drittvariable verursachte Einfluss aus der (Rang- oder Maß-) Korrelation zwischen X, Y eliminiert werden.
Z
Kausalwirkung
X
Kausalwirkung
Hohe Korrelation
Y
τxy − τxz · τyz
τxy·z = √
2 ) · (1 − τ 2 )
(1 − τxz
yz
rxy·z = √
rxy − rxz · ryz
2 ) · (1 − r 2 )
(1 − rxz
yz
2.6 Lineare Regression
Wenn zwischen zwei kardinal skalierten statistischen Größen X, Y ein kausaler Zusammenhang angenommen wird, kann eine Regression durchgeführt werden, bei der X als erklärende und Y als zu erklärende Variable angesehen wird. Ziel ist es, eine Funktion f zu finden,
die die einzelnen Datenpunkte (x, y) optimal (d.h. mit möglichst geringer Abweichung) beschreibt.
∑
Dazu lässt sich die gesamte quadratische Abweichung der yi von∑
ȳ, formal ni (yi − ȳ)2
(SQT), additiv aufspalten in einen von der Regression erklärten Teil ni (ŷi − ȳ)2 (SQE) und
15
2 Deskriptive Statistik
∑
einen von der Regression unerklärten Teil ni (ŷi − ŷi )2 (SQR). Ein f : R → R, das die (x, y)
bei gegebenem Funktionstyp optimal beschreibt, ist also gefunden, wenn der unerklärte Teil
der gesamten quadratischen Abweichung minimal wird. Mit der Differenzialrechnung lässt
sich dieses Minimum für ein minimales f leicht bestimmen:
â = ȳ − b̂ · x̄
sxy
b̂ = 2
sx
Aus SQR und SQT lässt sich auch gleich eine Maßzahl dafür generieren, wie gut die Regression gelungen ist (das sog. Bestimmtheitsmaß).
SQE
SQT
mit 0 ≤ R2 ≤ 1
R2 =
Zu beachten ist, dass das f immer nur für die x sinnvoll zu interpretieren ist, die in der
Umgebung eines Datums xi liegen. Daher sagt das Bestimmtheitsmaß auch nichts darüber
aus, ob die gewählte Regression immer sinnvoll ist. In einem anderen Intervall kann der
Zusammenhang auch schon wieder ganz anders aussehen.
16
3 Kombinatorik
Die grundsätzliche Frage der Kombinatorik ist: Wie kann eine gegebene Anzahl von Elementen angeordnet oder zusammengefasst werden? Dafür gibt es, je nach Problemstellung,
eine Sammlung praktischer Formeln. Das Problem liegt nur darin, zu erkennen, wann welche
anzuwenden ist.
3.1 Permutation
Von lat. permutare - vertauschen: Wie viele Möglichkeiten gibt es, n Elemente anzuordnen?
Es handelt sich also ein Problem unter Berücksichtigung der Reihenfolge der Elemente. Es
ist dabei zu unterscheiden, ob es sich um ein Problem mit sich wiederholenden (d.h. gruppenweise nicht unterscheidbaren) Elementen, z.B. eine Sammlung von Büchern, von denen
einige den gleichen Autor und Titel haben, oder eine ohne sich wiederholende (d.h. immer
einzeln identifizierbaren) Elenente, z.B. eine Sammlung von Büchern mit jeweils verschiedenen Autoren und Titeln, handelt.
3.1.1 Ohne Wiederholung
Es gibt n Möglichkeiten, die erste Position der Anordnung zu besetzen. Für jede dieser Möglichkeiten gibt es n − 1 Möglichkeiten, die zweite Position dieser Anordnung zu besetzen.
Insgesamt also schon n · (n − 1) Möglichkeiten. Für die dritte Position sind es, wenn die
ersten schon festgelegt sind, jeweils n − 2 Möglichkeiten, diese zu besetzen. Insgesamt also
n · (n − 1) · (n − 2). Wenn dies nun fortgeführt wird bis zur n-ten Position bleibt am Ende
nur noch eine einzige Möglichkeit, diese zu besetzen.
Allgemein sind es also n! := 1 · 2 · ... · n Möglichkeiten, diese n Objekte anzuordnen.
3.1.2 Mit Wiederholung
Wenn alle Objekte als individuell angesehen würden, gäbe es hier natürlich n! Möglichkeiten,
diese anzuordnen. Da diese Objekte nun aber gruppenweise nicht mehr unterscheidbar sind,
gibt es einige Möglichkeiten, die nun nicht mehr von anderen Möglichkeiten unterscheidbar
sind und daher aussortiert werden müssen. Man endet dann bei p1 !·p2n!!·p3 !·... , wobei pi die Größe
jeder Gruppe i nicht unterscheidbarer Elemente angeben.
17
3 Kombinatorik
3.2 Variation
Von lat. variare - verändern: wie viele Möglichkeiten gibt es, aus einer Menge von n Elementen r Elemente zu ziehen? Zwei Möglichkeiten, die zwar die gleichen Elemente, aber in
unterschiedlicher Reihenfolge enthalten, werden als unterschiedlich betrachtet (und somit
jede für sich gezählt).
Dabei ist zu beachten, ob ein Element mehrfach („mit Wiederholung“) oder nur einmal
gezogen werden kann („ohne Wiederholung“). Man beachte, dass sich dieser Begriff leicht
von dem der Permutation unterscheidet.
3.2.1 Ohne Wiederholung
Beim ersten Zug gibt es noch n Möglichkeiten, ein Element zu ziehen, beim zweiten nur noch
n − 1, da das erste ja schon gezogen worden ist. Dies geht weiter bis zum r-ten Zug, bei dem
es dann nur noch n−r+1 Möglichkeiten gibt. Insgesamt gibt es also n·(n−1)·. . .·(n−k+1)
n!
Möglichkeiten, was sich auch schreiben lässt als (n−k)!
.
3.2.2 Mit Wiederholung
Beim ersten Zug gibt es n Möglichkeiten, ein Element zu ziehen. Beim zweiten Zug gibt es
wieder genau diese Möglichkeiten und so weiter bis zum r-ten Zug, sodass es insgesamt nr
Möglichkeiten gibt.
3.3 Kombination
Von lat. combinare - arrangieren: wie viele Möglichkeiten gibt es, aus einer Menge von n
Elementen r Elemente zu ziehen? Zwei Möglichkeiten, die die gleichen Elemente, aber in
unterschiedlicher Reihenfolge enthalten, werden als gleich betrachtet (und somit nur einmal
gezählt).
Die Definition von mit bzw. ohne Wiederholung ist analog zu derjenigen bei der Variation.
3.3.1 Ohne Wiederholung
n!
Möglichkeiten, die Elemente
Hierbei gibt es zuallererst, genau wie bei der Variation, (n−r)!
anzuordnen. Allerdings sind hierbei noch die r! Möglichkeiten enthalten, die Elemente jeder
untereinander zu vertauschen. Wenn man diese noch entfernt ergeben sich
(n) Möglichkeit
n!
:= (n−r)!r! Möglichkeiten.
r
3.3.2 Mit Wiederholung
Warum
(n+k−1) das hier so ist habe ich zwar nicht mehr herausfinden können, aber es kommt raus
.
k
18
3 Kombinatorik
3.4 Symmetrie des Binomialkoeffizienten
Ganz praktisch:
(n)
r
=
(
n
n−r
)
19
4 Stochastik
In der Stochastik geht es eigentlich einfach nur darum, die Wahrscheinlichkeit eines Ereignisses A aus verschiedenen anderen Wahrscheinlichkeiten zu berechnen. Dafür muss grundsätzlich erst einmal im Allgemeinen definiert werden, was ein Ereignis ist (da dies ja von Fall
zu Fall sehr unterschiedlich sein kann).
Es wird also zuallererst eine Menge Ω definiert, die alle nicht weiter aufspaltbaren Elementarereignisse ω enthält. Ein Ereignis ist nun einfach eine Teilmenge von Ω. Es kann nun
ein Mengensystem A konstruiert werden, das alle interessanten Ereignisse (inklusive Ω), alle
Schnitte und Vereinigungen dieser interessanten Ereignisse sowie ihre Komplemente enthält.
Eine Funktion P : A → R, die dem Axiomensystem von Kolmogoroff (s.u.) gerecht wird,
heißt nun Wahrscheinlichkeitsfunktion.
Man bezeichnet das 3-Tupel (Ω, A, P ) auch als Wahrscheinlichkeitsraum.
ω6
ω5
B
ω3
ω2
∅
ω1
ω4
A
∅
→
Ω
Ω
→
B
P (∅) P (A∩B) P (A) P (A∪B) P (Ω)
A
A
R
Für die widerspruchsfreie Herumrechnerei mit Wahrscheinlichkeiten müssen für P nur
drei Eigenschaften gefordert werden:
• Positivität: P (A) ≥ 0 ∀A ∈ A
• Normierung: P (Ω) = 1
• Additivität:
oder abzählbar unendlich viele Ai mit Ai ∩ Aj = ∅ (i ̸= j)
∪ Für abzählbar
∑
gilt P ( i Ai ) = i P (Ai ).
4.1 Eigenschaften von Ereignissen
• De Morgan’sche Gesetze: A ∪ B = Ā ∩ B̄ und A ∩ B = Ā ∪ B̄
• Vereinigung und Durchschnitt sind sowohl kommutativ als auch assoziativ, in Verbindung miteinander distributiv in alle Richtungen wie man es gerne mag.
20
4 Stochastik
• A, B ⊂ Ω heißen disjunkt, falls A ∩ B = ∅.
∩
• Ai heißen vollständig disjunkt, falls i Ai = ∅.
• Ai heißen paarweise disjunkt, falls ∀(i, j) miti ̸= j Ai ∩ Aj = ∅.
• Aus Ai paarweise disjunkt folgt Ai vollständig disjunkt, aber nicht umgekehrt.
Eine sehr praktische Anwendung dieser Gesetzmäßigkeiten ist die disjunkte Zerlegung:
A = (A ∩ B̄) ∪ (A ∩ B).
4.2 Bestimmung einer Wahrscheinlichkeitsfunktion
Darüber, wie man die Wahrscheinlichkeiten eines Ereignisses letztlich bestimmt, kann man
trefflich streiten. Im Grunde genommen gibt es aber drei Positionen. Die erste unter ihnen, die
klassische Herangehensweise nach Laplace, ist die Annahme der Gleichwahrscheinlichkeit
aller aus einem Elementarereignis bestehenden Ereignisse Ai . Dies ist nur sinnvoll, wenn Ω
i|
endlich ist. Es folgt dann P (Ai ) = |A
.
|Ω|
Falls aber ein guter Grund ersichtlich ist, warum ein Elementarereignis vor einem anderen
bevorzugt sein könnte, ist es häufig sinnvoller, entweder eine objektivistisch oder subjektivistische Herangehensweise zu wählen.
objektivistisch
subjektivistisch
Interpretation Wahrscheinlichkeit ist eine
Wahrscheinlichkeit ist nicht
quasi-physikalische Eigenschaft, die
in den Dingen, sondern in mir.
unabhängig vom Betrachter ist.
Alles andere ist Aberglaube.
Methoden
Verwendung von Vergangenheitsdaten
Sammlung von Wissen und
(s. Kapitel 1)
Argumenten
Beispiel
Wie wahrscheinlich ist der Zerfall eines Wie wahrscheinlich ist es,
Uran-Atoms?
dass ich morgen die Klausur
Wie wahrscheinlich ist es, dass es
bestehe?
morgen regnet?
Wie wahrscheinlich ist ein
GAU?
Stärken
Anspruch wissenschaftlicher
Findet Wahrscheinlichkeiten
Vergleichbarkeit
für nicht wiederholbarer
Verfügt über alle Methoden der
Experimente
induktiven Statistik
Einzelfallbeurteilung möglich
Praktisch: P (A) = limn→∞ fn (A)
Schwächen
Nur Aussagen über (annähernd)
Schwer vergleichbar
unendliche Folgen möglich
Als Ergebnis schwer zu
Keine Aussagen über Individuen möglich verkaufen
21
4 Stochastik
4.3 Rechenregeln für Wahrscheinlichkeiten
4.3.1 Allgemeiner Additionssatz
A, B ⊂ Ω
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
4.3.2 Bedingte Wahrscheinlichkeiten und stochastische
Unabhängigkeit
Man definiert bedingte Wahrscheinlichkeiten wie folgt:
A, B ⊂ Ω
P (A ∩ B)
P (A/B) :=
P (B)
mit P (B) ̸= 0
Nun kann man auch die Unabhängigkeit von Ereignissen definieren: A, B sollen stochastisch unabhängig sein, wenn P (A/B) = P (A) und wenn P (B/A) = P (B), wobei sinnvollerweise P (A), P (B) ̸= 0 gelten muss. Dies ist äquivalent zu P (A ∩ B) = P (A) · P (B) (was
auch als Multiplikationssatz bezeichnet wird).
∏
∩
Mehrere Ai heißen vollständig stochastisch unabhängig, wenn P ( i Ai ) = i P (Ai ).
Sie heißen paarweise stochastisch unabhängig, wenn ∀i, jmit i ̸= j P (Ai ∩ Aj ) = P (Ai ) ·
P (Aj ). Aus vollständiger stochastischer Unabhängigkeit folgt die paarweise stochastische
Unabhängigkeit, nicht umgekehrt.
4.3.3 Satz von Bayes
Vorlauf:
P (D ∩ A)
P (A)
⇔ P (A ∩ B) = P (A) · P (D/A)
Einsetzen:
P (A ∩ D)
P (A/D) =
P (D)
P (D/A) · P (A)
=
P (D)
P (D/A) =
22
4 Stochastik
4.4 Zufallsgrößen
Um die Handhabung von Ereignissen zu vereinfachen, führt man Zufallsgrößen ein, die jedem Ergebnis ω ∈ Ω ein Element aus einem Wertebereich W zuordnen: X : Ω → W, X(ω) =
x. Als Zufallsvariablen bezeichnet man solche Zufallsgrößen, für die W = R gilt.
Nun wird für jede Zufallsvariable eine Wahrscheinlichkeitsfunktion P eingeführt, die jedem V ⊂ W eine Wahrscheinlichkeit nach obiger Definition zuordnet. Des weiteren wird
eine theoretische Verteilungsfunktion F (x) = P (X ≤ x definiert. Diese haben dann einige
praktische Eigenschaften:
• 0 ≤ P (X = x) ≤ 1
• 0 ≤ F (x) ≤ 1
• limx→−∞ F (x) = 0, limx→∞ F (x) = 1
• x1 < x2 =⇒ F (x1 ) ≤ F (x2 )70
Mit dieser Wahrscheinlichkeitsfunktion lässt sich nun analog zur Wahrscheinlichkeitsfunktion für Ereignisse die Unabhängigkeit zweier Zufallsvariablen X1 , X2 definieren:
P ((X1 ∈ V1 ) ∩ (X2 ∈ V2 )) = P (X1 ∈ V1 ) · P (X2 ∈ V2 )
Analog zu oben kann man natürlich auch über paarweise und vollständige Unabhängigkeit
von Zufallsvariablen reden.
4.4.1 Diskrete Zufallsvariablen
Eine Zufallsvariable heißt diskret, falls ihr Wertebereich nur abzählbar oder abzählbar unendlich viele Elemente beinhaltet. Daraus folgen Eigenschaften für die Wahrscheinlichkeitsund die Verteilungsfunktion:
∑
•
x P (X = x) = 1
∑
• F (x0 ) = x≤x0 P (X = x)
Bei der grafischen Darstellung als Stabdiagrammm werden auf der Abszisse die x abgetragen, auf der Ordinate die dazugehörigen P (X = x).
4.4.2 Stetige Zufallsvariablen
Eine Zufallsvariable X heißt stetig, wenn sein Wertebereich alle Werte oder die Werte eines
, mit der
Intervalls von R annehmen kann. Die Dichtefunktion f (x) = lim∆x→0 x≤X≤x+∆x
δx
die Verteilung von X beschrieben wird, hat dann folgende Eigenschaften:
• 0 ≤ f (x)
23
4 Stochastik
• F (x) =
´x
• F (∞) =
−∞
f (t)dt
´∞
−∞
f (x)dx = 1
• P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a < X < b) =
´b
a
f (x)dx
Aus diesen Eigenschaften ergibt sich sofort, dass ein punktförmiges Ereignis (z.B. {X =
a} = {a ≤ X ≤ a} die Wahrscheinlichkeit 0 hat. Es können also immer nur sinnvolle
Wahrscheinlichkeiten dafür angegeben werden, dass X in einem Intervall [a; b] liegt. Bei
der grafischen Darstellung als Blockdiagramm wird auf der Abszisse R abgetragen, auf der
Ordinate die dazugehörigen f (x). P (X ≤ x) und alle anderen Wahrscheinlichkeiten lassen
sich dann wie oben angegeben als Fläche unter der Kurve ablesen.
4.4.3 Kennzahlen von Zufallsvariablen
• Modus: Dasjenige µ̊ mit P (X = µ̊) > P (X = x) ∀ x ̸= µ̊. Für stetige X folgt für den
Modus f (µ̊) > f (x) ∀ x ̸= µ̊
• Quantile: xq := dasjenige kleinste x, für das F (x) ≥ q
• Median: µ̃ = x0.5
• Erwartungswert
∑
Für diskrete X: µ := E(X) := x x · P (X = x)
´∞
Für stetige X: µ := E(X) := −∞ x · f (x)dx
• Varianz
∑
Für diskrete X: σ 2 = Var(X) = x (x − E(X))2 · P (X = x)
´∞
Für stetige X: σ 2 = Var(X) = −∞ (x − E(X))2 · f (x)dx
√
• Standardabweichung: σ = σ 2
• Cov(X, Y ) = E(X · Y ) − E(X) · E(Y )
• Es gibt noch einen witzigen p-Quantilskoeffizienten der Schiefe, der in der Formelsammlung steht.
Rechenregeln für den Erwartungswert:
E(X + a) = E(X) + a
E(a · X) = a · E(X)
E(X + Y ) = E(X) + E(Y )
E(X · Y ) = E(X) · E(Y ) ⇐ X, Y unabhängig
24
4 Stochastik
Rechenregeln für die Varianz:
Var(X + a) = Var(X)
Var(a · X) = a2 · Var(X)
Var(X ± Y ) = Var(X) + Var(Y ) ± 2 · Cov(X, Y )
Var(X) = E( (X − E(X))2 ) = E(X 2 ) − (E(X))2 Verschiebungssatz
4.5 Stochastische Modelle
4.5.1 Diskrete stochastische Modelle
Bernoulli-Experiment
Bei einem Bernoulli-Experiment nimmt die einzige Zufallsvariable X ∈ {0, 1} mit einer
Wahrscheinlichkeit von π 1 (Erfolg) und (logischerweise) mit einer Wahrscheinlichkeit von
1 − π (Misserfolg) an.
E(X) = π
Var(X) = π · (1 − π)
X ist Bernoulli-verteilt mit π.
Binomialverteilung
Der Binomialverteilung liegen n unabhängige und identisch verteilte Bernoulli-Experimente
mit den Zufallsvariablen Xi , 1 ≤ i ≤ n zugrunde. Die Zufallsvariable X ∈ {0, ..., n} bezeichnet die Anzahl der Erfolge, die dabei erzielt werden.
Mit dem Multiplikationssatz folgt für ein beliebiges Tupel x1 , . . . , xn , bei dem genau x
n−x
Erfolge vorliegen, eine Wahrscheinlichkeit von P (X1 = x1 , ..., Xn = xn ) = π x · (1
(n)− π) .
n!
Mit der aus der Kombinatorik bekannten Tatsache, dass diese xi auf x!·(n−x)! = x Weisen
angeordnet werden können (Permutation mit Wiederholung,
zufälligerweise dem
(n)die hier
x
Binomialkoeffizienten entspricht), folgt direkt P (X = x) = x · π · (1 − π)n−x . Weiterhin
lassen sich folgende Dinge leicht nachweisen:
E(X) = n · π
Var(X) = n · π · (1 − π)
X
∑ist B(n; π)-verteilt. Praktischerweise gilt für B(nj ; π)-verteilte Xj , dass Y =
B( j nj ; π) ist.
25
∑
j
Xj
4 Stochastik
Hypergeometrische Verteilung
Der hypergeometrischen Verteilung liegen n abhängige (und demzufolge nicht identisch)
verteilte Bernoulli-Experimente zugrunde. Dies kann anschaulich mit einer Urne verdeutlicht werden, in der N Objekte liegen, von denen M eine besondere Eigenschaft haben
Aus dieser Urne wird n mal gezogen. Das Ziehen einer dieser besonderen Objekte wird als
Erfolg gewertet, alles andere als Misserfolg. Die Zufallsvariable X ∈ {max(0, n − (N −
M )), . . . , min(n, M ) bezeichnet auch hier die Anzahl der Erfolge.
Die Anzahl der Möglichkeiten, n Elemente aus einer Menge von N Elementen zu ziehen,
ohne dabei auf die Reihenfolge, in der die Elemente gezogen
werden, Rücksicht zu nehmen
( )
(Kombination, natürlich ohne Wiederholung) beträgt Nn .
Die Anzahl der günstigen
(M )Möglichkeiten, genau x mal eines der besonderen Elemente zu
ziehen beträgt zunächst x . Allerdings gibt es für jede dieser Möglichkeiten noch einmal
(N −M )
weitere Möglichkeiten, die verbliebenen n−x Züge mit den N −M nicht-besonderen
n−x
( ) (N −M )
Elementen zu füllen. Insgesamt gibt es also M
· n−x günstige Möglichkeiten.
x
Nach Laplace ergibt sich dann folgende Wahrscheinlichkeitsfunktion mit passendem Erwartungswert und Varianz:
(M ) (N −M )
·
P (X = x) = x (N )n−x
n
M
E(X) = n ·
N
M
M N −n
Var(X) = n ·
· (1 − ) ·
N
N
N −1
X ist H(N ; M ; n) und lässt sich, falls n ≪ N gut mit der Binomialverteilung annähern.
Geometrische Verteilung
Eine geometrisch verteilte Zufallsvariable basiert auf der gleichen Modellvorstellung wie die
Binomialverteilung, mit dem einzigen Unterschied, dass die Zufallsvariable X ∈ 1, . . . die
Anzahl der (auch hier unabhängigen) Züge bis zum ersten Erfolg darstellt. Es ergeben sich
folgende Gesetzmäßigkeiten:
P (X = x) = (1 − π)x−1 · π
1
E(X) =
π
1−π
Var(X) =
π
X ist G(π)-verteilt.
26
4 Stochastik
Negative Binomialverteilung
Die negative Binomialverteilung ist eine Verallgemeinerung der geometrischen Verteilung:
X gibt die Anzahl der Züge bis zum r-ten Erfolg an. Die Wahrscheinlichkeit, x Misserfolge
und r Erfolge zu haben ist gegeben durch (1−π)x ·π r . Es gibt jedoch mehrere Möglichkeiten,
wie diese Kombination zustande kommen kann, weil es möglich diese x + (r − 1) Elemente
verschieden anzuordnen (es sind nicht x + r Elemente, da der letzte Erfolg zwangsläufig am
Ende der Reihe von Zügen stehen muss). Da sich die x und r−1 Elemente nicht qualitativ unterscheiden, handelt es sich um Permutation mit Wiederholung, d.h. es bleiben im Endeffekt
nur (x+(r−1))!
Möglichkeiten. Daraus ergeben sich dann folgende Eigenschaften:
x!(r−1)!
P (X = x + r) =
r
π
(1 − π) · r
Var(X) =
π2
(x + (r − 1))!
· (1 − π)x · π r
x!(r − 1)!
E(X) =
X ist dann N B(r, π)-verteilt (was man im Übrigen auch Pascal-verteilt nennt).
Poissonverteilung
Die Poissonverteilung ist die erste Verteilung, der ein sogenannter „stochastischer“ Prozess
zugrunde liegt. Was das genau ist, weiß ich nicht genau, ist aber bestimmt in einem guten
Buch definiert (und nicht so wichtig für die Klausur). Die Modellvorstellung ist dabei wieder
die ähnich wie bei der Binomialverteilung, allerdings bezeichnet X die Anzahl der Erfolge
in einem bestimmten, festen Intervall. Beispiele sind:
• Die Anzahl der Personen, die in einem Geschäft in einem Zeitraum einkaufen.
• Die Anzahl der Schlaglöcher, die auf einem Stück Autobahn auftauchen.
Gegeben ist dabei immer die sogenannte „Intensität“ des Poisson-Prozesses, d.h. die Anzahl der Erfolge, die durchschnittlich in diesem Intervall auftreten; d.h. der Erwartungswert
der gedachten Binomialverteilung λ := E(X) = n · π = const. Bei der Poisson-Verteilung
wird nun angenommen, dass in dem festen Intervall sehr, sehr häufig gezogen wird, sodass
sich im Grenzübergang von der Binomialverteilung folgende Wahrscheinlichkeitsfunktion
ergibt (Erwartungswert und Varianz sind recht einfach herzuleiten):
27
4 Stochastik
P (X = x) =
lim
PB (X)
( )
n
=
lim
· pix · (1 − π)n−x
n→∞,n·πconst x
λx −λ
= ... =
·e
x!
E(X) = λ = n · π
Var(X) = λ
n→∞,n·πconst
(x ∈ {0, 1, . . .})
(logisch)
Um mit dieser Verteilung zuverlässige Wahrscheinlichkeiten für die wirkliche Welt angeben zu können, muss der wirkliche Vorgang einige Eigenschaften haben (die Eigenschaften
des Poisson-Prozesses):
• Stationarität: Die Wahrscheinlichkeit von x Erfolgen in dem gegebenen Intervall hängt
nur von der Länge des Intervalls ab, nicht aber von seiner Position. Für das Autobahnbeispiel hieße das, dass die gesamte Autobahnstrecke (nicht nur das eine Intervall)
überall gleich schlecht ist.
• Nachwirkungsfreiheit: Die Wahrscheinlichkeit von x Erfolgen in dem gegebenen Intervall hängt nicht davon ab, wie viele Erfolge schon vor diesem Intervall eingetreten
sind (was natürlich zwingend notwendig ist, da es sonst Unfug wäre, von der Binomialverteilung auszugehen). Zurück zum Autobahnbeispiel: Die Anzahl der Schlaglöcher,
die im kommenden Intervall auf mich warten, ist unabhängig davon, wie viele Schlaglöcher meine Aufhängung bereits in Mitleidenschaft gezogen haben.
• Ordinarität: Das Eintreten von mehr als einem Erfolg in einem sehr, sehr kleinen Intervall ist praktisch unmöglich. Dies ist sinnvoll für die Vorstellung einer Binomialverteilung mit unendlich vielen Zügen, die ja wiederum aus Bernoulli-Experimenten
besteht, die ja selbst nur entweder zu Erfolg oder zu Misserfolg (also Schlagloch oder
= 0. Man kann also auf
kein Schlagloch) auswerten. Mathematisch: lim∆t→0 P∆t (X>1)
∆t
einem infinitesimal kleinen Stück Autobahn auf maximal ein Schlagloch treffen.
Multinomialverteilung
Die Multinomialverteilung ist eine Verallgemeinerung der Binomialverteilung, bei der nicht
mehr unabhängige und identisch verteilte Bernoulli-Experimente, sondern unabhängige und
identisch verteilte Experimente mit k verschiedenen Ergebnissen Ei , von denen jeweils eines
eintritt. Die Zufallsvariable X ist dann ein Vektor mit den Elementen X1 , . . . , Xk , die jeweils
angeben, wie oft das Ereignis Ei bei n Durchführungen dieses Experimentes eingetreten ist.
Mit πi wird die Wahrscheinlichkeit des Eintretens des Ereignisses Ei bei einem Experiment
bezeichnet. Mit analogen Überlegungen zur Binomialverteilung ergibt sich dann folgende
Wahrscheinlichkeitsfunktion:
28
4 Stochastik
∏
n!
P (X = (x1 , . . . , xk )) = ∏
·
πixi
x
!
i i
i
E(Xi ) = n · πi
Var(Xi ) = n · πi · (1 − πi )
Cov(Xi , Xj ) = −n · πi · pj
(i ̸= j)
X ist M (n, π1 , . . . , πk .
Multivariate hypergeometrische Verteilung
Es handelt sich hierbei um eine Multinomialverteilung mit abhängigen Zügen. Details finden
sich in guten Büchern und die Formel in der Formelsammlung.
Negative hypergeometrische Verteilung
Es handelt sich hierbei um eine negative Binomialverteilung mit abhängigen Zügen. Details
finden sich in guten Büchern und die Formel in der Formelsammlung.
Pólya-Verteilung
Bei der Pólya-Verteilung beschreibt X die Anzahl der Erfolge bei einer ganz bestimmten Art,
aus einer Urne mit a besonderen und N − a nicht besonderen Kugeln zu ziehen: nach jedem
Zug wird die Kugel wieder zurückgelegt und es werden zusätzlich c neue Kugeln der gleichen
Art mit in die Urne gegeben. Dies ist offensichtlich besonders praktisch, Ansteckungseffekte
(z.B. bei Krankheiten) zu simulieren: je mehr Personen erkranken (d.h. je mehr Erfolge sich
ereignen), desto wahrscheinlicher wird es, dass noch mehr Personen erkranken (es werden
ja mehr besondere Kugeln in die Urne gegeben). Die Wahrscheinlichkeitsfunktion ist, wie
man sich bestimmt vorstellen kann, ein besonders hässliches Ungetüm, für das auf ein gutes
Buch verwiesen wird.
4.5.2 Stetige stochstische Modelle
Gleichverteilung
Für eine gleichverteilte Variable X ∈ [a; b], bei der jedes gleich große Intervall in [a; b] die
gleiche Wahrscheinlichkeit hat, gelten folgende Eigenschaften:
{
falls a ≤ x ≤ b
0
sonst
b−a
E(X) = a +
2
1
Var(X) = (b − a)2
12
f (x) =
1
b−a
29
4 Stochastik
Exponentialverteilung
Zu einer Poisson-verteilten Variablen Xt , die die Anzahl der Erfolge in einem Intervall der
Länge t bei einer Intensität von λ angibt, gibt die Zufallsvariable T die Länge des Teils
des Intervalls an, der vor dem ersten Erfolg liegt. Xt hat dann die Intensität λ · t und die
x
Wahrscheinlichkeitsfunktion P (Xt = x) = (λt)
e−λt . Die Wahrscheinlichkeit P (T > t)
x!
(d.h. dass mehr als t vergeht, bevor ein Erfolg erzielt wird), ist logischerweise gleich der
Wahrscheinlichkeit, dass von 0 bis t kein Erfolg erzielt wird, also gleich P (Xt = 0). Es
lässt sich also folgern dass P (T > t) = P (Xt = 0) = e−λt . Für das Gegenereignis folgt
P (T ≤ t) = F (t) = 1 − P (T > t) = 1 − e−λt . Die Angabe einer Dichtefunktion erledigt sich also in diesem Fall, da man gleich die Verteilungsfunktion angeben kann, was viel
praktischer ist. Für die Formelsammlung kann man sie aber trotzdem hinschreiben (ist ja
einfach nach dem Satz zum Zusammenhang zwischen Dichte- und Verteilungsfunktion mit
ein wenig Analysis):
f (t) = λ · e−λt
1
E(T ) =
λ
1
Var(T ) = 2
λ
P (T > s + t/T > s) = P (T > t)
P (T ≤ s + t/T > s) = P (T ≤ t)
Die letzte Eigenschaft ist schwer sinnvoll, da ja auch eine Poisson-Verteilung unabhängig von der Lage des Intervalls sein soll. T heißt dann übrigens E(λ)-verteilt. Sowohl diese
als auch die vorletzte Eigenschaft lassen sich recht einfach über die Definition für bedingte
Wahrscheinlichkeiten und die Potenzgesetze beweisen, was man deshalb (auch um zu schauen, ob die obigen Angaben korrekt sind) recht gut zu Hause einmal tun kann.
Normal- und Standardnormalverteilung
Die Normalverteilung ist ziemlich toll, aus Gründen, die man am Anfang der Statistik II hören
wird. Sie ist für die induktive Statistik anscheinend von grundlegender Bedeutung. Außerdem
hat sie noch einen Haufen anderer, sehr praktischer Eigenschaften, die nun im Detail weiter
ausgelegt werden. Die hauptsächliche Idee hinter einer normalverteilten Zufallsvariablen X
ist, dass sie symmetrisch um ihren Erwartungswert µ verteilt ist, wobei Werte, die näher
am Erwartungswert liegen, wahrscheinlicher sind als Werte, die weiter entfernt von diesem
sind. Je größer dabei die Varianz σ 2 ist, desto wahrscheinlicher wird es, dass Werte weiter
entfernt vom Erwartungswert sind. Dadurch ergibt sich die dann die typische Glockenform
der Wahrscheinlichkeitsfunktion. Die genaue Herleitung ist recht kompliziert, daher wird sie
hier ausgelassen (Wirtschaftswissenschaftler brauchen sowas ja nicht, wisst ihr schon. Wie
immer, auch wenns spannend wäre).
30
4 Stochastik
f (x) = √
1
2πσ 2
· e−
(x−µ)2
2σ 2
E(X) = µ
Var(X) = σ 2
X ist N (µ; σ 2 ). Die praktischen Eigenschaften der Normalverteilung sind folgende:
• Lineare Transformation: X sei N (µ, σ 2 ) und Y = a + b · X. Daraus folgt, dass Y
N (a + b · µ; b2 σ 2 ) ist.
• Linearkombination:
Xi seien N∑
(µi , σi2∑
) (also unabhängig normalverteilt) und Y =
∑
2
X
.
Daraus
folgt,
dass
Y
N
(
µ
,
i
i
i i
i σi ) ist.
Durch eine sinnvoll gewählte lineare Transformation Y = − σµ + σ1 · X lässt sich jedes normalverteilte X durch ein Y mit N (0, 1) ausdrücken (ist einfach nachzurechnen). Y wird dann
als standardnormalverteilt bezeichnet. Daher ist zur Tabellierung jeder Normalverteilung nur
die Angabe der Tabelle der Standardnormalverteilung notwendig. Die Verteilungsfunktion
FX (x) entspricht dann der Verteilungsfunktion FY ( x−µ
) = Φ(y).
σ
χ2 -Verteilung
∑
Seien U1 , . . . , Un unabhängig standard-normalverteilt. W = i Ui2 heißt dann χ2 -verteilt
mit f = n Freiheitsgraden. Für f = 1 weist diese Verteilung eine pathologische, x1 ähnelnde
Dichtefunktion auf. Für f → ∞ ist W annähernd normalverteilt (eine brauchbare Approximation ergibt sich ab ca. 30 Freiheitsgraden). Auf die Angabe der Dichtefunktion wird hier
verzichtet, da diese nicht so simpel ist.
E(W ) = f
Var(W ) = 2f
Diese Verteilung ist für uns interessant, weil W1 = σn2 Z ′2 mit f = n und W2 = n−1
S2
σ2
mit f = n − 1 χ2 -verteilt sind. Bei letzterer geht durch die Schätzung eines Parameters ein
Freiheitsgrad verloren.
t-Verteilung
Sei U standardnormalverteilt und W χ2 -verteilt mit f = n. Seien beide unabhängig. T =
√U ist dann t-verteilt mit f = n Freiheitsgraden und folgenden Eigenschaften:
W
f
E(T ) = 0 (nur existent falls f ≥ 2)
f
Var(T ) =
(nur existent falls f ≥ 3)
f −2
31
4 Stochastik
Für f → ∞ ist T normalverteilt, vorher allerdings mit einer größeren Streuung. Eine
ausreichende Approximation ergibt sich leider erst ab f > 200, für die Zwecke dieser Veranstaltung sollen die üblichen 30 aber ausreichen.
∑
Seien X1 , . . . , Xn unabhängig normalverteilt mit µ, σ 2 . Sei X̄ = n1 i Xi . Nach den Re2
produktionseigenschaften der Normalverteilung ist X̄ dann auch normalverteilt mit µ, σn .
Die standardisierte Variante V = X̄−µ
ist dann T-verteilt mit f = n − 2.
S
√
n
4.6 Gesetze zu Beschränkung und Approximation
4.6.1 Tschebyscheffsche Ungleichung
Falls eine Zufallsvariable X vorliegt, bei der die Berechnung genauer Wahrscheinlichkeiten
mithilfe des zentralen Grenzwertsatzes nicht möglich ist, aber ihr Erwartungswert E(X) = µ
und ihre Varianz Var(X) = σ 2 > 0 bekannt sind, so lässt sich eine untere Grenze für die
Warscheinlichkeit dafür angeben, dass das Ergebnis des Zufallsversuchs in einem beliebigen,
aber symmetrisch um µ gelegenen ε)-Intervall liegt (bzw. komplementär, dass es nicht darin
liegt).
Es gibt hierbei zwei Formulierungen, die sich recht simpel durch Bildung des Komplementärereignisses und Einsetzen ineinander umformen lassen. Sie werden nur ohne Beweis
angegeben.
Var(X)
ε2
1
P (µ − cσ ≤ X ≤ µ + cσ) ≥ 1 − 2 mit ε = cσ
c
P (|X − E(X)| ≥ ε) ≤
4.6.2 Schwaches Gesetz der großen Zahlen
Das schwache Gesetz der großen Zahlen folgt direkt aus ∑
der tschebyscheffschen Unglei1
chung. Es zeigt für die Mittelwertszufallsvariable X̄n = n Xi mit unabhängigen Xi mit
E(Xi ) = µ und Var(Xi ) = σ 2 , dass mit steigender Anzahö der Züge das Ergebnis des Zufallsversuch höchstwahrscheinlich in einem beliebig kleinen ε-Intervall um µ liegt. Hier wird
die komplementäre Fassung gezeigt: Es ist dann wahnsinnig unwahrscheinlich, dass das Ergebnis außerhalb des Intervalls liegt.
Var(X)
n→∞
ε2
2
1
σ
· 2 =0
≤ lim
n→∞ n
ε
lim P (|X̄ − E(X)| ≥ ε) ≤ lim
n→∞
Mit P (X ≥ x) ≥ 0 folgt direkt, dass dieser Grenzwert 0 sein muss. Abgesehen von der
Mittelwertsfunktion klappt dies auch mit allen Zufallsvariablen, bei denen das n im Nenner
steht (wie z.B. der Erfolgsanteilsfunktion Yn ).
32
4 Stochastik
4.6.3 Zentraler Grenzwertsatz
Die Angabe des zentralen Grenzwertsatzes erfolgt, wie so häufig, ohne Beweis.
Seien X1 , . . . , Xn unabhängig verteilt mit E(Xi ) = µi , 0 < Var(Xi ) = σi2 < ∞. Die Beschränkung∑
der Varianz ist wichtig, da es anscheinend auch entartete Zufallsvariablen gibt.
Falls Yn = i Xi , ist Yn bei ∑
ausreichend großem
∑ n 2(Faustregel: n > 30) ist Yn annähernd
normalverteilt mit E(Yn ) = i µi , Var(Yn ) = i σi . Varianz und Erwartungswert folgen
direkt aus den bereits bekannten Sätzen für den Erwartungswert und die Varianz von Summenvariablen.
∑
Yn − i µ i
Formale Darstellung für die standardisierte Zufallsvariable Zn = √
∑ 2 :
i
lim P (Zn ≤ z) = Φ(z)
n→∞
33
σi
5 Induktive Statistik
5.1 Einführung
Ziel der induktiven Statistik ist es, Methoden bereitzustellen, durch die einigermaßen verlässlich (d.h. mit einer gewissen Wahrscheinlichkeit, dass das bei Ziehung der Stichprobe
verwendete Verfahren Θ̂ einen korrekten Wert liefert) von den Eigenschaften einer Stichprobe (ϑ̂) auf die Eigenschaften der Grundgesamtheit (ϑ) zu schließen.
ϑ
ϑ̂
x̄ s2
µ σ2 π . . .
Wirkliche, unbekannte Kennzahlen
der Grundgesamtheit
y
n
...
Realisierte, bekannte Kennzahlen
der Stichprobe
Θ̂
X̄ S 2
Y
n
...
Beschreibung der Ziehung einer Stichprobe
durch Zufallsvariablen (Stichprobenfunktionen)
34
5 Induktive Statistik
5.2 Stichprobentheorie
Die Stichprobentheorie behandelt die Auswahl einer Stichprobe aus einer Grundgesamtheit.
Die hierbei verfügbaren Verfahren lassen sich wie folgt kategorisieren:
Auswahlverfahren
nicht zufällig
nicht bewusst
bewusst
siehe 5.2.2
zufällig
siehe 5.2.2 eingeschränkt uneingeschränkt
Typische Fälle
Quotenverfahren
Konzentrationsverfahren
Allgemeiner Fall
Schichtungsverfahren
Klumpenverfahren
unabh. Xi
einfache Stichprobe
5.2.1 Nicht-Zufällige Auswahl
Bei der bewussten, nicht-zufälligen Auswahl werden weitere Typen unterschieden:
• Typische Fälle: Es werden nur Merkmalsträger betrachtet, die von vornherein besonders relevant erscheinen.
• Quotenverfahren: Auf der ersten Ebene werden anhand eines Merkmals Teilgesamtheiten gebildet und dann diejenigen ausgewählt, die relevant erscheinen. Innerhalb der
Teilgesamtheiten erfolgt die Auswahl unbewusst und nicht-zufällig.
• Konzentrationsverfahren: Bei einem wenigstens ordinal skalierten Merkmal werden
nur diejenigen Merkmalsträger ausgewählt, bei denen die Merkmalsausprägung einen
bestimmten Rang überschreitet.
5.2.2 Zufällige Auswahl
Eine Auswahl heißt zufällig, falls jedes Element eine berechenbare Wahrscheinlichkeit p > 0
hat, in die Stichprobe aufgenommen zu werden.
Uneingeschränkte Auswahl
Eine zufällige Auswahl heißt uneingeschränkt, falls jede Stichprobe vom Umfang n die gleiche Chance hat, realisiert zu werden.
35
5 Induktive Statistik
Eingeschränkte Auswahl
Bei der eingeschränkt zufälligen Auswahl wird der Auswahlprozess zweistufig durchgeführt.
Hierzu werden zuerst anhand eines Merkmals M Teilgesamtheiten gebildet (z.B. Gruppierung von Gebäuden nach Nutzungsart oder von Menschen nach Herkunft). In der ersten
Stufe werden dann aus allen Teilgesamtheiten die zu untersuchenden ausgewählt (Auswahlm
). Auf der zweiten Stufe werden schließlich die zu untersuchenden Merkmalsträger
satz M
n
vom Zufall bestimmt (Auswahlsatz Njj ).
Je nach Gestaltung der Auswahlquoten lassen sich unterschiedliche Auswahltypen bei der
eingeschränkten unterscheiden:
Allgemeiner Fall
m
M
< 1 und
nj
Nj
< 1. Hier ist nichts besonderes zu beachten.
n
m
Schichtungsverfahren M
= 1 und Njj < 1. Hier lassen sich bei Homogenität in den Teilgesamtheiten und Heterogenität zwischen den Teilgesamtheiten genauere Ergebnisse generieren. Es lassen sich zwei weitere Verfahren bei der Schichtenbildung unterscheiden.
• Proportionale Schichtung:
n1
N1
=
n2
N2
= ... =
nm
Nm
• Optimale Schichtung: Je größer die Streuung in einer Schicht ist, desto mehr Elemente
werden aus dieser gewählt.
n
m
Klumpungsverfahren M
< 1 und Njj = 1. Hier lässt sich bei Heterogenität in den Teilgesamtheiten und Homogenität zwischen den Teilgesamtheiten Erhebungsaufwand einsparen.
5.2.3 Gleichgewichtung
Eine zufällige Auswahl heißt gleichgewichtet, falls jedes Element der Grundgesamtheit die
gleiche Chance hat, Teil der Stichprobe zu werden. Gleichgewichtung folgt automatisch aus
der Uneingeschränktheit, die Uneingeschränktheit aber nicht aus der Gleichgewichtung einer Auswahl. Ein Beispiel hierfür ist die periodische Auswahl.
Bei der periodischen Auswahl von n aus N Elementen wird zuerst zufällig ein Startelement
festgelegt. Dann wird dieses und jedes i-te Element mit i = Nn + 1 · j, j ∈ N, i ≤ N gewählt.
Jedes Element hat dabei dieselbe Wahrscheinlichkeit, als Startelement gewählt zu werden,
d.h. diese Auswahl ist im Allgemeinen gleichgewichtet. Allerdings wäre zum Beispiel bei
N = 100, n = 5 die Wahl der Elemente 1, 2, 3, 4, 5 direkt hintereinander unmöglich.
5.3 Stichprobenfunktionen als Anwendung der
Stochastik
Zur Beschreibung eines Auswahlexperiments mit der Stichprobengröße n werden die Zufallsvariablen (X1 , . . . , Xn ) verwendet (die theoretische Stichprobe). Xi beschreibt dabei die
36
5 Induktive Statistik
Merkmalsausprägung desjenigen Merkmalsträgers, der im i-ten Zug ausgewählt wird. Eine
zusammengesetzte Zufallsvariable Θ(X1 , . . . , Xn ) wird Stichprobenfunktion genannt.
5.3.1 Ausgewählte Stichprobenfunktionen
• Merkmalssumme: Y =
• Anteilsfunktion:
Y
n
∑
∑
=
i
Xi .
Xi
n
i
• Mittelwertsfunktion: X̄ =
∑
Xi
n
i
• Varianz bei bekanntem µ: Z ′2 :=
• Varianz mit Verzerrung: Z 2 :=
1
n
• Varianz ohne Verzerrung: S 2 :=
=
1
n
Y
n
∑
∑
i (Xi
i (Xi
1
n−1
∑
− µ)2 mit E(Z ′2 ) = σ 2
− X̄)2 mit E(Z 2 ) =
i (Xi
n−1 2
σ
n
− X̄)2 mit E(S 2 ) = σ 2
5.3.2 Gütekriterien für Stichprobenfunktionen
Mean-Square-Error-Prinzip
Aus dem Prinzip der Minimierung des erwarteten, quadrierten Fehlers einer Stichprobenfunktion lassen sich einige Gütekriterien herleiten. Seine Definition folgt unten; direkt danach wird eine über den Verschiebungssatz und die Binomialformeln hergeleitete Version
genannt (ist recht einfach), in der deutlich wird, dass dieser Fehler additiv zusammengesetzt
ist aus der Varianz der Stichprobenfunktion (siehe Wirksamkeit) und aus der systematischen
Verzerrung, die diese Stichprobenfunktion mit sich bringt (siehe Erwartungstreue).
MSE(Θ̂) = E((Θ̂ − ϑ)2 )
= E( (Θ̂ − E(Θ̂))2 ) + (E(Θ̂) − ϑ)2
|
{z
} |
{z
}
Var(Θ̂)
(Verzerrung(Θ))2
Hieraus folgen drei Gütekriterien für Stichprobenfunktionen:
• Konsistenz: Stichprobenfunktion Θ̂ heißt konsistent, falls limn→∞ M SE(Θ̂) = 0. Dies
ist eine Minimalanforderungen an Stichprobenfunktionen: Falls aus einer Grundgesamtheit ziemlich viele n gewählt werden, soll der Fehler natürlich klein werden.
• Erwartungstreue: Eine Stichprobenfunktion Θ̂ heißt erwartungstreu, falls E(Θ̂) = ϑ.
Dies ist gleichbedeutend damit, dass Verzerrung(Θ̂) = 0. Sie heißt asymptotisch erwartungstreu, falls limn→∞ E(Θ̂) = ϑ.
• Wirksamkeit: Seien Θ̂1 , Θ̂2 erwartungstreue Stichprobenfunktionen mit
E(Θ̂1 ) = E(Θ̂2 ) = ϑ. Θ1 heißt dann wirksamer als Θ̂2 , falls Var(Θ̂1 ) < Var(Θ̂2 ). Es
lässt sich auch wirksamst definieren, doch angeblich überfordert das Wirtschaftswissenschaftler.
37
5 Induktive Statistik
Suffizienz
Eine Stichprobenfunktion heißt suffizient, falls sie alle für die Problemstellung relevanten
Informationen ausschöpft und diese nicht durch ihre Anwendung verloren gehen. Welche
Informationen dabei relevant sind, ist aus der Realwissenschaft heraus zu entscheiden. Da
die formal-mathematische Beschreibung recht komplex ist, wird hier darauf zugunsten eines
verständlichen Beispiels verzichtet.
Ein Beispiel: Seien X1 , X2 bernoulli-verteilt mit P (X1 = 1) = P (X2 = 1) = ϑ. Seien
X̄ = 12 · (X1 + X2 ) und M = max(X1 , X2 ) zwei Stichprobenfunktionen. Es würden sich
folgende Beziehungen ergeben:
Funktion
Wertebereiche
1
2
0
X̄
(X1 , X2 )
(0, 0)
(0, 1)
(1, 0)
0
M
1
(1, 1)
1
Wenn sich die Fragestellung nun darauf bezieht, ob wenigstens ein Erfolg eintritt, sind M
und X̄ gleich suffizient. Falls es jedoch von Bedeutung ist, ob ein oder zwei Erfolge eintreten
(wie z.B. bei der Schätzung von ϑ, ist X̄ suffizienter als M .
Robustheit
Die Robustheit einer Stichprobenfunktion ist ein weiches Kriterium, das angibt, wie viele defekte Datensätze (z.B. durch Messfehler) eine Stichprobenfunktion verträgt, ohne stark verzerrte Werte zu liefern. Dies betrifft insbesondere stark abweichende Datensätze, also Ausreißer. Der sogenannte Bruchpunkt gibt dabei an, welcher Anteil der Daten defekt werden
muss, um den Schätzwert beliebig zu verfälschen.
• X̃: Bruchpunkt 50% (d.h. um den Wert des Medians beliebig zu verändern müssen wenigstens 50% der Datensätze defekt sein)
• X̄: Bruchpunkt n1 (d.h. bereits ein verfälschter Datensatz reicht aus, um das arithmetische Mittel beliebig zu vergrößern oder zu verkleinern)
• X̄α mit 0 ≤ α ≤ 11 : Bruchpunkt α
Gerade bei X̄α wird sehr deutlich, dass es einen Zielkonflikt zwischen Suffizienz und Robustheit gibt. In manchen Bereichen sind gerade die Ausreißer von Interesse sodass man diese im Sinne der Fragestellung auf keinen Fall ignorieren darf ohne das Ergebnis maßgeblich
zu verfälschen. In solchen Fällen muss eine vernünftige Abwägung zwischen beiden Zielen
stattfinden oder eine ausreichend genaue (und somit teure) Erhebung stattfinden, sodass das
Kriterium der Robustheit vernachlässigt werden kann.
1
Getrimmtes X̄, bei die
α
2
größten und
α
2
kleinsten Messwerte einfach ignoriert werden.
38
5 Induktive Statistik
5.3.3 Konstruktion von Stichprobenfunktionen
In dieser LV werden zwei Konstruktionsmethoden erläutert. Welche davon die bessere ist,
lässt sich im Allgemeinen nicht sagen. Es empfiehlt sich jedoch, die damit generierten Stichprobenfunktionen danach einer Prüfung durch die Gütekriterien zu unterziehen.
Maximum-Likelihood-Methode
Die Grundidee der Maximum-Likelihood-Methode ist es, ein ϑ̂ zu finden, für das bei gegebener Verteilung (Typ und Parameter) der Züge der Stichprobe X1 , . . . , Xn die Plausibilität für
das Auftreten der schon genommenen Stichprobe x1 , . . . , xn maximiert wird. Diese Plausibilität ist definiert als die
Da hierbei Produkte von Wahrscheinlichkeiten (oder sogar Dichten!) über Zufallsvariablen
mit unterschiedlichen Verteilungsparametern ϑ̂ verglichen werden, sind dies bei diesem Vorgang im Grunde genommen keine Wahrscheinlichkeiten nach Kolmogoroff, sondern eher
Plausibilitätskennzahlen. Unter der Voraussetzung, dass die Xi unabhängig und identisch
verteilt sind, ergibt sich folgendes Optimierungsproblem:
maxϑ̂ L(ϑ̂|(x1 , . . . , xn ))
{ ∏n
P (Xi = xi |ϑ̂) Xi diskret
= ∏i=1
n
Xi stetig
i=1 f (xi |ϑ̂)
Bei der Lösung dieses Maximierungsproblems mithilfe der ersten Ableitung ist es häufig zweckmäßig bei der Umformung, nicht L zu optimieren, sondern ln L, was aufgrund
der strengen Monotonie der Logarithmusfunktion die Position der Maxima nicht verändert.
Durch die Logarithmengesetze lässt sich das hässliche Produkt in eine angenehme Summe
umwandeln.
Anbei einige Beispiele, welche Ergebnisse diese Methode bei unterschiedlichen Verteilungen der Xi liefert:
Verteilung
Parameter ML-Ergebnis
Y
Binomialverteilung
π
= X̄
n
Poissonverteilung
λ
X̄
Geometrische Verteilung
π
X̄ −1
Stetige Gleichverteilung über [0; ϑ]
ϑ
max(Xi )
Exponentialverteilung
λ
X̄ −1
Normalverteilung
µ
X̄
2
′2
σ
Z , Z2
Es lässt sich beweisen, dass die mit der ML-Methode generierten Stichprobenfunktionen
immer die folgenden Eigenschaften haben:
• Konsistenz
• Suffizienz
• Asymptotisch erwartungstreu
39
5 Induktive Statistik
• Asymptotisch wirksamst (auch wenn wir das nicht definiert haben)
• Asymptotisch normalverteilt
Der Nachteil dieser Methode ist, wie oben schon genannt, dass Typ und Parameter der
Verteilung der einzelnen Züge aus der Grundgesamtheit bekannt sein müssen, um die Wahrscheinlichkeiten (bzw. Dichten) unter verschiedenen ϑ zu berechnen.
Methode der kleinsten Quadrate
Die Grundidee der Methode der kleinsten Quadrate bei der Generierung von Stichprobenfunktionen ist es, die durchschnittliche quadrierte Abweichung der gezogenen Stichprobe
vom Erwartungswert der Züge µ(ϑ) zu minimieren. Diese Abhängigkeit muss dabei natürlich explizit bekannt sein. Formal aufgeschrieben sieht dies so aus:
min Q(ϑ|(x1 , . . . , xn )) =
∑
(xi − µ(ϑ))2
i
Dies lässt sich wie gewohnt über die erste Ableitung erledigen.Vorteil dieser Methode ist
es, dass kein Modell über die einzelnen Züge aus der Grundgesamtheit vorhanden sein muss,
um eine Stichprobenfunktion zu generieren. Allerdings kommt es hier hin und wieder vor,
dass das Optimierungsproblem keine Lösung hat (man also kein Θ̂ findet).
5.4 Schätztheorie
5.4.1 Punktschätzung
An und für sich ist die Punktschätzung nicht weiter interessant. Es wird eine Stichprobenfunktion hergenommen und durch den Zug einer Zufallsstichprobe aus der Grundgesamtheit
realisiert. Dieser so gewonne realisierte Wert ist dann das Ergebnis der Stichprobe. Dieses
Verfahren hat allerdings den Nachteil, dass sich punktförmige Ereignisse ϑ nur mit einer
Wahrscheinlichkeit von P (Θ = ϑ) = 0 realisieren. Allerdings wird die Punktschätzung im
weiteren Verlauf zur Ausgestaltung von Intervallschätzung und Testtheorie verwendet.
Ein kurzes Beispiel: Es wurden x1 = 2, x2 = 4, x3 = 1 gezogen. Die Mittelwertsfunktion
X̄ hat sich also zu x̄ = 73 realisiert. Dies ist nun unser Schätzwert für den unbekannten
Parameter µ.
5.4.2 Intervallschätzung
Mithilfe der Punktschätzer lassen sich zufallsbehaftete Intervalle konstruieren, für die sich
eine Wahrscheinlichkeit größer als null angeben lässt, dass ihre Realisation den gesuchten
Parameter überdeckt. Ein Beispiel: Sei I = [X̄ − ε; X̄ + ε] ein solches Konfidenzintervall.
Im Allgemeinen ist dann P (x̄ ∈ I) = 1 − α > 0, falls X̄ nicht eine seltsame Verteilung hat.
Gängige Werte für α, von dem ausgehend die Intervalle konstruiert werden, sind 0.01, 0.05.
40
5 Induktive Statistik
Das realisierte Konfidenzintervall i = [x̄ − ε; x̄ + ε] heißt dann übrigens Schätzintervall. Die
Intervalllänge L kann dabei auch zufallsbehaftet sein, sodass sich mit l auch eine realisierte
Intervalllänge ergibt. Dies muss nicht immer der Fall sein, sodass sich mitunter auch vor der
Stichprobenrealisation eine feste Intervalllänge bestimmen lässt.
Wie die Intervallgrenzen im Detail bestimmt werden, ist nicht immer trivial und wird im
Folgenden für einige wenige Parameter dargestellt. Falls man sich noch für andere Parameter
interessiert, müsste man dies in der entsprechenden Literatur nachschlagen.
Symmetrische Schätzung von µ
Im Folgenden wird immer eine Stichprobe X1 , ..., Xn betrachtet. X̄ ist dabei die Stichprobenfunktion, die zur Schätzung herangezogen wird. Die Stichprobe hat dabei unterschiedliche
Eigenschaften, die auch im späteren Verlauf (bei der Testtheorie) wieder herangezogen werden:
• Fall Ⅰ: Die Stichprobe ist einfach, die Xi sind normalverteilt mit bekanntem σ 2 und
unbekanntem µ.
• Fall Ⅱ: Die Stichprobe ist einfach, die Xi sind normalverteilt mit unbekanntem σ 2 und
unbekanntem µ.
• Fall Ⅲ: Die Stichprobe ist einfach, über die Verteilung der Xi ist nichts bekannt. Insbesondere sind µ, σ 2 unbekannt (aber existent).
Fall Ⅰ: X̄ ist aufgrund der Reproduktionseigenschaften der Normalverteilung normalver2
teilt mit unbekanntem µ und bekanntem σn .
Wäre diese Verteilung nun direkt tabelliert, könnte man die entsprechenden Intervallgrenzen recht einfach ablesen. Da sie das nicht ist (sondern nur die N (0, 1)-Verteilung) muss man
nun standardisieren. Die Intervallgrenzen für die standardisierte Variable V lassen sich mit
P (−c ≤ V ≤ c) = 1 − α aus der Tabelle ablesen, wobei jeweils α2 von +∞ bzw. −∞ an
Wahrscheinlichkeitsmasse zusammenkommen müssen. Nach der Entstandardisierung ergäbe sich dann noch I = [X̄ − c √σn , X̄ + c √σn ] als Konfidenzintervall für X̄, was etwas anschaulicher ist als ein Konfidenzintervall für eine standardisierte Stichprobenfunktion. Als
Intervalllänge erhält man L = 2c √σn . Da diese nicht zufallsbehaftet ist, lässt sich durch Erhöhung des Stichprobenumfangs bei festem α (oder umgekehrt) die Länge beliebig festlegen2 .
Fall Ⅱ: X̄ ist aufgrund der Reproduktionseigenschaften der Normalverteilung normalverteilt mit unbekanntem µ und unbekanntem σ 2 .
Hier funktioniert alles im Grunde genommen genau so wie im ersten Fall, nur dass bei der
Standardisierung von X̄ σ 2 durch S 2 geschätzt werden muss, sodass man nicht bei einem
normalverteilteten V landet, sondern bei einem t-verteilten mit f = n − 1 Freiheitsgraden.
Das Konfidenzintervall ergibt sich so zu I = [X̄ − c √Sn , X̄ + c √Sn ], die Länge zu L = 2c √Sn
– sie ist also zufallsbehaftet, weshalb die im ersten Fall noch mögliche, beliebige Festlegung
der Länge nicht mehr möglich ist.
2
Das α steckt hierbei im c.
41
5 Induktive Statistik
Fall Ⅲ: X̄ ist aufgrund des zentralen Grenzwertsatzes ab einem ausreichend großen n
2
approximativ normalverteilt mit unbekannten µ, σn .
Siehe Fall Ⅰ: Aufgrund der Segnungen des ZGS ist hierbei (interessanterweise, genau erklärt
hat Urbanski das nicht) auch die mit dem Schätzwert S 2 standardisierte Stichprobenfunktion
V N (0, 1)-verteilt. Das Konfidenzintervall ergibt sich so zu I = [X̄ − c √Sn , X̄ + c √Sn ], die
Länge zu L = 2c √Sn – sie ist also zufallsbehaftet, weshalb die im ersten Fall noch mögliche,
beliebige Festlegung der Länge nicht mehr möglich ist.
Symmetrische Schätzung von π
Hier wird eine Strichprobe (X1 , ..., Xn ) betrachtet. Sie ist einfach und die Xi sind∑BernoulliX
Y
verteilt mit π. Die verwendete Stichprobenfunktion ist die Anteilsfunktion
= in i .
n
∑
Die exakte Berechnung der Intervallgrenzen ist für Y = i Xi interessanterweise recht
kompliziert. Dafür wird auf sogenannte Nomogramme zurückgegriffen, die sich am Ende
der Formelsammlung befinden. Deren Verwendung wurde in den Übungen erklärt3 . Glücklicherweise ist Y ab einem ausreichend großen n approximativ normalverteilt mit E(Y ) = nπ
und Var(Y ) = nπ(1 − π), woraus sich ergibt, dass Yn approximativ N (π, π(1−π)
)-verteilt ist.
n
Hierbei muss geprüft werden, ob die Approximationskriterien (nπ ≥ 5, n(1 − π) ≥ 5) erfüllt
sind – was aber nicht möglich ist, da π ja unbekannt ist. Dafür gibt es zwei Lösungsansätze:
• Erhöhung des n, bis man sich einigermaßen sicher sein kann, dass man die Kriterien
locker schafft.
• Prüfung ex post, d.h. nach einer Punktschätzung des π. Dies ist allerdings kaum als
sinnvoll begründbar, da die Modellapproximation ein rein theoretischer Vorgang ist,
der nicht vom zufälligen Stichprobenergebnis abhängt.
Wenn man nun noch die Varianz π(1 − π) dieser normalverteilten Zufallsvariablen durch
schätzt4 , lässt sich standardisieren und man kann wie in 5.4.2 die Intervallgrenzen
ablesen. Nach der Entstandardisierung ergeben sich:
Y
(1 − Yn )
n
√
−
Y
−c
n
n
√
Y
(1 − Yn )
L = 2c n
n
I=[
Y
(1
n
√
Y
)
n
,
Y
+c
n
Y
(1
n
− Yn )
]
n
Aus 0 ≤ Yn und Yn +(1− Yn ) = 1 folgt Yn ·(1− Yn ) ≤ 14 . Mit ein paar cleveren Umformungen
landet man dann bei L ≤ √cn , sodass man hier zwar keine beliebige feste Intervallänge, aber
doch eine obere Grenze durch sinnvolle Wahl von α und n festlegen kann. Der Beweis ist
3
4
Die ich allesamt geschwänzt habe, weshalb ich das nicht näher erläutern kann.
Diese Schätzung ist nicht allzu gut, da E( Yn (1 − Yn )) = n−1
n π(1 − π) ̸= π(1 − π). Sie ist also nur asymptotisch erwartungstreu. Da n für die Approximation ohnehin groß genug sein muss, kann dieser Fehler aber
vernachlässigt werden.
42
5 Induktive Statistik
ziemlich simpel (einfach das Maximum der Funktion über das Differential ausrechen) und
wird daher ausgelassen.
5.5 Testtheorie
Ein Test dient dazu, sich auf Grundlage einer Stichprobe dafür (oder dagegen) zu entscheiden,
weiterhin an die Gültigkeit einer Hypothese zu glauben. Hierbei gibt es verschiedene, theoretische Ansätze, von denen wir nur den klassischen, frequentistischen unter Verwendung
von zwei Hypothesen, einer Arbeits- und einer Gegenhypothese5 betrachten. Theoretisch
gingen auch mehr, aber das wäre dann doch zu viel. Ein Beispiel für eine solche Entscheidungssituation ist im Folgenden gegeben:
Testentscheidung
„Ich glaube, dass die FDP in den
Bundestag kommt.“
„Ich glaube nicht, dass die FDP
in den Bundestag kommt.“
Wirklicher Zustand der Grundgesamtheit
FDP hat mehr also 5% FDP hat weniger als 5%
ok
Fehler 1
Fehler 2
ok
Je nachdem, welche Testentscheidung getroffen wird, kann man z.B. eine unterschiedliche
Strategie fahren. Im zweiten Fall könnte eine Zweitstimmenkampagne helfen. Oder auch
nicht. Was hier im spezifischen Fall Arbeits- bzw. Gegenhypothese ist, hängt im Normalfall
von der Fragestellung (und somit von der Art des Tests) ab.
Formal sieht diese Konstruktion aus wie im Folgenden dargestellt. Dabei ist zu beachten,
dass die Eindeutigkeit (d.h. die Gleichheit, sei es ein wirklicher Test auf Gleichheit oder die
schwache Größer/Kleiner-Relation) immer in der Arbeitshypothese zu stehen hat6 .
5
6
Bisweilen auch Null- bzw. Alternativhypothese genannt.
Sonst funktioniert der Aufbau des Tests einfach nicht auf die Art und Weise, wie wir es gerne hätten.
43
5 Induktive Statistik
Γ : Parameterraum
H0 ⊂ Γ : Arbeitshypothese
H1 ⊂ Γ : Gegenhypothese
H0 ∩ H1 = ∅ und in der Regel H0 ∪ H1 = Γ
„H0 “ : Annahmebereich
„H1 “ = B : Ablehnbereich
Θ : Stichprobenfunktion, verwendet als Prüfgröße
V : Testfunktion, d.h. die tabelliert vorliegende Variante der Prüfgröße
ϑ : Realisierte Prüfgröße
Die Grenzen des Ablehnbereichs werden bisweilen mit µl,krit bzw. µr,krit bezeichnet. Diese
beiden sind im Allgemeinen dadurch bestimmt, dass der Ablehnbereich noch genau diejenigen unwahrscheinlichsten Stichprobenergebnisse aus H0 enthält, deren kumulierte Wahrscheinlichkeit das Signifikanzniveau nicht überschreitet.
Testentscheidung
„H0 “
„H1 “
Wirklicher Zustand der Grundgesamtheit
H0
H1
ok
Fehler zweiter Art
Fehler erster Art ok
Falls ϑ in B fällt, wird die Entscheidung für „H1 “ getroffen, andernfalls die für „H0 “. Jedem
der Felder aus der Tabelle wird nun eine Wahrscheinlichkeit zugeordnet, wobei die Wahrscheinlichkeiten der Fehler-Felder logischerweise die Komplementärwahrscheinlichkeiten
der jeweiligen Nicht-Fehler-Felder sind:
P („H0 “|H0 ) = 1 − α Berechtigte Annahme
P („H1 “|H1 ) = 1 − β Berechtigte Ablehnung
P („H1 “|H0 ) = α Unberechtigte Ablehnung
P („H0 “|H1 ) = β Unberechtigte Annahme
Zweck der im folgenden dargestellten, nicht immer ganz trivialen Testaufbauten ist es,
jeweils einen dieser Fehler, den α-Fehler nach oben hin durch das Signifikanzniveau α (typische Werte sind wieder 0.01, 0.05 wie oben bei den Intervallschätzungen zu begrenzen. Das
einzige Problem bei der ganzen Sache ist, dass 0 < β < 1 − α, d.h. die Wahrscheinlichkeit
44
5 Induktive Statistik
einer unberechtigten Annahme der Arbeitshypothese kann sehr hoch werden. Dementsprechend werden „H1 “-Entscheidungen, bei denen die Fehlerwahrscheinlichkeit stark begrenzt
ist, als statistisch signifikant bezeichnet, „H0 “-Entscheidungen hingegen nicht.
Für jeden Test wird auch eine sogenannte Gütefunktion definiert, anhand derer sich feststellen lässt, wie trennscharf ein Test arbeitet. Dazu wird für alle denkbaren µ die Ablehnwahrscheinlichkeit abgetragen. Im Bereich der Arbeitshypothese soll diese natürlich möglichst klein sein (was sie durch die Beschränkung des α-Fehlers, d.h. der unberechtigten
Ablehnung, auch ist), im Bereich der Gegenhypothese möglichst schnell möglichst groß. Je
steiler sie an den Hypothesengrenzen also ansteigt, desto sensibler reagiert der Test auf Abweichungen vom getesteten µ0 .
{
g(µ) =
α(µ) = P („H1 “|µ ∈ H0 ),
1 − β(µ) = P („H1 “|µ ∈ H1 ),
falls µ ∈ H0
falls µ ∈ H1
Bei der Zusammenfassung einer Testentscheidung sind, neben der Tatsache, ob man eine
signifikante „H1 “-Entscheidung getroffen hat, auch die Angabe von Stichprobentyp und größe sowie des Signifikanzniveaus erforderlich. Sehr wichtig bei der Interpretation eines
Testergebnisses auch, dass man im Nachhinein natürlich nicht weiß ob, und wenn ja, welcher
Fehler bei der Testentscheidung unterlaufen ist. Es könnte sowohl ein α-, als auch ein βFehler unterlaufen sein, wobei wir Ersteres durch die spezifische Ausgestaltung des Tests zu
vermeiden versucht haben.
Im folgenden Werden zuerst der ein- und zweiseitige symmetrische Gaußtest vorgestellt.
Dies entspricht dem Fall Ⅰ aus 5.4.2. Nicht eingegangen wird auf den t-Test und den approximativen Gaußtest, was den Fällen Ⅱ bzw. Ⅲ entspricht. Das Vorgehen ist in diesem Fall
exakt an dasjenige der Gaußtests anzulehen, außer, dass die Testgröße nicht mehr normal(wie bei bekanntem σ), sondern t- (bei unbekanntem σ) oder approximativ normalverteilt
(bei insgesamt unbekannter Verteilung) ist. Die Varianz muss in den letzten beiden Fällen
aus der Stichprobe mit S 2 geschätzt werden. Dies gilt nicht beim Zweistichproben-Gaußtest;
dort wird dediziert auf die Fälle Ⅰ, Ⅱ und Ⅲ eingegangen. Weiterhin gilt dies auch nicht für
den Differenzentest.
5.5.1 Parametrische Testtheorie
Zweiseitiger Einstichproben-Gaußtest auf µ
1. Stichprobeneigenschaften: (X1 , ..., Xn ) ist einfach, die Xi sind mit bekanntem σ 2 und
unbekanntem µ normalverteilt.
2. Hypothesenformulierung:
H0 : µ = µ0
H1 : µ ̸= µ0
3. Prüfgrößenbestimmung: X̄
45
5 Induktive Statistik
4. Prüfgrößenverteilung: X̄ ist aufgrund der Reproduktionseigenschaften der Normal2
verteilung normalverteilt mit µ, σn ; unter H0 mit µ0 .
5. Testfunktion: V =
X̄−µ0
√σ
n
6. Testfunktionsverteilung: V ist N (0, 1)-verteilt.
7. Ablehn- und Annahmebereich für die Testfunktion:
„H1 “ = B = {v ∈ R|v < −c ∨ c < v} mit Φ(c) =
α
2
„H0 “ = B̄ = {v ∈ R| − c ≤ v ≤ c}
8. Ablehn- und Annahmebereich für die Prüfgröße (nach Entstandardisierung):
σ
σ
„H1 “ = B = {x̄ ∈ R|x̄ < µ0 − c √ ∨ µ0 + c √ x̄}
n
n
σ
σ
„H0 “ = B̄ = {v ∈ R|µ0 − c √ ≤ x̄ ≤ µ0 + c √ }
n
n
9. Grafische Darstellung der Dichtefunktionen und aller Bereiche:
α
2
α
2
µ
0
µl,krit
µ0
µr,krit
H1
H0
H1
„H1 “
„H0 “
„H1 “
β
µ
0
µ1 µl,krit
µ0
µr,krit
H1
H0
H1
„H1 “
„H0 “
„H1 “
46
5 Induktive Statistik
10. Grafische Darstellung der Gütefunktion:
1
α
0
µ
µ0
Einseitiger Einstichproben-Gaußtest auf µ
1. Stichprobeneigenschaften: (X1 , ..., Xn ) ist einfach, die Xi sind mit bekanntem σ 2 und
unbekanntem µ normalverteilt.
2. Hypothesenformulierung:
H0 : µ ≥ µ0
H1 : µ < µ0
oder
H0 : µ ≤ µ0
H1 : µ > µ0
3. Prüfgrößenbestimmung: X̄
4. Prüfgrößenverteilung: X̄ ist aufgrund der Reproduktionseigenschaften der Normal2
verteilung normalverteilt mit µ, σn ; unter H0 könnte es mit jedem beliebigen µ ≥ µ0
(bzw. µ ≤ µ0 ) verteilt sein. Es ist aber sinnvoll, den schlimmsten Fall zu wählen, da,
wie in der unteren Grafik deutlich wird, bei diesem das α-Risiko maximal ist.
5. Testfunktion: V =
X̄−µ0
√σ
n
6. Testfunktionsverteilung: V ist N (0, 1)-verteilt.
7. Ablehn- und Annahmebereich für die Testfunktion:
„H1 “ = B = {v
„H0 “ = B̄ = {v
oder
„H1 “ = B = {v
„H0 “ = B̄ = {v
∈ R|v < c} mit Φ(c) = α
∈ R|c ≤ v}
∈ R|c < v} mit 1 − Φ(c) = α
∈ R|v ≤ c}
47
5 Induktive Statistik
8. Ablehn- und Annahmebereich für die Prüfgröße (nach Entstandardisierung):
σ
„H1 “ = B = {x̄ ∈ R|x̄ < µ0 − c √ }
n
σ
„H0 “ = B̄ = {v ∈ R|µ0 − c √ ≤ x̄}
n
oder
σ
„H1 “ = B = {x̄ ∈ R|µ0 − c √ < x̄}
n
σ
„H0 “ = B̄ = {v ∈ R|x̄ ≤ µ0 − c √ }
n
9. Grafische Darstellung der Dichtefunktionen und aller Bereiche7 :
1
α
µ
0
µl,krit
µ0
H1
H0
„H0 “
„H1 “
1
β
µ
0
µl,krit
µ0
H1
„H1 “
H0
„H0 “
10. Grafische Darstellung der Gütefunktion8 :
7
Hier wird nur der Fall gezeigt, in dem der Ablehnbereich links liegt. Falls er rechts liegt, funktioniert das
analog.
8
Hier wird nur der Fall gezeigt, in dem der Ablehnbereich links liegt. Falls er rechts liegt, funktioniert das
analog.
48
5 Induktive Statistik
1
α
0
µ
µ0
Einseitiger Test auf π
1. Stichprobeneigenschaften: (X1 , ..., Xn ) ist einfach, die Xi sind mit unbekanntem π
Bernoulli-vereilt.
2. Hypothesenformulierung:
H0 : π ≥ π0
H1 : π < π0
oder
H0 : π ≤ π0
H1 : π > π0
3. Prüfgrößenbestimmung:
Y
n
∑
=
Xi
n
i
4. Prüfgrößenverteilung: Unbekannt, was aber, wie bei der Testfunktion ersichtlich, nicht
weiter schlimm ist.
∑
5. Testfunktion: Y = i Xi
6. Testfunktionsverteilung: Y ist binomialverteilt mit unbekanntem π und bekanntem
n. Unter H0 könnte es, wie beim einseitigen Gaußtest, mit jedem beliebigen π ≥ π0
(bzw. π ≤ π0 ) verteilt sein. Mit demselben Argument, dass im Grenzfall das α-Risiko
maximal ist, wird auch hier nur dieser betrachtet.
7. Ablehn- und Annahmebereich für die Testfunktion:
„H1 “ = B = {v
„H0 “ = B̄ = {v
oder
„H1 “ = B = {v
„H0 “ = B̄ = {v
∈ R|y < c} mit dem größten Fbin (c) ≤ α
∈ R|c ≤ y}
∈ R|c < y} mit dem größten1 − Fbin (c) ≤ α
∈ R|y ≤ c}
Hierbei ist zu beachten, dass das Signifikanzniveau α aufgrund der diskreten Testfunktionsverteilung so gut wie nie ausgeschöpft wird, sondern ein Wert darunter gewählt
49
5 Induktive Statistik
wird. Dieses heißt dann exaktes Signifikanzniveau und ist bei der Testentscheidung
mit anzugeben.
8. Grafische Darstellung der Wahrscheinlichkeitsfunktion und aller Bereiche:
F (y)
1
α
αex
y
0
yl,krit
y0
H1
H0
„H0 “
„H1 “
1 − F (y)
1
β
y
0
yl,krit
y0
H1
„H1 “
H0
„H0 “
9. Grafische Darstellung der Gütefunktion:
1
αex
0
π
π0
50
5 Induktive Statistik
Zweiseitiger Test auf π
1. Stichprobeneigenschaften: (X1 , ..., Xn ) ist einfach, die Xi sind mit unbekanntem π
Bernoulli-vereilt.
2. Hypothesenformulierung:
H0 : π = π0
H1 : π ̸= π0
3. Prüfgrößenbestimmung:
Y
n
∑
=
Xi
n
i
4. Prüfgrößenverteilung: X̄ ist unbekannt, was aber, wie bei der Testfunktion ersichtlich,
nicht weiter schlimm ist.
∑
5. Testfunktion: Y = i Xi
6. Testfunktionsverteilung: Y ist binomialverteilt mit unbekanntem π und bekanntem n.
Unter H0 ist es mit π0 verteilt.
7. Ablehn- und Annahmebereich für die Testfunktion: Die Bestimmung ist aufgrund der
diskreten Natur der Verteilung in diesem Fall nicht so trivial und man muss auf die
Urdefinition des Ablehnbereichs zurückgreifen: Er soll diejenigen unter H0 unwahrscheinlichsten Stichprobenergebnisse enthalten, deren kumulierte Wahrscheinlichkeit
das Signifikanzniveau nicht überschreitet. Das heißt, dass man zu allererst die Wahrscheinlichkeitsfunktion P (Y = y) tabellieren, also die Verteilungsfunktion der Binomialverteilung entkumulieren muss. Danach sortiert man alle Realisationsmöglichkeiten von Y nach ihrer Wahrscheinlichkeit. Angefangen mit dem kleinstem P (Y = y)
summiert man dann die Wahrscheinlichkeiten auf, bis man α gerade nicht überschreitet. Alle y, deren Wahrscheinlichkeiten man nun aufsummiert hat, bilden nun den Ablehnbereich. Bei symmetrischen Verteilungen kann es vorkommen, dass bei zwei gleich
großen P (Y = y) nur noch eines in das Signifikanzniveau passt; in diesem Fall sind
beide diesem nicht zuzuordnen, da es keine sinnvolle Auswahlregel geben kann9 .
8. Grafische Darstellung der Wahrscheinlichkeitsfunktion und aller Bereiche:
9
Insbesondere ist es Unfug, hier den Zufall entscheiden zu lassen. Der Test wird durch die korrekte Vorgehensweise auch eher schärfer, weshalb man ganz gut damit leben kann.
51
5 Induktive Statistik
F (y)
1 − α21
α1 + α2 ≤ α
α1 0
y
yl,krit y0
yr,krit
H1
H0
H1
„H1 “
„H0 “
„H1 “
F (y)
1
≈β
y
0
yl,krit y0
yr,krit
H1
H0
H1
„H1 “
„H0 “
„H1 “
Wichtig bei β: Dies ist nur ungefähr das β-Risiko. Eigentlich müsste hier von noch die
Wahrscheinlichkeit, links von yl,krit wieder in den Ablehnbereich zu fallen, abgezogen
werden. Diese ist (hier glücklicherweise) aber fast null.
9. Grafische Darstellung der Gütefunktion:
1
α
0
π
π0
52
5 Induktive Statistik
Einseitiger und zweiseitiger Zweistichproben-Gaußtest auf µ
Fall Ⅰ: Normalverteilte Stichprobenfunktionen Xi , Yi mit bekannten σx und σy .
1. Stichprobeneigenschaften: (X1 , ..., Xn ), (Y1 , ..., Yn ) sind einfach, die Xi und Yi sind
mit bekanntem σx2 bzw. σy2 und unbekanntem µx bzw. µy normalverteilt.
2. Hypothesenformulierung:
H0 : µx − µy ≥ δ0
H1 : µx − µy < δ0
oder
H0 : µx − µy ≤ δ0
H1 : µx − µy > δ0
oder
H0 : µx − µy = δ0
H1 : µx − µy ̸= δ0
3. Prüfgrößenbestimmung: X̄ − Ȳ
4. Prüfgrößenverteilung: X̄ − Ȳ ist aufgrund der Reproduktionseigenschaften der Nor2
σ2
malverteilung normalverteilt mit µx − µy , nσxx + nyy ; unter H0 (beim einseitigen Test
schlimmstenfalls, Argument analog zum Einstichprobentest) mit δ0 .
5. Testfunktion:
X̄ − Ȳ − δ0
σ2
X̄ − Ȳ − δ0
= √ 2
σ2
σx
+ nyy
nx
V =
6. Testfunktionsverteilung: V ist N (0, 1)-verteilt.
7. Ablehn- und Annahmebereich für die Testfunktion: Aufgrund der starken Analogie zu
den Einstichproben-Gaußtests wird hierauf verzichtet.
8. Grafische Darstellung der Dichtefunktionen und aller Bereiche: Aus gleichen Gründen
wird auch hierauf verzichtet.
9. Grafische Darstellung der Gütefunktion: Aus gleichen Gründen wird auch hierauf verzichtet.
Fall Ⅱ: Normalverteilte Stichprobenfunktionen Xi , Yi mit unbekannten σx = σ und σy = σ
(es wird Varianzhomogenität gefordert).
53
5 Induktive Statistik
Der Test wird analog zu oben durchgeführt mit
V =
2
=
Spooled
X̄ − Ȳ − δ0
√
y
Spooled · nnxx+n
ny
(nx − 1)Sx2 + (ny )Sy2
(nx + ny − 2)
V ist dann t-verteilt mit f = nx + ny − 2 Freiheitsgraden, da die Varianz geschätzt werden
muss.
Fall Ⅱ*: Normalverteilte Stichprobenfunktionen Xi , Yi mit unbekannten σx und σy (es wird
keine Varianzhomogenität mehr gefordert).
In diesem Fall tritt ein Problem auf: Die Größen X̄, Ȳ sind noch exakt normalverteilt. Nach
der Standardisierung ist die Testgröße V allerdings nur noch approximativ standardnormal2
verteilt, da sich für Prüfgröße X̄ − Ȳ einfach keine gemeinsame Varianz angeben lässt. Spooled
hier zu verwenden, wäre einfach Unfug, da es diese gemeinsame Varianz einfach aufgrund
der Annahmen nicht gibt.
Als Krücke verwendet man schon hier einen approximativen Gaußtest, wie es bei den
anderen Tests erst im Fall Ⅲ nötig ist.
X̄ − Ȳ − δ0
σ2
X̄ − Ȳ − δ0
= √ 2
2
Sx
+ Sny
nx
V =
Das ist nicht wirklich schön, funktioniert aber, solange die Stichprobenumfänge nx , ny
groß genug sind.
Fall Ⅲ: Gänzlich unbekannte Verteilung der Stichprobenfunktionen Xi , Yi .
Hier wird ganz analog zum Fall Ⅱ* gearbeitet, außer, dass bereits die Größen X̄, Ȳ nur
noch approximativ normalverteilt ist.
Differenzentest bei verbundenden Stichproben
1. Stichprobeneigenschaften: (X1 , . . . , Xn ) ist einfach und mit bekanntem σx2 und unbekanntem µx verteilt. (Y1 , . . . , Yn ) ist einfach und mit bekanntem σy2 und unbekanntem µy verteilt. Wichtig hier: Xi und Yi sind voneinander abhängig! Die Differenz
2
Di = Xi −Yu ist dementsprechend normalverteilt mit bekanntem σD
= σx2 +σy2 −2σxy .
54
5 Induktive Statistik
2. Hypothesenformulierung:
H0 : µx − µy ≥ µD
H1 : µx − µy < µD
oder
H0 : µx − µy ≤ µD
H1 : µx − µy > µD
oder
H0 : µx − µy = µD
H1 : µx − µy ̸= µD
3. Prüfgrößenbestimmung:
D̄ =
1∑
1∑
Di =
(Xi − Yi )
n i
n i
=
1 ∑ ∑
(
Xi
Yi ) = X̄ − Ȳ
n i
i
2
.
4. Prüfgrößenverteilung: D̄ ist normalverteilt mit µD , σD
5. Testfunktion:
V =
V =
2
SD
=
D̄ − µD
σD
√
n
D̄ − µD
SD
√
n
(σD bekannt)
(σD unbekannt)
1 ∑ 2
1 ∑
(Di − D̄)2 =
(
Di − nD̄2 )
n−1 i
n−1 i
6. Testfunktionsverteilung: Falls σD bekannt ist, ist V standardnormalverteilt, falls nicht,
ist es t-verteilt mit f = n − 1. Im einseitigen Fall gilt dies ungünstigstenfalls.
Dieser Test bei verbundenen Stichproben ist besonders scharf, falls Xi , Yi stark positiv
korreliert sind, da sich die Varianz nach σD = σx2 + σy2 − σxy so verringert.
Multivariate Verfahren
Dieses Thema wurde wirklich nur ganz kurz angeschnitten und wir wohl nicht groß in der
Klausur drankommen, da die Verfahren zu zeitaufwändig wären. Prinzipiell kann man anscheinend zwischen zwei Typen unterscheiden:
Primär struktur-entdeckende Verfahren:
• Faktorenanalyse
• Clusteranalyse
55
5 Induktive Statistik
• Multidimensionale Analyse
Primär struktur-prüfende Verfahren:
• Regressionsanalyse
• Varianzanalyse
• Diskriminanzanalyse
• Conjoint-Analyse
• Kausalanalyse
Als Beispiel wurde kurz die Varianzanalyse als multipler Mittelwertsvergleich behandelt:
H0 :µ1 = µ2 = . . . = µv
H1 :Mindestens zwei µ unterscheiden sich
v
1∑
1∑
2
SGes
=
nj s2j +
= 1v (x̄j − x̄Ges )2 nj
n j=1
n j
| {z } |
{z
}
2
Sintern
2
Sextern
S2
ist χ2 -verteilt mit f = n − v. n ·
n · intern
σ2
v−1
Testfunktion V ist dann Fn−v
-verteilt:
V =
2
Sextern
σ2
ist χ2 -verteilt mit f = v − 1. Die
1
S2
v−1 extern
1
S2
n−v intern
5.5.2 Nicht-parametrische Testtheorie
χ2 -Anpassungstest
Hierbei handelt es sich um einen Test darauf, ob die Unterschiede der beobachteten Verteilung der realisierten Stichprobe von der erwarteten Verteilung sich noch durch den Zufall
erklären lassen oder ob sie signifikant abweichen.
• Stichprobeneigenschaften: X1 , . . . , Xn einfach
• Hypothesenformulierung:
H0 : Die empirische Verteilung stimmt mit der theoretischen Verteilung überein.
H1 : Die empirische Verteilung stimmt nicht mit der theoretischen Verteilung überein.
56
5 Induktive Statistik
• Vorbereitung: Es werden Kategorien K1 , . . . , KI gebildet, die jeweils gewisse Realisationsmöglichkeiten enthalten. hi ist die absolute, empirische Häufigkeit dieser Kategorie
nach der Realisation der Stichprobe, während πi die Wahrscheinlichkeit nach der theoretischen Verteilung ist, auf die getestetet wird, dass die Realisation eines Xi in diese
Kategorie fällt. Die Parameter der theoretischen Verteilung werden hierbei im Normalfall aus der Stichprobe heraus geschätzt. Die dafür notwendigen Schätzfunktionen
müssten eigentlich mit der χ2 -Minimum-Methode konstruiert werden; da diese aber
glücklicherweise fast immer äquivalent zur Maximum-Likelihood-Methode ist und wir
sie nicht behandelt haben, nehmen wir einfach die ML-Schätzer.
Kategorie
1
..
.
hi
πi
nπi
n
1
n
I
• Testfunktion:
Abstand
V =
I
∑
i=1
z }| {
(hi − nπi )2
nπ
|{z}i
Normierung
• Testfunktionsverteilung: V ist approximativ χ2 -verteilt (bleibt ohne Beweis) mit f =
I −1−k, wobei k die Anzahl der aus der Stichprobe geschätzten Verteilungsparameter
ist, die für die Berechnung der πi benötigt werden. Die Approximationskriterien sind
wie folgt. Falls es vorkommt, dass diese Kriterien nicht erfüllt sind, kann dies durch
die Zusammenfassung nebeneinander liegender Kategorien möglicherweise behoben
werden. Genauer wird der Test dadurch jedoch natürlich nicht.
nπi ≥ 1 ∀i
nπi ≥ 5 für wenigstens 80% der i
• Ablehn- und Annahmebereich:
„H1 “ = B = {v|v > c}
„H0 “ = B̄ = {v|v ≤ c}
• Gütefunktion: Da hier nicht bekannt ist, welchen Verteilungstyp V unter H1 hat, lässt
sich keine β-Risiko angeben, auch wenn es existiert. Dies gilt dementsprechend natürlich auch für die Gütefunktion.
57
5 Induktive Statistik
χ2 -Homogenitätstest
Der Homogenitätstest prüft, ob die Grundgesamtheiten mehrerer Stichproben der gleichen
Wahrscheinlichekitsverteilung folgen.
• Stichprobeneigenschaften: X1 = (X11 , X21 , . . . , Xn1 ), . . . , XJ = (X1J , X2J , . . . , XnJ )
seien einfach und paarweise unabhängig.
• Hypothesenformulierung:
H0 : X1 , . . . , XJ besitzen die gleiche Wahrscheinlichkeitsverteilung.
(πi1 = . . . = πiJ = πi ∀i)
H1 : X1 , . . . , XJ besitzen nicht die gleiche Wahrscheinlichkeitsverteilung.
• Vorbereitung: Es werden Kategorien K1 , . . . , KI gebildet, die jeweils gewisse Realisationsmöglichkeiten enthalten. hij ist die absolute, empirische Häufigkeit dieser Kategorie nach der Realisation der Stichprobe, während πij die Wahrscheinlichkeit nach
der theoretischen Verteilung ist, auf die getestetet wird, dass die Realisation eines Xij
in diese Kategorie fällt.
Kategorie
1
..
.
Stichprobe 1
h11
..
.
I
hI1
h·1 = n1
…
…
…
…
…
Stichprobe J
h12
..
.
h1·
..
.
hIJ
h·J = nJ
hI·
n
• Testfunktion:
V1 =
I
∑
(hi1 − n1 πi1 )2
i=1
n1 πi1
..
.
I
∑
(hiJ − nJ πiJ )2
VJ =
nJ πiJ
i=1
J
∑
J ∑
I
∑
(hij − nj πij )2
V =
Vj =
nj πij
j=1
j=1 i=1
• Testfunktionsverteilung: V1 , . . . , VJ sind approximativ χ2 -verteilt mit jeweils fj =
I − 1 Freiheitsgraden (unter Auslassung der geschätzten Parameter). Unter H0 gilt
πi1 = . . . = πiJ = πi ∀i, sodass nur die πi geschätzt werden müssen, d.h. k = I − 1
58
5 Induktive Statistik
Parameter (der letzte ergibt sich glücklicherweise über das Komplement, sodass ein
Freiheitsgrad weniger verloren geht). Zusammengefasst ist also V aufgrund der Reproduktionseigenschaften auch approximativ χ2 -verteilt mit f = J(I − 1) − k =
J(I − 1) − (I − 1) = (I − 1)(J − 1).
Die πi werden geschätzt durch π̂i = hni· , weshalb sich V auch analog zum Fall der
mehrdimensionalen Daten aus der Empirie auch ausdrücken lässt mit nj πij = nj hni· =
h·j hni· = h˜ij . Die Approximationskriterien lauten sind dann
h̃ij ≥ 1 ∀(i, j)
h̃ij ≥ 5 für wenigstens 80% der (i, j)
• Ablehn- und Annahmebereich:
„H1 “ = B = {v|v > c}
„H0 “ = B̄ = {v|v ≤ c}
χ2 -Unabhängigkeitstest
• Stichprobeneigenschaften: Seien X = (X1 , . . . , Xn ) und Y = (Y1 , . . . , Yn ) einfach mit
den Ausprägungen x1 , ..., xI und y1 , ..., yJ .
• Hypothesenformulierung:
H0 : Die Xi und die Yi sind unabhängig.
H1 : Sie sind es nicht.
• Darstellung: Die Ergebnisse der Stichproben werden sortiert und in einer Kontingenztabelle dargestellt:
X\Y
x1
...
y1
h11
…yJ
…
h1J
xI
hI1
h·1
…
…
…
h1 ·
..
.
hIJ
h·J
hI ·
n
• Testfunktion: Bei Unabhängigkeit gilt der Multiplikationssatz, d.h. es lässt sich für jeh ·h
des hij ganz einfach ein h̃ij = i·n ·j errechnen, das bei Unabhängigkeit zu erwarten
wäre. Die summierten, quadrierten und normierten Abweichungen von diesen erwarteten Häufigkeiten bilden die Testfunktion:
I ∑
J
∑
(hij − h̃ij )
V =
h̃ij
i=1 j=1
59
5 Induktive Statistik
• Testfunktionsverteilung: V ist approximativ χ2 -verteilt mit f = (I − 1)(J − 1) Freiheitsgraden. Das Approximationskriterium ist:
h̃ij ≥ 1 ∀(i, j)
h̃ij ≥ 5 für wenigstens 80% der (i, j)
• Ablehn- und Annahmebereich:
„H1 “ = B = {v|v > c}
„H0 “ = B̄ = {v|v ≤ c}
5.6 Median- und Quantilstest
5.6.1 Erste Variante: Vorzeichentest
1. Stichprobeneigenschaften: (X1 , . . . , Xn ) stetig und einfach
2. Hypothesenformulierung:
H0 : µ̃ = µ̃0
H1 : µ̃ ̸= µ̃0
3. Testfunktion:
Di = Xi − µ̃0

falls Di > 0
 1,
0,
falls Di < 0
Yi =

undefiniert, falls Di = 0
∑
Y =
Yi (Anzahl der positiven Differenzen zu µ0 )
i
Falls ein Di wirklich einmal null werden sollte (was aufgrund der angenommenen Stetigkeit eigentlich nicht vorkommen sollte, aufgrund von Messungenauigkeiten aber
kann), wird das entsprechende Datum ignoriert. Der im folgenden verwendete Stichprobenumfang n muss dann auch für jedes ausgelassene Datum um 1 reduziert werden.
4. Testfunktionsverteilung: Y ist binomialverteilt mit mit n; unter H0 gilt außerdem π =
0.5. Falls die entsprechenden Approximationskriterien erfüllt sind (siehe Formelsammlung), ist Y approximativ normalverteilt, was praktisch ist, wenn die Tabelle nicht lang
genug ist.
60
5 Induktive Statistik
5. Ablehn- und Annahmebereich:
„H1 “ = B = {y ∈ N⊬ |v < yu ∨ yo < v}
„H0 “ = B̄ = {v ∈ R| − yu ≤ v ≤ yo }
Es handelt sich hier um einen konservativen Test, d.h. das Signifikanzniveau α wird
praktisch nie ausgeschöpft. Bei der Interpretation des Ergebnisses ist also immer auch
das exakte Signifikanzniveau αex anzugeben.
6. Anpassung bei Quantilstest: Bei einem Test auf xq (0 ≤ q ≤ 1) ist Y unter H0 binomialverteilt mit π = 1 − q.
5.6.2 Zweite Variante: Vorzeichenrangtest von Wilcoxon
1. Stichprobeneigenschaften: (X1 , . . . , Xn ) stetig, einfach und symmetrisch (in der Vorlesung ist nicht so deutlich geworden, warum die letzte Eigenschaft notwendig ist).
2. Hypothesenformulierung:
H0 : µ̃ = µ̃0
H1 : µ̃ ̸= µ̃0
3. Testfunktion:
Di = Xi − µ̃0

falls Di > 0
 1,
0,
falls Di < 0
Yi =

undefiniert, falls Di = 0
∑
W+ =
Yi · rg|Di | (Summe der Rangplätze der positiven Differenzen zu µ0 )
i
Die Rangfunktion rg vergibt für ihr Argument beginnend bei eins für jeden Wert einen
ganzzahligen Rang, wobei der Rang umso größer wird, je größer das Argument ist.
Falls zwei oder mehr Argumente gleich groß sein sollten, werden die eigentlich für
sie vergebenen Ränge gemittelt und ihnen allen dann dieser mittlere Rang zugeordnet.
Der nächste vergebene Rang beginnt über den eigentlich vergebenen Rängen.
∑
4. Testfunktionsverteilung: Der Wertebereich von W + ist {w+ ∈ N0 |0 ≤ w+ ≤ i i =
n·(n+1)
}. Die Verteilung ist bis n = 20 vertafelt, die Tabelle allerdings etwas gewöh2
nungsbedürftig. Man sollte das vor der Klausur einmal üben. Für größere n > 20 ist
und σ = Var(W + ) =
W + approximativ normalverteilt mit µ = E(W + ) = n·(n+1)
4
n·(n+1)·(2n+1)
.
24
5. Ablehn- und Annahmebereich:
„H1 “ = B = {y ∈ N⊬ |v < wu ∨ c < wo }
„H0 “ = B̄ = {v ∈ R|wu ≤ v ≤ wo }
61
5 Induktive Statistik
5.7 2x2-Feldertafelanalyse
In diesem Kapitel werden ausschließlich Stichproben mit dichotomen Merkmalen behandelt,
die sich wunderbar in Kreuztabellen darstellen lassen. Im Prinzip wird auch in beiden Fällen
nur ein Homogenitätstest durchgeführt, d.h. die Methodik ist bereits aus 5.5.2 bekannt.
5.7.1 χ²-Test für zwei unabhängige Stichproben
1. Stichprobeneigenschaften:
X : Stichprobenzugehörigkeit mit den Ausprägungen x1 , x2
Y : Erfolg oder Misserfolg
Dies könnte zum Beispiel eine Medikamentenstudie sein, bei der aus 200 Probanden
bei jedem durch Münzwurf ausgewählt wird, ob er Medikament A oder Medikament B
erhält, die dann auf ihren Erfolg oder Misserfolg bei der Behandlung geprüft werden.
2. Hypothesenformulierung:
H0 : π1 = π2 (= πE )
H1 : π1 ̸= π2
3. Darstellung
Y y
y2
1
X
b
x1 a
n1 = a + b
ã
b̃
d
x2 c
n2 = c + d
c̃
d˜
a+cb+d
n
4. Testfunktion:
(a − ã)2 (b − b̃))2
+
ã
b̃
2
˜2
(c − c̃)
(d − d)
V2 =
+
˜
c̃
d)
V1 =
˜2
(a − ã)2 (b − b̃))2 (c − c̃)2 (d − d)
+
+
+
˜
ã
c̃
b̃
d)
2
n(ad − bc)
=
(a + b)(c + d)(a + c)(b + d)
V = V1 = V2 =
Die Idee hinter dieser Testfunktion ist es, die quadrierte Abweichung der realisierten
Besetzungszahlen von den erwarteten Besetzungszahlen aufzusummieren. Die erwarteten Besetzungszahlen sind ã = n1 π̂E , b̃ = n1 (1 − π̂E ), c̃ = n2 π̂E , d˜ = n2 (1 − π̂E ).
geschätzt.
πE wird durch π̂E = a+c
n
62
5 Induktive Statistik
5. Testfunktionsverteilung: V1 , V2 sind approximativ χ2 -verteilt mit f1 = 2 − 1 = 1. V
ist also χ2 -verteilt mit f = f1 + f2 = 2 − k und k = 1 aufgrund der Schätzung von
πE . Das Approximationskriterium ist ã, b̃, c̃, d˜ ≥ 5. Falls diese Kriterien nicht erfüllt
sind, gibt es übrigens einen Fisher-Test, den wir hier aber nicht behandeln, mit dem
sich dennoch eine brauchbare Aussage generieren lässt.
6. Ablehn- und Annahmebereich:
„H1 “ = B = {v ∈ R+
0 |v > c}
„H0 “ = B̄ = {v ∈ R+
0 |v ≤ c}
5.7.2 χ²-Test für zwei abhängige Stichproben
• Hier werden zwei Stichproben X und Y betrachtet mit den Ausprägungen:
x1 , y1 : Erfolg
x2 , y2 : Misserfolg
X und Y sind voneinander abhängig. Sie könnten z.B. den Behandlungserfolg eines
Medikaments A, das an einer Probandengruppe getestet wird, und den Behandlungserfolg eines Medikaments B, das an derselben Probandengruppe getestet wird, beschreiben.
• Hypothesenformulierung:
H0 : Beide Stichproben waren gleich erfolgreich.
(πx = πy )
H1 : Beide Stichproben waren nicht gleich erfolgreich.
(πx ̸= πy )
Y
X
x1
x2
• Darstellung
y1
y2
a
b
a+b
c
d
c+d
a+cb+d
n
• Testfunktion: Die Hypothesen lassen sich umformen: πx = πy ⇔ πa + πb = πa + πc ⇔
πb = πd . Wirklich interessant für das Testergebnis sind also nur die Wechsler. Als
Ansatz für eine Testfunktion bietet sich nun an:
V =
(b − b̃)2 (c − c̃)2
+
c̃
b̃
63
5 Induktive Statistik
• Testfunktionsverteilung: V ist approximativ χ2 -verteilt. Zu beantworten ist allerdings
noch, wie sich b̃ und c̃ ergeben. Unter H0 müssten beide genau gleich der Hälfte der
Gesamtzahl der Wechsler sein, da ja πb = πc . Um b̃ und c̃ zu berechnen, muss zweimal
auf die Zahl der Wechsler b+c aus der Stichprobe zurückgegriffen werden, weshalb sich
ein k = 2 ergibt. Da man von vier möglichen Parametern (πa , πb , πc , πd ) ausgeht, von
denen der letzte schon durch das Komplement festgelegt ist, ergibt sich f = 4−1−k =
1. Das Approximationskriterium ist dann
b̃, c̃ ≥ 5
Für den Fall, dass dieses Kriterium nicht erfüllt ist, kann auf einen Binomialtest mit
n = b + c und π = 21 zurückgegriffen werden.
• Ablehn- und Annahmebereich:
„H1 “ = B = {v ∈ R+
0 |v > c}
„H0 “ = B̄ = {v ∈ R+
0 |v ≤ c}
64
Herunterladen