Mathematik WS05/06

Werbung
Zusammenfassung
Wintersemester 2005/2006
S.Odermatt
Einführung in die Statistik für Wirtschafts- und Sozialwissenschaften
Vorlesung: Prof. Dr. Lutz Dümbgen, Universität Bern
-1-
4 ECTS-P
6. Dichtefunktionen und Normalverteilungen
6.1.
Wahrscheinlichkeitsdichten, - Verteilungen und Verteilungsfunktionen (Skript S.121ff)
Ausgangslage: ein Histogramm mit sehr grossem Stichprobenumfang (n) und sehr kleinen Intervallen
lässt sich durch eine Wahrscheinlichkeitsdichtefunktion f approximieren.
Eine
Wahrscheinlichkeitsdichte f
liegt dann vor, wenn überall f(x) > 0 und
in Worten: damit eine Wahrscheinlichkeitsdichte vorliegt,
muss das gesamte Integral von f (d.h. -∞ bis ∞) den
Gesamtwert 1 ergeben. Einfacher: die Fläche unter der
Wahrscheinlichkeitsdichte muss zwingend 1 betragen
Jede Wahrscheinlichkeitsdichtefunktion impliziert eine Wahrscheinlichkeitsverteilung Q:
in Worten: für ein beliebiges Intervall B mit Startpunkt a
und Endpunkt b kann die Wahrscheinlichkeit ermittelt
werden. Diese ist das Integral der Wahrscheinlichkeitsdichte f von a bis b, also die Fläche unter diesem Intervall
Abgrenzung: diskrete Verteilungen berechnen die
Wahrscheinlichkeit eines Punktes, hier wird die
Wahrscheinlichkeit eines Intervalls berechnet.
Zu jeder W’dichte f gehört eine
Wahrscheinlichkeitsverteilung Q
Verteilungsfunktion F
f: Wahrscheinlichkeitsdichtefunktion
ableiten
F’(x) = f(x)
integrieren
F: Verteilungsfunktion
-2-
Eigenschaften von F (Verteilungsfunktion einer W’Dichte)
Diese angaben sind (für das Lösen von Übungen) sehr wichtig! Sind beispielsweise angaben zu F
gegeben, so kann man mithilfe dieser Eigenschaften überprüfen, ob F auch tatsächlich die
Verteilungsfunktion einer Wahrscheinlichkeitsdichte f ist. Konkret geht man wie folgt vor:
- F ist stetig und monoton wachsend, wenn F’ überall ≥ 0
- Die Grenzwerte erhält man durch logisches überlegen, oder aber durch die Definition von F
- Selbsterklärend: es muss (fast) überall, mit Ausnahme von der Stelle 0, eine Ableitung von F
gefunden werden können
Die W’Dichte-Funktion f erhält man einfach, indem man F ableitet (siehe Graphik auf S.2)
6.2.
Rechnen mit Wahrscheinlichkeitsdichten
6.2.1. Transformationen
Ausgangspunkt: eine Zufallsvariable X, deren Verteilung durch eine Dichtefunktion f und eine
Verteilungsfunktion F beschrieben wird.
Idee: Zufallsvariabel X transformieren zu Y, wie folgt:
Erläuterung der Parameter μ und σ
- μ verschiebt die Dichte auf der horizontalen Ebene
- σ verändert die Breite (und damit verbunden auch die Höhe) der Dichte.
Graphisches Beispiel
für μ = 3 und σ = 0.5:
Folgen:
- μ verschiebt das Zentrum
der Dichte (im Beispiel um
3 gegen rechts)
- σ verändert die Breite der
Dichte und umgekehrtproportional ebenfalls
deren Höhe (im Beispiel:
Breite halbiert sich, Höhe
verdoppelt sich)
Wie im Skript hergeleitet, ist die neue Wahrscheinlichkeitsdichtefunktion g der Zufallsvariable Y:
-3-
6.2.2. Erwartungswert, Varianz, Standardabweichung
Wird die Verteilung einer Zufallsvariable X durch eine Dichtefunktion f (und eine dazugehörige
Verteilungsfunktion F) beschrieben, so lassen sich Erwartungswert, Varianz, Std wie folgt berechnen:
in Worten: Wahrscheinlichkeitsdichtefunktion mit x
multiplizieren und anschliessend integrieren
(Erweiterung der Formel: soll nicht bloss der
Erwartungswert eines Variable, sondern
derjenige der Funktion einer Variable ermittelt
werden, multipliziert man einfach mit h(X), also
nicht bloss mit x, bevor man integriert)
in Worten: Wahrscheinlichkeitsdichte mit x2 multiplizieren und
anschliessend integrieren. Erst
ganz am Schluss E(X)2 abziehen.
Analog Vorgehen bei diskreten Verteilungen
6.3.
Beispiele von Dichtefunktionen
6.3.1. Uniforme Verteilungen
Eine uniforme Verteilung liegt dann vor, wenn f(x) – also die Wahrscheinlichkeitsdichte – überall (wo
sie nicht 0 ist) den gleichen Wert annimmt.
Der Spezialfall U[0,1] wird namentlich zur Ermittlung von „PC-Zufallszahlen“ verwendet (Skript. S125)
Spezialfall:: U[0,1]
Verallgemeinerung;: U[A,B] mit -∞<A<B<∞
f(x) = Wahrscheinlichkeitsdichte
-4-
6.3.2. Exponentialverteilungen
Diese Verteilung nennt man Exp(λ): Exponentialverteilung mit Parameter λ (>0)
Für eine Zufallsvariable mit Verteilung Exp(λ) kann man zeigen dass: E(X) = λ, Var(X) = λ
Erläuterung (aus Wikipedia): Die Exponentialverteilung ist eine typische Lebensdauerverteilung. So
ist beispielsweise die Lebensdauer von elektronischen Bauelementen häufig annähernd
exponentialverteilt. Hierbei spielt besonders die Gedächtnislosigkeit eine bedeutende Rolle: die
Wahrscheinlichkeit, dass ein x Tage altes Bauelement noch mindestens t Tage hält, ist demnach
genauso groß wie die, dass ein neues Bauelement überhaupt t Tage hält. Charakteristisch bei der
Exponentialverteilung ist die konstante Ausfallrate λ
6.3.3. Gammaverteilungen
Modell für rechtsschiefe Verteilungen (verwendet z.B. für Modellierung von Einkommensverteilungen)
Berechnung Gammafunktion:
Gamma(a,b): Gammaverteilung mit Parametern a und b, wobei a die Form der Dichte bestimmt
- wenn a = 1, liegt eine Exponentialverteilung vor
- je grösser a, desto flacher startet die Dichtefunktion an der Stelle 0
- Parameter b ist ein Skalenparameter
- Das Maximum der Verteilung liegt immer an der Stelle (a-1)b
- Der Mittelwert der Verteilung liegt immer an der Stelle ab
- eine nach Gamma(a,b) verteilte Zufallsvariable hat: E(X) = ab, Std(X) a1/2b, Schiefe(X) = 2a-1/2
-5-
6.4.
Normalverteilungen
6.4.1. Standardnormalverteilungen: N(0,1)
Dichtefunktion für N(0,1) = Gausche Glockenkurve
Verteilungsfunktion für N(0,1)
= „Gausche Fehlerfunktion“
Wichtige Angaben zur Standardnormalverteilung:
- eine standardnormalverteilte Zufallsvariable Z hat E(Z) = 0 und Std(Z) = 1
- ausserhalb von -1 bzw. +1 ist die Gausche Glockenkurve konvex, innerhalb konkav
- Für die Verteilungsfunktion Ф gibt es keine geschlossene Formel -> Werte müssen in der Tabelle
S.189 nachgeschlagen werden, wobei man negative r aufgrund der Symmetrie ermitteln kann:
-
-
Vorgehen beim Ablesen von der Tabelle am Beispiel von Ф(1.53): in den Randzeilen sucht man
die Werte 1.5 und 0.03. Dort, wo sich diese Zeilen/Spalten schneiden, findet man den gesuchten
Wert, im Beispiel: Ф(1.53) = 0.937
Vorgehen beim Ablesen eines negativen r am Beispiel von Ф(-1.53): analog oben, wobei man
lediglich 0.937 von 1 subtrahieren muss. Resultat: Ф(-1.53) = 0.063
Vorgehen beim Ablesen der Inverse der Verteilungsfunktion (= Quantilfunktion der
Standardnormalverteilung) am Beispiel von Ф-1(0.76): man sucht innerhalb der Tabelle den Wert
0.76 und addiert daraufhin die Randwerte, im Beispiel: 0.7 + 0.01. Resultat: Ф-1(0.76) = 0.71
-6-
6.4.2. Beliebige Normalverteilungen N(μ,σ2)
Eine Zufallsvariable heisst normalverteilt mit Mittelwert μ und Standardabweichung σ (Varianz σ2),
wenn sie nach folgender Dichtefunktion verteilt ist:
Die zugehörige Verteilungsfunktion F ist
Analogie zu 6.2.1. Transformationen:
- μ verschiebt Glockenkurve
- σ streckt die Glockenkurve vertikal und
verkürzt sie horizontal
- Beispiel Graphik rechts: μ = 3, σ = 0.5
Eine nach N(μ,σ2) verteilte Zufallsvariable X lässt sich wie folgt schreiben, wobei Z eine
standardnormalverteilte zufallsvariabel ist. Ebenfalls: E(X) = μ , Std(X) = σ
Wichtig: konkretes Anwendungsbeispiel: weiss man aus umfangreichen Testserien, dass die
Körpergrösse normalverteilt ist und der Mittelwert 1.80 sowie die Standardabweichung 7 cm beträgt,
so kann man basierend auf der Verteilungsfunktion konkrete Wahrscheinlichkeiten für Intervalle
berechnen (oder genauer: approximieren). Will man z.B. wissen, wie gross der Anteil an Menschen
ist, die grösser als 1.90 sind, so kann wie folg vorgegangen werden:
 Gegenereignis
!!  verwenden der Verteilungsfunktion (μ, σ und r einsetzen)
 ablesen aus Tabelle S.189
Ein weiteres konkretes Anwendungsbeispiel, der IQ-Test, kann im Skript S.132 nachgelesen werden
-7-
6.4.3. Weitere Eigenschaften von Normalverteilungen
Unabhängige Summanden: Die Summe stochastisch unabhängiger, normalverteilter
Zufallsvariablen ist erneut normalverteilt! Mathematisch ausgedrückt (a, b = beliebige Konstanten):
Wenn X nach
und Y nach
verteilt ist,
dann
Messfehler (wichtige mathematische Vorgehensweise, evt. prüfungsrelevanter Aufgabentyp):
Ausgangslage: Zufallsvariable X sei normalverteilt mit Mittelwertμ und Std σ = 3 g, dann ist:
 Ausgangslage formalisiert
 erweitern um Std und
zusammenfassen zu Z
Anmerkung:
Vorgehen, wenn die Messung nmal wiederholt wird und man die
Verteilung des Mittelwerts der
Messungen wissen will: siehe
Skript S. 133, ab der Mitte
 aufsplitten des |Betrag| in 2
Wahrscheinlichkeiten; von der
hinteren das Gegenereignis
nehmen, damit Verteilungsfunktion verwendet werden kann
(F setzt zwingend Z < voraus,
was logisch ist, wenn man
bedenkt, dass F die W’ des
Intervalls von - ∞ bis zum Punkt
r, hier 8/3, darstellt)
Quantilfunktion; Für jede Verteilungsfunktion Ф existiert eine Umkehrfunktion Ф-1. Man nennt diese
„Quantilfunktion der Standardnormalverteilung“. Konkret: Ф-1(γ) =r;
Ф(r) = γ. Aussage der
Quantilfunktion, erläutert an einem konkreten, selbsterfundenen Beispiel: angenommen die Anzahl
Diebstähle pro Person pro Jahr sei standardnormalverteilt (also Erwartungswert 0, Std =1;
zugegeben ein unrealistisches Beispiel, weil negative Diebstähle in der Praxis nicht möglich sind und
der Erwartungswert deutlich über 0 liegen muss). Ф-1(0.9) = 1.28. zeigt in diesem Beispiel an, dass
90% der Bevölkerung weniger als 1.29 Diebstähle pro Jahr begehen.
Wie man die Werte der Quantil-funktion aus der Tabelle ablesen kann, wurde bereits auf S. 6
erläutert. Ebenfalls gut zu wissen:
6.4.4. Der zentrale Grenzwertsatz
Definition (in Worten): Eine Summe S von stochastisch unabhängigen Zufallsvariablen, von denen
jede einzelne nur einen geringen Einfluss auf S hat, ist näherungsweise normalverteilt. Elementares
Fazit: summiert man unabhänige, identisch verteilte Zufallsvariablen (mit E(Xi)=μ , Std(Xi)=σ), so ist
deren Mittelwert Xn näherungsweise normalverteilt mit E(Xn) = μ und Std(Xn) = σ/n , auch wenn die
einzelnen Zufallsvariablen nicht normalverteilt sind!! -> Normalverteilung ist eine Art „Naturgesetz“
und hat aus diesem Grund eine derart hohe Bedeutung
Generell lässt sich zudem feststellen,
das folgende Grösse oft approximativ
standardnomalverteilt ist:
-8-
Teil III: Schliessende Statistik
7.
Konfidenzbereiche
7.1.
Allgemeine Beschreibung von Konfidenzbereichen
Konfidenzbereiche: anhand von gegebenen Daten D berechnet man einen Bereich, in welchem ein
unbekannter Parameter θ mit einer gewissen Sicherheit liegen soll. Ein Konfidenzbereich
(Vertrauensbereich) für θ ist eine datenabhängige Menge C(D) von möglichen Werten für θ. Nach
Berechnung dieser Menge behauptet man, dass der tatsächliche Parameter θ in C(D) liegt. Die Zahl
α Є (0,1) ist eine obere Schranke für das Risiko, dass C(D) den Parameter θ nicht enthält. Formal:
wobei
Sicherheit vs. Wahrscheinlichkeit: man sagt „mit Sicherheit von 1 – α liegt der Parameter θ in C(θ)“;
man spricht hier also von Sicherheit, nicht von Wahrscheinlichkeit. Erläuterung: Skript S. 144
7.2.
Konfidenzintervalle nach Wald
Vorbemerkung: Walds Methode ist recht allgemein und gilt bloss approximativ für grosse Stichproben
7.2.1. Z-Konfidenzsschranken für μ (wobei μ = Erwartungswert)
Ausgangslage: X1, X2, … Xn sind identisch verteilte Zufallsvariablen mit unbekanntem Erwartungswert
μ und unbekannter Standardabweichung σ. Gesucht ist ein Vertrauensbereich für μ
Die standardisierte Grösse Z (siehe links) ist mit wachsendem n approximativ
standardnormalverteilt (Spezialfall: exakt std-normalverteilt, wenn Xi stdnormalverteilt sind). S ist die Stichprobenstandardabweichung. Hieraus lassen
sich folgende Konfidenzbereiche ableiten (Herleitung siehe Skript S.144/145):
1. Konfidenzintervall
 P (μ Є Konf.Intervall) ≈ 1 – α
2. untere Konfidenzschranke
 P (μ ≥ untere Schranke) ≈ 1 - α
3. obere Konfidenzschranke
 P (μ ≤ obere Schranke) ≈ 1 - α
siehe dazu: Rechenbeispiele 5.1 und 5.2. auf Skript S. 145/146
-9-
7.2.2. Walds Methode allgemein
Ausgangslage: ein unbekannter Parameter θ soll anhand von Daten D geschätzt werden; die oben
behandelten Z-Konfidenzschranken für μ sind also ein Spezialfall dieser allgemeinen Methode
θ = gesuchter, unbekannter Parameter
θ^ = Schätzer für θ, basierend auf den Daten D
τ = Standardabweichung des Schätzers θ^
τ^ = Schätzer für τ, basierend auf den Daten D
Für grosse Datensätze gilt oftmals:
Hieraus lässt sich ableiten:
1. Konfidenzintervall
 P (θ Є Konf.Intervall) ≈ 1 – α
2. untere Konfidenzschranke
 P (θ ≥ untere Schranke) ≈ 1 - α
3. obere Konfidenzschranke
 P (θ ≤ obere Schranke) ≈ 1 - α
Anmerkungen zu „Schätzern“: als Schätzer den Erwartungswert μ nimmt man oft den Stichprobenmittelwert, als Schätzer für τ nimmt man oft die Stichprobenstandardabweichung S
Vergleich zweier Mittelwerte (Sonderfall): wenn ein numerisches Merkmal in zwei unabhängigen
Strichproben beobachtet wird und man anschliessend die Differenz zwischen den beiden Stichproben
ermitteln will, so wählt man als Schätzer:  gutes Rechenaufgabe: Beispiel 5.6. S.147
7.3.
Verfeinerte Konfidenzbereiche für Mittelwerte
7.3.1. Student- und Chiquadrat-Verteilung
Z1, Z2, Z3… seien stochastisch unabhängig und standardnormalverteilt
 Chiquadrat-Verteilung (x2-Verteilung) mit k Freiheitsgraden 
(unsymmetrisch, stets positiv, Spezialfall der Gammaverteilung)
 Student-Verteilung mit k Freiheitsgraden und β-Quantil

Die Student-Verteilung ist eine um 0 symmetrische Glockenkurve und hat folgende Dichtefunktion:
wobei Ck > 0 eine Normierungskonstante ist
Gesetze für die β-Quantile der Student-Verteilung:
Ausserdem: für
gilt:
-10-
sowie
7.3.2. Student-Konfidenzschranken für μ
Mit Hilfe der Student-Verteilung lassen sich genauere Schranken für μ ermitteln als mit Wald’s
Methode; besondere grosse Fortschritte stellen sich bei nur ca. 10 bis 30 Beobachtungen ein.
Sehr wichtig: sind die Beobachtungen X1, X2, … Xn, stochastisch unabhängig und normalverteilt nach
N(μ,σ2) – sie müssen also nicht zwingend standardnormalverteilt sein – dann gelten die
nachfolgenden Schranken bzw. Intervalle, anders als bei Walds Methode, exakt!
Sind die Beobachtungen Xi nicht normalverteilt, gelten die Konfidenzbereiche 1 – α bloss
approximativ, sind jedoch noch immer zuverlässiger als Wald’s Z-Schranken
1. Konfidenzintervall
 P (μ Є Konf.Intervall) = 1 – α
2. untere Konfidenzschranke
 P (μ ≥ untere Schranke) = 1 - α
3. obere Konfidenzschranke
 P (μ ≤ obere Schranke) = 1 - α
Tipps zum Ermitteln der β-Quantile der Student-Verteilung:
- die Werte der Quantile können der Tabelle auf S. 190 entnommen werden
- aufgepasst: k ist hierbei immer = n -1
7.4.
Konfidenzbereiche für eine Wahrscheinlichkeit
Ausgangslage: im Zentrum steht ein unbekannter Parameter p Є [0,1]; die hier behandelten
Schranken bzw. Konfidenzintervalle lassen sich also bloss für Variablen anwenden, die entweder den
Wert 1 („wahr“) oder 0 („falsch“) annehmen können. p ist die Wahrscheinlichkeit, dass 1 eintritt
7.4.1. Walds Methode
Ausgehend von einem (auf Daten basierenden) Schätzer p^ kann mit folgender Formel das
approximative (1-α)-Vertrauensintervall gebildet werden:
 P (p Є Konf.Intervall) ≈ 1 – α
1. Konfidenzintervall
Achtung: diese Standardmethode ist nur zuverlässig wenn:
Ergänzung: im obigen Intervall kann man in Anlehnung an Student den Faktor
ersetzen durch untenstehenden Ausdruck. Die Zuverlässigkeit wird dadurch
etwas erhöht, dennoch gibt es Schwierigkeiten wenn p bzw. p^ nahe bei 1 oder 0
-11-
7.4.2. Wilsons Methode
Erweiterung von Walds Methode, die wesentlich zuverlässiger ist. Nebenbemerkung: vernachlässigt
man in untenstehenden Konfidenzbereichen die Terme c2, erhält man Walds klassische Methode
1. Konfidenzintervall
2. untere Konfidenzschranke
3. obere Konfidenzschranke
Wie üblich gilt: P (p Є Konf.Intervall) ≈ 1 – α, für die Schranken P (p ≤ bzw. ≥ Schranke) ≈ 1 – α
Illustrative Beispiele (vor Prüfung repetieren): Beispiele 5.9 und 5.10 auf Skript S. 157
7.5.
Konfidenzbereiche für Quantile
Ausgangslage: gesucht wird hier nicht ein Mittelwert, sonder ein Quantil qγ (mit 0 < γ < 1) von der
Verteilung einer Zufallsvariable X bzw. von dessen Verteilungsfunktion F. Ausgehend von
Stichprobenwerten soll ein Konfidenzbereich für dieses theoretische Quantil qγ gefunden werden.
Punktschätzung: ein nahe liegender Schätzwert für qγ ist das Stichprobenquantil Qγ. Wie man
dieses berechnet war Inhalt des ersten Semesters, hier jedoch erneut die Formel als Repetition:
Anmerkung: X(1), X(2) etc. sind die Ordnungsstatistiken der Beobachtungen Xi
Vertrauensbereiche:
Ausgangspunkt für die nachfolgenden Überlegungen ist das Konfidenzintervall:
Gesucht werden als die Ordnungsstatistiken X(k) und X(l), innerhalb denen das
Quantil qγ mit einer bestimmten Sicherheit (1-α) liegen muss.
mit:
Zur Bestimmung der Indizes k und l existiert eine exakte Methode, die auf Skript S. 160 ausführlich
beschrieben ist. Weil ein konkreter Rechenweg nicht aufgeführt und diese exakte Methode in den
anschliessenden Beispielen nicht verwendet wird, erläutere ich hier bloss die approximative Methode.
Achtung: auf- bzw. abrunden!
Ergebnisse dieser Formeln sind
erst die Indizes der betroffenen
Ordnungs-Statistiken!
Wichtig: diese approximative Methode gilt nur wenn:
Trick zu Spezialfall Median (γ=0.5): hier gilt:
Unbedingt Beispiel 5.13 repetieren! (Skript S.163)  zeigt Berechnung einseitiger Schranken!
-12-
8.
Tests
8.1.
Fishers exakter Test
Ausgehend von einem Datensatz mit n Beobachtungen und zwei
binären Merkmalen X und Y wird eine Vierfeldertafel aufgestellt:
Nullhypothese: Zwischen den Merkmalen X und Y besteht kein echter Zusammenhang. Das heisst,
man könnte in der Datenmatrix die Spalte mit den X-Werten oder die Spalte mit den Y-Werten rein
zufällig permutieren, und die resultierende Datenmatrix wäre genauso denkbar wie die
Originalmatrix. Unter dieser Nullhypothese ist der linke obere Tabelleneintrag N1,1 bei gegebenen
Zeilen- und Spaltensummen hypergeometrisch verteilt, nämlich:
N1,1 
mit Verteilungsfunktion:
Die Verteilungsfunktion kann man entweder aus Tabellen / PC ablesen, oder aber man errechnet die
einzelnen Gewichte der V-Funktion und summiert diese bis zur Schranke c auf (siehe Skript S.166)
Begrenzung möglicher Werte: N1,1: liegt im Intervall:
Einseitige Version: Hier will man einen gerichteten Zusammenhang aufzeigen, z.B. dass Männer (X
= x1) tendenziell eher rauchen (Y = y1) und Frauen (X = x2) tendenziell eher nicht rauchen (Y = y2).
Sprich: man will z.B. aussagen, dass Männer eher rauchen als Frauen.
Vorgehensweise: man sucht diejenige Schranke c, wo der Wert der Verteilungsfunktion das
Sicherheitsniveau 1-α überschreitet bzw. erreicht. Falls der Wert des Tabelleneintrags N1,1 grösser als
c ist, behauptet man mit einer Sicherheit von 1-α, dass die Nullhypothese nicht zutrifft, dass also ein
gerichteter Zusammenhang vorliegt (z.B. dass Männer tatsächlich eher rauchen als Frauen)
Zahlenbeispiel
zur Vorgehensweise:
Ausgangslage: α sei 0.05, N1,1 sei 58. Nun liest man in obiger Tabelle ab, wo der Wert 0.95 = 1- α
erstmals überschritten wird. Dies ist bei c = 56 der Fall. Weil N1,1 = 58 > 56 = c, kann man mit
Sicherheit von 95% die Nullhypothese verwerfen (= behauten, dass gerichteter Zusammenhang)
Zweiseitige Version: Hier will man bloss einen generellen Zusammenhang aufzeigen, also z.B. dass
zwischen Geschlecht und Rauchen ein Zusammenhang besteht
Vorgehensweise: hier sucht man zwei Werte:
a) c’ = dort, wo α/2 erstmals überschritten bzw. erreicht wird. Wichtig: zu diesem abgelesenen
Wert muss 1 addiert werden, um c’ zu erhalten!
b) c = dort, wo 1 - α/2 erstmals überschritten bzw. erreicht wird.
Im Falle von N1,1 < c’ oder N1,1 > c behauptet man mit Sicherheit von 1-α, dass die Nullhypothese
falsch ist und also ein echter (genereller) Zusammenhang zwischen den Variablen besteht
Zahlenbeispiel
zur Vorgehensweise:
Ausgangslage: α sei 0.05, N1,1 sei 55. a) Der Wert α/2 = 0.025 wird erstmals bei c = 42 erreicht. Nun
addiert man +1, also ist c’ = 43. b) Der Wert 1 - α/2 = 0.975 wird erstmals bei c = 57 erreicht, also
gilt: c =57. Weil N1,1 = 55 weder kleiner als c’ noch grösser als c ist, kann die Nullhypothese nicht
verworfen werden, es liegt also kein genereller Zusammenhang zwischen der Variablen vor
-13-
P-Werte: stellen eine Alternative zu obigen Berechnungen dar, um eine Nullhypothese zu prüfen.
Wichtig: P-Werte sind nicht die Wahrscheinlichkeit für die Richtigkeit der Nullhypothese, sondern nur
eine Kenngrösse, die quantifiziert, wie plausibel die Nullhypothese ist. Vorteil: der Benutzer muss
nicht schon im Voraus das Testniveau α spezifizieren. Streng genommen muss man dies dennoch
vorgängig tun, damit der Test nicht manipuliert werden kann.
P-Wert beim einseitigen exakten Fisher-Test =
um den P-Wert zu erhalten, muss man also den Wert der Verteilungsfunktion an der Stelle N1,1 - 1
von eins abziehen. Aussage: wenn der P-Wert kleiner oder gleich α ist, kann die Nullhypothese
verworfen werden, es liegt also ein (gerichteter) Zusammenhang vor.
P-Wert beim zweiseitigen exakten Fisher-Test =
Wobei:
PW 1 =
und PW 2 =
um den P-Wert zu erhalten, muss man also den kleineren der beiden PW-Werte (PW 1, PW 2)
verdoppeln. Aussage: wenn der P-Wert kleiner oder gleich α ist, kann die Nullhypothese verworfen
werden, es liegt also ein (genereller) Zusammenhang vor
8.2.
Fehlerarten bei statistischen Test
Fehler der 1. Art: Man lehnt die Nullhypothese ab, obwohl sie zutrifft
Fehler der 2. Art: Man lehnt die Nullhypothese nicht ab, obwohl sie falsch ist
8.3.
Binominaltests
Ausgangslage ist hier eine binominalverteilte Zufallsvariable mit unbekanntem Parameter p.
Basierend auf einer Stichprobe möchte man herausfinden, ob p grösser oder kleiner ist als eine
bestimme Grösse po. Beispiel: eine Partei möchte wissen, wie mit ob sie bei den nächsten Wahlen
mit einer Sicherheit von z.B. 99% einen Wähleranteil von 5% (= po) erreichen wird.
Tests von H0 : p ≤ po :
hier möchte man (wie im obigen Beispiel) wissen, ob p grösser ist als das frei festzulegende po. Zu
diesem Zweck stellt man eine Nullhypothese auf, die gerade das Gegenteil behauptet.
Vorgehensweise: man befragt n Personen. Y ist die Anzahl Personen, die angeben,
die Partei zu wählen. p0 ist ein möglicher, erwünschter Mindestwert von p, den man
verifizieren möchte. Nun berechnet man basierend auf n und po und c die binominale
Verteilungsfunktion; c sind Werte, die Y annehmen kann. Dadurch erhält man eine derartige Tabelle:
Das weitere Vorgehen ist analog zu Fischers exaktem Test. Man sucht jenen c-Wert der
Verteilungsfunktion, wo das Testniveau 1-α erstmals erreicht wird. Ist Y grösser als dieser c-Wert, so
kann man die Nullhypothese verwerfen und mit Sicherheit 1-α behaupten, dass p > p0
Zahlenbeispiel: n sei 500, p0 sei 20% = 0.2, α sei 1% = 0.01. Aus obiger Tabelle sieht man, dass c in
diesem Fall = 121. Falls die Anzahl befragten, die die Partei wählen: Y grösser ist, also mind. 122,
kann man mit Sicherheit von 99% davon ausgehen, dass der Wähleranteil > 20% sein wird.
-14-
Tests von H0 : p ≥ po :
hier möchte man (wie im obigen Beispiel) wissen, ob p kleiner ist als das frei festzulegende po. Zu
diesem Zweck stellt man eine Nullhypothese auf, die gerade das Gegenteil behauptet.
Vorgehensweise: Befragung und Variablen analog „Tests von H0 : p ≤ po“ (siehe vorherige Seite).
Hier sucht man in der Tabelle den Wert c’, wo das Testniveau α erstmals erreicht oder übertroffen ist.
Ist Y kleiner als c’, so kann man mit Sicherheit von 1- α davon ausgehen, dass p < po.
Zahlenbeispiel: n = 100, p0 = 8% = 0.08, α = 5% = 0.05. Tabelle:
Man kann ablesen, dass c’ = 4 (weil dort 0.05 erstmals überschritten wird). Falls Y kleiner als 4 ist,
also ≤3, kann man mit Sicherheit von 95% davon ausgehen, dass p < 8%
Normalapproximation der Binomialtests:
In obigen Methoden muss man zur Ermittlung von c bzw. c’ umfangreiche Tabellen der
Verteilungsfunktion Fn,p0(c) erstellen. Mit Hilfe der Standardnormalverteilung kann man c und c’
approximieren und sich dadurch diesen Rechenaufwand sparen; die Verteilungsfunktion fällt weg
Voraussetzung, damit Normalapproximation möglich: n * p0 (1-p0) ≥ 5 !!!
-
am Schluss auf- bzw. abrunden
- ½ bzw. +1/2 sind ausserhalb des
Normalverteilungsausdrücke!
Werte der inversen Std-Normal-Vert:
ablesen in Tabelle (Vorgehen ist auf
S.6 dieser ZF umschrieben)
Nützlicher Zusammenhang:
Güte des Binominaltests; Stichprobenplanung
Bisher wurde mittels α jeweils nur dem Fehler der 1. Art Beachtung geschenkt. Zur Ermittlung des
Fehlers der 2. Art (Definition: siehe S.14 dieser Zusammenfassung) wird β hinzugezogen. Wie auf
Seiten 176f des Skripts beschrieben, existieren exakte Methoden zur Ermittlung von β sowie der Güte
eines Binominaltests. Da diese Verfahren jedoch nur mittels PC lösbar sind, ist dieser Abschnitt sehr
wahrscheinlich nicht prüfbar. Aus diesem Grund beschränke ich mich auf folgende Approximation:
Abschätzung des Stichprobenumfangs bei Binominaltests mittels Normalapproximation:
Will man eine ungefähre Grössenordnung dafür haben, wie gross man n bei gegebenem α
(Testniveau für Fehler 1. Art) und gegebenem β (Testniveau für Fehler 2. Art) wählen sollte, so kann
man hierfür folgende Formel verwenden:
-
am Schluss quadrieren!
P* ist das p0 des β. Es gilt:
p0 < p* <1 bei H0 : p ≤ po
p* < p0 <1 bei H0 : p ≥ po
Wichtig: diese Formel gilt sowohl für H0 : p ≤ po wie auch für H0 : p ≥ po, wobei auch hier die
Faustregel erfüllt sein muss: n * p (1-p) ≥ 5
-15-
8.4.
Der x2-Anpassungstest
Ausgangslage ist eine kategorielle Zufallsvariable. Jede Kategorie hat eine gewisse
Wahrscheinlichkeit pj. Nun geht man von gewissen Wahrscheinlichkeiten pjo aus, die man überprüfen
möchte. Beispiel: bei einem Roulettetisch möchten man überprüfen, ob tatsächlich alls 37 Zahlen (=
Kategorien) dieselbe Wahrscheinlichkeit von 1/37 haben.
Vorgehen: man führt n Beobachtungen durch (im Beispiel: man spielt n Runden Roulette). Nj ist die
Anzahl fälle, in denen j, also z.B. die Zahl 5 tatsächlich vorkam.
Chiquadrat Teststatistik:
K = Anzahl Kategorien
pjo = Werte, die man verifizieren möchte
Nj = Anzahl Fälle, in denen j im Test vorkam
pj^ = Nj / n
Nullhypothese: pj = pjo
Hierzu vergleicht man das oben berechnete T mit einem Quantil der Chiquadrat-Verteilung. Die x2Quantile können der Tabelle zuhinterst im Skript entnommen werden. Approximativer Test:
Wenn
, dann kann man mit Sicherheit von 1-α davon ausgehen, dass die
Nullhypothese falsch ist, dass also die tatsächlichen pj nicht den pjo entsprechen!
Wichtige Faustregel: diese Approximation gilt nur, wenn n * min(pjo) ≥ 5
 wenn der P-Wert kleiner als α ist, kann man
Nullhypothese mit Sicherheit 1- α verwerfen.
Alternatives Verfahren: Motivation: obiges Verfahren zeigt bloss, ob pjo von pj abweichen, macht
aber keine Aussage darüber, wie stark diese Abweichung ist; dieses alternative Verfahren tut dies.
Vorgehen: man berechnet für jede Kategorie ein approximatives Vertrauensintervall nach Wilson
(siehe S.12). Wichtig: hierbei wird das α auf alle Kategorien aufgeteilt; existieren z.B. 10 Kategorien,
so berechnet man für jede einzelne Kategorie ein Vertrauensintervall mit Konfidenzniveau (1- α/10)!!
Repetition der Wilson-Formeln:
wobei
dies führt einem zu einer vergleichbaren Tabelle:
Testet man z.B. die Nullhypothese, dass alle pj0 = 0.1 (uniforme Verteilung), so kann man anhand
dieser Tabelle mit Sicherheit von 1- α = 95% sagen, dass bei j=0, j=1 und j=2 die dass tatsächliche pj
kleiner als 0.1 ist bzw. dass bzw. dass bei j=7 und j=8 dass tatsächliche pj grösser als 0.1 ist (weil 0.1
jeweils nicht im Vertrauensintervall liegt)
Wiederum: wäre 0.1 in allen Vertrauensintervallen vorhanden, so könnte man mit Sicherheit von 95%
behaupten, dass die Nullhypothese zutrifft
-16-
8.5.
Vergleiche zweier Stichproben
Verbundene Stichproben
Ausgangslage sind zwei gleichgrosse Datensätze (m=n), die miteinander verwandt sind. Beispiel:
Blutzuckermessung einer Person vor und nach einer bestimmten Behandlung. Nun will man wissen,
ob es systematische Unterschiede zwischen den X- und den Y-Werten gibt.
Betrachtet man die Zifferenzen Zi = Xi – Yi als unabhängige und identisch verteilte Zufallsgrössen,
kann man das einfache Vorgehen auf Skript S.183 wählen. Ansonsten ist wie folgt vorzugehen:
Wilcoxons Signed Rank Test: auf die Ausführungen im Skript gehe ich hier nicht ein, weil man bei
diesem Vorgehen die Vorzeichen immer und immer wieder zufällig neugenerieren müsste, was in
einer Prüfung nicht möglich sein wird. Stattdessen umschreibe ich das Vorgehen mittels P-Werten,
die Dümbgen mündlich erläutert hat.
Beispiel für zu erstellene Tabelle:
Vorgehen:
1. Differenzen zwischen X- und Y-Werten bilden  Z-Werte
2. Ränge ermitteln: wichtig: alle Z=0 haben Rang 0!!
3. T berechnen gemäss folgender Formel:
In Worte: Man muss also alle Ränge mit den Vorzeichen des
jeweilen Z multipliziern und abschliessend aufaddieren
4. Ausgehend von diesem Z erhält man die P-Werte:
P-Wert linksseitig:
Aussage: wenn „P-Wert linksseitig < α, dann kann man mit
Sicherheit von 1-α behaupten, dass X-Werte tendenziell
kleiner als die Y-Werte
P-Wert rechtsseitig:
Aussage: wenn „P-Wert rechtsseitig < α, dann kann man mit Sicherheit von 1-α behaupten, dass
X-Werte tendenziell grösser als die Y-Werte
P-Wert zweiseitig:
Aussage: wenn „P-Wert zweiseitig“ < α, dann kann man mit Sicherheit von 1-α behaupten, dass
ein systematischer Unterschied zwischen X und Y-Werten vorliegt
Freie / Unabhängige Stichproben: lasse ich weg, weil nicht prüfbar: erneut zufällige Permutation
nötig, die in einer solchen Prüfung nicht durchgeführt werden kann
-17-
Herunterladen