Teil1 - schule.at

2010
TEIL1
STATISTIK NACH DER MATURA, GRUNDLAGEN
Grundlage für den Übertritt in
Hochschulen und Fachhochschulen
Brigitte Wessenberg
Das vorliegende Skriptum ist als kostenlose Lernhilfe für Absolventinnen und Absolventen gedacht,
die an Hochschulen oder Fachhochschulen mit Statistik zu tun haben. Es orientiert sich an der
Statistik-Broschüre der Sportuni Wien (Baca u.a.), die ohne didaktischen Hintergrund den Umfang an
Statistik-Wissen für die Studierenden festlegt.
Voraussetzung für das Verständnis:
Mathematik-Standardwissen nach Beendigung einer Höheren Schule (AHS, BHS).
Das vorliegende Skriptum behandelt KEINE Software Anwendungen (SPSS, R, EXCEL etc),
sondern nur die allgemeinen Grundlagen.
Es verwendet Beispiele und Aussagen aus folgenden Werken, die zahlreiche Beispiele zum
weiterführenden Üben enthalten.
Ingenieur-Mathematik 4, Timischl, Kaiser, Verlag E. Dorner
Angewandte Statistik, Lothar Sachs, Springer-Verlag
Statistik, Deborah Rumsey, Verlag Wiley-VCH
Statistik, Detert/ Söhl, Verlag Hirzel
Mathematik für HTL, Schärf, Oldenburg-Verlag
Mathematik 8, Szirucsek ua./Verlag HPT
Mathematik 4 HAK, Schneider u.a., Trauner Verlag
Lehrbuch der Mathematik, Reichel u.a./HPT Verlag
Mathematik 4 Oberstufe, Bürger-Fischer-Malle, HPT Verlag
Mathematik für Ökonomen, Dück u.a. /Verlag Harri Deutsch
www.lernstats.de
! Zu einem großen Teil wird das PDF-Skriptum von Dr. Andreas Handl
„Einführung in die Statistik mit R“ 558 Seiten, herangezogen.
http://www.wiwi.uni-bielefeld.de/~frohn/Mitarbeiter/Handl/statskript.pdf
Dieses Skriptum ist didaktisch gut aufgebaut und bringt auch die sonst kaum je erwähnten
Ableitungen und Hintergründe, sowie eine ausführliche Begleitung durch die Statistik-Freeware R.
Empfehlenswert!
2
Inhalt von Teil 1, Grundlagen
Univariate Datenanalyse 4
I Darstellung von univariaten Datensätzen 4
1. Qualitative Merkmale 4
2. Quantitative Merkmale 4
3. Skalierungen 5
II Lageparameter von univariaten Datensätzen 6
1. Modus 6
2. Median 6
3. Mittelwert 7
4. Quantile 7
III Beschreibung der Variabilität 9
1. Stichprobenvarianz 9
2. Standardabweichung einer Stichprobe 9
3. Spannweite10
4. Interquartilsabstand 10
5. Der Boxplot 10
6. Variationskoeffizient 11
Bivariate Zusammenhangsanalyse 12
I Empirische Kovarianz 12
II Pearson Korrelationskoeffizient 13
III Rangkorrelationskoeffizient von Spearman 14
IV Lineare Regression 15
V Kontingenz 16
1. Phikoeffizient 16
2. Cramérs V 17
VI Punktbiseriale Korrelation 17
VII Biseriale Rangkoerrelation 18
Inferenzstatistische Methoden des Schätzens 21
I Wichtige Wahrscheinlichkeitsverteilungen 21
1. Normalverteilung nach Gauß 21
2. z-Verteilung 22
3. Chi-Quadrat-Verteilung 24
4. Student t-Verteilung 25
5. F-Verteilung 27
II Konfidenzintervalle 28
1. KI für Prozentanteil 28
2. KI für Mittelwert, STABW bekannt 29
3. KI für Mittelwert, STABW nicht bekannt 30
4. KI für Standardabweichung 30
Anhang: Tabellen
z-Verteilung 31
Chi-Quadrat-Verteilung 32
t-Verteilung 33
F-Verteilung 35
3
Univariate Datenanalyse
Statistik beschäftigt sich mit Populationen. In der beschreibenden Statistik
betrachten wir alle Merkmalsträger einer Population und stellen die Verteilung
eines oder mehrerer Merkmale dar.
In diesem Kapitel werden wir jeweils nur ein Merkmal betrachten. Man
spricht auch von univariater Datenanalyse.
I Darstellung von univariaten Datensätzen
1. Qualitative Merkmale
Ausprägungen sind Kategorien
nominalskaliert: ungeordnet
ordinalskaliert: geordnet: a<b<c<d
etc.…Häufigkeiten sind
kumulierbar!
2. Quantitative Merkmale
Ausprägungen sind ZAHLEN zum Berechnen…
Metrisch skaliert: Intervall -, Absolut- und
Verhältnisskala (möglich ist auch numerisch
nominal und ordinal)
BSP: diskrete Merkmale abzählbare
Ausprägungen!
-Frage nach Anzahl der Geschwister:
Ungeordnete Urliste kann geordnet werden.
Häufigkeitstabellen, kumulierbar….
Grafiken lassen sich nach bestimmten
Eigenschaften einteilen: linkssteil(rechtsschief),
rechst steil (linksschief), symmetrisch, bimodal
(2Gipfel)
BSP: nominalskaliert:
-Frage nach Gründen für Studienwahl.
Interesse: ja nein
Erhebung der Häufigkeit für ja und für nein
Qualitatives Merkmal mit 2
Merkmalausprägungen  dichotom (in der
Summe ergänzen sie sich zu relativer Häufigkeit
1! Daher muss man eigentlich nur eine
Ausprägung untersuchen….)
- Frage nach Wahlverhalten 6 verschiedenen
Merkmalsausprägungen: ÖVP, SPÖ, FPÖ, BZÖ,
GR, Sonstige: Keine natürliche Reihenfolge…
BSP. Ordinalskaliert. (Rangskala)
Wie hat die Sportveranstaltung gefallen?
sehr gut, gut, mittel, eher nicht, gar nicht
geordnete Merkmalsausprägungen!
Die Darstellung erfolgt für beide gleich:
Häufigkeitstabellen und Diagramme:
Kreis, Säulen, Balken..
Wahlverhalten
BSP Stetige Merkmale Ausprägungen nicht
abzählbar. Unendl . viele Ausprägungen möglich.
- Frage nach dem Alter: In Stichprobe Urliste,
ordnen, KLASSEN bilden: Untere Grenze gehört
nicht dazu, obere schon (rechts geschlossen!)
Häufigkeitstabelle zu den Klassen. Darstellung im
HISTOGRAMM: aneinandergrenzende Rechtecke
Buchstabenverteilung in Buch
4
Details zu den Klassen: Bei der Erstellung der Klassen muss man die Untergrenze der 1. Klasse
festlegen, die Zahl und die Breite der Klassen.2Arten: entweder ist untere Grenze offen, oder die
obere: (1,2] (2,3] … oder [1,2) [2,3) …Nicht normiert. Im Statistik-Programm SPSS ist die untere
Klassengrenze ausgeschlossen, die obere Klassengrenze eingeschlossen
Meist sind die Klassenbreiten gleich groß, die Untergrenze der 1. Klasse sollte eine ganze, möglichst
runde Zahl sein. Nicht mehr als etwa 20 Klassen. Richtlinie Klassenzahl ist ca. Wurzel aus n.
Faustregel: Anzahl k = 1 + 3,3 log(n), Breite: B = (max(xi) - min(xi)) / k,
zB n = 20, Daten von 163 bis 189, k = 5, b = (189-162,9)/5 = 5,2
Klassen: (162,9; 168] (168, 173] (173, 179] ( 179, 184] (184, 189]
3. Skalierung der Merkmale
Nominalskala
liegt vor, wenn begriffliche Merkmalsausprägungen durch zugeordnete Zahlen lediglich eine
Verschiedenartigkeit zum Ausdruck bringen.
Sie drückt die qualitativen Eigenschaften eines Merkmals aus und stellt die einfachste Form einer
Skala dar. Zulässige Relationen einer Nominalskala sind nur: "gleich" oder "ungleich".
Die den begrifflichen Merkmalsausprägungen zugeordneten Zahlen werden als Nominalzahlen
(Schlüsselzahlen) bezeichnet und haben eine reine Bezeichnungsfunktion.
Merkmale, die auf einer Nominalskala gemessen werden, heißen nominalskalierte Merkmale.
Dichotomes bzw. binäres Merkmal
Weist ein Merkmal nur zwei sich gegenseitig ausschließende (disjunkte) Ausprägungen auf, handelt
es sich um ein dichotomes bzw. binäres Merkmal.
Beispiel: Geschlecht kodiert als: männlich = 0 und weiblich = 1
Ordinalskala oder Rangskala
liegt vor, wenn Merkmalsausprägungen durch zugeordnete Zahlen nicht nur eine
Verschiedenartigkeit, sondern auch eine natürliche Rangfolge zum Ausdruck bringen.
Sie drückt die qualitativen Eigenschaften eines Merkmals aus.
Neben den Relationen der Nominalskala sind als weitere Relationen "größer als" und "kleiner als"
zulässig.
Abstände zwischen den Merkmalsausprägungen sind nicht quantifizierbar und besitzen keine
Aussagefähigkeit.
Begrifflichen Merkmalsausprägungen zugeordnete Zahlen werden als Rangzahlen bezeichnet.
Merkmale, die auf einer Ordinalskala gemessen werden, heißen ordinalskalierte Merkmale.
Beispiel: militärischer Dienstgrad, Zensuren, Wind- und Erdbebenstärken, Güteklassen für Produkte,
Aggressivität, Intelligenz, sozialer Status
Metrische Skala
Eine metrische Skala (Kardinalskala) liegt vor, wenn Merkmalsausprägungen durch zugeordnete
Zahlen sowohl Verschiedenartigkeit und Rangfolge als auch mess- und quantifizierbare Unterschiede
zum Ausdruck bringen.
Sie drückt die quantitativen Eigenschaften eines Merkmals aus. Merkmale, die auf einer metrischen
Skala gemessen werden, heißen metrisch skalierte Merkmale und ihre Merkmalsausprägungen sind
meist das Ergebnis eines Zähl- oder Messprozesses.
5
Die metrische Skala wird weiter unterteilt in: Intervallskala , Verhältnisskala, Absolutskala
Intervallskala liegt vor, wenn die Abstände (Differenzen) zwischen Merkmalswerten messbar und
plausibel interpretierbar sind. Quotienten können nicht sinnvoll gebildet werden.
Intervallskalierte Merkmale besitzen keinen natürlichen Nullpunkt und keine natürliche
Maßeinheit.
Beispiel: Temperatur °C, Kalenderzeitrechnung, Breiten- und Längengrade der Erde
Ein Temperaturanstieg von 10 Grad Celsius ist geringer als ein Temperaturanstieg von 14 Grad
Celsius.
Verhältnisskala liegt vor, wenn außer Abständen zwischen Merkmalsausprägungen auch Quotienten
von Merkmalswerten berechenbar und plausibel interpretierbar sind.
Verhältnisskalierte Merkmale besitzen einen natürlichen Nullpunkt, aber keine natürliche
Maßeinheit.
Beispiel: Längenmaße, Gewichtsmaße , Alter , Wertvolumen eines Warenkorbes
Ein 10 kg schwerer Stein ist doppelt so schwer wie ein 5 kg schwerer Stein.
Absolutskala wird eine metrische Skala genannt, die sowohl einen natürlichen Nullpunkt als auch
eine natürliche Maßeinheit besitzt.
Beispiel: Stückzahl
II Lageparameter univariater Datensätze
Zur Beschreibung wichtig: Welche Ausprägung tritt am häufigsten auf? Wo liegt das Zentrum der
Verteilung? Wie dicht liegen die Beobachtungen um das Zentrum?
1. Modus: relative Häufigkeit ist am größten. Modus bei Wahlverhalten oben: SPÖ
Modus bei Buchstabenverteilung in Buch Buchstabe A. usw..
2. Median: (Lageparameter). Merkmal ist zumindest ordinalskaliert, geordneter Datensatz liegt vor.
In der Mitte des geordneten Satzes liegt der Median. Für ungerades n ist er eindeutig definiert und
auch für qualitative Merkmals geeignet. Bei geraden n ist es der Mittelwert der beiden in der Mitte
liegenden. Das ist eindeutig nur bei quantitativen Merkmalen.
-Frage nach dem Alter der Väter:
9 Daten:
Median ist bei (9 + 1) /2 = 5. Stelle: 59
10 Daten:
Median ist an 5. und 6. Stelle zu berechnen: (58 + 59)/2 = 58,5
Bei qualitativen Merkmalen muss man sich bei geradem n u.U. für eine Ausprägung entscheiden,
wenn die beiden mittleren unterschiedlich sind. sehr gut, gut etc.…
6
In der Mitte befinden sich g und m. Man muss sich für einen davon entscheiden. Es ist hier nicht
eindeutig.
3. Mittelwert: (Lageparameter) verteilt die Summe der Beobachtungen gleichmäßig auf alle
Merkmalsträger.
Bsp. Anzahl der Geschwister in einer Urliste:
Mittelwert:
Gewogenes Mittel kann über die relativen Häufigkeiten der Ausprägungen fi (f = absolute
Häufigkeit / n) berechnet werden. Mit den Merkmalausprägungen ai gilt:
Für die stetigen Merkmale werden die Klassenmitten zur Berechnung genommen. Man berechnet
den Mittelwert von Unter- und Obergrenze jeder Klasse  mi
Für den Mittelwert bekommt man mit den entsprechenden relativen Häufigkeiten:
Häufig zentriert man die Beobachtungen, so dass der Mittelwert auf dem Nullpunkt liegt und man
die Abweichungen gut erkennen kann. Negativ: die Werte sind kleiner als der Mittelwert, positiv, sie
sind größer. Die Transformation ist einfach: Jeder Einzelwert wird verschoben:
und damit auch:
Das Problem beim Mittelwert sind Ausreißer, sie beeinflussen das Ergebnis stark. Der Median ist
dagegen nicht ausreißerempfindlich, er ist robust. Vor allem bei offenen Endintervallen  unendlich
kann der Mittelwert überhaupt nicht gebildet werden.
4. Quantile:
Mindestens 50% aller Beobachtungen sind kleiner oder gleich dem Median xmed und auch 50% sind
größer oder gleich dem Median. Ein Quantil xP sagt aus, dass p in Prozent kleiner oder gleich xp sind
und (1-p) in Prozent größer oder gleich.
Allgemein für die Quantile gilt bei geradem n: k = n.p, k ist eine natürliche Zahl
7
Ist n ungerade, dann ist k nicht eine natürliche Zahl. Es gilt dann:
also aufgerundet auf ganz,.
a) PERZENTILE sind Quantile, die in 1% -Segmente aufteilen.
Näherungsweises Berechnen von Perzentilen aus einer kleinen Stichprobe, die möglicherweise aus
einer normalverteilten Grundgesamtheit stammt:
Orden, Median bestimmen.
Differenz von Median und Minimum bedeuten 50 %
Daher Schluss:
Differenz … 50 %
p-Perzentilanteil……..p %
Perzentilanteil
p-Perzentil = Median -
p-Perzentil = Median +
Median  Minimum
50
 (50  p)
Maximum  Median  (p  50)
50
p < 50%
man rechnet 50-p vom Median weg
p> 50% man rechnet p-50 zum Median dazu
Am Beispiel: 5 Schülerinnen: Körpergröße 1,54 / 1,70,/ 1,73/1,85/ 1,89
Median 1, 73, Minimum 1,54. Maximum 1,89
20% Perzentil = 1,73 - (1,73 – 1,54) . 30 /50 = 1,616
80% Perzentil = 1,73 + (1,89-1,73). 30 / 50 = 1,826
17% Perzentil= 1,73 - (1,73 – 1,54) . 33/50 = 1,604
62% Perzentil: 1,73+ (1,89-1,73) . 12/ 50 = 1,768
Das exakte Berechnen von Perzentilen in einer Stichprobe, die aus einer normalverteilten
Grundgesamtheit stammt:
p%-Perzentil muss man aus z–Tabelle nachschlagen:
zB
20%  -0,845
80 %  0,845
17%  -0,954
62%  0,305
Dann gilt:
p-Perzentil = Mittelwert + z(p). Standardabweichung
8
Im Beispiel: 5 Schülerinnen: Körpergröße 1,54 / 1,70,/ 1,73/1,85/ 1,89
Wenn ich weiß, dass es normalverteilt ist, dann kann man rechnen:
x  1,742 , s  0,138
20% Perzentil = 1,742 -0,845 . 0,138 = 1,625
80% Perzentil =1,742+0,845 . 0,138 = 1,858
17% Perzentil =1,742-0,945 . 0,138 = 1,61
62% Perzentil = 1,742+0,305 . 0,138 = 1,784
Nimmt man als Mittelwert den Median, dann bekommt man: 1,613/1,847/1,598 /1,77
b) QUARTILE sind Quantile, die in 4 Sektoren aufteilen zu je 25%.
Die Quantile x0,75 und x0,25 für p = 75% und 25% heißen oberes und unteres Quartil
BSP: Alter der Teilnehmer einer Fortbildungsveranstaltung:
Geordneter Datensatz
Median ist 28,
für unteres Quartil gilt p = 0,25, n = 25, k = ca.7 also x0,25 = 26,
für das obere: k = 25 . 0,75 = ca.19 x0,75 = 31,5
III Beschreibung der Variabilität
Neben der Lage einer Verteilung interessiert. die dicht die Beobachtungen um den Lageparameter
liegen. Man spricht von STREUUNG.
1. Stichprobenvarianz s² in einer Stichprobe
Das wichtigste Streuungsmaß berechnet die mittlere quadratische Abweichung vom
Zentralwert.(Quadratisch deshalb, damit sich die Vorzeichen der Abweichungen nicht auswirken)
In einer Stichprobe mit dem Mittelwert x gilt für die Varianz:
Durch n wird dividiert, wenn man die Grundgesamtheit untersucht, die Varianz wird dann mit σ²
bezeichnet
2. Standardabweichung s in einer Stichprobe
Sie ist die Wurzel aus der Varianz und weist die gleiche Maßeinheit wie die Beobachtungsdaten auf.
9
auch für die Grundgesamtheit wird die Standardabweichung durch die Wurzel gerechnet und mit σ
bezeichnet.
BSP: Höhe von monatlichem Taschengeld bei 3 Kindern: 4,5,6 €
in einer 2. Gruppe: 3,5,7 €
In der 1. Gruppe gilt:
s² = ½ ( 1²+0²+(-1)²) = 1  s = 1
In der 2. Gruppe s² = ½ ((-2)² + 0² + 2²) = 4 s= 2
Diese Werte lassen sich standardisieren, dh. Nullpunkt um 5 verschieben… und durch s dividieren:
1. Gruppe:
2. Gruppe:
3. Spannweite R: Differenz zwischen größtem und kleinsten Wert
4. Interquartilsabstand IQR:
Differenz zwischen oberen und unteren Quartil.
BSP: Bestimme Medina und IQR:
Dieses Beispiel beruht auf einer Messreihe mit den folgenden 20 Datenpunkten:
9, 6, 7, 7, 3, 9, 10, 1, 8, 7, 9, 9, 8, 10, 5, 10, 10, 9, 10 und 8
5. Boxplot
visualisiert die Verteilung eines quantitativen Merkmals sehr gut. 5-Zahlen-Zusammenfassung:
Darstellung des Datensatzes:
5 Zahlen: Minimum, unteres Quartil, Median, oberes Quartil. Maximum
Bild:
10
Zeigt an, dass die Datenverteilung unsymmetrisch und linkssteil. IQR = 5, Spannweite R = 15
6. Variationskoeffizient
Der Variationskoeffizient VarK ist eine statistische Kenngröße und ist definiert als die relative
Standardabweichung, d.h. die Standardabweichung dividiert durch den Mittelwert einer
Zufallsvariablen X. In der Regel wird der Variationskoeffizient in Prozent angegeben, d. h.
Eine Zufallsvariable mit großem Mittelwert weist im Allgemeinen eine größere Varianz auf als eine
mit einem kleinen Mittelwert. Da die Standardabweichung nicht normiert ist, kann im Allgemeinen
nicht beurteilt werden, ob eine Varianz groß oder klein ist. (Relativieren!)
Beispiel: So schwanken beispielsweise die Preise für ein Pfund Salz, das im Durchschnitt wohl etwa
0,5 Euro kostet, im Cent-Bereich, während Preise für ein Auto, das im Mittel beispielsweise 20.000
Euro kostet, im 1000-Euro-Bereich variieren.
Der Variationskoeffizient hingegen stellt eine Art Normierung der Varianz dar. Das bedeutet:
Ist die Standardabweichung größer als der Mittelwert, so ist der Variationskoeffizient größer 1.
11
Bivariate Zusammenhangs-Analyse
Man untersucht die Abhängigkeit von 2 Merkmalen voneinander. Bei nominal- und ordinalskalierten
qualitativen Merkmalen stellt man am besten die Grafiken – Boxplot und/oder Säulendiagramm –
nebeneinander.
Bei quantitativen Merkmalen lässt sich der Zusammenhang auch noch durch Rechnung nachweisen
und beurteilen.
BSP: Zusammenhang von Noten bei Studenten:
Tabelle
Streudiagramm
geteilt in 4 Quadranten
deutet auf einen positiven linearen Zusammenhang hin: Bessere Noten Im Abitur führen zu besseren
Noten im Vordiplom.
I) Empirische Kovarianz covx,y
Er gibt an, ob ein Zusammenhang zwischen 2 quantitativen Größen x und y existiert.
Für diese Summe erhält man einen positiven Wert, wenn die meisten Punkte des Streudiagramms im
ersten und im 3. Quadranten liegen, negativ dagegen, wenn sie im 2. und 4. liegen.
12
Für das Beispiel der Noten ergeben sich die folgenden Werte:
Summe: 1,21 / 6 = 0,202
Die Zahl bestätigt einen positiven Zusammenhang zwischen den beiden Größen. sie sagt aber nichts
aus über die Stärke des Zusammenhangs.
Daher wird die Kovarianz normiert. Dies ergibt den
II Pearson Korrelationskoeffizient von 2 metrisch skalierten Merkmalen
oder kurz
r
cov x ,y
sx  s y
wobei sx 
(x  x)² ,s
i
n1
y

(y  y)² ,
i
n 1
In unserem Beispiel mit den Noten sind 2 Spalten zu ergänzen:
Summen: 0,473
0,093
daher r = 0,95
Interpretation:
Der Pearson Korrkoeff charakterisiert auch die Stärke des Zusammenhangs. Er liegt immer zwischen
-1 und +1.
1 ist er, wenn ein exakter linearer Zusammenhang mit positiver Steigung der Geraden besteht.
-1 , wenn ein exakter linearer Zusammenhang mit einer negativen Steigung besteht.
Liegt der Wert in der Nähe von 1 oder -1 so ist ein starker Zusammenhang anzunehmen.
Es gilt ungefähr die folgende Faustregel bei nicht zu kleiner Stichprobe, zumindest größer als 5!:
r >0,7 oder < -0,7 starker Zusammenhang
r zwischen 0,4 und 0,7 mittlerer Zusammenhang, 0 bis 0,4 niedriger bis kein Zusammenhang.
13
III Rangkorrelationskoeffizient von Spearman
bei 2 metrisch oder 2 ordinalskalierten Merkmalen
Pearson gibt einen linearen Zusammenhang, Spearman dagegen einen monotonen (nicht unbedingt
linear!). Monoton liegt vor, wenn für 2 beliebige Punkte (xi, yi ) und (xk,yk ) gilt, dass xi < xk mit yi < yk
( steigend) oder xi < xk mit yi > yk (fallend) also 2 zumindest ordinalskalierte Merkmale!
Es werden daher die Maßzahlen jedes Merkmals durch die RÄNGE ersetzt. Der Rang ri (si ) gibt an, an
der wie vielten Stelle xi in der geordneten Datenmenge steht.
In unserem Notenbeispiel sind die Ränge für die Abiturnoten:
r1= 2
r1 = 4
r3 = 3
r4 = 1
r5 =5
r6 = 6
die Ränge für die Diplomnoten:
Bei gleich großen Werten wird ein durchschnittlicher Rang gegeben. z. an 4. und 5. Stelle ist die Zahl
6. Dann hat r4 = 4,5 und r5 = 4,5….
Der Rangkorrkoeff nach Spearmann lautet dann:
Wenn es einen Zusammenhang in den Rangfolgen gibt, dann müsste gelten: ri = si
das bedeutet: Ein streng monoton wachsender Zusammenhang besteht bei rS = 1.
streng monoton fallend bei rS = -1 Bei 0 gibt es keinen Zusammenhang.
Bsp mit den Noten:
rS = 0,886  Es besteht ein guter positiver Zusammenhang der beiden Merkmale
14
IV Lineare Regression zweier metrisch-skalierter Merkmale (intervallsk)
In diesem speziellen Fall, wenn ein linearer Zusammenhang zwischen 2 intervallskalierter Merkmalen
besteht, so kann dieser Zusammenhang mit Hilfe einer Geradengleichung beschrieben werden.
Die Gerade repräsentiert die Punktewolke im Streudiagramm. Sie beschreibt sie Abhängigkeit einer
Größe von der anderen. Zielgröße in y-Achse, Einflussgröße in die x-Achse.
Sie wird mit der Methode der kleinsten Fehlerquadrate berechnet.
Sie lautet y = a + bx …… Bezeichnungen schwanken in der Literatur ( y = kx +d, etc…)
b ist der Anstieg der Geraden, a der Abschnitt auf der y-Achse.
Durch das Minimieren der Fehlerquadrate erhält man für b:
b
cov x ,y (xi  x)  (yi  y)

sx ²
(xi  x)²
Mit Rückeinsetzen in die Geradengleichung y = a + bx berechnt man a:
a  y  bx
Im Falle unseres Notenbeispiels ergibt sich
Abitur x
1,7
2,4
2
Vordiplom
y
2,2
2,4
2,1
xi-x
-0,5
0,2
-0,2
yi-y
-0,1
0,1
-0,2
(xi-x)(yi-y)
0,05
0,02
0,04
(xi-x)²
0,25
0,04
0,04
b=
a=
1,1
2,9
3,1 Mittelw
2,2
1,8
-1,1
-0,5
0,55
1,21
2,7
0,7
0,4
0,28
0,49
2,6 Mittelw
0,9
0,3
0,27 Summe
0,81 Summe
2,3
1,21
2,84
0,42605634
1,36267606
3
Vordiplomnote
2,5
2
1,5
1
Regressionslinie : y = 0,4261x + 1,3627
0,5
0
0
0,5
1
1,5
2
2,5
3
3,5
Abiturnote
Die Gleichung der Regressionslinie kann für Vorhersagen benützt werden, wie sich y mit x auch über
die gegebene Wertemenge hinaus verhält. EINSETZEN DER WERTE in die Regressionslinie!
BSP: welche Note bekommt jemand im Vordiplom, wenn er beim Abitur 1,5 hat? x = 1,5 einsetzen:
y = 2. Note 2 ist zu erwarten. Stimmt mit der Zeichnung überein.
15
V Kontingenz
= Korrelation von 2 nominalskalierten Merkmalen
Sonderfall: Kontingenz von 2 Merkmalen mit nur 2 Ausprägungen (dichotom) = Assoziation.
Zur Beurteilung des Zusammenhangs stehen Assoziations- bzw. Kontingenzkoeffizienten zur
Verfügung. Die wichtigsten sind Phikoeffizient und Cramers V
1. Phikoeffizient
Für die Analyse des Zusammenhangs benützt man Kontingenztafeln. Bei Assoziationen genügt die
sogenannte 4-Feldertafel.
Umfrage ergab in einer Stichprobe bei der Fragestellung: Raucher/Nichtraucher und Mann/Frau die 2
Merkmale: x..Rauchverhalten mit 2 Ausprägungen und das Merkmal Geschlecht mit 2 Ausprägungen.
Stichprobenumfang n=20
Merkmal x: 15 Raucher.
Merkmal y: 7 Männer, wovon 6 Männer Raucher sind.
Zusammenstellung in der 4-Feldertafel:
Schema der Tafel:
Merkmal x
Ausprägg
Gegenteil
Spaltensumme
Merkmal Y
Auspräg
Gegenteil
a
b
c
d
a+c
b+d
Raucher
Nichtraucher
SP-Summe
Geschlecht
Mann
Frau
6
9
1
4
7
13
Zeilensumme
a+b
c+d
n
im Beispiel:
Rauchverh.
Zl-Summe
15
5
20
Definition des Phikoeffizienten:

ad  bc
 0,1816
(a  b)(c  d)(a  c)(b  d)
Nur ein schwacher Zusammenhang sichtbar zwischen Rauchverhalten und Geschlecht in dieser
Stichprobe. Im Verhältnis finden sich unter Männern mehr Raucher als bei Frauen.
Der Wert + 1 und -1 würde einen vollständigen Zusammenhang darstellen, 0 keinen.
+1 wäre der Fall, wenn alle Männer rauchen und keine Frau, -1, wenn alle Frauen rauchen und keine
Männer.
16
2. Cramérs V
ist ein sogenanntes standardisiertes Chi-quadrat χ²- Maß und ist definiert mit:
n…Zahl der Beobachtungen, k Zahl des Minimum von Zeilen und Spaltenzahl.
Bei 4-Feldern ist k = 2 und es gilt hier die Beziehung Φ² = χ² / n
Daher ist im Falle einer 2x2-Tafel V =+ Φ… Nur positive Werte!
V



 ad  bc  ²
(a  b)(c  d)(a  c)(b  d)
  speziell nur für 2x2!!!
Cramérs V = 0: es besteht kein Zusammenhang zwischen X und Y
Cramérs V = 1: es besteht ein perfekter Zusammenhang zwischen X und Y
Cramérs V = 0,6: es besteht ein relativ starker Zusammenhang zwischen X und Y
Da Cramérs V immer positiv ist, kann keine Aussage über die Richtung des Zusammenhangs getroffen
werden.
Cramérs V –Kontingenzkoeffizient in unserem Beispiel Geschlecht, Rauchverhalten: 0,1816, daher
geringer Zusammenhang.
Cramérs V ist auch für nichtlineare Korrelationen einsetzbar, Phi nicht!
VI Punktbiseriale Korrelation
= Zusammenhang zwischen metrisch und nominal (dichotom)
Zusammenhang zwischen einem metrisch skalierten (intervallskal) Merkmal und einem künstlich
numerisch dichotomen Merkmal (0,1)
Bsp: Geschlecht und Körpergröße, nach Zusammenhang zwischen Männern und Frauen untersucht.
Die Formel dafür lautet:
Differenz der Mittelwerte durch alle Beobachtungen
gebrochen durch Stichprobenstandardabweichung,
bezogen auf beide Stichproben s : Wurzel n1n2
17
Die Berechnung ergibt:
Es besteht ein Zusammenhang zwischen Geschlecht und Körpergröße. Männer sind größer.
VII Biseriale Rangkorrelation
= Korrelation zwischen intervallskaliert (auch ordinalsskaliert) und nominal
dichotom.
Dieses Kapitel ist eine Zusammenfassung aus der Seite:
http://www.lernstats.de/web/php/glossar.php?sub=&glossar=biseriale_korrelation
Die Formel der biserialen Korrelation liefert eine Schätzung des Zusammenhangs zweier prinzipiell
intervallskalierbarer normalverteilter Variablen, von denen eine jedoch nur mit dichotomisierten
Daten vorliegt.
rbis 
xP  xq
sx  p  q
 yˆ
In Formel haben die Abkürzungen die folgende Bedeutung:
Mittelwert in der intervallskalierten Variablen, berechnet nur aus den Personen, die im
dichotomisierten Merkmal die ´höhere´ bzw. ´bessere´ Alternative haben (z.B. die über dem
Median, oder ja-Beantworter etc.).
Mittelwert in der intervallskalierten Variablen berechnet aus der Gruppe mit den ´unteren´
Alternativen (niedriger, schlechter, unter dem Median, Nein-Sager, etc.).
Standardabweichung in der intervallskalierten Variablen, über alle Personen berechnet (wie
bekannt!).
Prozentualer Anteil der Personen mit der
´höheren´ Alternative (z.B. 0,40).
Prozentualer Anteil der Personen mit der ´unteren´ Alternative (z.B. 0,60). (Wie man sofort sieht,
muss gelten p+q = 1,00).
Ordinate des z-Wertes, an der die Standardnormalverteilung im Verhältnis p:q aufgeteilt wird.
Das klingt kompliziert und wird deshalb für Interessenten im Anschluss noch näher erläutert.
Für die konkrete Berechnung können die Werte von jedermann leicht einer Tabelle entnommen
werden.
18
Bsp:
50 Schüler werden zwei Tests unterzogen. Der erste Test ist ein Intelligenztest, der zweite ein
Kreativtest. Von beiden Merkmalen wird angenommen, daß sie sich normal verteilen. Das Merkmal
Kreativität wird in zwei Klassen aufgeteilt:


über dem Median: ´hoch kreativ´,
unter dem Median: ´niedrig kreativ´.
Stichprobe: 50 Schüler der vierten Klasse einer Hauptschule.


Merkmal 1 (kontinuierlich) : Intelligenz (x)
Merkmal 2 (eigentlich kontinuierlich, aber in zwei Klassen aufgeteilt) : Kreativität (y)
Die Ergebnisse werden in der folgenden Tabelle mitgeteilt, dabei bedeuten:
Spalte (1) : Intelligenzquotient,
Spalte (2) : Anzahl der Vpn mit dem entsprechenden Intelligenzquotienten, die als ´hoch kreativ´
eingestuft wurden,
Spalte (3) : Anzahl der als ´niedrig kreativ´ eingestuften Vpn,
Spalte (4) : Summe aus (1) und (2), d.h. Gesamtzahl der Vpn mit einem entsprechenden
Intelligenzquotienten.
Diese Tabellendarstellung kennen wir schon aus der Berechnung der biserialen Korrelation:
IQ hoch kreativ
(1)
(2)
niedrig kreativ Summe
(3)
(4)
100
106
111
114
115
118
119
120
122
125
0
1
2
3
5
6
7
2
2
2
1
1
4
6
3
2
1
1
1
0
1
2
6
9
8
8
8
3
3
2
np = 30
nq = 20
n = 50
Wir berechnen die folgenden Größen (bei p = hoch kreativ und q = niedrig kreativ):
117,33
113,80
4,63
0,60
0,40
Jetzt muss noch der Wert ̂ aus der Tabelle abgelesen werden. Genau passiert bei der Bestimmung
von ̂ Folgendes: Wir wissen, dass unter der Kurve der Standardnormalverteilung (SNV) insgesamt
eine Fläche von 1,00 liegt (sie lässt sich so definieren). Wir können nun durch die SNV eine
Senkrechte genau so legen, dass sie die Fläche der SNV genau im Verhältnis von p:q aufteilt.
19
Diese Senkrechte schneidet die z-Werte in einem bestimmten Punkt, d.h. bis zu diesem bestimmten
z-Wert liegen 60 % der Werte in einer SNV und darüber genau 40 %. Nun sagt die Höhe der SNV über
bestimmten z-Werten etwas über die Häufigkeit des Auftretens dieser z-Werte aus (in einer
theoretischen Verteilung muss es eigentlich heißen: ´über die Wahrscheinlichkeit des Auftretens´).
Der von uns gesuchte ̂ -Wert ist nun die genaue Höhenangabe (=Ordinate) der SNV-Kurve über dem
durch p und q bestimmten z-Wert: z = 0,25; die Ordinatenhöhe in diesem Punkt beträgt
̂ =0 ,3867
In unserem Fall ist p = .60 (also größer als q) und führt zu dem Wert: p . q/ ̂ = 0,6212
Insgesamt ergibt sich:
rbis = (117,33 -113,80) / 4,63 . 0,6212 = 0,.474
In dem Beispiel zeigt sich also ein mittlerer bis geringer Zusammenhang zwischen der Kreativität und
der Intelligenz von Schülern.
Auch bei der biserialen Korrelation interpretieren wir den Koeffizienten ohne das Vorzeichen wegen
der Beliebigkeit, mit der die Alternativklassen mit p bzw. q bezeichnet werden können.
Weiterführend siehe: www.lernstats.de
20
Inferenzstatistische Methoden des Schätzens
Inferenz heißt Beurteilung, Schluss. In der Schließenden Statistik geht man von Stichproben aus und
schließt auf die Größen der Grundgesamtheit. Man benützt dabei die Methoden der
Wahrscheinlichkeitsrechnung.
I Wichtige Wahrscheinlichkeitsverteilungen
Man nimmt in der schließenden Statistik fast immer an, dass alle Beobachtungen normalverteilt sind
- (zumindest angenähert auch bei diskreten Merkmalen mit binomial –, hypergeometrisch und
poissonverteilten Größen. Das ist bei hinreichend großen Stichproben möglich)). Daher ist das
Verständnis der Normalverteilung grundlegend.
1. Die Normalverteilung N(µ,σ) nach GAUSS
Die Normalverteilung beschreibt das Auftreten von stetigen Merkmalen. Der typische verlauf der
WahrscheinlichkeitsDICHTE ist eine symmetrische Glockenkurve. (Dichte hat mit den Häufigkeiten
des Auftretens zu tun.)
Die Gleichung der Glockenkurve kann durch eine Funktion der ZUFALLSVARIABLEN beschrieben
werden. Eine Zufallsvariable – meist mit Großbuchstaben bezeichnet - ist eine Funktion, die den
Ergebnissen eines Zufallsexperiments Werte zuordnet.
zB X (x) = 0, wenn x Kopf der Münze und 1, wenn x Zahl der Münze
Die Zufallsvariable X für die Normalverteilung wird beschrieben durch die Dichtefunktion (Glocke).
die auftretenden Parameter sind µ = Mittelwert und σ = Standardabweichung.
Die Gleichung der Dichtefunktion:
f(x) 
(x µ)²

1
e 2 ²
 2
Die Wahrscheinlichkeit in Prozentanteilen wird durch den Inhalt der Fläche unter der Dichtefunktion
repräsentiert, wobei die untere Grenze der Glocke - ∞ ist, die obere Grenze der Glocke +∞. die
gesamte Fläche hat die Größe 1 (100%)
( ) = 1,
Es gilt:
F(x) = ∫
wobei außerhalb von µ ± 3σ praktisch keine Elemente mehr auftreten! Die Grafik zeigt die Verteilung
in σ, 2σ und 3σ-Abweichungen
21
2. z-Verteilung = standardisierte Normalverteilung N(0,1)
Schiebt man den Mittelwert auf 0 und reduziert σ auf 1, dann erhält man die z-Verteilung. Die
Transformation erfolgt mit der Variablen z:
z
xi  
z-Transformation

Die Form der Kurve ist standardisiert, die Flächen kann man für Z tabellieren. Man kommt über die
Transformationsformel aber zu den Aussagen für eine reale Verteilung mit µ und σ .
Die Dichtefunktion (Funktionswerte der Kurve) lautet:
Die Verteilungsfunktion (Fläche unter der Kurve) erhält man mit
beachte: die Fläche zählt immer von links!
Form der Kurve: Symmetrisch, daher Φ (-z) = 1 - Φ (z)
Tabellenwerte für Φ für die ersten Zahlen: Tabelle siehe Anhang
z
0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 5000 5040 5080 5120 5160 5199 5239 5279 5319 5359
0,1 5398 5438 5478 5517 5557 5596 5636 5675 5714 5753
0,2 5793 5832 5871 5910 5948 5987 6026 6064 6103 6141
0,3 6179 6217 6255 6293 6331 6368 6406 6443 6480 6517
0,4 6554 6591 6628 6664 6700 6736 6772 6808 6844 6879
usw
dh. die Fläche von -∞ bis z = 0,4 ist 0,6554 Einheiten, das sind 65,54 %
Die Fläche von -∞ bis z = -0,4 ist 1- 0,6554 = 0, 3446, das sind 34,46%
22
BSP: Die Fahrzeit eines Studenten ist z-verteilt mit µ = 40 und Varianz 4. Wie wahrscheinlich ist es,
dass er nur 36 Minuten braucht.
P…Abkürzung für Wahrscheinlichkeit.
Aus der N(0,1) – Tabelle kann man entnehmen: Φ (2) = 0,977, daher:
2,3% wahrscheinlich, dass er nur 26 Minuten braucht.
Man kann diskrete Verteilungen, insbesondere die Binomialverteilung nach Bernoulli an die
Normalverteilung anpassen, wenn n groß genug ist. Dies geschieht durch die Umwandlungsformeln:
µ = n. p und σ² = n. p. (1-p)
BSP: Ein Würfel wird 300 mal geworfen, wie wahrscheinlich ist die Anzahl der Sechserwürfe kleiner
als 40?
Die Wahrscheinlichkeit beim 1. Wurf 6 zu werfen ist p = 1/6, nicht 6 zu werfen daher 5/6.
P(X<40) müsste man mit 40 Schritten binomisch lösen. Hier ist die N(0,1) gut anzunähern:
µ= 300. 1/6 = 50
σ² = 300 . 1/6 . 5/6 =41,67, σ= 6,455
in N(0,1) transferieren:
z = (40 – 50) / 6,455= -1,55
Φ (-1,55) = 1- Φ(1,55) Tabelle = 1- 0,9394 = 0,0606 6,06 % wahrscheinlich….
Will man die Näherung genauer machen, so berücksichtigt man, dass die diskrete Verteilung nur in 1Schritten gehen kann und berechnet z genauer:
√
(
)
..Stetigkeitskorrektur durch + 0,5 bei oberer Grenze, - 0,5 bei unterer Grenze.
In unserem Beispiel:
z = (40,5 – 50)/ 6,455 = -1,45
Φ (-1,45) = 1- Φ(1,45) Tabelle = 1- 0,9265 = 0,0735 …. 7,35 % wahrscheinlich….
23
3. Chi-Quadrat-Verteilung (eine Prüfverteilung)
Prüfgrößen sind Vorschriften, nach denen aus einer vorliegenden Stichprobe eine Zahl, ein Wert
berechnet wird. (Stichprobenmittelwert, Stichprobenvarianz, oder das Verhältnis zweier Varianzen).
Wenn s² die Varianz einer zufälligen Stichprobe des Umfanges n einer normalverteilten
Grundgesamtheit mit der Varianz σ² ist, dann wird die Zufallsvariable
f = n-1… Freiheitsgrad, ist die Zahl der frei verfügbaren Beobachtungen, n ist die Zahl voneinander
unabhängiger Beobachtungen in der Stichprobe.
Man sieht die Dichtefunktionen χ² - Verteilung im Diagramm für f = 5, 10, 15 und 20
Je höher f, desto mehr nähert sich die Kurve der Grafik einer Normalverteilung an…
Der Mittelwert der χ²-Verteilung : µ = f, Varianz σ² = 2f
Die χ²- Tabellen für viele Freiheitsgrade und die wichtigsten Prozentzahlen
0,5%;1%; 2,5%; 5%; 10%; 50%; 95%; 97,5%; 99% Tabelle Siehe im Anhang
Wahrscheinlichkeit p
Freiheitsgrade 0,005 0,01 0,025 0,05
0,1
0,5
0,9
0,95 0,975
0,99 0,995
1
0,00 0,00
0,00 0,00 0,02 0,45
2,71
3,84
5,02
6,63
7,88
2
0,01 0,02
0,05 0,10 0,21 1,39
4,61
5,99
7,38
9,21 10,60
3
0,07 0,11
0,22 0,35 0,58 2,37
6,25
7,81
9,35 11,34 12,84
4
0,21 0,30
0,48 0,71 1,06 3,36
7,78
9,49 11,14 13,28 14,86
5
0,41 0,55
0,83 1,15 1,61 4,35
9,24 11,07 12,83 15,09 16,75
6
0,68 0,87
1,24 1,64 2,20 5,35 10,64 12,59 14,45 16,81 18,55
7
0,99 1,24
1,69 2,17 2,83 6,35 12,02 14,07 16,01 18,48 20,28
8
1,34 1,65
2,18 2,73 3,49 7,34 13,36 15,51 17,53 20,09 21,95
9
1,73 2,09
2,70 3,33 4,17 8,34 14,68 16,92 19,02 21,67 23,59
10
2,16 2,56
3,25 3,94 4,87 9,34 15,99 18,31 20,48 23,21
usw
Wird bei zahlreichen Prüfungsverfahren eingesetzt, hauptsächlich bei nominalen 1 oder 2 Variablen
(abhg oder unabhg).
24
4. Student- oder t-Verteilung (eine Prüfverteilung)
Die Verteilung der Prüfgröße, die aus dem Quotienten aus der Abweichung eines
Stichprobenmittelwerts vom Mittelwert der Grundgesamtheit gebildet wird, folgt bei
normalverteilter Grundgesamtheit einer t-Verteilung, wenn µ und σ nicht bekannt sind und mit den
Stichprobendaten geschätzt werden müssen. Die t-Verteilung ähnelt der z-Verteilung: µ = 0. Die
Definition:
t
x 
z

s/ n
²/ f
Grafische Darstellung für f = 2,10 und100 und die Standard Normalverteilung rot
Die Dichtekurve von t verläuft flacher als die z-Kurve. Die Standardabweichung ist bei kleinem f
größer, nähert sich mit wachsendem n immer mehr der z-Verteilung an.
σ² = f/(f-2) für f>2.
Tabelliert sind die t-Werte wieder für die wichtigsten Prozentwerte, die durch die Fläche unter der
Kurve repräsentiert wird. Tabelle im Anhang
f
t-Werte bei gegebenen % der Fläche von links
65%
70%
75%
80%
85%
90%
95%
97,5%
99%
99,5%
1 0,510
0,727
1,000
1,376
1,963
3,078
6,314
12,706
31,821
63,656
2 0,445
0,617
0,816
1,061
1,386
1,886
2,920
4,303
6,965
9,925
3 0,424
0,584
0,765
0,978
1,250
1,638
2,353
3,182
4,541
5,841
4 0,414
0,569
0,741
0,941
1,190
1,533
2,132
2,776
3,747
4,604
5 0,408
0,559
0,727
0,920
1,156
1,476
2,015
2,571
3,365
4,032
6 0,404
0,553
0,718
0,906
1,134
1,440
1,943
2,447
3,143
3,707
7 0,402
0,549
0,711
0,896
1,119
1,415
1,895
2,365
2,998
3,499
8 0,399
0,546
0,706
0,889
1,108
1,397
1,860
2,306
2,896
3,355
9 0,398
0,543
0,703
0,883
1,100
1,383
1,833
2,262
2,821
3,250
10 0,397
0,542
0,700
0,879
1,093
1,372
usw
1,812
2,228
2,764
3,169
Es gibt auch t-Werttabellen, die für die % die Fläche zwischen –t und +t angeben.
Vorsicht beim Lesen der Tabelle!
25
Die t-Verteilung liefert das wichtigste Verfahren für die Überprüfung von Stichprobenwerten.
- Intervallskaliert, 1 Variable, Stichprobe > 30 und normalverteilt
-intervallskaliert, 2 Variable unabhängig, beide n>30, Varianzen gleich
- Intervallskliert, 2 Variable, abhängig , n>30 oder die Differenzen normalverteilt
Eignet sich für die Prüfung der Verteilung von Stichprobenmittelwerte auch bei sehr kleinem n.
BSP:
a) Es ist für f = 8 der Wert t1 zu ermitteln, für den gilt: 10% der Fläche von unter der Kurve liegen
rechts von t1.
b) Es sind für f = 8 die Werte t1 und t2 zu ermitteln für die gilt: 10% der Fläche liegen symmetrisch
verteilt außerhalb des Intervalls 1 bis t2..
Skizze:
a)
Die t- Tabelle ist in Prozent-Intervallen eingeteilt. 10 % rechts bedeuten 90% links und die
zugeordnete Fläche 1-α ist daher für 90% zu nehmen für f = 8:
 t1 = 1,397
b)
In diesem Falle liegen 5% links und 5% rechts. Wir suchen die 95% Marke für f = 8, das ist t2 = 1,86.
Die 5% Marke ist symmetrisch, daher t1 = -1,86
26
5. Die F-Verteilung nach Fisher (Prüfverteilung)
Sie wird hauptsächlich zur Prüfung von 2 Varianzen im Vergleich benützt.
Sie ist stetig und unsymmetrisch und hängt von 2 Parametern ab, den Freiheitsgraden f1 und f2 .
F ist der Quotient zweier jeweils durch die zugehörige Anzahl von Freiheitsgraden geteilter ChiQuadrat-verteilter Zufallsvariablen
Für f1 = n und f2 = m gilt:
²
s²
F(m,n)  m  1
² s2 ²
n
Grafische Darstellung der Funktionen
Die F-Tabellen sind sehr umfangreich, weil sie für beide Parameter möglichst viele Freiheitsgrade
berechnet hat. Siehe Anhang für 95% und 97,5%
Die Tabelle für 95 % -Quantile sind besonders wichtig: F-Wert ist groß bei kleinem Freiheitsgrad!
usw
BSP:
Welchen F –Wert erhalten wir als obere Begrenzung der Fläche von 95% bei m = 4 und n= 3 sowie
umgekehrt bei m = 3 und n = 4. Was bei m = 6 und n = 8?
6,5; umgekehrt 9,12 ( nicht gleich!)
4,15 (kleiner bei höherem n,m )
27
II Konfidenzintervalle = Vertrauensbereiche einer Schätzung
und die Signifikanz
Eine Hauptaufgabe der beurteilenden Statistik besteht darin, aus den Verhältnissen in einer
Stichprobe (Sample) auf die Verhältnisse in der Grundgesamtheit (Kollektiv, Population) zu
schließen. Häufig ist aus der relativen Häufigkeit in der Stichprobe für das Auftreten eines Merkmals
auf die Wahrscheinlichkeit µ oder p in der Grundgesamtheit zu schließen.
BSP: Wählerverhalten…
Man zieht eine Zufallsstichprobe mit n Elementen und beobachtet den Mittelwert oder die relative
Häufigkeit mit der interessierenden Eigenschaft. Diese so gewonnenen Werte sind dann die
Schätzwert ̂ ̂ für die Grundgesamtheit, die natürlich nicht wirklich dem realen µ, p in der
Grundgesamtheit genau entsprechen können. Aus diesem Grund baut man diese
„Punktschätzungen“ zu je einem Intervall aus, innerhalb dessen der wahre Wert µ oder p des
gesuchten Parameters mit einer vorher ausgewählten Wahrscheinlichkeit liegt. Das dazugehörige
Intervall heißt Konfidenzbereich oder Vertrauensbereich für die Schätzung für das unbekannte µ, p
unter Annahme von zB 95% (99%, 99,7% usw.)
1. Bestimmung des Konfidenzintervalls für den Prozentanteil p an einem Beispiel, in dem σ
(Grundgesamtheit) als bekannt vorausgesetzt wird und dem Schätzwert ̂ aus der Stichprobe
entspricht.
x ..Zahl der Wähler
n = 500 Wahlberechtigte bilden die Stichprobe. x =120 sind für FPÖ.
Gesucht: Wie viel Prozent wird die FPÖ bei den Wahlen erreichen, wenn man den Prozentsatz mit
95%- iger Genauigkeit haben möchte?
Es handelt sich um eine Binomialverteilung, die wir einer Normalverteilung annähern.
µ = np, σ² = np(1-p)
̂ = 120 / 500 = 0,24 =x/n
Daraus berechnet sich die Standardabweichung dieser Schätzung ̂ √
(
)
Wir können annehmen, dass p nicht sehr von ̂ abweicht, so dass der Schätzwert von ̂ dem σ der
Grundgesamtheit entspricht. Da dieser Wert > 3 kann die Normalverteilung benützt werden:
Für das Konfidenzintervall unter 95% Sicherheit gilt die Beziehung:
|x-µ| z σ oder mit den Formeln für µ und σ:
|x-np| z √ (
)
und z berechnet man aus: 0,95 = 2 Φ(z) – 1  z = 1,96
setzt man ein und löst die Gleichung unter Berücksichtigung des Betragstriches ( 2 Fälle + und -)
so bekommt man im 1. Fall: 120 – 500 p = 1,96 √
(
)
Die Lösung dieser Gleichung p1 = 0,205
Für den 2. Fall: -120 + 500p = 1,96 √
(
) erhält man p = 0,279
Damit ist das Intervall für den Prozentanteil der FPÖ-Wähler in der Grundgesamtheit :
20,5% bis 27,9 % in einer Aussage mit 95% Sicherheit.
Die Unsicherheit beträgt 5%, man bezeichnet sie mit α= Irrtumswahrscheinlichkeit oder Signifikanz.
Konfidenz = Sicherheit = 95% = 1- α
28
Will man die Sicherheit erhöhen auf 99%, Unsicherheit (Signifikanz) 1% so ändert sich in der
Rechnung nur der Wert von z:
0,99 = 2 Φ(z) – 1  z = 2,326
Dies führt zu p1 = 0,1985 und p2 = 0,287 also von 19,9% zu 28,7 %. Das Vertrauensintervall wird
etwas breiter, die Schätzung der Prozentanteile bei der hohen Sicherheit der Aussage ist daher nur
weniger präzise möglich.
Im Übrigen kann man auch durch Division durch n bei den oben genannten Beziehungen
|x-µ| z σ oder mit den Formeln für µ und σ:
|x-np| z √ (
), und mit ̂ =x/n
eine Umformung erreichen, die das Berechnen von p ebenfalls ermöglicht:
| ̂ - p| ≤ z√
(
)
Die genaue Berechnung von p ist immer etwas mühsam. Falls man annehmen kann, dass der
geschätzte Stichprobenwert ̂ = x/n nicht besonders falsch liegt, dann kann für die Berechnung des
Konfidenzintervalls die folgende Näherungsformel verwendet werden:
√
p= ̂
̂(
̂)
In unserem Beispiel bei z = 1,96 (95% Sicherheit) bedeutet dies:
p = 0,24 ± 1,96 . 0,19 = 0,24 ± 0.037 = 0,277 und 0,2025 also von 20,3% bis 27,7% (gegenüber 20,5%
und 27,9% siehe oben). Dies ist ein durchaus brauchbares Ergebnis. Die Stichprobe mit n= 500
lieferte einen guten Schätzwert x/n.
2. Vertrauensbereich für den Mittelwert µ bei bekannter Standardabweichung σ der
Grundgesamtheit.
Bei der Fertigung mit Automaten liegt eine normalverteilte Grundgesamtheit vor σ = 5,8 vor.
Die Mittelwerte hängen von den jeweiligen Einstellungen ab,
Die Stichprobe mit 49 Anlagen ergibt einen Mittelwert von ̅
Wie groß ist das Konfidenzintervall für den Mittelwert in der Grundgesamtheit bei einer Sicherheit
von 95%? (Signifikanz 5%).
Es gilt für die Standardabweichung in einer Stichprobe: s =
| -µ|
also gilt: µ=
±z
√
z
√
√
= 32,5 ± 1,96 . 5,8/7 = 32,5 ± 1,624
Der Mittelwert liegt mit Sicherheit von 95% im Intervall 30,9 bis 34,1.
29
3. Vertrauensbereich für den Mittelwert bei unbekannter Standardabweichung
Eine endliche Stichprobe mit einigen Daten aus einer normalverteilten Grundgesamtheit wird
gezogen, der Mittelwert und die Standardabweichung der Stichprobe werden berechnet. und ̂.
Wenn man σ der Grundgesamtheit nicht kennt und n nicht besonders groß ist, dann wird die
t-Verteilung eingesetzt. Die z-Verteilung kann nur bei großem n verwendet werden!
Aus einer normalverteilten Grundgesamtheit entnimmt man die Daten: 5,6,6, 4,5
; ̂ = Vorsicht, mit n-1 dividieren! = 0,837
n = 5  t-Verteilung
f=4
Wir suchen in der t-Tabelle den Wert für f= 4 und Sicherheit 95% (Vorsicht, für die zweiseitig
abgeschnittene Fläche nachschauen. In der Tafel dieses Skriptums muss man bei 95 + 2,5
nachschauen, links 2,5 rechts 2,5) dies ergibt den Wert: t = 2,78
Die Formel
| -µ|
Das ergibt für
µ=
±t
̂
√
t
̂
√
= 5,2 ±1,04
Der Mittelwert liegt mit 95% Sicherheit im Intervall 4,16 und 6,24
(Nebenbei: was wäre, wenn wir z genommen hätten?
µ= ± z = 5,2 ± 1,96 . 0,374 = 5,2 ± 0,73. Das wäre ein Intervall von 4,47 bis 5,93. Um ein 0,62
√
schmäleres Intervall! Daher fehleranfälliger!)
4. Vertrauensbereich für die Standardabweichung σ der Grundgesamtheit
Aus einer Stichprobe mit n = 10 ermittelt man die Standardabweichung der Stichprobe s = 16.
Es ist der 95%- Vertrauensbereich für σ zu finden.
Die Varianz muss mit der χ2-Verteilung behandelt werden.
χ² = f s² / σ²
Wir suchen aus der Tabelle χ² für f = 9 Freiheitsgrade.
die 95% ergänzen sich zu 100% mit links 2,5% und rechts 95 +2,5 = 97,5%
χ²9, untere Grenze = 2,7
χ²9, obere Grenze = 19
Für das Intervall gilt die Beziehung:
χ²9, untere Grenze ≤ f s² / σ² ≤ χ²9, obere Grenze | Kippen und mal fs² ergibt:
fs² / χ²u ≥ σ² ≥ fs² / χ²o | Wurzel ziehen und Zahlen einsetzen:
 29,21 ≥ σ ≥ 11,01.
Der Vertrauensbeweis liegt für σ zwischen 11,01 und 29,21.
30
Anhang: Tabellen
Die Flächen Φ der z-Verteilung: Standardnormalverteilung
z=
x µ
, negative z-Werte: Φ(-z) = 1-Φ(+z)

31
Einige Perzentile der Chi-Quadrat-Verteilung
32
Einige Perzentile der Student-Verteilung
Einseitige Fragestellung
33
Zweiseitige Fragestellung
f
f
34
Quantile der F-Verteilung für 95% Sicherheit
35
Quantile der F-Verteilung für 97,5% Sicherheit
36