Grundgesamtheit – Stichprobe

Werbung
Grundgesamtheit –
Stichprobe
•  Grundgesamtheit: z.B. alle schweizer
WählerInnen
•  Stichprobe: 1‘000 repräsentative
WählerInnen
1
Stichproben
•  Eine Forscherin entwickelt ein neues
Medikament. Bei einem Test an 10 Personen,
bewirkt der neue Stoff bei 7 Personen eine
Verbesserung. Bei den traditionellen
Medikamenten tritt eine positive Wirkung „nur“
bei 50% der Behandlungen ein.
•  Weist die Untersuchung der Forscherin eine
signifikante Messung auf oder ist sie zufällig?
2
Natürliche Streuung
•  Wenn man 10 mal eine Münze wirft, dann
müsste man der Wahrscheinlichkeit
gemäss 5 mal „Zahl“ und 5 mal „Kopf“
werfen. Das ist aber unwahrscheinlich!
•  Das Gleiche gilt bei Medikamenten, wenn
bei 50% der Patienten eine Wirkung
eintritt. Wenn man 10 Patienten das
Medikament gibt, wirkt es nicht zwingend
jedes Mal bei 5 und bei 5 nicht.
3
Ein Versuch
Serie
Wurf
1
2
3
4
5
6
7
8
9
10
Mittel
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15
0
0
0
1
1
1
0
0
0
1
0
0
0
1
1
0
0
0
0
0
0
1
0
1
1
1
1
1
0
0
1
1
0
1
1
0
0
0
0
0
1
0
1
0
0
0
1
0
1
1
0
0
0
1
0
0
0
0
0
1
0
0
1
0
0
0
1
0
0
1
0
1
1
0
0
0
1
0
1
0
1
1
1
1
1
0
1
1
0
0
1
0
0
1
0
1
1
1
0
0
0
1
0
0
1
0
0
1
0
1
1
1
1
1
1
0
0
1
1
1
1
0
1
1
1
1
0
1
1
1
1
0
1
0
0
0
1
0
0
0
0
1
0
1
0
1
0
0
1
1
40 20 60 40 50 20 30 40 70 50 40 80 80 30 50
4
Aufgabe
Öffnet den Datenset binomial_würfe.sav
1.  Berechnet die Anzahl Fälle >=70 und
davon abgeleitet, wieviel Prozent das
sind
2.  Macht das Gleiche für alle Fälle >=70
oder <=30
5
Eine kleine Rechnung
•  Von unseren 50 Wurfserien sind 9 mit
einem Wert >= 70
•  9/0.5 = 18
•  In 18% der Fälle liegt der Wert durch
zufällige Streuung im Bereich >= 70
6
Eine kleine Rechnung II
•  Von unseren 50 Wurfserien sind 19 mit
einem Wert >= 70 oder <= 30
•  19/0.5 = 38
•  In 38% der Fälle liegt der Wert durch
zufällige Streuung im Bereich >= 70 oder
<= 30
7
Bedeutung
•  Wenn in 38% der Fälle ein Wert zufällig >=
70 oder <= 30 sein kann, ist das neue
Medikament weder besser noch
schlechter als die bestehenden
Medikamente, mit einer Heilungschance
von 50%
8
Binomialtest
•  Script S. 209
•  Stichprobengrösse
–  Einmal Samplesize 10, einmal 40 (simul.sav)
9
Normalverteilung
Fläche = 1
-3
-2
-1
0
1
2
3
10
Beispiel von youtube
•  www.youtube.com
•  Key: normal distribution
11
Normalverteilung II
Prob =.683
Prob = .954
Prob = .997
-3
-2
-1
0
1
2
3
12
Werte können in einer
Tabelle abgelesen werden
Die schraffierte Fläche
repräsentiert die
Wahrscheinlichkeit
eines Z-Wertes >= .5
Fläche = .3085
-3
-2
-1
0
1
z = 0.5
2
3
13
14
Berechnen des z-Wertes
•  Bsp. IQ (iq.sav)
gruppe
a
a
a
a
a
a
b
b
b
b
b
iq
75
106
91
89
98
96
85
102
87
85
106
Deskriptive Statistik
N
iq
Gültige Werte
(Listenweise)
100
Minimum
57
Maximum
142
Mittelwert
99.19
Standarda
bweichung
13.525
100
Z-Wert für 75: (75-99.19)/13.52 = -1.79
15
Aufgabe: Z-Werte
Datensatz iq.sav
•  Errechnet die neue Variable ziq gemäss der
Formel
x1 − x
z=
s
16
Stichproben
•  Script S. 219
•  Beispiel cholest_stichproben.sav
17
18
P für Cholestrinwert <= 193
•  Z = 193-205/34.83 = -0.345
•  P nach Tabelle = 37%
19
Verteilung von 500 Stichprobenmittelwerten von
Stichproben der Grösse 21
20
Standardabweichung der Stichprobenmittel
= Standard-Fehler
Std.Err.=
Standardabweichung
n Stichprobe
Bsp: 35 / Wurzel(21) = 7.64
21
Anwendung
•  Bei gegebenem Mittelwert und
Standardabweichung der
Grundgesamtheit kann man:
–  die Wahrscheinlichkeit eines Z-Wertes für
Stichproben finden
22
Z-Wert
z=
Mittelwert Stichprobe – Mittelwert Grundgesamtheit
Standardabweichung Grundgesamtheit
n
23
Beispiel:
21 CEOs wurden nach ihrem Cholesteringehalt untersucht, mit dem Ergebnis von 193 mg/dl. Wir wissen,
dass in der Bevölkerung der Cholesteringehalt im Mittel 205 mg/dl beträgt, das mit einer
Standardabweichung von 35
z=
193 – 205
35
21
= -1.57
Kontrolle Buch S. 223
24
Was geschieht, wenn die Standardabweichung
der Grundgesamtheit fehlt?
Wir wissen vielleicht, dass die Beschäftigten in einem Land im Mittel 40
Stunden arbeiten, kennen aber die Standardaweichung nicht.
Buch Norusis, S. 235 f.
25
T-Statistik
•  Formel:
Stichprobenmittel – Mittel der Grundgesamtheit
t=
s
n
s ist die Std.Abw. der
Stichprobe
Der ganze Teil ist die
Std.Abw der Streuung
aller möglichen
Stichproben =
Std.Err. der
Stichprobenmittel
26
Die T-Statistik
•  Basiert auf der t-Verteilung
•  Die Verteilung verändert sich nach Anzahl n
•  Um die richtige Verteilung zu finden,
braucht es die Freiheitsgrade
27
Die Berechnung zum Beispiel ist im Buch auf S. 240
zu finden.
T = (47-40)/0.49 = 14.3
28
T- Verteilung
0.4
Normal
t.df2
t.df9
0.3
0.2
0.1
0.0
-3
-2
-1
0
x
1
2
3
29
Degrees of freedom (df)
•  Die Anzahl von Stichprobenwerten, die
frei variieren können
10
6
9
7
?
40
x
=8
Eine
Restriktion
Freiheitsgrade = n - 1
30
Ein t-Wert von 14.3?
•  Was bedeutet dieser Wert bei 436
Freiheitsgraden?
•  Kontrolle auf Tabelle
31
Vorgehen in SPSS
•  S. 240 Script
32
Histogramm
33
Ist die Verteilung normal?
•  Aufgrund des visuellen Eindrucks eher
nicht
•  Überprüfung mit Shapiro-Wilk‘s und
Kolmogorov-Smirnov (K-S) Test
•  -> Explore-Befehl
•  Script S. 264
34
Zentraler Grenzwertsatz
•  Genug grosse Stichproben (Faustregel >
30) streuen in ihren Mittelwerten
approximativ normal. Dabei muss die
Variable der Gesamtpopulation nicht
normal verteilt sein.
35
Diskussion der Ergebnisse
Statistik bei einer Stichprobe
N
Number of hours
worked last week
Mittelwert
Standarda
bweichung
Standardfehl
er des
Mittelwertes
47.00
10.207
.488
437
Test bei einer Sichprobe
Testwert = 40
T
Number of hours
worked last week
14.326
df
436
Sig. (2-seitig)
Mittlere
Differenz
.000
6.995
95% Konfidenzintervall
der Differenz
Untere
Obere
6.04
7.96
36
Konfindenzintervalle I
Aufgrund der hohen Signifikanz können wir
davon ausgehen, dass die
Hochschulabgänger mehr als 40 Stunden
arbeiten.
Aber:
Wieviele Stunden arbeiten sie nun?
37
Konfidenzintervalle II
Aufgrund unserer Daten könnten wir von 47
Stunden ausgehen.
Das ist die beste Vermutung, die aus dem
Mittel der Stichprobe abgeleitet ist.
Aufgrund des Standardfehler wissen wir,
dass die Stichproben eine Std.Abw. von .
488 haben
38
Konfidenzintervalle III
Im Beispiel haben wir ein 95%-iges
Konfidenzintervall.
Dh. 95% der Fälle liegen innerhalb von ca. 2
Std.Abw.
39
Konfidenzintervall IV
Jetzt können wir rechnen:
2 x 0.48 = 0.96
Mittelwert von 47 – 0.96 = 46.04
Mittelwert von 47+ 0.96 = 47.96
40
Aufgaben
•  Aufg. 2 S. 250
•  Aufg. Statistics Coach (brakes.sav)
41
T-Test mit abhängigen (gepaarten)
Stichproben
Ausgangslage:
• 
Typischwerweise vorher - nachher
42
Beispiel Marathonläufer:
Ein Team erforschte, ob bei Langstreckenläufer der β-Endorphin-Werte
Nach einem Lauf höher sind als vorher.
!
β-Endorphin-Werte!
!
vorher
nachher
________ ________
!
4.30
29.60
4.60
25.10
5.20
15.50
5.20
29.60
6.60
24.10
7.20
37.80
8.40
20.20
9.00
21.90
10.40
14.20
14.00
34.60
17.80
46.20
!
Gesamtergebnis!
Mittelwert!
8.43
27.16
N!
11
11
diff!
________!
25.30!
20.50!
10.30!
24.40!
17.50!
30.60!
11.80!
12.90!
3.80!
20.60!
28.40!
18.74!
11!
!
43
Lösungsansatz
•  Wenn es keinen Unterschied gibt, dann
müssen die Mittelwerte von vorher und
nachher gleich sein, die Differenz
demnach = 0
•  Wenn die Differenz stark von 0 abweicht,
dann ist der Unterschied nicht mehr
zufällig
44
Umsetzung mit SPSS
•  T-Test mit einer Stichprobe
•  T-Test mit gepaarten Stichproben
45
Aufgabe
• 
Ein Forschungsteam möchte wissen, ob
eine Diät erfolgreich war und ob durch
die Diät das Tryglyceride-Niveau bei den
Partizipienten signifikant gesunken ist.
• 
Datensatz: dietstudy.sav
46
T-Test mit 2 unabhängigen
Stichproben
Gaby möchte untersuchen, ob ihre neue Behandlung
eine Linderung für Stottern bringt
Sie nimmt zwei Gruppen. Die eine bekommt ein Placebo, die andere Gruppe die
neue Behandlung.
Nach dem Experiment werden alle Testpersonen einem Test
unterzogen. Die Stärke des Stotterns wird mit einem Wert 1 bis 10 vergeben,
wobei 10 starkes Stottern bedeutet.
Datensatz: stottern.sav
47
Erinnerung
•  Standardfehler =
s der Stichprobe
n
Dies ist die geschätzte Standardabweichung von allen möglichen
gleichen Stichproben,
t errechnet sich dann:
Mittel der Stichprobe - Mittel der Grundgesamtheit
t=
Standardfehler
48
Was heisst das für unabhängige
Stichproben
•  Wenn beide Gruppen den gleichen
Mittelwert haben, ist die Differenz der
Mittel = 0
•  Es wird nicht mehr der Standardfehler
„des“ Mittelwertes errechnet sondern der
Standardfehler der MittelwertUnterschiede
49
In einer Population mit einem Mittel von 0 streuen sich mögliche Stichproben.
Eine Differenz von 2 ist gemäss der Darstellung sehr sehr selten.
50
Berechnung von t
(x1 − x2 ) − 0
s12 s 22
+
n1 n2
51
SPSS-Output
Gruppenstatistiken
stottern
gruppe
1
2
N
10
10
Mittelwert
9.40
7.20
Standardab
weichung
.699
1.874
Standardfe
hler des
Mittelwertes
.221
.593
Test bei unabhängigen Stichproben
Levene-Test der
Varianzgleichheit
stottern
Varianzen sind gleich
Varianzen sind nicht
gleich
F
5.444
Signifikanz
.031
T-Test für die Mittelwertgleichheit
T
3.479
3.479
18
Sig. (2-seitig)
.003
Mittlere
Differenz
2.200
11.459
.005
2.200
df
Standardfehle
r der Differenz
.632
.632
95% Konfidenzintervall
der Differenz
Untere
Obere
.871
3.529
.815
3.585
52
Aufgabe
•  Vergleich TV-Stunden - Internetgebrauch
53
Varianzanalyse (einfaktoriell)
•  Vergleich von mehr als 2 Gruppen über
eine numerische Variable
54
Ausgangslage
ONEWAY deskriptive Statistiken
Number of hours worked last week
N
Less than HS
High school
Junior college
Bachelor
Graduate
Gesamt
111
808
131
286
151
1487
Mittelwert
45.03
44.95
45.69
46.37
48.19
45.62
Standardab
weichung
10.138
10.723
11.669
10.413
9.729
10.647
Standardf
ehler
.962
.377
1.020
.616
.792
.276
95%-Konfidenzintervall für
den Mittelwert
Untergrenze Obergrenze
43.12
46.93
44.21
45.69
43.67
47.70
45.16
47.58
46.62
49.75
45.08
46.16
Minimum
15
6
20
15
24
6
Maximum
87
89
89
89
80
89
Datensatz: gssft.sav
55
Frage und Hypothese
•  Gibt es einen Unterschied zwischen den
Ausbildungsgruppen bezüglich
Arbeitszeit?
•  Nullhypothese: Die Mittelwerte der
einzelnen Gruppen unterscheiden sich
nicht
56
57
Streuung innerhalb der Gruppen ist
klein
58
Streuung zwischen den Gruppen ist
klein
59
Resultat
ONEWAY ANOVA
Number of hours worked last week
Quadrats
umme
Zwischen den Gruppen
1557.919
Innerhalb der Gruppen
166892.2
Gesamt
168450.1
df
4
1482
1486
Mittel der
Quadrate
389.480
112.613
F
3.459
Signifikanz
.008
60
F-Verteilung
•  Die F-Verteilung wird nur zum Testen
verwendet, etwa bei der Varianzanalyse,
um festzustellen, ob die
Grundgesamtheiten zweier Stichproben
die gleiche Varianz haben.
(http://de.wikipedia.org/wiki/F-Verteilung)
61
Bedingungen für ANOVA
•  Unabhängigkeit der Gruppen
•  Normalverteilung
•  Varianzgleichheit
•  Vgl. S. 307
62
Wie weiter
•  Die Null-Hypothese, dass die GruppenMittelwerte gleich sind, konnte verworfen
werfen.
•  Die Varianzanalyse sagt aber nichts
darüber aus, wo die Unterschiede liegen
-> Weitere Verfahren
63
Bonferroni-Methode
•  Mit ihrer Hilfe wird die
Alphafehler-Kumulierung bei multiplen
Paarvergleichen neutralisiert.
64
Alpha-Fehler
•  Je mehr Tests durchgeführt werden, desto "überhöhter"
sind die üblichen Signifikanzangaben. Mit einem
einzigen Test und einem Alpha von 0,05 ist die
Wahrscheinlichkeit, die Null-Hypothese korrekterweise
zu akzeptieren (1 - 0,05) = 0,95. Führen wir zwei
(unabhängige) Tests durch, so wird diese
Wahrscheinlichkeit deutlich reduziert: 0,95 x 0,95 = 0,90,
was eine ebenso deutliche Änderung des
entsprechenden Alpha-Werts von 0,05 auf 0,1 bedeutet.
Diese Fehlerquelle ist allgemein als Alpha-FehlerKumulierung bekannt.
65
Alpha-Fehler
•  Wie groß ist die Wahrscheinlichkeit, bei
2maligem Würfeln mindestens 1 mal "6" zu
werfen?
Wir können die günstigen und möglichen Fälle
abzählen (kompliziert) oder so überlegen:
Die Wahrscheinlichkeit für "0 mal 6" beträgt
5/6·5/6 = 25/36.
"Mindestens 1 mal 6" ist das Gegenereignis
dazu, also
P(mind. 1mal 6) = 1 - P(0mal 6) = 1 - 25/36 =
11/36.
66
Inkonsistenzen
Angenommen jemand will die Erwartungswerte
vergleichen. Beim paarweisen
Test
werden alle Nullhypothesen nicht abgelehnt, nur die
Hypothese
wird abgelehnt.
67
Resultate des Tests
Mehrfachvergleiche
Abhängige Variable: Number of hours worked last week
Bonferroni
(I) Highest degree
Less than HS
High school
Junior college
Bachelor
Graduate
(J) Highest degree
High school
Junior college
Bachelor
Graduate
Less than HS
Junior college
Bachelor
Graduate
Less than HS
High school
Bachelor
Graduate
Less than HS
High school
Junior college
Graduate
Less than HS
High school
Junior college
Bachelor
Mittlere
Standardf
Differenz (I-J)
ehler
.079
1.074
-.660
1.369
-1.340
1.187
-3.158
1.327
-.079
1.074
-.739
1.000
-1.419
.730
-3.237*
.941
.660
1.369
.739
1.000
-.680
1.120
-2.498
1.267
1.340
1.187
1.419
.730
.680
1.120
-1.818
1.067
3.158
1.327
3.237*
.941
2.498
1.267
1.818
1.067
Signifikanz
1.000
1.000
1.000
.174
1.000
1.000
.521
.006
1.000
1.000
1.000
.488
1.000
.521
1.000
.887
.174
.006
.488
.887
95%-Konfidenzintervall
Untergrenze Obergrenze
-2.94
3.10
-4.51
3.19
-4.68
2.00
-6.89
.57
-3.10
2.94
-3.55
2.07
-3.47
.63
-5.88
-.59
-3.19
4.51
-2.07
3.55
-3.83
2.47
-6.06
1.06
-2.00
4.68
-.63
3.47
-2.47
3.83
-4.82
1.18
-.57
6.89
.59
5.88
-1.06
6.06
-1.18
4.82
*. Die Differenz der Mittelwerte ist auf dem Niveau .05 signifikant.
68
Aufgabe
•  Datensatz antisemitismus.sav
69
70
Im Folgenden soll mit Hilfe einer einfaktoriellen Varianzanalyse untersucht werden,
ob die Reaktionen von Personen unterschiedlichen Bildungsniveaus auf diese
Aussage signifikant voneinander verschieden sind. Hierzu werden die Befragten in
Abhängigkeit von ihren höchsten Schulabschlüssen in Gruppen unterteilt. Der
höchste von den Befragten erreichte Schulabschluß ist in der Variablen bildung
angegeben.
71
Stichprobengrösse
http://www.arnsberg.de/buergerpanel/bestimmung-stichprobengroesse.pdf
72
Mann-Whitney U-Test
•  Test für zwei unabhängige Stichproben
•  Alternative zum t-Test für unabhängige Stichproben
73
Formel
74
Beispiel
Statistiken
Rank of wirkung
a
N
b
Summe
N
Summe
Gültig
Fehlend
Gültig
Fehlend
4
0
10.500
4
0
25.500
U1 = 10.5-((4*5)/2) = .5
75
Output in SPSS
Ränge
wirkung
medi
a
b
Gesamt
N
4
4
8
Mittlerer Rang
6.38
2.63
Rangsumme
25.50
10.50
Statistik für Testb
Mann-Whitney-U
Wilcoxon-W
Z
Asymptotische
Signifikanz (2-seitig)
Exakte Signifikanz
[2*(1-seitig Sig.)]
wirkung
.500
10.500
-2.205
.027
a
.029
a. Nicht für Bindungen korrigiert.
b. Gruppenvariable: medi
76
Approximation
For large samples, the normal approximation:
can be used, where z is a standard normal deviate whose significance can be checked in tables
of the normal distribution. mU and σU are the mean and standard deviation of U if the null
hypothesis is true, and are given by
All the formulae here are made more complicated in the presence of tied ranks, but if the
number of these is small (and especially if there are no large tie bands) these can be ignored
when doing calculations by hand. The computer statistical packages will use them as a matter
of routine.
Note that since U1 + U2 = n1 n2, the mean n1 n2/2 used in the normal approximation is the
mean of the two values of U. Therefore, you can use U and get the same result, the only
difference being between a left-tailed test and a right-tailed test.
77
Relation to other tests
The U test is useful in the same situations as the independent samples
Student's t-test, and the question arises of which should be preferred. U
remains the logical choice when the data are ordinal but not interval scaled,
so that the spacing between adjacent values cannot be assumed to be
constant. It is much less likely than the t test to give a spuriously significant
result because of one or two outliers.
78
Wilcoxon-Test
•  Vergleich von zwei abhängigen
Stichproben
•  Beispiel Alphasan – Betasan (Zöfel S.
231)
•  Norusis S. 391
79
Kruskal und Wallis‘ H-Test
Kruskal-Wallis-Test
aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Der Kruskal-Wallis-Test (H-Test) ist ein parameterfreier statistischer Test, mit dem im
Rahmen einer Varianzanalyse verglichen wird, ob sich verschiedene unabhängige
Stichproben (Gruppen) hinsichtlich einer ordinalskalierten Variable unterscheiden. Er ähnelt
einem Mann-Whitney-U-Test und basiert wie dieser auf Rangplatzsummen, mit dem
Unterschied, dass er für den Vergleich von mehr als zwei Gruppen angewendet werden kann.
Die Nullhypothese H0 lautet: Zwischen den Gruppen besteht kein Unterschied. Als Prüfgröße
des Kruskal-Wallis-Tests wird ein sogenannter H-Wert berechnet. Der H-Wert wird wie folgt
gebildet:[1] Der Rang Ri für jede der n Beobachtungen in der Vereinigung der Stichproben
wird bestimmt. Daraus werden dann die Rangsummen Sh für die einzelnen Gruppen und
daraus die Teststatistik
errechnet. Diese folgt einer
Chi-Quadrat-Verteilung. Die Freiheitsgrade (Df) berechnen sich nach Df=k-1, wobei k die
Anzahl der Klassen (Gruppen) ist.
Die berechnete Prüfgröße H wird mit einer theoretischen Größe aus der Chi-QuadratVerteilung für eine gewählte Irrtumswahrscheinlichkeit verglichen. Ist der errechnete H-Wert
größer als der H-Wert aus der Chi-Quadrat-Tabelle, wird H0 verworfen, es besteht also ein
signifikanter Unterschied zwischen den Gruppen.
80
Lineare Regression
Die Regressionsrechnung dient dazu, die Art des
Zusammenhanges zw. 2 Variablen aufzuzeigen und
Möglichkeiten anzubieten, den Wert einer (abhängigen)
Variablen aus den Werten einer andern (unabhängigen)
Variablen vorherzusagen.
81
Die „beste“ Gerade finden
82
Methode der kleinsten
Quadratsumme (KQ-Summe)
83
Methode der kleinsten
Quadratsumme II
Hier werden die senkrechten Abstände der einzelnen Punkte von
der Geraden bestimmt. Dabei werden diese quadriert um negative
Vorzeichen zu eliminieren.
Anschliessend wird die Summe der quadrierten Abstände berechnet
und es wird die „am besten angepasste“ Gerade ausgewählt, bei der
die Summe der quadrierten Abstände am kleinsten ist.
84
Regressionsgleichung
• 
• 
• 
• 
y = a + bx
a: Achsenabschnitt (Ordinatenabschnitt)
b: Steigung (Regressionskoeffizient)
Beispiel: life expectancy = 90-(0.70 * birthrate)
85
Berechnung in SPSS
Koeffizientena
Modell
1
(Konstante)
Births per 1000
population,
Nicht standardisierte
Koeffizienten
Standardf
B
ehler
89.985
1.765
-.697
.050
Standardisie
rte
Koeffizienten
Beta
-.968
T
50.995
Signifikanz
.000
-13.988
.000
a. Abhängige Variable: Female life expectancy
Achsenabschnitt
Steigung
86
Werte vorhersagen
•  y = a + bx
•  predicted life expectency = 90+(-)(0.697 x birthrate)
•  Beispiel: wie hoch ist die Lebenserwartung bei einer
Geburtsrate von 11 (pro 1000)
•  Predicted life expectency = 90-(.697 x 11) = 82.21 Jahre
87
Aufgabe
•  Datensatz bank.de
•  Erstellt eine Regression für die Variablen:
•  Einstiegsgehalt (unabhängige Var) und
Ausbildung (abhängige Var.)
•  Berechnet das geschätzte Gehalt bei einer
Ausbildungszeit von 10 Jahren
88
Hypothesen Test
•  Bei unseren Daten handelt es sich um
eine Stichprobe
•  Wir wollen eine Aussage über die
Grundgesamtheit machen
H0 = der Regressionskoeffizient in der
Grundgesamtheit ist Null
89
Erklärung
Koeffizientena
Modell
1
(Konstante)
Births per 1000
population,
Nicht standardisierte
Koeffizienten
Standardf
B
ehler
89.985
1.765
-.697
.050
Standardisie
rte
Koeffizienten
Beta
-.968
T
50.995
Signifikanz
.000
-13.988
.000
a. Abhängige Variable: Female life expectancy
t=
Stichprobenmittel – Mittel der
Grundgesamtheit
s
s ist der
Standardfehler des
Regressionskoeffizien
ten (Steigung der
Gerade)
t = -.70/.05 = -14
N.B. die Freiheitsgrade wären Anzahl Fälle der abhängigen Variable - 2
90
Konfidenzintervalle
Koeffizientena
Modell
1
(Konstante)
Births per 1000
population,
Nicht standardisierte
Koeffizienten
Standardf
B
ehler
89.985
1.765
-.697
.050
Standardisie
rte
Koeffizienten
Beta
-.968
95%-Konfidenzintervall für
B
T
50.995
Signifikanz
.000
Untergrenze
86.173
Obergrenze
93.797
-13.988
.000
-.805
-.590
a. Abhängige Variable: Female life expectancy
91
Vorhersage der Werte für die
Grundgesamtheit
•  Vorhersage der Mittelwerte
•  Vorhersage einzelner Werte
92
Vorgehen in SPSS
93
Neue Variablen werden berechnet
94
Streudiagramm für die Mittel
95
Streudiagramm für einzelne Werte
96
97
98
99
Herunterladen