Streuungsmaße von Stichproben - Europa

Werbung
Streuungsmaße von
Stichproben
SPANNWEITE, VARIANZ,
STANDARDABWEICHUNG, QUARTILE,
KOVARIANZ, KORRELATIONSKOEFFIZIENT
Zentrale Methodenlehre, Europa Universität - Flensburg
Streuungsmaße: wozu?
2
Lagemaße alleine sind nicht genug, um eine Verteilung
zu beschreiben
เดฅ= D=๐’™
เทฅ = ๐’™
๐’™
เดฅ=D=๐’™
เทฅ = ๐’™
เดฅ =D = ๐’™
เทฅ
William Tarazona, Statistik I
Beschreibung einer Verteilung: Maßzahlen
3
Die Verteilung eines Merkmals kann durch 2 Arten
Maßzahlen beschrieben werden:
๏‚— Lagemaße: beschreiben die zentrale Tendenz
(Zentrum, Mitte, Schwerpunkt) einer Verteilung.
๏‚— Streuungsmaße:
beschreiben,
wie
die
Ausprägungen des Merkmals um die zentrale
Tendenz der Verteilung streuen. In dieser
Präsentation werden wir Streuungsmaße
für ordinale oder quantitative Merkmale
kennenlernen.
William Tarazona, Statistik I
Streuungsmaße: Spannweite
4
Spannweite der Stichprobe (R):
Sei {X1, X2,…., Xn} eine geordnete Stichprobe des
Merkmals X.
X1=Min
Xn=Max
0%
100%
Die Spannweite ist definiert als:
Beispiel:
R = Xn – X1 = Max - Min
Alter = {19, 21, 22, 22, 23, 25, 28, 29, 29, 30, 31, 31}; R = 31 – 19 = 12 Jahre
William Tarazona, Statistik I
Streuungsmaße: Varianz
5
Varianz der Stichprobe (s2):
Sei {X1, X2,…., Xn} eine Stichprobe des Merkmals X.
Die Varianz ist definiert als:
s2 =
2
σ๐‘›
าง
(๐‘‹
−
๐‘ฅ)
๐‘–=1 ๐‘–
๐‘›−1
σ๐‘›๐‘–=1(๐‘‹๐‘– −๐‘ฅ)าง 2 wird auch SAQx genannt. SAQ heißt
Summe der Abstandsquadrate.
Außerdem, ๐‘†๐ด๐‘„๐‘‹ = σ๐‘›๐‘–=1 ๐‘‹๐‘–2 − ๐‘›๐‘ฅาง 2
William Tarazona, Statistik I
Streuungsmaße: Varianz
6
Beispiel:
X = Alter = {18, 21, 21, 22, 23, 25, 26, 29, 30, 30, 32, 35} ; ๐’™
เดฅ = 26 Jahre
s2
=
σ๐‘›
าง 2
๐‘–=1(๐‘‹๐‘– −๐‘ฅ)
๐‘›−1
=?
Also:
s2 =
298
11
= 27.09 Jahre2
Bzw.:
๐‘†๐ด๐‘„๐‘‹ = σ๐‘›๐‘–=1 ๐‘‹๐‘–2 − ๐‘›๐‘ฅาง 2= 8410 – 12*262 = 298
s2 =
๐‘†๐ด๐‘„๐‘‹
๐‘›−1
=
298
11
= 27.09 Jahre2
William Tarazona, Statistik I
Streuungsmaße: Standardabweichung
7
Standardabweichung der Stichprobe (s):
Sei {X1, X2,…., Xn} eine Stichprobe des Merkmals X.
Die Standardabweichung ist definiert als:
s=
๐‘ 2
Beispiel:
Alter = {18, 21, 21, 22, 23, 25, 26, 29, 30, 30, 32, 35}; s2 = 27.09 Jahre2
s = 27.09 ๐ฝ๐‘Žโ„Ž๐‘Ÿ๐‘’ 2 = 5.21 ๐ฝ๐‘Žโ„Ž๐‘Ÿ๐‘’
William Tarazona, Statistik I
Streuungsmaße: Perzentile
8
Perzentile (Perzi):
Sei {X1, X2,…., Xn} eine geordnete Stichprobe des
Merkmals X.
X1=Min
Xn=Max
0%
100%
Die Perzentile sind die Ausprägungen, die die
Stichprobe in 100 1%-Teile teilen:
100 Teile
1% 1%
Perz1
1%
Perz2
. . . . . . . . . . . . . . . 50%
.....
Perz3
Perz50
1%
Perz99
Oder เทฅ
๐’™
William Tarazona, Statistik I
Streuungsmaße: Quartile
9
Quartile(Qi):
Sei {X1, X2,…., Xn} eine geordnete Stichprobe des
Merkmals X.
X1=Min
Xn=Max
0%
100%
Die Quartile sind die Ausprägungen, die die
Stichprobe in 4 25%-Teile teilen:
25%
25%
Q1
25%
25%
Q2
Oder Perz50
Oder เทฅ
๐’™
Q3
William Tarazona, Statistik I
Streuungsmaße: Quartile
10
Wenn die Stichprobe mit Umfang „n“ (n>100)
geordnet ist, dann findet man die Quartile Q1 und Q3
mit der folgenden Prozedur:
Q1= ๐‘‹(๐‘›+3)/4
Q3=๐‘‹(3๐‘›+1)/4
(Quelle: Müller-Benedict, Volker: Grundkurs Statistik In Den Sozialwissenschaften, VS Verlag für Sozialwissenschaften,
Auflage: 5. Aufl. 2011)
William Tarazona, Statistik I
Streuungsmaße: Quartile
11
Beispiel:
๐‘ฅเทค = ๐‘„2 = ๐‘€๐‘œ๐‘‘๐‘’๐‘Ÿ๐‘Ž๐‘ก๐‘’
25% der Daten überschritten
๐‘„1 = ๐‘ ๐‘™๐‘–๐‘”โ„Ž๐‘ก๐‘™๐‘ฆ ๐ฟ๐‘–๐‘๐‘’๐‘Ÿ๐‘Ž๐‘™
75% der Daten überschritten
Oder:
USA: GSS 2010
n
๐‘„3 = ๐‘ ๐‘™๐‘–๐‘”โ„Ž๐‘ก๐‘™๐‘ฆ ๐ถ๐‘œ๐‘›๐‘ ๐‘’๐‘Ÿvative
๐‘„1 = ๐‘‹(๐‘›+3)/4 = ๐‘‹(1973+3)/4
๐‘„1 = ๐‘‹494 = ๐‘ ๐‘™๐‘–๐‘”โ„Ž๐‘ก๐‘™๐‘ฆ ๐ฟ๐‘–๐‘๐‘’๐‘Ÿ๐‘Ž๐‘™
๐‘„3 = ๐‘‹(3๐‘›+1)/4 = ๐‘‹(3∗1973+1)/4
๐‘„3 = ๐‘‹1480 = ๐‘ ๐‘™๐‘–๐‘”โ„Ž๐‘ก๐‘™๐‘ฆ ๐ถ๐‘œ๐‘›๐‘ ๐‘’๐‘Ÿ๐‘ฃ๐‘Ž๐‘ก๐‘–๐‘ฃ๐‘’
Die unteren 25% der Befragten haben eine „eher liberale“ politische Einstellung
Die oberen 25% der Befragten haben eine „eher konservative“ politische Einstellung
William Tarazona, Statistik I
Streuungsmaße: Boxplots
12
Boxplots sind grafische Darstellungen, die mit Hilfe der
Quartile Verteilungsformen aufzeigen, z.B. für die
Rechtssteile Verteilung:
Min
Q1
เทฅ
๐’™
Q3
Max
Boxplot:
William Tarazona, Statistik I
Streuungsmaße: Boxplots
13
Übung:
Quelle: Kindepanel, Mündlicher Fragebogen für Mütter und alleinerziehende Väter, Deutsches Jugendinstitut
http://www.dji.de/cgi-bin/projekte/output.php?projekt=71
Verteilungsform?
William Tarazona, Statistik I
Streuungsmaße: Quartile
14
๏‚— Quartilsabstand:
๐‘„๐ด =
๐‘„3 −๐‘„1
2
William Tarazona, Statistik I
Streuungsmaße: Beispiel
15
Lasst uns den ALLBUS 2010 benutzen, um die Streuungsmaße für die
Antworten zu folgender Frage zu den Lagemaßen hinzuzufügen:
William Tarazona, Statistik I
Streuungsmaße: Beispiel
16
Man hat folgende Information über die Stichprobe mit der Antworten der
Befragten:
•
•
•
•
•
Streuungsmaße interpretiert man nicht
allein.
Streuungsmaße werden benutzt, um die
Streuung um eine Zentrale Tendenz zu
beschreiben.
Um die Streuung der Werte eines Merkmals
zu beschreiben, kombiniert man ein
Lagemaß und ein Streuungsmaß.
Nicht alle Kombinationen sind sinnvoll, zum
Beispiel
Kombinationen
mit
dem
Streuungsmaß der Spannweite sind nicht
sinnvoll.
Die bekannteste Kombination ist die mit
dem Mittelwert und der Standardabweichung, obwohl diese Kombination von
möglichen Ausreißern beeinflusst
werden kann.
William Tarazona, Statistik I
Beschreibung der Streuung: Mittelwert und
Standardabweichung
17
Mit der Kombination der Information der Mittelwert und die
Standardabweichung wird ein Intervall gebaut (๐‘ฅาง - s, ๐‘ฅาง + s) das die Streuung der
Werte eines Merkmals beschreiben:
๐‘ฅาง
•
•
๐‘ 
•
•
•
(๐‘ฅาง − ๐‘ , ๐‘ฅาง + ๐‘ ) = (6.31-1.06, 6.31+1.06) = (5.25,7.37) ๏ƒ  (5,7)
Ein bestimmter % der Antworten der Befragten streuen
zwischen 5 und 7. Wie viel Prozent der Antworten streuen
zwischen diese zwei Werte? Dazu können wir die
Häufigkeitstabelle benutzen.
Man kann entweder die relative Häufigkeit benutzen:
11.4%+22%+59.9%=93.3% oder die kumulierte relative
Häufigkeit: 100%-6.7%=93.3%.
Die Beschreibung der Streuung lautet also: 93.3% der
Befragten antworteten mit Werten zwischen 5 und
7 zur der Frage „wie wichtig ist es, eine sichere
Berufsstellung zu haben, wobei 7 „sehr wichtig“
bedeutet.
Diese Kombination kann von Ausreißern beeinflusst
werden. Wenn man das Problem vermeiden möchte, kann
man
die
Kombination
von
Median
und
Semiquartilsabstand benutzen:
(๐‘ฅเทค - ๐‘„๐ด , ๐‘ฅเทค + ๐‘„๐ด )
William Tarazona, Statistik I
Streuungsmaße: Zusammenfassung
18
Übung:
Info:
•
•
Beschreiben Sie die Streuung der Verteilung
sowohl für Ost- als auch für Westdeutschland
mit und ohne Ausreißern: Welche Verteilung hat
eine größere Streuung?
Verteilungsform für Ost und West?
William Tarazona, Statistik I
Streuungsmaße
19
Zusammenfassung:
Skalenniveaus
R
s2
s
Q1
Q3
QA
QA
Streuungsmaße
Nominal
Ordinal
๏„
๏„
๏„
๏„
๏„
๏„
๏„
๏„
๏„
๏„
๏ƒ
๏ƒ
๏„
๏„
für
die
verschiedenen
Quantitativ
๏ƒ
๏ƒ
๏ƒ
๏ƒ
๏ƒ
๏ƒ
๏ƒ
William Tarazona, Statistik I
Streuungsmaße: Streuungsdiagramm
20
๏‚— Streuungsdiagramme
werden
eingesetzt,
um
Zusammenhänge zwischen 2 quantitativen Merkmalen X
und Y visuell zu untersuchen.
๏‚— Eine Stichprobe der zwei Merkmale X (das unabhängige
Merkmal) und Y (das abhängige Merkmal) wird auf
folgende Weise bezeichnet:
{(X1,Y1),(X2,Y2),…,(Xn,Yn)}
๏‚— In
diesem
Seminar
werden
wir
lineare
Zusammenhänge behandeln.
William Tarazona, Statistik I
Streuungsmaße: Streuungsdiagramm
21
II
I
III
IV
A: Kein Zusammenhang
C: Negativer (inverser) linearer Zusammenhang
B: positiver linearer Zusammenhang
D: positiver linearer Zusammenhang (stärker als in B)
William Tarazona, Statistik I
Streuungsmaße: Zusammenhang zwischen 2
quantitative Merkmale
22
๏‚— Um den linearen Zusammenhang zwischen 2 quantitativen
Merkmalen zu analysieren, gibt es 2 Streuungsmaße, die 2
verschiedene
Komponenten
des
Zusammenhangs
beschreiben:
๏‚ก
๏‚ก
Richtung des Zusammenhangs: Kovarianz
Stärke des Zusammenhangs: Korrelationskoeffizient
William Tarazona, Statistik I
Streuungsmaße: Kovarianz
23
๏‚— Die Kovarianz (bezeichnet als sxy) ist definiert als:
σ๐’
๐’™)(๐’€๐’Š −เดฅ
๐’š)
๐’Š=๐Ÿ(๐‘ฟ๐’Š −เดฅ
๐’”๐’™๐’š =
๐’−๐Ÿ
เดฅ)(๐’€๐’Š − ๐’š
เดฅ) wird auch SAQxy genannt. Außerdem:
๏‚— σ๐’
๐’Š=๐Ÿ(๐‘ฟ๐’Š − ๐’™
เดฅ
๐‘บ๐‘จ๐‘ธ๐’™๐’š =σ๐’๐’Š=๐Ÿ ๐‘ฟ๐’Š ๐’€๐’Š − ๐’เดฅ
๐’™๐’š
๏‚— Die Kovarianz zeigt die Richtung des Zusammenhangs:
๏‚ก
๏‚ก
Wenn sxy>0: Es gibt einen positiven Zusammenhang zwischen X und Y.
Wenn sxy<0: Es gibt einen negativen Zusammenhang zwischen X und Y.
William Tarazona, Statistik I
Streuungsmaße: Korrelationskoeffizient
24
๏‚— Aber: Wie stark ist der Zusammenhang? Dafür berechnen
wir Pearsons Korrelationskoeffizient:
๏‚— Korrelationskoeffizient (bezeichnet als rxy) ist definiert als
bzw.
๐’“๐’™๐’š =
๐’“๐’™๐’š =
๐’”๐’™๐’š
๐’”๐’™ ๐’”๐’š
๐‘บ๐‘จ๐‘ธ๐’™๐’š
๐‘บ๐‘จ๐‘ธ๐’™ ๐‘บ๐‘จ๐‘ธ๐’š
๏‚— rxy liegt zwischen -1 und 1
Je näher zu 1, desto stärker ist der positiven lineare Zusammenhang zwischen X und Y
-1
0
1
Je näher zu -1, desto stärker ist der negativen lineare Zusammenhang zwischen X und Y
William Tarazona, Statistik I
Streuungsmaße: Korrelationskoeffizient
25
A: rxy = 0.063
C: rxy = -0.622
B: rxy = 0.806
D: rxy = 0.986
William Tarazona, Statistik I
Streuungsmaße: Korrelationskoeffizient
26
๏‚— Die
Interpretation
von
rxy
variiert
je
nach
wissenschaftlicher
Fachdisziplin.
Für
die
Sozialwissenschaften kann man sich zum Beispiel an
folgende Interpretationen orientieren:
William Tarazona, Statistik I
Streuungsmaße: Zusammenhang zwischen 2
quantitative Merkmale
27
Beispiel: Wir haben eine Stichprobe von n=6 Paaren (x,y), wobei:
X: Bevölkerungsdichte (in 1.000 pro Quadratkilometer)
Y: Anzahl der Verbrechen (pro 10.000 Einwohner)
Vermutung: Die Anzahl
Bevölkerungsdichte ist.
der
Verbrechen
erhöht
sich,
je
größer
die
Fragen:
1. Richtung des Zusammenhangs?
2. Stärke des Zusammenhangs?
3. Interpretation? Wird
Vermutung bestätigt?
die
William Tarazona, Statistik I
Hausaufgabe
28
1.
Sie haben die Schulnoten zweier Schulklassen vorliegen. Daraus wurden
jeweils zwei Stichproben gezogen:
Stichprobe Klasse A: 4, 4, 3, 3
Stichprobe Klasse B: 6, 6, 1, 1
• Berechnen Sie den Mittelwert der beiden Stichproben. Was ergibt sich aus
dem Mittelwertvergleich, gibt es Unterschiede?
• Berechnen
Sie
entsprechende
Streuungsmaße
(Varianz,
Standardabweichung, Spannweite). Vergleichen Sie erneut die beiden
Stichproben.
William Tarazona, Statistik I
Hausaufgabe
29
๏‚— Aus den PISA-Daten 2000 für Deutschland werden die „Anzahl Bücher zu
Hause“ (X) und die „Lese-kompetenz“ (Scores, um 500 zentriert) in den
Häufigkeitstabellen auf der nächsten Folie dargestellt.
Die folgenden Kennwerte wurden bereits (unter Verwendung der Mittelpunkte
der jeweiligen Messklasse als Datum für alle Fälle der Klasse) ermittelt
(N=32416):
เท ๐‘Œ๐‘– = 15919750; ๐‘ฅาง = 205,98; เท(๐‘Œ๐‘– − ๐‘ฆ)
เดค 2 = 307666972
เท ๐‘‹๐‘–2 = 2843918333; เท ๐‘‹๐‘– ๐‘Œ๐‘– = 3521139620
William Tarazona, Statistik I
Hausaufgabe
30
Berechnen Sie:
a) Varianz und Standardabweichung von X und Y. Wie viel % der
Scores streuen zwischen y ๏€ญ s y und y ๏€ซ s y ?
Lesekompetenz-
b) den Quartilsabstand für X und Y und interpretieren Sie ihn.
c) die Kovarianz. Was besagt das Vorzeichen?
d) die Korrelation und interpretieren Sie den Wert.
William Tarazona, Statistik I
Zugehรถrige Unterlagen
Herunterladen