x - Methodenlehre

Werbung
Statistik &
Methodenlehre
e ode e e
Prof. Dr. G.
Meinhardt
6 Stock,
6.
St k W
Wallstr.
ll t 3
(Raum 06-206)
Sprechstunde
Sp
echst nde
jederzeit nach
Vereinbarung und
nach der
Vorlesung.
Mathematische und
statistische Methoden I
Dr. Malte Persike
} [email protected]
http://psymet03.sowi.uni-mainz.de/
WS 2010/2011
Fachbereich Sozialwissenschaften
Psychologisches Institut
Johannes Gutenberg Universität Mainz
Statistik &
Methodenlehre
e ode e e
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Numerische Beschreibung: Kennwerte
Grafische
Darstellung I
Maße der zentralen Tendenz
• Mittelwert
Kennwerte
Streuungsmaße (Dispersionsmaße)
Grafische
Darstellung II
•
•
•
•
Mittlere Differenz
(Abweichungs-)Quadratsumme
Varianz
a a
Standardabweichung
Statistik &
Methodenlehre
e ode e e
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Numerische Beschreibung: Mittelwert
Grafische
Darstellung I
Kennwerte
Grafische
Darstellung II
Der Mittelwert ist bei n Beobachtungen x1 … xn
definiert als
1
1 n
x = ( x1 + x2 + … xN ) = ∑ xi
n
n i =1
Ist durch „extreme“ Werte beeinflussbar
(ausreißerempfindlich)
Ist der Schwerpunkt der Beobachtungen, d.h.
n
∑(x − x ) = 0
i =1
i
Statistik &
Methodenlehre
e ode e e
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Numerische Beschreibung: Mittelwert
Grafische
Darstellung I
Kennwerte
Der Mittelwert stimmt häufig mit keiner beobachteten
Realisation überein
Der Mittelwert ist äquivariant gegenüber gewissen (z.B.
linearen) Transformationen
Insbesondere
Grafische
Darstellung II
1. Addition einer Konstanten a zu allen n
Beobachtungen x1 … xn
x+a = x +a
2. Multiplikation aller n Beobachtungen x1 … xn mit
einer Konstanten c
a⋅x = a⋅x
Statistik &
Methodenlehre
e ode e e
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Numerische Beschreibung: Mittelwert
Grafische
Darstellung I
Lageregeln für die Maße der zentralen Tendenz
Bei symmetrischen Verteilungen:
Kennwerte
Grafische
Darstellung II
x ≈ xmed ≈ xmod
Bei linkssteilen Verteilungen:
x > xmed ≥ xmod
Bei rechtssteilen Verteilungen
x < xmed ≤ xmod
Statistik &
Methodenlehre
e ode e e
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Numerische Beschreibung: Mittlere Abweichung
Grafische
Darstellung I
Kennwerte
Grafische
Darstellung II
Als mittlere Abweichung
g ((MD)) von n Beobachtungen
g
x1 … xn in einem Datensatz wird die Summe aller
Abweichungsbeträge zum Median bezeichnet.
1 n
MD = ∑ xi − x
n i =1
Für jeden anderen Wert als für den Median ist der
mittlere Abweichungsbetrag größer, d.h.
1 n
1 n
xi − x ≤ ∑ xi − c
∑
n i =1
n i =1
Statistik &
Methodenlehre
e ode e e
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Numerische Beschreibung: Abweichungsquadratsumme
Grafische
Darstellung I
Kennwerte
Grafische
Darstellung II
Die Abweichungsquadratsumme
g q
((oder auch:
Fehlerquadratsumme oder einfach Quadratsumme)
ist die Summe der quadrierten Abweichungen aller n
Beobachtungen x1 … xn vom Mittelwert.
n
QS ( x ) = ∑ ( xi − x )
2
i=1
Erfasst die Streuung um den Mittelwert
Nur ffalls
N
ll keine
k i Streuung
St
b
besteht,
t ht iistt QS = 00, d.h.
dh
alle beobachteten Werte sind gleich. Sonst: QS> 0
Je g
größer die Streuung,
g, desto größer
g
ist die QS
Q
Problem: Die Fehlerquadratsumme wird um so
größer, je mehr Beobachtungen vorliegen
Statistik &
Methodenlehre
e ode e e
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Numerische Beschreibung: Varianz
Grafische
Darstellung I
Kennwerte
Grafische
Darstellung II
Die Varianz ist das mittlere Abweichungsquadrat aller
n Beobachtungen x1 … xn vom Mittelwert.
n
1
2
2
s ( x ) = ∑ ( xi − x )
n i =1
Erfasst die mittlere Streuung um den Mittelwert
Nur falls keine Streuung besteht,
besteht ist ss² = 0,
0 d.h.
d h alle
beobachteten Werte sind gleich. Sonst: s² > 0
Je größer die Streuung um den Mittelwert, desto
größer
öß iist die
di Varianz
V i
Ist anfällig gegenüber Ausreißern
Statistik &
Methodenlehre
e ode e e
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Numerische Beschreibung: Varianz
Grafische
Darstellung I
Kennwerte
Grafische
Darstellung II
Für jeden anderen Wert als für den Mittelwert ist die
Summe der Abweichungsquadrate höher
1 n
1 n
2
2
( xi − x ) ≤ ∑ ( xi − c )
∑
n i =1
n i =1
Der Mittelwert minimiert also die quadrierten
Abweichungen aller Beobachtungen.
Statistik &
Methodenlehre
e ode e e
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Numerische Beschreibung: Varianz
Grafische
Darstellung I
Kennwerte
Grafische
Darstellung II
Die Formel für die Varianz lässt sich leicht umformen in eine
rechnerisch manchmal günstigere Variante:
1 n
1 n 2 2
2
2
2
x
−
x
=
x
−
x
=
x
−
x
(
)
∑ i
∑i
n i =1
n i =1
Die
e Varianz
a a ist
st a
also
so d
die
e Differenz
e e des Mittelwerts
tte e ts de
der
quadrierten Daten und dem quadrierten Mittelwert der
Daten.
Dies wird auch als Momentenschreibweise der Varianz
bezeichnet.
Statistik &
Methodenlehre
e ode e e
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Numerische Beschreibung: Standardabweichung
Grafische
Darstellung I
Problem: Die Varianz ist nicht äquivariant zu erlaubten
Skalentransformationen
s 2 (a ⋅ x) = a 2 ⋅ s 2 ( x)
(mit a = const.)
const )
Kennwerte
Grafische
Darstellung II
Durch Wurzelziehen erhält man die
Standardabweichung (SD, standard deviation)
n
1
2
2
s( x) = s ( x) =
( xi − x )
∑
n i =1
Die Standardabweichung ist äquivariant zu den
erlaubten Skalentransformationen
Statistik &
Methodenlehre
e ode e e
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Numerische Beschreibung: s² und s
Grafische
Darstellung I
Verhalten von Varianz und Standardabweichung bei
Transformationen der n Beobachtungen x1 … xn
Kennwerte
1. Die Addition einer Konstanten a zu allen Werten x
verändert Varianz und Standardabweichung nicht
s²(x + a) = s²(x)
Grafische
Darstellung II
s(x + a) = s(x)
2 Die Multiplikation aller Werte x mit einer Konstanten a
2.
führt zu einer Erhöhung der Varianz um a² und der
Standardabweichung um a
s²(a
²( · x)) = a²² · s²(x)
²( )
s(a · x) = a · s(x)
Statistik &
Methodenlehre
e ode e e
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Mittelwert und Varianz aus kategorisierten Daten
Grafische
Darstellung I
Liegen intervallskalierte Daten bereits in kategorisierter
Form vor (z.B. in einer Häufigkeitstabelle), so können
daraus Mittelwert und Varianz näherungsweise
bestimmt werden.
Kennwerte
Es sei
Grafische
Darstellung II
x j ,mid =
UG j + OG j
die Kategoriemitte der
2
j-ten von insgesamt k Kategorien mit der Häufigkeit fj(x).
Mittelwert
x = ∑ f ( x j ) ⋅ x j ,mid
k
j =1
Varianz
s ( x) = ∑ f ( x j ) ⋅ ( x j ,mid − x )
k
2
j =1
2
Statistik &
Methodenlehre
e ode e e
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Grafische Beschreibung: Fehlerbalkendiagramm
Grafische
Darstellung I
Kennwerte
Das Fehlerbalkendiagramm (Error Bar)
veranschaulicht Mittelwerte und die Streuung von Daten
für mindestens eine Stichprobe.
Für die
d Länge der
d Fehlerbalken
hl b lk existieren verschiedene
h d
Konventionen (± 1·SD, ± 1.96·SD, ± 2.58·SD)
Grafische
Darstellung II
Kö
örpergröße in cm
Körpergröße in c
m (+/‐
cm (+/‐1.96 SD)
1 SD)
195
190
185
180
175
170
165
160
Frauen
Geschlecht
Männer
Statistik &
Methodenlehre
e ode e e
Intervalldaten
z-Standardisierung
z Standardisierung
z-Standardisierung
Transformationsregel
Ziel: Angabe der relativen Lage von Werten in einer
Verteilung.
1. Quantile: wie bereits gesehen
2. Angabe einer normierten Differenz eines Messwertes
zum Mittelwert
Berechnungsvorschrift: Jede Differenz eines Messwertes
wird durch die Standardabweichung
g aller Messwerte geteilt.
g
Die erhaltenen Werte werden als z-Werte bezeichnet.
x−x
zx =
sx
Statistik &
Methodenlehre
e ode e e
Intervalldaten
z-Standardisierung
z-Standardisierung
z
Standardisierung
Eigenschaften
Der zz-Wert
Wert kann auch als Differenz eines
normierten Datenwertes vom normierten Mittelwert
betrachtet werden, denn
x−x x x
= −
zx =
sx
sx sx
D Mitt
Der
Mittelwert
l
t von z-Werten
W t iistt iimmer 0
Die Standardabweichung von z-Werten ist immer 1
Statistik &
Methodenlehre
e ode e e
Intervalldaten
z-Standardisierung
z-Standardisierung
z
Standardisierung
Eigenschaften
Der zz-Wert
Wert kann auch als Differenz eines normierten
Datenwertes vom normierten Mittelwert betrachtet
werden, denn
x−x x x
= −
zx =
sx
sx sx
D Mittelwert
Der
Mitt l
t von z-Werten
W t iistt iimmer 0
Die Standardabweichung von z-Werten ist immer 1
Statistik &
Methodenlehre
e ode e e
Intervalldaten
z-Standardisierung
z-Standardisierung
z
Standardisierung
Skalentransformation
Mithilfe der zz-Transformation
Transformation können Messdaten mit
beliebigem Mittelwert und Standardabweichung in
Daten transformiert werden, die einen definierten
Mittelwert und Standardabweichung
g aufweisen.
Schritt 1: z-Standardisierung jedes Datenpunktes
Schritt 2: Transformation jedes Datenpunktes in
die neue Skala
xneu = ( z ⋅ sneu ) + xneu
Beispiele: Hamburg-Wechsler
Hamburg Wechsler IQ-Test
IQ Test (MW=100,
(MW 100,
s=15), IQ-Skala laut IST (MW=100, s=10), StanineSkala (MW=5, s=2),
Statistik &
Methodenlehre
e ode e e
Relevante Excel Funktionen
Kennwerte
•
•
•
•
•
•
•
•
•
ABS()
^-Operator für Quadrierung, POTENZ()
WURZEL()
MITTELWERT(), MITTELWERTWENN(),
MITTELWERTWENNS()
MITTELABW()
QUADRATESUMME()
VAR.P()
STABW.N()
STANDARDISIERUNG()
Herunterladen