empirische Verteilungsfunktion - Methodenlehre und Statistik

Werbung
Methoden der
Psychologie
Prof. Dr. G. Meinhardt
6. Stock, TB II
R. 06-206 (Persike)
R. 06-321 (Meinhardt)
Forschungsstatistik I
Sprechstunde jederzeit
nach Vereinbarung
Dr. Malte Persike
 [email protected]
 http://psymet03.sowi.uni-mainz.de/
WS 2009/2010
Fachbereich Sozialwissenschaften
Psychologisches Institut
Johannes Gutenberg Universität Mainz
Methoden der
Psychologie
Nominalskala
Ordinalskala
Skalenniveaus
Mathe Recap
Skalenniveaus
Wir haben bereits eine Unterscheidung von Typen von
Variablen anhand der Art der Daten kennen gelernt.
Intervallskala

Eine diskrete Variable besitzt zumeist endlich
viele und feste Ausprägungen, die man über
Ganzzahlen beschreiben kann
Höhere
Skalenniveaus

Eine kontinuierliche (stetige) Variable kann
(unendlich viele) beliebige Ausprägungen
annehmen, die man über reelle Zahlen beschreibt
Eine andere Unterscheidung anhand der Art der Daten
unterteilte Variablen in qualitative und quantitative
Variablen.
Methoden der
Psychologie
Nominalskala
Ordinalskala
Skalenniveaus
Mathe Recap
Skalenniveaus
Eine statistisch sinnvolle Art der Klassifikation von
Variablen ist die Einteilung in Skalenniveaus.
Intervallskala
Höhere
Skalenniveaus
•
Nominalskala
•
Ordinalskala
•
Intervallskala
•
Verhältnisskala (Ratioskala)
•
Absolutskala

Der Informationsgehalt nimmt von der Nominalskala
zur Absolutskala hin zu

Bei Messungen psychischer Merkmale kommen die
Verhältnis- und die Absolutskala so gut wie nie vor
Methoden der
Psychologie
Nominalskala
Skalenniveaus
Mathe Recap
Skalenniveaus
Nominalskala – Definition
Ordinalskala

Bei einer Nominalskala werden den Realisationen einer
Variablen Zahlen mit dem Ziel zugeordnet, Kategorien
zu unterscheiden

Die Zahlen selbst sind nicht interpretierbar

Die Anwendung der üblichen Rechenoperationen auf
die Werte einer nominalskalierten Variablen ist im
Allgemeinen nicht sinnvoll
Intervallskala
Höhere
Skalenniveaus
Methoden der
Psychologie
Nominalskala
Skalenniveaus
Mathe Recap
Skalenniveaus
Nominalskala – Beispiele
Ordinalskala
 Konstitutionstypen
Intervallskala
Höhere
Skalenniveaus
a) Leptosomer Typ
 Temperamentstypen
b) Athletischer Typ
c) Pyknischer Typ
Methoden der
Psychologie
Nominalskala
Skalenniveaus
Mathe Recap
Skalenniveaus
Nominalskala – Zulässige Transformationen
Ordinalskala
Intervallskala
Höhere
Skalenniveaus
Zulässige Transformationen sind eineindeutige
Abbildungen, so dass die Unterscheidbarkeit der Werte
erhalten bleibt.
Methoden der
Psychologie
Nominalskala
Skalenniveaus
Mathe Recap
Skalenniveaus
Ordinalskala – Definition
Ordinalskala
 Bei einer Ordinalskala können die Realisationen einer
Variablen geordnet werden
Intervallskala
Höhere
Skalenniveaus
 Die Zuordnung der Zahlen zu den Ausprägungen
spiegelt die Ordnung wieder Abstände zwischen den
Zahlen können nicht interpretiert werden
 Die Anwendung von Rechenoperationen auf die Werte
einer ordinalskalierten Variablen ist unter bestimmten
Voraussetzungen erlaubt, aber im Allgemeinen eher
wenig sinnvoll
Methoden der
Psychologie
Nominalskala
Skalenniveaus
Mathe Recap
Skalenniveaus
Ordinalskala – Beispiel
Ordinalskala
Social Penetration Theory von Altman und Taylor (1958)
(I)
Intervallskala
Höhere
Skalenniveaus
(II)
Orientierungsstadium: Sozial erwünschte Normen und
Verhaltensschemata werden ausgetauscht (z.B. Smalltalk)
Exploratorisch-affektives Stadium: Partielle Öffnung der eigenen
Einstellungs- und Wahrnehmungswelt gegenüber dem Anderen
im Hinblick auf private, vor allem aber berufliche und
weltanschauliche Inhalte. Weiterhin vorsichtige Prüfung der
Interaktionsformen („Bekanntschaftsphase“).
(III) Affektives Stadium: Intensiver und möglicherweise kritischer
Austausch über private und persönliche Themen. Körperliche
Zuwendung wie Berühren und Küssen.
(IV)
Stabiles Stadium: Die Beziehung erreicht ein Plateau,
(V)
Depenetration: Zusammenbruch und mögliches Ende der
persönliche Inhalte sind geteilt, Verhalten und Emotionen des
Anderen vorhersagbar.
Beziehung, Überwiegen von Kosten gegenüber dem Nutzen.
Methoden der
Psychologie
Nominalskala
Skalenniveaus
Mathe Recap
Skalenniveaus
Ordinalskala – Zulässige Transformationen
Ordinalskala
Intervallskala
Höhere
Skalenniveaus
Zulässig sind alle streng monotonen Transformationen,
so dass die Rangordnung der Werte erhalten bleibt.
Methoden der
Psychologie
Nominalskala
Skalenniveaus
Mathe Recap
Skalenniveaus
Intervallskala – Definition
Ordinalskala
 Es wird eine Einheit definiert
Intervallskala
Höhere
Skalenniveaus
 Es existiert kein natürlicher Nullpunkt
 Verhältnisse zwischen Differenzen können
verglichen werden
 Wird am häufigsten in empirischen psychologischen
Untersuchungen angenommen
Methoden der
Psychologie
Nominalskala
Skalenniveaus
Mathe Recap
Skalenniveaus
Intervallskala – Beispiel
Ordinalskala
Attitudes Toward Housecleaning Scale von Ogletree,
Worthen, Turner & Vickers (2006).
Intervallskala
Höhere
Skalenniveaus
Ihre Aufgabe ist es, ihre Gefühle gegenüber jeder Aussage dahingehend
zu kennzeichnen, ob sie (1) stark zustimmen, (2) etwas zustimmen, (3)
weder zustimmen noch ablehnen, (4) etwas ablehnen oder (5) stark
ablehnen. Bitte verdeutlichen Sie Ihre Meinung dadurch, dass sie
entweder 1, 2, 3, 4 oder 5 auf dem Antwortblatt schwärzen.
 Einen Stapel dreckigen Geschirrs über Nacht im
Spülbecken liegen zu lassen finde ich ekelhaft.
 Ich finde Staubwischen entspannend.
 Den Müll rauszubringen macht mir Spaß
 Frauen sollten die primäre Verantwortung für die
Hausarbeit übernehmen.
 Eine unordentliche Wohnung zu haben macht mir nichts
Methoden der
Psychologie
Nominalskala
Skalenniveaus
Mathe Recap
Skalenniveaus
Intervallskala – Zulässige Transformationen
Ordinalskala
Intervallskala
Höhere
Skalenniveaus
Zulässig sind alle linearen Transformationen, so dass die
Verhältnisse zwischen Differenzen erhalten bleiben.
Methoden der
Psychologie
Nominalskala
Skalenniveaus
Skalenniveaus
Mathe Recap
Intervallskala – Zulässige Transformationen
Ordinalskala
Intervallskala
Höhere
Skalenniveaus
Methoden der
Psychologie
Nominalskala
Skalenniveaus
Mathe Recap
Skalenniveaus
Intervallskala – Kritische Betrachtung
Ordinalskala
 Die bekanntesten und am meisten verbreiteten
statistischen Verfahren setzen eine Intervallskala voraus
Intervallskala
 Der Umgang mit niedrigeren Skalenniveaus ist
mathematisch oftmals weitaus komplexer
Höhere
Skalenniveaus
 Die ungeprüfte Annahme der Intervallskala in
psychologischen Untersuchungen ist oft problematisch
 Beispiele: IQ-Skala, 7-Punkte Likert Skala,
Prüfungsnoten, Becks Depressionsskala (BDI)
0 – 13:
14 – 19:
20 – 28:
29 – 63:
Keine bis minimale Depression
Milde Depression
Moderate Depression
Schwere Depression
Methoden der
Psychologie
Nominalskala
Skalenniveaus
Mathe Recap
Skalenniveaus
Verhältnisskala – Definition
Ordinalskala
 Bei der Verhältnisskala wird eine Einheit definiert
Intervallskala
Höhere
Skalenniveaus
 Es existiert ein natürlicher Nullpunkt
 Verhältnisse zwischen Werten können verglichen
werden
 Wird kaum in empirischen psychologischen
Untersuchungen angenommen
Methoden der
Psychologie
Nominalskala
Skalenniveaus
Mathe Recap
Skalenniveaus
Verhältnisskala – Zulässige Transformationen
Ordinalskala
Intervallskala
Höhere
Skalenniveaus
Zulässig sind alle Ähnlichkeitstransformationen, so dass
die Verhältnisse zwischen Werten erhalten bleiben.
Methoden der
Psychologie
Nominalskala
Skalenniveaus
Mathe Recap
Skalenniveaus
Absolutskala – Definition
Ordinalskala
 Bei der Absolutskala ist die Einheit natürlich
vorgegeben
Intervallskala
Höhere
Skalenniveaus
 Es existiert ein natürlicher Nullpunkt
 Werte können direkt interpretiert werden
 Wird kaum in empirischen psychologischen
Untersuchungen angenommen
 Es existieren keine erlaubten Transformationen
Methoden der
Psychologie
Nominalskala
Skalenniveaus
Skalenniveaus
Zusammenfassung
Ordinalskala
Intervallskala
Höhere
Skalenniveaus
Mathe Recap
Methoden der
Psychologie
Nominaldaten
Ordinaldaten
Diskrete Variablen
Notation
Variablen werden mit Großbuchstaben
symbolisiert, häufig verwendet man X und Y
Die Ausprägung einer Variablen wird dann mit
den entsprechenden Kleinbuchstaben
gekennzeichnet, also x und y
Kann eine diskrete Variable X genau k
Ausprägungen annehmen, so ist die i-te davon
xi mit i = 1…k
Die Aufzählung
g aller k Ausprägungen
p g g wird
geschrieben als X ∈ {x1, …, xk}
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Nominaldaten
Numerische Beschreibung: Häufigkeiten
Kreuztabellen
Kennwerte
Grafische
Darstellung
Nominalskalierte Variablen sind praktisch immer
diskret und endlich
Die empirische beobachtete Häufigkeit des
Auftretens einer Ausprägung X = x wird als
h(X = x) oder vereinfacht h(x) geschrieben.
h( ) bezeichnet man als absolute Häufigkeit
h(x)
Die relative Häufigkeit f(X = x) bzw. f(x) ist
dann definiert als der Quotient aus absoluter
Häufigkeit und der Anzahl n aller Beobachtungen
h( x )
f ( x) =
⇔ h( x ) = f ( x ) ⋅ n
n
Achtung: Relative
Häufigkeiten sind nicht
Wahrscheinnlichkeiten
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Nominaldaten
Numerische Beschreibung: univariate Kreuztabellen
Kreuztabellen
Kennwerte
Grafische
Darstellung
Wert von X
x1
x2
…
xi
…
xk
h(X = xi)
h(x1)
h(x2)
…
h(xi)
…
h(xk)
f(X = xi)
f(x1)
f(x2)
…
f(xi)
…
f(xk)
Die Sammlung der Werte der h(X = xi) und f(X = xi)
fü alle
für
ll möglichen
ö li h i = 1…k
1 k wird
i d als
l diskrete
di k t
Häufigkeitsverteilung bezeichnet
Tabellarische Darstellung über Kreuztabellen
(oder Kontingenztabellen)
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Nominaldaten
Numerische Beschreibung: bivariate Kreuztabellen
Kreuztabellen
Oft betrachtet man Häufigkeiten für das
gemeinsame Auftreten zweier Merkmale
Kennwerte
B i i l F
Beispiel:
Frauen/Männer
/Mä
, die
di unter-/normalt /
l
/übergewichtig sind
Grafische
Darstellung
In diesem Fall werden 2 Variablen betrachtet:
X: Geschlecht (x1, x2)
Y: Gewichtsstatus (y1, y2, y3)
Die Häufigkeiten sind nun so genannte Verbundhäufigkeiten, die das Vorkommen jeder
möglichen Kombination aus x und y beschreiben
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Nominaldaten
Numerische Beschreibung: bivariate Kreuztabellen
Kreuztabellen
Kennwerte
Absolute Verbundhäufigkeiten werden im bivariaten
Fall symbolisiert als h(X=x, Y=y) bzw. h(x, y)
Relative Verbundhäufigkeiten als f(X=x, Y=y) bzw. f(x, y)
Tabellarische Darstellung über bivariate
Kreuztabellen
Grafische
Darstellung
Geschlecht
Männlich (x1) Weiblich (x2)
U t (y
Unter
( 1)
f( 1,y1)
f(x
f( 2,y1)
f(x
Gewicht Normal (y2)
f(x1,y2)
f(x2,y2)
Über (y3)
f(x1,y3)
f(x2,y3)
Σ
f( 1,●))
f(x
f( 2,●))
f(x
Randhäufigkeiten
Σ
f(● 1)
f(●,y
f(●,y2)
f(●,y3)
f( )
f(●,●)
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Nominaldaten
Rechnen mit Häufigkeiten (am bivariaten Beispiel)
Kreuztabellen
Anzahl Beobachtungen:
kx
ky
n = h(•, •) = ∑∑ h( xi , y j )
i =1 j =1
Kennwerte
Randhäufigkeiten für x:
Grafische
Darstellung
analog für f(xi,●)
Randhäufigkeiten
g
für yy:
analog für f(yj,●)
ky
h( xi , •) = ∑ h( xi , y j )
j =1
kx
h(•, y j ) = ∑ h( xi , y j )
i =1
kx
Darüber hinaus gilt:
ky
∑∑ f ( x , y ) = 1
i =1 j =1
i
j
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Nominaldaten
Numerische Beschreibung: multivariate Kreuztabellen
Kreuztabellen
Auch das gemeinsame Vorkommen von mehr als
zwei Merkmalen ist über Kreuztabellen darstellbar
Kennwerte
Beispiel: Frauen/Männer, die unter-/normal/übergewichtig sind und Stricken/World of
Grafische
Darstellung
W
Warcraft
ft spielen
i l
In diesem Fall werden 3 Variablen betrachtet:
X: Geschlecht (x1, x2)
Y: Gewichtsstatus (y1, y2, y3)
Z: Freizeitbeschäftigung
g g ((z1, z2)
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Nominaldaten
Numerische Beschreibung: multivariate Kreuztabellen
Kreuztabellen
Kennwerte
Grafische
Darstellung
Absolute Verbundhäufigkeiten werden im multivariaten
Fall symbolisiert als h(X=x, Y=y, …) bzw. h(x, y, …)
Relative Verbundhäufigkeiten als f(X=x, Y=y, …)
bzw. f(x, y, …)
Tabellarische Darstellung über geschachtelte (oder
„genestete
genestete“)) Kreuztabellen
Geschlecht
Männlich (x1)
Freizeit
Gewicht
Stricken (z1)
Weiblich (x2)
WoW (z2) Stricken (z1) WoW (z2)
Unter (y1)
f(x1,y1,z1)
f(x1,y1,z2)
f(x2,y1,z1)
f(x2,y1,z2)
Normal (y2)
f(x1,y2,z1)
f(x1,y2,z2)
f(x2,y2,z1)
f(x2,y2,z2)
Über (y3)
f(x1,yy3,z1)
f(x1,yy3,z2)
f(x2,yy3,z1)
f(x2,yy3,z2)
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Nominaldaten
Numerische Beschreibung: Kennwerte
Kreuztabellen
Kennwerte
Als Kennwert
Al
K
t bezeichnet
b i h t man ein
i statistisches
t ti ti h
Maß, das eine Menge von Beobachtungen über
zumeist nur eine Zahl beschreibt
Kennwerte dienen damit der Datenreduktion
Grafische
Darstellung
Kennwerte charakterisieren lediglich bestimmte
Eigenschaften der gegebenen Menge von
Beobachtungen, sie bedeuten als einen
Informationsverlust
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Nominaldaten
Numerische Beschreibung: Kennwerte
Kreuztabellen
Ein Kennwert für nominalskalierte Daten ist der
Modalwert (oder „Modus“)
Kennwerte
Er bezeichnet die unter den Beobachtungen am
häufigsten vorkommende Ausprägung
Grafische
Darstellung
xmod : x → f ( x) = max .
Wichtig:
i h i Der Modalwert
d l
ist nicht
h die
d Häufigkeit,
f k
sondern der Wert der häufigsten Ausprägung.
Bei mehreren Maxima sinkt die Aussagekraft von
xmod
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Nominaldaten
Grafische Beschreibung: Kreisdiagramm
Kreuztabellen
Kennwerte
Grafische
Darstellung
Das KreisKreis oder Tortendiagramm stellt die relativen oder
absoluten Häufigkeiten von Klassen als Kreissegmente
eines Vollkreises („Tortenstücke“) dar.
Der Öffnungswinkel α eines Tortenstücks ist dabei durch
den Anteil der Klassenelemente an allen Elementen
definiert und wird berechnet als
h( x )
α = 360°°⋅
= 360° ⋅ f ( x)
n
Die Summe der Öffnungswinkel aller Kreissegmente
sollte wieder 360° ergeben
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Nominaldaten
Grafische Beschreibung: Kreisdiagramm
Kreuztabellen
Beispiel: Von den 43
43.371.190
371 190 Wahlgängern der
Bundestagswahl 2009 haben gewählt:
Kennwerte
5161172
11.9%
Grafische
Darstellung
2602271
6.0%
9975374
23.0%
4640717
10.7%
6332194
14.6%
14659462
33.8%
SPD
CDU/CSU
FDP
Grüne
Linke
Sonstige
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Nominaldaten
Grafische Beschreibung: Säulendiagramm
Kreuztabellen
Kennwerte
Grafische
Darstellung
Das Balken- oder Säulendiagramm stellt die
relativen oder absoluten Häufigkeiten von
Ausprägungen als Balken (waagerecht) oder
Säulen (senkrecht) dar.
Die verschiedenen möglichen Ausprägungen
werden auch als Klassen bezeichnet
Der Länge der Säulen bzw. Balken ist dabei durch
den Anteil der Klassenelemente am Ganzen bzw
bzw.
die absolute Anzahl definiert.
Die Breite der Balken variiert i.d.R. nicht innerhalb
eines Balkendiagramms
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Nominaldaten
Grafische Beschreibung: Säulendiagramm
Kreuztabellen
Beispiel: Von den 43
43.371.190
371 190 Wahlgängern der
Bundestagswahl 2009 haben gewählt:
Grafische
Darstellung
Wahlergebn
W
nis in Mio.
%
Kennwerte
40
16
35
14
14.66
33.8%
30
12
25
10
20
8
9.98
23.0%
15
6
6 33
6.33
14.6%
10
4
4.64
10.7%
5.16
11.9%
5
2
2.60
6.0%
0
SPD
CDU/CSU
FDP
Grüne
Linke
Sonstige
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Nominaldaten
Grafische Beschreibung: Säulendiagramm
Kreuztabellen
Warum gleiche Säulenbreiten?
Kennwerte
Grafische
Darstellung
Menschen neigen zur Größenbewertung anhand der Fläche.
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Ordinaldaten
Numerische Beschreibung: Häufigkeiten
Kreuztabellen
und Klassen
Ordinalskalierte Variablen sind sehr häufig diskret und
endlich
Kennwerte
Es gelten die bereits eingeführten Notationen und
Berechnungsvorschriften für empirische Häufigkeiten
Grafische
Darstellung
Neben der Häufigkeitsverteilung
g
g kann auch noch die
empirische Verteilungsfunktion bestimmt werden.
Diese g
gibt an, wie viele Beobachtungen
g kleiner oder
gleich einer bestimmten Ausprägung x sind.
Zur Berechnung der Verteilungsfunktion müssen die
Ausprägungen zunächst der Größe nach geordnet
werden.
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Ordinaldaten
Numerische Beschreibung: Häufigkeiten
Kreuztabellen
und Klassen
Empirische Häufigkeitsverteilung und Verteilungsfunktion:
Wert von X
(geordnet)
Kennwerte
x1
x2
…
xk
f(X = xi)
F(X ≤ xi)
f(x1)
f(x2)
…
f(xk)
f(x1)
f(x1)+f(x2)
…
f(x1)+f(x2)+…+f(xk)
Grafische
Darstellung
Berechnungsvorschrift:
analog für absolute Vert.funkt. H(X ≤ xi)
i
F ( X ≤ xi ) = ∑ f ( x j )
Für Ordinaldaten gelten die bereits eingeführten
Konventionen zur Erstellung von Kreuztabellen
j =1
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Ordinaldaten
Numerische Beschreibung: Kennwerte
Kreuztabellen
und Klassen
Kennwerte
Grafische
Darstellung
M ß d
Maße
der zentralen
t l Tendenz
T d
• Median
A d
Andere
Lagemaße
L
ß
• Modalwert
• Extrema (Minimum, Maximum)
• Quantile
l
Streuungsmaße (Dispersionsmaße)
• Spannweite
• (Halber) Interquartilsabstand
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Ordinaldaten
Numerische Beschreibung: Median
Kreuztabellen
und Klassen
Kennwerte
Mindestens
Mi
d t
50% der
d Beobachtungen
B b ht
einer
i
Variablen
V i bl
sind kleiner oder gleich dem Median
Mindestens 50% der Beobachtungen einer Variablen
sind größer oder gleich dem Median
Notation:
Grafische
Darstellung
xmed oder x
Problem: Bei einer geraden Zahl von Beobachtungen ist
der Median nicht eindeutig
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Ordinaldaten
Numerische Beschreibung: Median
Berechnung des
Kreuztabellen
und Klassen
Median
Daten sortieren
Kennwerte
n ungerade
Grafische
Darstellung
Der
n −1
+1
2
Wert
n gerade
Mittel zwischen
te
n
t
tem
2
und
n
+ 1 ten
2
Wert
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Ordinaldaten
Numerische Beschreibung: Median
Kreuztabellen
und Klassen
Kennwerte
Der Median stimmt häufig mit keiner beobachteten
Ausprägung überein
Median (und auch der Modalwert) sind äquivariant
gegenüber gewissen (z.B. linearen) Transformationen
Insbesondere
Grafische
Darstellung
1. Addition einer Konstanten c zu allen n
Beobachtungen x1 … xn
xk
+ c = x + c
2. Multiplikation aller n Beobachtungen x1 … xn mit
einer Konstanten c
xk
⋅ c = x ⋅ c
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Ordinaldaten
Numerische Beschreibung: Quantile
Kreuztabellen
und Klassen
Quantile sind Zahlen,
Zahlen die einen Datensatz mit n
Beobachtungen in bestimmtem Verhältnis teilen
p-Quantil (0 < p < 1) besitzt folgende Eigenschaften:
Kennwerte
Grafische
Darstellung
1. Mindestens n·p Beobachtungen sind kleiner
oder gleich dem Quantil
2. Mindestens nn·(1
(1 – p) Beobachtungen sind
größer oder gleich dem Quantil
Notation: xp (z. B. x0.75)
Je nach der Anzahl von Unterteilungen
unterscheidet man Centile (100er Einteilung),
Dezentile (10er Einteilung) und Quartile (4er
Einteilung)
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Ordinaldaten
Numerische Beschreibung: Quantile
Kreuztabellen
und Klassen
Kennwerte
Vorgehensweise bei der Quantilbestimmung
Gegeben: Beobachtungen: x1,…,xn
Ordnen der Beobachtungen nach aufsteigender Größe:
x(1),…,x(n)
Bestimmung des Quantils xp
Grafische
Darstellung
Fall 1: n·p ganzzahlig: xp=(xn·p+xn·p+1)/2
Fall 2: n·p nicht ganzzahlig: xp=x([n·p]+1)
Hier bezeichnet [n·p] die größte ganze Zahl, welche
kleiner oder gleich n·p ist, also die Abrundung von n·p.
Damit beschreibt [n·p] + 1 also die Aufrundung des
Wertes von n·p.
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Ordinaldaten
Numerische Beschreibung: Quantile
Kreuztabellen
und Klassen
Wichtige Quantile sind:
Minimum (0.
(0 Quartial) und Maximum (4.
(4 Quartil)
Kennwerte
Median (50% Quantil, 2. Quartil)
Grafische
Darstellung
25% Quantil (1. Quartil, unteres Quartil) und 75%
Quantil (3. Quartil, oberes Quartil)
Dezile: x.10, x.20, …, x.90
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Ordinaldaten
Quantile – A cautionary note about conventions
Kreuztabellen
und Klassen
In Literatur und Softwarepaketen sind die Berechnungsvorschriften für Quantile häufig unterschiedlich definiert
oder sogar fehlerhaft
fehlerhaft.
Kennwerte
Grafische
Darstellung
Maß
Unsere
Formeln
Excel
SPSS
Median
137.5
137.5
137.5
1. Quartil
130 5
130.5
132 25
132.25
128 75
128.75
3. Quartil
146
145
147
Für den Beispieldatensatz mit n
n=12.
12
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Ordinaldaten
Numerische Beschreibung: Spannweite
Kreuztabellen
und Klassen
Die Spannweite dk ist die Differenz zwischen dem
kleinsten und größten Wert aller Ausprägungen.
Sie ist definiert als:
Kennwerte
Grafische
Darstellung
d k = xmax − xmin
Die Spannweite ist nicht identisch mit der Anzahl
unterschiedlicher Ausprägungen.
Diese wäre xmax – xmin + 1.
Die Spannweite ist eher uninformativ, da sie nur zwei
von k Ausprägungen berücksichtigt.
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Ordinaldaten
Numerische Beschreibung: Interquartilsabstand
Kreuztabellen
und Klassen
Der Interquartilsabstand dq ist die Differenz
zwischen dem 1. und 3. Quartil
Er ist definiert als
Kennwerte
d q = x.75
75 − x.25
25
Grafische
Darstellung
Manchmal
M
h l wird
i d ein
i halber
h lb
Interquartilsabstand berechnet als dq/2.
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Ordinaldaten
Grafische Beschreibung: Stamm-Blatt Diagramm
Kreuztabellen
und Klassen
Kennwerte
Grafische
Darstellung
Das Stamm-Blatt Diagramm stellt
Häufigkeitsdaten grafisch ohne
Verlust von Informationen dar.
dar Es
eignet sich besonders für kleine
Datensätze.
Das Diagramm besteht aus 2 Spalten
Stamm = Äquivalenzklassen (feste Dezimalstellen)
Blätter = Merkmale (variable Dezimalstellen)
Die Stammbreite bezeichnet dabei
die Breite der Klassen des Stamm-Blatt
Diagramms
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Ordinaldaten
Grafische Beschreibung: Stamm-Blatt Diagramm
Kreuztabellen
und Klassen
Beispiel: Gegeben seien Beobachtungen an einer
Stichprobe mit n = 30.
Kennwerte
(2, 8, 10, 11, 11, 12, 13, 14, 15, 17, 18, 19, 20,
21, 21, 23, 23, 24, 24, 25, 25, 26, 27, 27, 28,
28, 29, 29, 30, 32)
Grafische
Darstellung
0
1
2
3
2
0
0
0
8
1 1 2 3 4 5 7 8 9
1 1 3 3 4 4 5 5 6 7 7 8 8 9 9
2
Mit Stammbreite = 10
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Ordinaldaten
Grafische Beschreibung: Stamm-Blatt Diagramm
Kreuztabellen
und Klassen
Beispiel: Gegeben seien Beobachtungen an einer
Stichprobe mit n = 30.
Kennwerte
(2, 8, 10, 11, 11, 12, 13, 14, 15, 17, 18, 19, 20,
21, 21, 23, 23, 24, 24, 25, 25, 26, 27, 27, 28,
28, 29, 29, 30, 32)
Grafische
Darstellung
0
0
1
1
2
2
3
2
8
0
5
0
5
0
1
7
1
5
2
1
8
1
6
2 3 4
9
3 3 4 4
7 7 8 8 9 9
Mit Stammbreite = 5
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Ordinaldaten
Grafische Beschreibung: Stamm-Blatt Diagramm
Kreuztabellen
und Klassen
Das Stamm- Blatt Diagramm eignet sich auch zum
Vergleich zweier Verteilungen.
Kennwerte
Grafische
Darstellung
0 1
5
0 1 1 1 2 3 3
5 5 6 7 8
0 2 3
6
2
7
4
9
4
7
4
9
4
9
4
0
0
1
1
2
2
3
Mit Stammbreite = 5
2
8
0
5
0
5
0
1
7
1
5
2
1
8
1
6
2 3 4
9
3 3 4 4
7 7 8 8 9 9
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Ordinaldaten
Grafische Beschreibung: Empirische Verteilungsfunktion
Kreuztabellen
und Klassen
Die empirische
p
Verteilungsfunktion
g
ist definiert als
k
F ( x) = F ( X ≤ xk ) = ∑ fi
i =1
Kennwerte
Grafische
Darstellung
Note x h(x)
f(x)
F(x)
1
7
0.17
0.17
2
13
0.32
0.49
3
11
0 27
0.27
0 76
0.76
4
6
0.15
0.91
5
3
0 07
0.07
0 98
0.98
6
1
0.02
1.00
Zur grafischen Darstellung werden
also die empirischen relativen
g
aufsummiert
Häufigkeiten
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Ordinaldaten
Grafische Beschreibung: Box-Whisker-Plot
Kreuztabellen
und Klassen
Kennwerte
Grafische
Darstellung
Mithilfe der Fünf-PunkteZusammenfassung
(xmin, x.25, xmed, x.75, xmax)
können Häufigkeitsdaten
grafisch am Boxplot
veranschaulicht werden.
Diese Variante ist
problematisch, weil
A
Ausreißer
iß die
di Länge
Lä
der
d
Whisker erheblich
vergrößern können
xmax
15
x.75
75
x
x.25
25
12
9
6
3
xmin
0
Note
Methoden der
Psychologie
Häufigkeiten
Nominaldaten
Ordinaldaten
Ordinaldaten
Grafische Beschreibung: Box-Whisker-Plot
Kreuztabellen
und Klassen
Kennwerte
Grafische
Darstellung
Eine zweite häufig
verwendete Variante des
Boxplots verwendet den
1.5fachen Interquartilsq
abstand dq für die Länge
der Whisker.
Whisker enden am letzten
Datenpunkt innerhalb
ihrer Reichweite
Datenpunkte außerhalb der
Whisker werden explizit
eingetragen.
Ausreißer >3dq werden mit
Sternchen (*) markiert.
15
1.5 d q
x.75
75
dq
x
x.25
25
12
9
6
1.5 d q
3
8
0
Note
< 3 dq
Methoden der
Psychologie
Nominaldaten
Ordinaldaten
Grafische Beschreibung: Box-Whisker-Plot
Ordinaldaten
Methoden der
Psychologie
Nominaldaten
Ordinaldaten
Grafische Beschreibung: Box-Whisker-Plot
Ordinaldaten
Methoden der
Psychologie
Nominaldaten
Grafische Beschreibung
How-not -to
Ordinaldaten
Methoden der
Psychologie
Nominaldaten
Ordinaldaten
Grafische Beschreibung
How-not -to
„Keine Geschlechterlücke mehr beim Gehalt von Führungskräften“
Methoden der
Psychologie
Nominaldaten
Ordinaldaten
Grafische Beschreibung
How-not -to
Bild fragt: „Brauchen
wir eine Ausländerquote
an deutschen Schulen?“
als Reaktion auf PISA 2008
Methoden der
Psychologie
Relevante Excel Funktionen
Häufigkeitsberechnungen
• Grundrechenarten: +
+, -,
- ×,
× /
• Formeln für Grundrechenarten: SUMME(), PRODUKT()
Häufigkeitsdarstellungen
g
g
•
•
•
•
ANZAHL2()
ZÄHLENWENN()
HÄUFIGKEIT()
()
Diagramme: Kreisdiagramm, Säulen-/Balkendiagramm
Kennwerte
•
•
•
•
•
MIN(), MAX() [=Modalwert]
Sortieren über das Menü
ABRUNDEN(), AUFRUNDEN(), RUNDEN()
INDEX()
Direkte Formeln: MEDIAN(), QUANTIL(), QUARTILE()
Methoden der
Psychologie
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Numerische Beschreibung: Kreuztabellen
Grafische
Darstellung I
Kennwerte
Grafische
Darstellung II
Problem: Intervallskalierte Variablen können u.U.
beliebige Ausprägungen besitzen, die sich nicht mehr
sinnvoll in einer Tabelle darstellen lassen
Beispiele: Körpergrößen, Serotoninspiegel, Reaktionszeit
Lösung: Es muss eine Aggregation vieler Ausprägungen
in wenige Kategorien (oder „Klassen“) stattfinden
Methoden der
Psychologie
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Numerische Beschreibung: Klassenbildung
Grafische
Darstellung I
Die Messwertklassen dürfen sich nicht überschneiden,
sie sind also wechselseitig ausschließend.
Kennwerte
Die untere und obere Klassengrenze UGi und OGi
gehören zur Klasse ci, die untere Grenze der nächsten
Klasse UGi+1 jedoch nicht.
ci = [UGi … OGi] oder ci = [UGi … UGi+1)
Grafische
Darstellung II
Alle Klassen haben im Normalfall dieselbe Breite.
Die Anzahl der Klassen ist zunächst frei wählbar.
wählbar Es ist
aber zu beachten:
1. Es sollte keine leeren Klassen geben
2 Es sollten keine in den Daten enthaltenen
2.
wichtigen Informationen „herausggregiert“ werden
(z.B. mehrere Modalwerte)
Methoden der
Psychologie
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Numerische Beschreibung: Klassenbildung
Grafische
Darstellung I
Kennwerte
Grafische
Darstellung II
Zur Bestimmung
g der Anzahl von Klassen gibt
g es
verschiedene Formeln. Als Faustregeln gelten:
Anzahl der Ausprägungen k
Klassenzahl c
5 bi
bis 50
5 bi
bis 8
50 bis 100
6 bis 10
100 bis 250
7 bis 12
>250
8 bis 25
Eine einfache Formel, die oft zu einer sinnvollen
Kl
Klassenanzahl
hl c führt,
füh t lautet
l t t
c = log 2 ( n ) + 1
Statt der Beobachtungen n wird manchmal auch die
Anzahl der Ausprägungen k verwendet.
Methoden der
Psychologie
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Numerische Beschreibung: Klassenbildung
Grafische
Darstellung I
25 Abiturienten erreichen in ihrer Abschlussarbeit folgende
Punktzahlen:
(11, 9, 10, 12, 11, 6, 9, 1, 7, 4, 7, 14, 10,
8 11,
8,
11 13
13, 11
11, 13
13, 11,
11 15,
15 8
8, 10,
10 8,
8 12
12, 12)
Kennwerte
Schreibweise der Klassengrenzen in der Tabelle?
Grafische
Darstellung II
Klasse
4
1–3
7
4–6
10
7–9
0 – 12
13
3
10
13 – 15
h(x)
1
1
6
0
10
7
f(x)
0 04
0.04
0.08
0.28
0
0.44
0.16
F(x)
0 04
0.04
0.12
0.40
08
0.84
1.00
Methoden der
Psychologie
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Grafische Beschreibung: Histogramm
Grafische
Darstellung I
Das Histogramm
D
Hi t
stellt
t llt di
die Hä
Häufigkeiten
fi k it vieler
i l
Kategorien in einem Säulendiagramm mit weniger
Klassen als Kategorien dar
Kennwerte
Die Klassen müssen nicht notwendig gleich breit sein
Grafische
Darstellung II
Für die Klassenbildung beim Histogramm gelten
dieselben Faustregeln wie bei den Kreuztabellen
Die Fläche einer Säule repräsentiert die Häufigkeit
der Elemente in der Klasse.
g
können dabei entweder absolute
Die Häufigkeiten
Häufigkeiten (absolutes Histogramm) sein oder relative
Häufigkeiten (relatives, normiertes Histogramm)
Methoden der
Psychologie
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Grafische Beschreibung: Histogramm
Grafische
Darstellung I
Kennwerte
Da die Fläche Ai einer Säule die Häufigkeit
repräsentiert, gilt für eine Klasse yi
A = f(xi), und damit f(xi) = ai · di
(ai ist die Höhe der Säule, di die Klassenbreite)
S it ist
Somit
i t die
di Höhe
Höh einer
i
Säule
Sä l
Grafische
Darstellung II
ai = f(x
f( i) / di
Dies gilt auch für die Darstellung mit absoluten
Häufigkeiten h(xi)
Dann ist die Höhe einer Säule
ai = h(xi) / di
Methoden der
Psychologie
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Grafische Beschreibung: Histogramm
Beispiel: Verteilung des IQ in diesem Raum
Raum.
Student
Kennwerte
Grafische
Darstellung II
→ 92 Werte zwischen 89 und 140
IQ
1
103
2
110
3
117
4
118
5
125
6
115
7
117
…
…
92
97
hff(IQ)
h(IQ)
Grafische
Darstellung I
Methoden der
Psychologie
Intervalldaten
z-Standardisierung
Intervalldaten
Grafische Beschreibung: Histogramm
Achtung: Die Wahl der Klassenanzahl kann für die Aussage entscheidend sein.
Beispiel: Körpergrößen an der Geisteswissenschaftlichen Fakultät der Uni Mainz
Klassenbreite: 10
f(IQ)
f(IQ)
Klassenbreite: 25
Methoden der
Psychologie
Kreuztabellen
Intervalldaten
Intervalldaten
z-Standardisierung
Verbale Beschreibung: Schiefe
Grafische
Darstellung I
Kennwerte
Grafische
Darstellung II
Methoden der
Psychologie
Intervalldaten
z-Standardisierung
Intervalldaten
Verbale Beschreibung: Modalität
Die Modalität einer Verteilung bezieht sich auf die Anzahl der lokalen Maxima in
den relativen bzw. absoluten Häufigkeiten f(x) bzw. h(x).
Methoden der
Psychologie
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Grafische Beschreibung: Empirische Verteilungsfunktion
Grafische
Darstellung I
Die empirische
p
Verteilungsfunktion
g
ist definiert als
k
F ( X ≤ xk ) = F ( x) = ∑ f ( xi )
i =1
Kennwerte
Grafische
Darstellung II
Note x h(x)
f(x)
F(x)
1
7
0.17
0.17
2
13
0.32
0.49
3
11
0 27
0.27
0 76
0.76
4
6
0.15
0.91
5
3
0 07
0.07
0 98
0.98
6
1
0.02
1.00
Zur grafischen Darstellung werden
also die empirischen relativen
g
aufsummiert
Häufigkeiten
Methoden der
Psychologie
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Numerische Beschreibung: Kennwerte
Grafische
Darstellung I
Maße der zentralen Tendenz
• Mittelwert
Kennwerte
Streuungsmaße (Dispersionsmaße)
Grafische
Darstellung II
• Mittlere Differenz
• Varianz
• Sta
Standardabweichung
da dab e c u g
Methoden der
Psychologie
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Numerische Beschreibung: Mittelwert
Grafische
Darstellung I
Kennwerte
Grafische
Darstellung II
Der Mittelwert ist bei n Beobachtungen x1 … xn
definiert als
1
1 n
x = ( x1 + x2 + … xN ) = ∑ xi
n
n i =1
Ist durch „extreme“ Werte beeinflussbar
(ausreißerempfindlich)
Ist der Schwerpunkt der Beobachtungen, d.h.
n
∑x −x =0
i =1
i
Methoden der
Psychologie
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Numerische Beschreibung: Mittelwert
Grafische
Darstellung I
Kennwerte
Der Mittelwert stimmt häufig mit keiner beobachteten
Realisation überein
Der Mittelwert ist äquivariant gegenüber gewissen (z.B.
linearen) Transformationen
Insbesondere
Grafische
Darstellung II
1. Addition einer Konstanten c zu allen n
Beobachtungen x1 … xn
x+c = x +c
2. Multiplikation aller n Beobachtungen x1 … xn mit
einer Konstanten c
c⋅x = c⋅x
Methoden der
Psychologie
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Numerische Beschreibung: Mittelwert
Grafische
Darstellung I
Lageregeln für die Maße der zentralen Tendenz
Bei symmetrischen Verteilungen:
Kennwerte
Grafische
Darstellung II
x ≈ xmed ≈ xmod
Bei linkssteilen Verteilungen:
x > xmed ≥ xmod
Bei rechtssteilen Verteilungen
x < xmed ≤ xmod
Methoden der
Psychologie
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Numerische Beschreibung: Mittlere Abweichung
Grafische
Darstellung I
Kennwerte
Grafische
Darstellung II
Als mittlere Abweichung
g ((MD)) von n Beobachtungen
g
x1 … xn in einem Datensatz wird die Summe aller
Abweichungsbeträge zum Median bezeichnet.
1 n
MD = ∑ xi − x
n i =1
Für jeden anderen Wert als für den Median ist der
mittlere Abweichungsbetrag größer, d.h.
1 n
1 n
xi − x ≤ ∑ xi − c
∑
n i =1
n i =1
Methoden der
Psychologie
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Numerische Beschreibung: Varianz
Grafische
Darstellung I
Kennwerte
Grafische
Darstellung II
Die Varianz ist das mittlere Abweichungsquadrat aller n
Beobachtungen x1 … xn vom Mittelwert.
n
1
2
2
s ( x ) = ∑ ( xi − x )
n i =1
Erfasst die Streuung um den Mittelwert
Nur falls keine Streuung besteht,
besteht ist ss² = 0,
0 d.h.
d h alle
beobachteten Werte sind gleich. Sonst: s² > 0
Je größer die Streuung um den Mittelwert, desto
größer
öß iist di
die V
Varianz
i
Ist anfällig gegenüber Ausreißern
Methoden der
Psychologie
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Numerische Beschreibung: Varianz
Grafische
Darstellung I
Kennwerte
Grafische
Darstellung II
Für jeden anderen Wert als für den Mittelwert ist die
Summe der Abweichungsquadrate höher
1 n
1 n
2
2
( xi − x ) ≤ ∑ ( xi − c )
∑
n i =1
n i =1
Der Mittelwert minimiert also die quadrierten
Abweichungen aller Beobachtungen.
Methoden der
Psychologie
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Numerische Beschreibung: Varianz
Grafische
Darstellung I
Kennwerte
Grafische
Darstellung II
Die Formel für die Varianz lässt sich leicht umformen in eine
rechnerisch günstigere Variante:
1 n
1 n 2 2
2
2
2
x
−
x
=
x
−
x
=
x
−
x
(
)
∑ i
∑i
n i =1
n i =1
Die
e Varianz
a a ist
st a
also
so d
die
e Differenz
e e des Mittelwerts
tte e ts de
der
quadrierten Daten und dem quadrierten Mittelwert der
Daten.
Dies wird auch als Momentenschreibweise der Varianz
bezeichnet.
Methoden der
Psychologie
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Numerische Beschreibung: Standardabweichung
Grafische
Darstellung I
Problem: Die Varianz ist nicht proportional zu erlaubten
Skalentransformationen
s 2 (c ⋅ x ) = c 2 ⋅ s 2 ( x )
(mit c = const.)
const )
Kennwerte
Grafische
Darstellung II
Durch Wurzelziehen erhält man die
Standardabweichung (SD, standard deviation)
n
1
2
2
s( x) = s ( x) =
( xi − x )
∑
n i =1
Die Standardabweichung ist proportional zu den
erlaubten Skalentransformationen
Methoden der
Psychologie
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Numerische Beschreibung: s² und s
Grafische
Darstellung I
Verhalten von Varianz und Standardabweichung bei
Transformationen der n Beobachtungen x1 … xn
Kennwerte
1 Die Addition einer Konstanten c zu allen Werten x
1.
verändert Varianz und Standardabweichung nicht
s²(x + c) = s²(x)
Grafische
Darstellung II
s(x + c) = s(x)
2. Die
e Multiplikation
u t p at o a
aller
e Werte
e te x mitt e
einer
e Konstanten
o sta te c
führt zu einer Erhöhung der Varianz um c² und der
Standardabweichung um c
s²(c · x) = c² · s²(x)
s(c · x) = c · s(x)
Methoden der
Psychologie
Kreuztabellen
Intervalldaten
z-Standardisierung
Intervalldaten
Grafische Beschreibung: Fehlerbalkendiagramm
Grafische
Darstellung I
Kennwerte
Das Fehlerbalkendiagramm (Error Bar)
veranschaulicht Mittelwerte und die Streuung von Daten
für mindestens eine Stichprobe.
Für die
d Länge der
d Fehlerbalken
hl b lk existieren verschiedene
h d
Konventionen (± 1·SD, ± 1.96·SD, ± 2.58·SD)
Grafische
Darstellung II
Kö
örpergröße in cm
Körpergröße in c
m (+/‐
cm (+/‐1.96 SD)
1 SD)
195
190
185
180
175
170
165
160
Frauen
Geschlecht
Männer
Methoden der
Psychologie
Intervalldaten
z-Standardisierung
z Standardisierung
z-Standardisierung
Transformationsregel
Ziel: Angabe der relativen Lage von Werten in einer
Verteilung.
1. Quantile: wie bereits gesehen
2. Angabe einer normierten Differenz eines Messwertes
zum Mittelwert
Berechnungsvorschrift: Jede Differenz eines Messwertes
wird durch die Standardabweichung
g aller Messwerte geteilt.
g
Die erhaltenen Werte werden als z-Werte bezeichnet.
x−x
zx =
sx
Methoden der
Psychologie
Intervalldaten
z-Standardisierung
z-Standardisierung
z
Standardisierung
Eigenschaften
Der zz-Wert
Wert kann auch als Differenz eines
normierten Datenwertes vom normierten Mittelwert
betrachtet werden, denn
x−x x x
= −
zx =
sx
sx sx
D Mitt
Der
Mittelwert
l
t von z-Werten
W t iistt iimmer 0
Die Standardabweichung von z-Werten ist immer 1
Methoden der
Psychologie
Intervalldaten
z-Standardisierung
z-Standardisierung
z
Standardisierung
Skalentransformation
Mithilfe der zz-Transformation
Transformation können Messdaten mit
beliebigem Mittelwert und Standardabweichung in
Daten transformiert werden, die einen definierten
Mittelwert und Standardabweichung
g aufweisen.
Schritt 1: z-Standardisierung jedes Datenpunktes
Schritt 2: Transformation jedes Datenpunktes in
die neue Skala
xneu = ( z ⋅ sneu ) + xneu
Beispiele: Hamburg-Wechsler
Hamburg Wechsler IQ
IQ-Test
Test (MW=100,
(MW 100,
s=15), IQ-Skala nach IST (MW=100, s=10),
Stanine-Skala (MW=5, s=2),
Methoden der
Psychologie
Relevante Excel Funktionen
Klassenbildung
• LOG()
Kennwerte
•
•
•
•
•
ABS()
^-Operator für Quadrierung, POTENZ()
WURZEL()
MITTELWERT()
VARIANZEN(), STABWN()
Methoden der
Psychologie
φ-Koeffizient
Nominalskala 2×2
Nominalskala k×m
Zusammenhangsmaße
Recap: Kontingenztabellen
χχ²-Koeffizient
Cramérs V
Wir haben Kontingenztabellen empirischen
Verbundhäufigkeiten kennen gelernt.
Schreibt man statt h(xi, yj) kurz nij, so lautet die
vereinfachte Notation für Kontingenztabellen:
y1
y2
…
ym
Σ
x1
n11
n12
…
n1m
1
n1
x2
n21
n22
…
n2m
n2
…
…
…
…
…
xk
nk1
nk2
…
nkm
nk
Σ
n
n
n
n
1
2
m
Zeilen
x
Spalten
Analoge Notation für relative Häufigkeiten (mit fij statt nij)
Methoden der
Psychologie
φ-Koeffizient
Nominalskala 2×2
Nominalskala k×m
Zusammenhangsmaße
Eigenschaften
χχ²-Koeffizient
Gewünschte Eigenschaften eines Zusammenhangskoeffizienten
Cramérs V
Sollte die Stärke eines Zusammenhangs
g numerisch
ausdrücken
Sollte die Richtung des Zusammenhangs anzeigen (sofern
sinnvoll)
Sollte invariant unter zulässigen Transformationen sein
Sollte einfach interpretierbar sein
Methoden der
Psychologie
φ-Koeffizient
Nominalskala 2×2
Nominalskala k×m
Zusammenhangsmaße
Auf Nominalskalenniveau für 2x2 Kontingenztabellen
χχ²-Koeffizient
Cramérs V
Der Phi-Koeffizient
D
Phi Koeffi ient (φ) beschreibt
b h ibt die
di Stärke
Stä k des
d
Zusammenhangs zweier dichotomer Variablen
Der φ-Koeffizient
φ Koeffizient lässt
sich nach folgender Formel
berechnen:
n11n22 − n12 n21
φ=
n1• n2• n•1n•2
φ liegt zwischen -1 und 1.
x1
x2
y1
n11
n12
n1
y2
n21
n22
n2
n
n
n
1
2
Methoden der
Psychologie
φ-Koeffizient
Nominalskala 2×2
Nominalskala k×m
Zusammenhangsmaße
Auf Nominalskalenniveau für 2x2 Kontingenztabellen
χχ²-Koeffizient
Problem: Bei schiefen Randverteilungen
g kann der φ
φKoeffizient selbst bei maximalem Zusammenhang
zwischen den Variablen die Grenze ±1 nicht erreichen
Cramérs V
Bei schiefen Randverteilungen sollte φ daher an der
maximal möglichen Korrelation normiert werden.
Diese berechnet sich als
φmax
min(n1• , n•1 ) min(n2• , n•2 )
=
max((n1• , n•1 ) max((n2• , n•2 )
Und damit gilt für den normierten φ-Koeffizienten
φ
φn =
φmax
Methoden der
Psychologie
φ-Koeffizient
Nominalskala 2×2
Nominalskala k×m
Zusammenhangsmaße
Auf Nominalskalenniveau für k×m Kontingenztabellen
χχ²-Koeffizient
Ansatz: Vergleich
g
der beobachteten Kontingenztabelle
g
mit
einer fiktiven Kontingenztabelle, die entstanden wäre, hätte
kein Zusammenhang zwischen den Variablen bestanden.
Cramérs V
Abweichungen der beobachteten von den erwarteten
Häufigkeiten sind dann als Abweichungen von der
Unabhängigkeit aufzufassen
Zur Konstruktion der Indifferenztabelle rechnet man für
absolute Häufigkeiten aus n
B b ht
Beobachtungen:
h( xi , •) ⋅ h(•, y j )
h ( xi , y j ) =
n
Und bei relativen Häufigkeiten:
f ( xi , y j ) = f ( xi , •) ⋅ f (•, y j )
(~ = „erwartet“)
Methoden der
Psychologie
φ-Koeffizient
Nominalskala 2×2
Nominalskala k×m
Zusammenhangsmaße
Auf Nominalskalenniveau für k×m Kontingenztabellen
χχ²-Koeffizient
Die Indifferenztabelle konstruiert sich also durch
Cramérs V
Mit
y1
y2
…
ym
Σ
x1
ñ11
ñ12
…
ñ1m
n
x2
ñ21
ñ22
…
ñ2m
n
…
…
…
…
…
xk
ñk1
ñk2
…
ñkm
nk
Σ
n
n
n
n
1
h ( xi , y j ) =
2
h( xi , •) ⋅ h(•, y j )
n
m
bzw.
nij =
ni• ⋅ n• j
n••
Methoden der
Psychologie
φ-Koeffizient
Nominalskala 2×2
Nominalskala k×m
Zusammenhangsmaße
Auf Nominalskalenniveau – der χ²-Koeffizient
χχ²-Koeffizient
Cramérs V
Aus den beobachteten und unter der Annahme eines
nicht vorhandenen Zusammenhangs (Indifferenz)
erwarteten Häufigkeiten berechnet sich nun:
(nij − nij ) 2
χ 2 = ∑∑
nij
i =1 j =1
k
m
(beob - erw) 2
erw
χ² ist Null bei perfekter Unabhängigkeit, ansonsten
größer Null
χ² kann beliebig groß werden, abhängig von der Anzahl
der Ausprägungen und der Anzahl der Beobachtungen
Für den Koeffizienten gibt es statistische Tests
Tests, mit der
auf Abhängigkeit der ZVn geprüft werden kann.
Methoden der
Psychologie
φ-Koeffizient
Nominalskala 2×2
Nominalskala k×m
Zusammenhangsmaße
Auf Nominalskalenniveau – Cramérs V
χχ²-Koeffizient
Cramérs V
Um aus dem nicht normierten χ²-Koeffizienten ein als
Korrelationskoeffizient interpretierbares Maß zu
berechnet, wird folgende Formel verwendet:
V=
χ2
n•• min( p − 1,
1 q − 1)
Cramérs V ist wie χ² Null bei perfekter Unabhängigkeit
Unabhängigkeit,
ansonsten größer Null
V schwankt zwischen 0 und 1
Methoden der
Psychologie
Relevante Excel Funktionen
Zusammenhangsmaße
• ZÄHLENWENN()
Ä
Methoden der
Psychologie
Recap
Ordinalskala
Intervallskala
Zusammenhangsmaße
Auf Ordinalskalenniveau
Rangg
korrelation
Konkordanzmaße
Bei der Ordinalskala ist der numerische Abstand zwischen
zwei Ausprägungen einer ZV nicht interpretierbar.
Die Ordinalskala trägt lediglich Information über die
Ordnung der Ausprägungen.
Die Ordnung kann verwendet werden, den Ausprägungen
Rangplätze zuzuweisen.
Methoden der
Psychologie
Recap
Ordinalskala
Intervallskala
Zusammenhangsmaße
Auf Ordinalskalenniveau - Rangbildung
Rangg
korrelation
Konkordanzmaße
Bei der Rangbildung von k Ausprägungen y1…yk einer ZV
Y können maximal k Rangplätze vergeben werden.
Per Konvention erhält die numerisch niedrigste
Ausprägung von Y den Rangplatz k, die höchste den
Rangplatz 1.
Bei gleichen mehreren gleichen Werten („Ties“) von Y
wird der mittlere Rangplatz vergeben nach der Regel:
Es gebe m gleiche Werte von Y. Wären sie unterschiedlich und direkt aufeinander folgend, erhielten sie
die Rangplätze rgj…rgj+m-1. Der mittlere Rang ist dann
rgTie
1
=
m
rg j + m −1
∑
i = rg j
rgi
Methoden der
Psychologie
Recap
Ordinalskala
Intervallskala
Zusammenhangsmaße
Auf Ordinalskalenniveau – Spearman‘s rs
Rangg
korrelation
Konkordanzmaße
Nach erfolgter Rangbildung ordinalskalierter Daten kann
für zwei ZV X und Y die Produkt-Moment-Korrelation
der Ränge rg(X) und rg(Y) berechnet werden
Diese wird
Di
i d als
l Spearman‘s
S
‘ rs oder
d Rangkorrelation
R
k
l ti
genannt und berechnet als
∑ ( rg ( x ) − rg ( x) )( rg ( y ) − rg ( y) )
n
rs =
i
i =1
i
∑ ( rg ( x ) − rg ( x) ) ∑ ( rg ( y ) − rg ( y) )
n
i =1
2
i
n
i =1
i
2
Methoden der
Psychologie
Recap
Ordinalskala
Intervallskala
Zusammenhangsmaße
Auf Ordinalskalenniveau – Spearman‘s rs
Rangg
korrelation
Wenn keine Ties vorliegen,
g , ist der Mittelwert der
Rangplätze gleich (n + 1) / 2
Damit ist die Varianz von n Zahlen s²=(n² - 1) / 12
Konkordanzmaße
Die quadrierte Differenz der beiden i-ten Rangplätze von
X und Y lässt sich definieren als di² = (rg(xi)-rg(yi))²
Setzt man dies geeignet in die Formel für rs ein, so erhält
man als vereinfachte Berechnung für rs
n
rs = 1 −
6∑ di2
i =1
(n 2 − 1)n
wobei
di = rg ( xi ) − rg ( yi )
Methoden der
Psychologie
Recap
Ordinalskala
Intervallskala
Zusammenhangsmaße
Auf Ordinalskalenniveau – Spearman‘s rs
Rangg
korrelation
Konkordanzmaße
Wertebereich von –1 bis +1
Vorzeichen gibt die Richtung des Zusammenhangs an
Ist robust bezüglich Ausreißern
Ist invariant bei streng monotonen Transformationen
Die vereinfachte Berechnungsformel kann verwendet
werden, wenn nicht mehr als 20% Ties vorliegen.
A
Ansonsten
t gibt
ibt es K
Korrekturformeln
kt f
l (H
(Horn, 1942)
1942).
Methoden der
Psychologie
Recap
Ordinalskala
Zusammenhangsmaße
Intervallskala
Auf Ordinalskalenniveau – Konkordanzmaße
Rangg
korrelation
Konkordanzmaße
Für die numerische Beschreibung
ordinalskalierter Daten ohne
Rangbildung kommen
Konkordanzmaße zum Einsatz.
Dazu werden die Daten zweier ZV
zunächst gemeinsam sortiert (nach
X oder Y).
Y)
Dann werden konkordante Paare
(C) diskordante Paare (D) sowie
(C),
Ties in X, Y oder beiden (TX, TY,
TXY) bestimmt.
Ein Tie TXY wird nur 1x gezählt und
nicht dreimal (als TX, TY und TXY)
Methoden der
Psychologie
Recap
Ordinalskala
Zusammenhangsmaße
Intervallskala
Auf Ordinalskalenniveau – Konkordanzmaße
Rangg
korrelation
Konkordanzmaße
Bei konkordanten Paaren ist die
obere Zahl größer als die untere
Zahl, bei diskordanten kleiner.
Es werden solche Vergleiche
nicht gezählt, bei denen in der
anderen Variable ein Tie vorliegt
Die Gesamtzahl S aller Paare ist
S = C + D + TX + TY + TXY
Und bestimmbar über
⎛ n ⎞ n(n − 1)
S =⎜ ⎟=
2
⎝ 2⎠
Methoden der
Psychologie
Recap
Ordinalskala
Intervallskala
Zusammenhangsmaße
Auf Ordinalskalenniveau – Konkordanzkoeffizient γ
Rangg
korrelation
Konkordanzmaße
Grundidee: Je mehr konkordante Paare ((im Vergleich
g
zu
diskordanten) vorliegen, desto höher der (positive)
Zusammenhang
Der Konkordanzkoeffizient γ ist nun definiert als
C−D
γ=
C+D
γ repräsentiert den Überschuss bzw. das Defizit
konkordanter Paare
γ nimmt den Wert 1 an,, wenn nur konkordante Paare
vorliegen, entsprechend –1 bei ausschließlich
diskordanten Paaren
Methoden der
Psychologie
Recap
Ordinalskala
Zusammenhangsmaße
Intervallskala
Auf Ordinalskalenniveau – Konkordanzkoeffizient γ
Rangg
korrelation
Konkordanzmaße
Problem: Der KonkordanzKonkordanz
koeffizient γ ist abhängig von der
Anzahl der Ausprägungen
So kann z.B. bei einer kleinen
Anzahl von Ausprägungen in
einer beiden ZV der
Konkordanzkoeffizient bestimmte
Muster in den Daten nicht
beschreiben
Offenbar muss die Anzahl von
Ties Eingang in die Berechnung
eines
i
Konkordanzkoeffizienten
K k d
k ffi i t
finden
Methoden der
Psychologie
Recap
Ordinalskala
Intervallskala
Zusammenhangsmaße
Auf Ordinalskalenniveau – Kendall‘s τb
Rangg
korrelation
Konkordanzmaße
Kendall s τb berücksichtigt Bindungen und wird
Kendall‘s
berechnet als
C−D
τb =
C + D + TX C + D + TY
Da die Anzahl der Ties immer gleich oder größer als Null
ist, gilt: |τb| ≤ |γ|
τb kann das Maximum von 1 bzw. -1 nicht erreichen,
wenn die Anzahl von Ausprägungen in X und Y nicht
identisch ist.
Methoden der
Psychologie
Kovarianz
Ordinalskala
Intervallskala
Numerische Beschreibung
von bivariat stetigen Stichprobendaten - Kovarianz
Korrelation
Für n Beobachtungen
g aus einem Zufallsexperiment
p
x1…xn
und y1…yn ist die Kovarianz definiert als
1 n
cov(( x, y ) = sxy = ∑ ( xi − x )( yi − y )
n i =1
Die Kovarianz ist Null, wenn kein Zusammenhang
zwischen den Ausprägungen der Zufallsvariablen besteht
Die Kovarianz
Di
K
i
ist
i t positiv,
iti wenn ein
i gleichsinniger
l i h i i
Zusammenhang besteht
Die Kovarianz ist negativ,
negativ wenn ein gegensinniger
Zusammenhang besteht.
Methoden der
Psychologie
Kovarianz
Ordinalskala
Intervallskala
Numerische Beschreibung
von bivariat stetigen Stichprobendaten - Kovarianz
Korrelation
Die Kovarianz erfüllt nicht die Forderung der
Invarianz gegenüber erlaubten Transformationen
Addition einer Konstanten zu x und y:
cov( x + a, y + b) = cov( x, y )
Aber: Multiplikation von x und y mit einer Konstanten
cov(a ⋅ x, b ⋅ y ) = a ⋅ b ⋅ cov( x, y )
Die Kovarianz ist also numerisch schwer zu interpretieren
Methoden der
Psychologie
Kovarianz
Ordinalskala
Intervallskala
Numerische Beschreibung
von bivariat stetigen Stichprobendaten - Korrelation
Korrelation
Für n Beobachtungen aus einem Zufallsexperiment x1…xn
und y1…yn ist der Korrelationskoeffizient definiert als
rxy =
1 n
( xi − x )( yi − y )
∑
sxy
n i =1
=
n
n
sx ⋅ s y
1
1
2
2
( xi − x )
( yi − y )
∑
∑
n i =1
n i =1
Für die Richtungsinformation gelten dieselben Regeln
wie bei der Kovarianz
Bei der Korrelation ist zudem die Stärke (der Betrag)
des Zusammenhangs interpretier- und vergleichbar.
Methoden der
Psychologie
Kovarianz
Ordinalskala
Intervallskala
Numerische Beschreibung
von bivariat stetigen Stichprobendaten - Korrelation
Korrelation
Der so definierte Korrelationskoeffizient rxy wird auch als
Produkt-Moment-Korrelation oder
Korrelationskoeffizient nach Pearson bezeichnet.
Für Daten unterhalb Intervallskalenniveau gibt es andere
Berechnungsformeln für die Korrelation
Die Korrelation
Di
K
l i ist
i Null,
N ll wenn kein
k i Zusammenhang
Z
h
zwischen den Ausprägungen der Zufallsvariablen besteht
Die Korrelation
Ko el tion liegt imme
immer zwischen
i hen -1
1 und
nd 1.
1
Negative Werte zeigen einen gegensinnigen, positive
Werte einen gleichsinnigen Zusammenhang an
Die Korrelation ist anfällig gegenüber Ausreißern
Methoden der
Psychologie
Kovarianz
Ordinalskala
Intervallskala
Numerische Beschreibung
von bivariat stetigen Stichprobendaten - Regeln
Korrelation
Kovarianz
Korrelation
cov(x,y) = cov(y,x)
r(x,y) = r(y,x)
cov(x, a) = 0
r(x, a) = nicht def.
cov(a, b) = 0
r(a, b) = nicht def.
( , x)) = var(x)
( )
cov(x,
r(x,
( , x)) = 1
cov(a·x+b, c·y+d)
= a·c·cov(x,
a c cov(x y)
r(a·x+b, c·y+d) = r(x, y)
Achtung: Ist a oder b negativ,
verändert sich das Vorzeichen von rr,
sind beide negativ, bleibt r gleich.
Mit a, b, c, d = konstante Werte
Methoden der
Psychologie
Kovarianz
Ordinalskala
Intervallskala
Numerische Beschreibung
von bivariat stetigen Stichprobendaten - Korrelation
Korrelation
Für die Bewertung
g der absoluten Höhe der ProduktMoment-Korrelation existieren Faustregeln nach Cohen
(1988)
r = ± 0.10
→
kleine Korrelation
r = ± 0.30
→
mittlere Korrelation
r = ± 0.50
→
hohe Korrelation
In de
der nicht-experimentellen
ni ht e pe imentellen Psychologie
P hologie liegen
Korrelationen selten über 0.75.
Methoden der
Psychologie
Kovarianz
Ordinalskala
Intervallskala
Numerische Beschreibung
von bivariat stetigen Stichprobendaten - Korrelation
Korrelation
Methoden der
Psychologie
Relevante Excel Funktionen
Zusammenhangsmaße
• RANG() und die Korrekturformel für verbundene Ränge
siehe Excel Hilfe zur Funktion RANG()
• KOVAR()
• KORREL()
Methoden der
Psychologie
Recap
Ordinalskala
Intervallskala
Zusammenhangsmaße
Spezielle Korrelationsmaße auf Intervallskalenniveau
(
(Punkt-)
)
biseriale
Korrelation
Die Intervallskala besitzt einen definierten Nullpunkt
und eine numerisch interpretierbare Einheit. Beide sind
jedoch nicht natürlich vorgegeben.
Tetrachorische
Korrelation
Bei der Intervallskala ist das Verhältnis zwischen
Differenzen von je zwei Ausprägungen einer Variablen
interpretierbar
interpretierbar.
Die numerischen Ausprägungen direkt sind nicht
vergleichbar.
Als Zusammenhangsmaß zweier intervallskalierter
Variablen haben wir bereits die Produkt-Moment
Korrelation nach Pearson kennen gelernt.
Methoden der
Psychologie
Recap
Ordinalskala
Intervallskala
Zusammenhangsmaße
Auf Intervallskalenniveau – Punktbiseriale Korrelation
(
(Punkt-)
)
biseriale
Korrelation
Tetrachorische
Korrelation
Gegeben seien zwei Variablen X und Y. X sei dichotom
nominalskaliert (mit zwei Ausprägungen 0 und 1), Y
intervallskaliert.
Hier kkann wie
Hi
i auch
h bei
b i zweii dichotomen
di h t
Variablen
V i bl die
di
Produkt-Moment-Korrelation berechnet werden.
Die Formel vereinfacht sich dann aber zur Formel für die
punktbiseriale Korrelation
Mittelwert der Y
Y-Werte,
Werte
für die X=1
Mittelwert der Y
Y-Werte,
Werte
für die X=0
y1 − yo n0 ⋅ n1
rpb =
⋅
sx
n2
Anzahl der Fälle, für die
X 0 (n
X=0
( 0) bzw.
b
X=1
X 1 (n
( 1)
Methoden der
Psychologie
Recap
Ordinalskala
Intervallskala
Zusammenhangsmaße
Auf Intervallskalenniveau – Punktbiseriale Korrelation
(
(Punkt-)
)
biseriale
Korrelation
Tetrachorische
Korrelation
Die Formel lässt sich über die relativen Häufigkeiten von
X schreiben als (mit q = 1-p):
y1 − yo
rpb =
⋅ pq
sy
Alternativ führt die Vereinfachung auf diese Formel:
y1 − y n1
rpb =
⋅
sy
n0
bzw
bzw.
y1 − y
p
rpb =
⋅
sy
q
für rel.
rel Häufigkeiten
Methoden der
Psychologie
Recap
Ordinalskala
Intervallskala
Zusammenhangsmaße
Auf Intervallskalenniveau – Biseriale Korrelation
(
(Punkt-)
)
biseriale
Korrelation
Tetrachorische
Korrelation
Häufig werden in psychologischen Untersuchungen
eigentlich (mindestens) intervallskalierte Merkmale
künstlich auf dichotome Variablen reduziert.
Beispiele: Alter (unter 25, über 25), Einkommen (niedrig,
hoch), Depression (nein, ja), versetzungsfähig (nein, ja)
Hier führt die konkrete Setzung des impliziten
Kriteriums, das die intervallskalierte Variable in zwei
Gruppen teilt,
teilt zu beliebigen Ergebnissen,
Ergebnissen obwohl der
„wahre“ Zusammenhang unverändert ist.
Methoden der
Psychologie
Recap
Ordinalskala
Intervallskala
Zusammenhangsmaße
Auf Intervallskalenniveau – Biseriale Korrelation
(
(Punkt-)
)
biseriale
Korrelation
Tetrachorische
Korrelation
Zur Korrektur dieser kriteriumsabhängigen Veränderung
des Zusammenhangs wird die biseriale Korrelation
berechnet.
X sei die künstlich dichotomisierte und eigentlich
normalverteilte Variable, Y die intervallskalierte
Variable Die biseriale Korrelation ist dann:
Variable.
y1 − y0 n0 ⋅ n1
rbis =
⋅ 2
sy
n ⋅ω
bzw.
y1 − y0 p ⋅ q
⋅
rbis =
sy
ω
für rel. Häufigkeiten
Dabei ist ω die Ordinate (z-Wert) der Standardnormalverteilung für die Stelle der Dichotomisierung (p).
Methoden der
Psychologie
Recap
Ordinalskala
Intervallskala
Zusammenhangsmaße
Auf Intervallskalenniveau – Biseriale Korrelation
(
(Punkt-)
)
biseriale
Korrelation
Tetrachorische
Korrelation
Alternativ kann die biseriale Korrelation auch berechnet
werden als:
y1 − y n1
⋅
rbis =
sy
n ⋅ω
bzw.
y1 − y p
⋅
rbis =
ω
sy
für rel. Häufigkeiten
Sowohl die punktbiseriale als auch die biseriale
Korrelation haben dieselben Eigenschaften wie der
Produkt-Moment-Korrelationskoeffizient (-1 bis 1,
interpretierbares Vorzeichen)
rpbis ist zumeist vorzuziehen, da hier keine
Normalverteilungsannahme gemacht werden muss
Methoden der
Psychologie
Recap
Ordinalskala
Intervallskala
Zusammenhangsmaße
Auf Intervallskalenniveau – Tetrachorische Korrelation
(
(Punkt-)
)
biseriale
Korrelation
Tetrachorische
Korrelation
– Sind beide Variablen künstlich dichotomisiert und
normalverteilt, so kann der Zusammenhang durch die
tetrachorische Korrelation ausgedrückt werden.
– A
Ausgegangen wird
i d zunächst
ä h t
von einer üblichen Vierfeldertafel
– Daraus berechnet sich die tetrachorische Korrelation als:
rtet = cos
π
1+
n11 ⋅ n22
n12 ⋅ n21
x1
x2
y1
n11
n12
n1z
y2
n21
n22
n2z
nz1
nz2
nzz
in Excel
– rtet überschätzt die wahre Korrelation, wenn die Randverteilungen stark asymmetrisch sind oder ein nXY<5 ist.
Methoden der
Psychologie
Zusammenhangsmaße
Übersicht
Methoden der
Psychologie
Relevante Excel Funktionen
Zusammenhangsmaße
• COS() und PI()
Herunterladen