1 Verteilungen metrischer Daten - content

Werbung
1 Verteilungen metrischer Daten
Um statistische Qualität zu kontrollieren und sicherzustellen, interessiert im Rahmen eines Forschungsvorhabens von der Testkonstruktion bis zur statistischen Analyse in besonderem Maße die Verteilung
der gewonnenen Daten. Besondere Sorgfalt gilt meist den intervallskalierten Merkmalen, denn vielen statistischen Verfahren und Analysemodellen liegt die Annahme der (zumindest approximativen)
Normalverteilung (NV) zugrunde. Insbesondere bei kleinen Stichproben (N < 30) ist die Absicherung, dass NV in den Analysevariablen
vorliegt, unentbehrlich, denn andernfalls sind bekanntlich
nonparametrische Verfahren anzuwenden, die dann z. T. eine geringere Power aufweisen. Nun gibt es aber in der Statistik mehrere Optionen, Verteilungen an die Erfordernisse anzupassen, allerdings ist
deren Anwendung im Regelfall nicht sehr verbreitet. Die folgenden
Ausführungen werden sich deshalb mit solchen Techniken – verbunden mit einigen statischen Überlegungen – näher befassen.
Verteilungen von metrischen Merkmalen können bekanntlich sehr
verschieden aussehen. Die folgende Darstellung verdeutlicht das mit
einigen Beispielen:
Abbildung 1: Beispiele zu unterschiedlichen Verteilungen
1
„Um Verteilungen zu beschreiben, werden verschiedene Kennwerte
bzw. statistische Maße berechnet. Die wichtigsten Maße sind die
zentrale Tendenz (Mittelwert, Median, Modus/Modalwert) und die
Dispersion (Standardabweichung, Quartilabstand und Spannweite).
Zusätzlich sind Schiefe und Exzess zur Beschreibung der Verteilung
hilfreich“ (BÜHNER 2006, S. 78).
2 Die Normalverteilung
2.1 Eigenschaften der Normalverteilung
Die Normalverteilung (NV) tritt bei Merkmalen, von denen angenommen werden kann, dass sie auch in der Grundgesamtheit einer NV
folgen, sehr häufig auf, insbesondere, wo Merkmale wie Körpergröße, Intelligenz, Neugier, Stressbelastbarkeit von einer Vielzahl von
fördernden und hemmenden Faktoren bestimmt sind.
Diese Verteilung hat die Gestalt einer Glocke, d. h. mittlere Merkmalsausprägungen kommen häufiger vor als extreme (vgl. NACHTIGALL & WIRTZ 2009, S. 47f). Die NV lässt sich durch zwei Parameter,
nämlich Mittelwert und Streuung, präzise charakterisieren. Die NV ist
eine übliche Verteilung der Wahrscheinlichkeit stetig verteilter Merkmale.
Alle Normalverteilungen haben die folgenden Verteilungseigenschaften:

Da die Wahrscheinlichkeit für alle möglichen Ereignisse zusammengerechnet nur 1 betragen kann, ist die Fläche unter der Kurve ebenfalls 1.

Alle Normalverteilungen sind eindeutig durch die zwei Bestimmungsmerkmale arithmetisches Mittel und Standardabweichung
definiert:
f ( x)

1
s
2
2
e
1 x X
2
s
2
In der NV besteht eine feste Beziehung zwischen der Standardabweichung (SD) und prozentualen Flächenanteilen unter der
Kurve. So finden sich zwischen dem Mittelwert und der ersten SD
positiv und negativ jeweils 34,13 %, zusammen also 68,26% der
2
Verteilung. Die Wahrscheinlichkeit, dass ein Wert in das Intervall
einer der SDn fällt, ist durch den zugehörigen Flächenanteil gegeben (für die 1. Standardabweichung ± 1: 0,683 oder 68,3%).
Mit Hilfe der SD wird die NV-Kurve in weitere Abschnitte eingeteilt. Ausgehend vom Mittelwert lassen sich Bereiche von sowohl
plus als auch minus zwei (für die 2. Standardabweichung ± 2:
0,954 oder 95,44 %) oder drei SDn (für die 3. Standardabweichung ± 3: 0,997 oder 99,74 %  nahezu alle Fälle) betrachten
und beschreiben.

Die Verteilung hat einen glockenförmigen Verlauf.

Die Verteilung ist symmetrisch (d. h. die Fläche links bzw. rechts
vom M beträgt 0,5).

Modus, Median sowie arithmetisches Mittel fallen zusammen und
liegen am Hochpunkt der Verteilungsfunktion.

Die zwischen den Wendepunkten (die sich im Abstand genau
einer Standardabweichung beiderseits des arithmetischen Mittels
befinden) liegenden x-Werte machen ca. ⅔ (68,3 %) der Gesamtfläche aus.

Die Verteilung nähert sich asymptotisch der x-Achse.

Die Normalverteilungsfunktion ist nur nummerisch integrierbar,
daher kann keine allgemeine Formel für Flächenanteile angegeben werden. Zur Bestimmung von Flächenanteilen nimmt man
daher Tabellen bzw. entsprechende Rechner.
Normalverteilungen können weiters bei gleichen Mittelwerten, jedoch
unterschiedlichen Streuungen verschieden flach oder steil verlaufen
(vgl. NACHTIGALL & WIRTZ 2009, S. 49):
Abbildung 2: Beispiel für eine flache und steile Normalverteilung
3
Wenn die Streuung groß ist, ist die Verteilung „breit“ und „niedrig“,
wenn die Streuung klein ist, ist die Verteilung „schmal“ und „hoch“.
2.2 Verfahren zur Überprüfung auf NV
Da viele statistische Analysen auf der Normalverteilungsannahme
beruhen, ist eine Überprüfung von intervallskalierten Variablen auf
NV ein meist notwendiges Verfahren. Auf der Grundlage der voranstehenden Ausführungen lässt sich nun auf mehrfache Weise beurteilen, ob eine Variable (zumindest annähernd) normalverteilt ist oder
nicht, ob die vorliegende Form die geplante(n) Analyse(n) erlaubt
oder zuvor einer „Normalisierung“ mittels einer passenden Transformation bedarf. In SPSS stehen dazu mehrere Verteilungsprüfungsoptionen, z. B. unter der Explorativen Datenanalyse, zur Verfügung:
Pfad: Analysieren  Deskriptive Statistiken  Explorative Datenanalyse ... gewünschte Variable einsetzen  Statistiken ...  Weiter
 Diagramme …  Weiter  OK.
4
Abbildung 3: Dialogfenster zur Anforderung der „Explorativen Datenanalyse“
Eine Überprüfung auf NV liefert erfahrungsgemäß das wenig überraschende Resultat, dass mehr oder weniger schiefe Verteilungen vorliegen.
Die folgenden Ausführungen setzen sich nun als Vorarbeit zur passenden Transformation mit der umfangreichen SPSS-Ausgabe der
„Explorativen Datenanalyse“ auseinander.
5
2.2.1 Grafisch gestützte Überprüfung

Den ersten subjektiven Eindruck bietet die beliebte grafische Darstellung der Verteilung einer Zahlenreihe in Form eines Histogramms mit Normalverteilungskurve. Allerdings reicht diese Illustration zur Beurteilung nicht aus, da ihr Aussehen von der (frei
wählbaren) Balken- bzw. Klassenbreite sowie den Klassengrenzen abhängt (in SPSS werden außerdem maximal 21 Klassen
gebildet).
Es gibt in SPSS neben der zuvor dargestellten Anforderung über
die „Explorative Datenanalyse“ mehrere Optionen, ein
Histogramm mit NV-Kurve zu erzeugen. Für gewöhnlich wird folgender Weg in Zusammenhang mit Häufigkeitstabellen beschritten:
Pfad: Analysieren  Deskriptive Statistiken  Häufigkeiten... 
gewünschte Variable einsetzen  Diagramme...   Histogramme:  Normalverteilungskurve im Histogramm anzeigen 
Weiter  OK.
6
Histogramm
Abbildung 4: Anfordern eines Histogramms
in SPSS
Häufigkeit
60
40
20
0
20
40
Alter
60
80
Mittelwert =41,75
Std.-Abw. =12,573
N =975
Abbildung 5: Histogramm in SPSS
Das Ergebnis entspricht, wie bereits erwähnt, eher selten exakt
einer NV. Ausschlaggebend ist jedoch, dass keine ausgeprägte
links- oder rechtssteile Verteilung vorliegt.

Fordert man unter der Option „Explorative Datenanalyse“ in
SPSS unter den Diagrammen ein „Stengel-Blatt“ an, erhält man
folgende Verteilungsdarstellung:
7
“Alter” Stem-and-Leaf Plot
Frequency
Stem
5,00
66,00
106,00
145,00
143,00
121,00
109,00
111,00
75,00
51,00
30,00
7,00
6,00
Stem width:
Each leaf:
1
2
2
3
3
4
4
5
5
6
6
7
7
10
&
Leaf
.
.
.
.
.
.
.
.
.
.
.
.
.
9&
0011222233334444
55555666667777778888899999
000000111111112222233333333344444444
55555555666666777777778888899999999
0000000111111222222233333344444
555555666666777778888889999
0000001111112222223333444444
555556667777788999
00112233344
566789
0&
6&
4 case(s)
& denotes fractional leaves.
Tabelle 1: Ausgabe Stem-and-Leaf-Plot (Stamm-Blatt-Diagramm) zur Variablen Alter
Stem width = hier 10 (d. h. der Stamm enthält hier 10er-Stellenwerte,
die höchstmöglichen Stellenwerte des dekadischen Systems in der untersuchten Variablen „Alter“)
Stem (Stamm, Stengel) = hier das bezifferte Jahrzehnt gemäß stem
width
Leaf (Blätter) = nächstkleinere Einheit im dekadischen System, d. h.
beim Alter die gerundeten Einer-Ziffern, somit die einzelnen Jahre
Frequency = absolute Häufigkeit der Fälle in jeder Zeile
(Extremes = Ausreißer gemäß der Boxplots; hier nicht vorhanden –
deshalb nicht ausgewiesen)
Interpretation der fettgedruckten Zeile im Datenbeispiel „Alter“ (Hervorhebung
d. Verf.):
30-mal sind in dieser Altersverteilung vertreten:
Stamm 6: alle 60- bis einschließlich 69-Jährigen;
davon sind präzise gemäß der Anzahl jeder Ziffer im Blatt (566789): ein
65-Jähriger, zwei 66-Jährige, ein 67-Jähriger, ein 68-Jähriger und letztlich ein 69-Jähriger.
Mit Stem-and-Leaf-Plots, deren Aussehen mit einem nach rechts
gekippten Histogramm vergleichbar ist (flächenproportional), lassen sich somit Verteilungen darstellen, denen vergleichsweise zu
anderen grafischen Darstellungen auch noch die gerundeten Originaldaten entnommen werden können. Hier ist außerdem ersichtlich, dass die Variable Alter etwas linkssteil verteilt ist.
Ein wesentlicher Vorteil von Stem-and-Leaf-Plots besteht ansonsten darin, dass zwei nebeneinander gestellte Verteilungen zahlenmäßig recht genau verglichen werden können. Sehr große
8
oder sehr kleine Zahlen können auf- bzw. abgerundet oder als
Extremwerte ausgewiesen werden. Stem-and-Leaf-Plots werden
übrigens auch gerne zur Fehlersuche verwendet.

Eine weitere subjektive
visuelle Überprüfung auf NV kann über QQ-Q-Diagramm von Alter
Q-Diagramme (Quantil-Quantil-Plots) erfolgen:
Erwarteter Normalwert
4
2
0
-2
-4
0
20
40
60
80
100
Beobachteter Wert
Abbildung 6: Q-Q-Diagramm der „Explorativen Datenanalyse“ (Variable Alter)
Die Gerade in der obigen Darstellung entspricht bei einer sog. Q-QVerteilung den Werten, die bei einer Normalverteilung des Merkmals
zu erwarten sind – also der theoretischen Verteilung. Auf der YAchse sind die Erwartungswerte skaliert, auf der X-Achse die Beobachtungswerte. Die Punkte markieren die vorliegenden Beobachtungen und interpretiert werden die Abweichungen von der theoretischen NV, die hier durch eine Linie dargestellt wird. Wenn alle Punkte auf der Geraden liegen, liegt eine perfekte Normalverteilung vor.
9
Trendbereinigtes Q-Q-Diagramm von Alter
Abweichung von Normal
1,00
0,75
0,50
0,25
0,00
-0,25
20
40
60
80
Beobachteter Wert
Abbildung 7: Trendbereinigtes Q-Q-Diagramm der „Explorativen Datenanalyse“
(Variable Alter)
Das Trendbereinigte Q-Q-Diagramm stellt ebenfalls die Unterschiede
von beobachteten und erwarteten Werten dar. Die Y-Achse kennzeichnet aber in dieser Darstellung die z-transformierten beobachteten Werte. Hier werden die Abweichungen der Punkte von einer horizontalen Normalverteilungslinie (Nulllinie) betrachtet. Bei einer perfekten NV wären alle Abweichungen Null, d. h. dass alle Punkte auf
der Geraden liegen würden.
Für beide Q-Q-Verteilung-Plots gilt: Je mehr die Punkte von der Geraden abweichen, umso weniger kann von einer NV ausgegangen
werden. Da die beiden Diagramme die Abweichungen von der NV
unabhängig vom Stichprobenumfang darstellen, sind sie oft besser
als statistische Tests zur Beurteilung geeignet. Diese verbleibt jedoch – da es keine eindeutigen Regeln gibt – im Ermessen der Forschenden, womit zwingend ein gewisser Grad an Subjektivität verbleibt.

Boxplot
Eine weitere Alternative ist die übersichtliche Darstellung einer Beobachtungsreihe in Form eines Boxplots, der sich außerdem gut zum
Vergleich mehrerer überschneidungsfreier Teilgruppen eignet (Gruppierte Boxplots).
10
80
Die Box (Kasten) ist der Bereich, in
dem sich die mittleren 50 % der Beobachtungswerte befinden. Sie wird daher durch das obere Quartil P75 und
das untere Quartil P25 begrenzt. Die
Länge der Box entspricht somit dem
Interquartilsabstand IQA. Die Box ist
umso größer, je mehr die beobachteten Daten in diesem Bereich streuen.
Der Median ist als durchgehender
waagrechter Strich in der Box eingezeichnet. Dieser Strich teilt das gesamte Diagramm (ohne Ausreißer) in zwei
Hälften, in denen jeweils 50 % der Daten liegen.
Whisker
60
Quartil P75
40
Box
Median P50
Quartil P25
20
Whisker
Alter
Durch seine Lage in der Box erhält man einen grafischen Eindruck von der Schiefe der
Verteilung. Ist der Median, wie im Datenbeispiel eher im unteren (bzw. linken) Teil der
Box, so ist die Verteilung linkssteil, andernfalls umgekehrt. Die genauen Werte dazu liefert
die explorative Datenanalyse.
Durch die Antennen (Whisker) werden die außerhalb der Box liegenden Werte dargestellt
(Streuung). Die Festlegung der Antennen ist in der Literatur nicht einheitlich. Die Definition von TUKEY beschränkt die Länge der Whisker auf das maximal 1,5-Fache des
Interquartilabstands (1,5 * IQA). Dabei endet der Whisker jedoch nicht genau nach dieser
Länge, sondern bei demjenigen Datenwert, der noch innerhalb dieser Grenze liegt. Die
Länge der Whisker wird also durch die Datenwerte und nicht allein durch den IQA bestimmt. Deshalb müssen die Whisker nicht auf beiden Seiten gleich lang sein. Liegen
keine Werte (Ausreißer) außerhalb von 1,5 * IQR vor, wird die Länge der Whisker durch
Maximum und Minimum festgelegt. (Vgl. SCHENDERA 2007, S. 177)
Kippt man den Boxplot nach rechts,
werden die Form der Verteilung und
die Struktur der Daten anschaulicher –
insbesondere dann, wenn man die
Darstellung mit der entsprechenden
Verteilungskurve kombiniert.
Alter
20
40
60
80
Abbildung 8: Verteilungsanalyse anhand des Boxplots zur Variablen Alter
11
Herunterladen