1 Verteilungen metrischer Daten Um statistische Qualität zu kontrollieren und sicherzustellen, interessiert im Rahmen eines Forschungsvorhabens von der Testkonstruktion bis zur statistischen Analyse in besonderem Maße die Verteilung der gewonnenen Daten. Besondere Sorgfalt gilt meist den intervallskalierten Merkmalen, denn vielen statistischen Verfahren und Analysemodellen liegt die Annahme der (zumindest approximativen) Normalverteilung (NV) zugrunde. Insbesondere bei kleinen Stichproben (N < 30) ist die Absicherung, dass NV in den Analysevariablen vorliegt, unentbehrlich, denn andernfalls sind bekanntlich nonparametrische Verfahren anzuwenden, die dann z. T. eine geringere Power aufweisen. Nun gibt es aber in der Statistik mehrere Optionen, Verteilungen an die Erfordernisse anzupassen, allerdings ist deren Anwendung im Regelfall nicht sehr verbreitet. Die folgenden Ausführungen werden sich deshalb mit solchen Techniken – verbunden mit einigen statischen Überlegungen – näher befassen. Verteilungen von metrischen Merkmalen können bekanntlich sehr verschieden aussehen. Die folgende Darstellung verdeutlicht das mit einigen Beispielen: Abbildung 1: Beispiele zu unterschiedlichen Verteilungen 1 „Um Verteilungen zu beschreiben, werden verschiedene Kennwerte bzw. statistische Maße berechnet. Die wichtigsten Maße sind die zentrale Tendenz (Mittelwert, Median, Modus/Modalwert) und die Dispersion (Standardabweichung, Quartilabstand und Spannweite). Zusätzlich sind Schiefe und Exzess zur Beschreibung der Verteilung hilfreich“ (BÜHNER 2006, S. 78). 2 Die Normalverteilung 2.1 Eigenschaften der Normalverteilung Die Normalverteilung (NV) tritt bei Merkmalen, von denen angenommen werden kann, dass sie auch in der Grundgesamtheit einer NV folgen, sehr häufig auf, insbesondere, wo Merkmale wie Körpergröße, Intelligenz, Neugier, Stressbelastbarkeit von einer Vielzahl von fördernden und hemmenden Faktoren bestimmt sind. Diese Verteilung hat die Gestalt einer Glocke, d. h. mittlere Merkmalsausprägungen kommen häufiger vor als extreme (vgl. NACHTIGALL & WIRTZ 2009, S. 47f). Die NV lässt sich durch zwei Parameter, nämlich Mittelwert und Streuung, präzise charakterisieren. Die NV ist eine übliche Verteilung der Wahrscheinlichkeit stetig verteilter Merkmale. Alle Normalverteilungen haben die folgenden Verteilungseigenschaften: Da die Wahrscheinlichkeit für alle möglichen Ereignisse zusammengerechnet nur 1 betragen kann, ist die Fläche unter der Kurve ebenfalls 1. Alle Normalverteilungen sind eindeutig durch die zwei Bestimmungsmerkmale arithmetisches Mittel und Standardabweichung definiert: f ( x) 1 s 2 2 e 1 x X 2 s 2 In der NV besteht eine feste Beziehung zwischen der Standardabweichung (SD) und prozentualen Flächenanteilen unter der Kurve. So finden sich zwischen dem Mittelwert und der ersten SD positiv und negativ jeweils 34,13 %, zusammen also 68,26% der 2 Verteilung. Die Wahrscheinlichkeit, dass ein Wert in das Intervall einer der SDn fällt, ist durch den zugehörigen Flächenanteil gegeben (für die 1. Standardabweichung ± 1: 0,683 oder 68,3%). Mit Hilfe der SD wird die NV-Kurve in weitere Abschnitte eingeteilt. Ausgehend vom Mittelwert lassen sich Bereiche von sowohl plus als auch minus zwei (für die 2. Standardabweichung ± 2: 0,954 oder 95,44 %) oder drei SDn (für die 3. Standardabweichung ± 3: 0,997 oder 99,74 % nahezu alle Fälle) betrachten und beschreiben. Die Verteilung hat einen glockenförmigen Verlauf. Die Verteilung ist symmetrisch (d. h. die Fläche links bzw. rechts vom M beträgt 0,5). Modus, Median sowie arithmetisches Mittel fallen zusammen und liegen am Hochpunkt der Verteilungsfunktion. Die zwischen den Wendepunkten (die sich im Abstand genau einer Standardabweichung beiderseits des arithmetischen Mittels befinden) liegenden x-Werte machen ca. ⅔ (68,3 %) der Gesamtfläche aus. Die Verteilung nähert sich asymptotisch der x-Achse. Die Normalverteilungsfunktion ist nur nummerisch integrierbar, daher kann keine allgemeine Formel für Flächenanteile angegeben werden. Zur Bestimmung von Flächenanteilen nimmt man daher Tabellen bzw. entsprechende Rechner. Normalverteilungen können weiters bei gleichen Mittelwerten, jedoch unterschiedlichen Streuungen verschieden flach oder steil verlaufen (vgl. NACHTIGALL & WIRTZ 2009, S. 49): Abbildung 2: Beispiel für eine flache und steile Normalverteilung 3 Wenn die Streuung groß ist, ist die Verteilung „breit“ und „niedrig“, wenn die Streuung klein ist, ist die Verteilung „schmal“ und „hoch“. 2.2 Verfahren zur Überprüfung auf NV Da viele statistische Analysen auf der Normalverteilungsannahme beruhen, ist eine Überprüfung von intervallskalierten Variablen auf NV ein meist notwendiges Verfahren. Auf der Grundlage der voranstehenden Ausführungen lässt sich nun auf mehrfache Weise beurteilen, ob eine Variable (zumindest annähernd) normalverteilt ist oder nicht, ob die vorliegende Form die geplante(n) Analyse(n) erlaubt oder zuvor einer „Normalisierung“ mittels einer passenden Transformation bedarf. In SPSS stehen dazu mehrere Verteilungsprüfungsoptionen, z. B. unter der Explorativen Datenanalyse, zur Verfügung: Pfad: Analysieren Deskriptive Statistiken Explorative Datenanalyse ... gewünschte Variable einsetzen Statistiken ... Weiter Diagramme … Weiter OK. 4 Abbildung 3: Dialogfenster zur Anforderung der „Explorativen Datenanalyse“ Eine Überprüfung auf NV liefert erfahrungsgemäß das wenig überraschende Resultat, dass mehr oder weniger schiefe Verteilungen vorliegen. Die folgenden Ausführungen setzen sich nun als Vorarbeit zur passenden Transformation mit der umfangreichen SPSS-Ausgabe der „Explorativen Datenanalyse“ auseinander. 5 2.2.1 Grafisch gestützte Überprüfung Den ersten subjektiven Eindruck bietet die beliebte grafische Darstellung der Verteilung einer Zahlenreihe in Form eines Histogramms mit Normalverteilungskurve. Allerdings reicht diese Illustration zur Beurteilung nicht aus, da ihr Aussehen von der (frei wählbaren) Balken- bzw. Klassenbreite sowie den Klassengrenzen abhängt (in SPSS werden außerdem maximal 21 Klassen gebildet). Es gibt in SPSS neben der zuvor dargestellten Anforderung über die „Explorative Datenanalyse“ mehrere Optionen, ein Histogramm mit NV-Kurve zu erzeugen. Für gewöhnlich wird folgender Weg in Zusammenhang mit Häufigkeitstabellen beschritten: Pfad: Analysieren Deskriptive Statistiken Häufigkeiten... gewünschte Variable einsetzen Diagramme... Histogramme: Normalverteilungskurve im Histogramm anzeigen Weiter OK. 6 Histogramm Abbildung 4: Anfordern eines Histogramms in SPSS Häufigkeit 60 40 20 0 20 40 Alter 60 80 Mittelwert =41,75 Std.-Abw. =12,573 N =975 Abbildung 5: Histogramm in SPSS Das Ergebnis entspricht, wie bereits erwähnt, eher selten exakt einer NV. Ausschlaggebend ist jedoch, dass keine ausgeprägte links- oder rechtssteile Verteilung vorliegt. Fordert man unter der Option „Explorative Datenanalyse“ in SPSS unter den Diagrammen ein „Stengel-Blatt“ an, erhält man folgende Verteilungsdarstellung: 7 “Alter” Stem-and-Leaf Plot Frequency Stem 5,00 66,00 106,00 145,00 143,00 121,00 109,00 111,00 75,00 51,00 30,00 7,00 6,00 Stem width: Each leaf: 1 2 2 3 3 4 4 5 5 6 6 7 7 10 & Leaf . . . . . . . . . . . . . 9& 0011222233334444 55555666667777778888899999 000000111111112222233333333344444444 55555555666666777777778888899999999 0000000111111222222233333344444 555555666666777778888889999 0000001111112222223333444444 555556667777788999 00112233344 566789 0& 6& 4 case(s) & denotes fractional leaves. Tabelle 1: Ausgabe Stem-and-Leaf-Plot (Stamm-Blatt-Diagramm) zur Variablen Alter Stem width = hier 10 (d. h. der Stamm enthält hier 10er-Stellenwerte, die höchstmöglichen Stellenwerte des dekadischen Systems in der untersuchten Variablen „Alter“) Stem (Stamm, Stengel) = hier das bezifferte Jahrzehnt gemäß stem width Leaf (Blätter) = nächstkleinere Einheit im dekadischen System, d. h. beim Alter die gerundeten Einer-Ziffern, somit die einzelnen Jahre Frequency = absolute Häufigkeit der Fälle in jeder Zeile (Extremes = Ausreißer gemäß der Boxplots; hier nicht vorhanden – deshalb nicht ausgewiesen) Interpretation der fettgedruckten Zeile im Datenbeispiel „Alter“ (Hervorhebung d. Verf.): 30-mal sind in dieser Altersverteilung vertreten: Stamm 6: alle 60- bis einschließlich 69-Jährigen; davon sind präzise gemäß der Anzahl jeder Ziffer im Blatt (566789): ein 65-Jähriger, zwei 66-Jährige, ein 67-Jähriger, ein 68-Jähriger und letztlich ein 69-Jähriger. Mit Stem-and-Leaf-Plots, deren Aussehen mit einem nach rechts gekippten Histogramm vergleichbar ist (flächenproportional), lassen sich somit Verteilungen darstellen, denen vergleichsweise zu anderen grafischen Darstellungen auch noch die gerundeten Originaldaten entnommen werden können. Hier ist außerdem ersichtlich, dass die Variable Alter etwas linkssteil verteilt ist. Ein wesentlicher Vorteil von Stem-and-Leaf-Plots besteht ansonsten darin, dass zwei nebeneinander gestellte Verteilungen zahlenmäßig recht genau verglichen werden können. Sehr große 8 oder sehr kleine Zahlen können auf- bzw. abgerundet oder als Extremwerte ausgewiesen werden. Stem-and-Leaf-Plots werden übrigens auch gerne zur Fehlersuche verwendet. Eine weitere subjektive visuelle Überprüfung auf NV kann über QQ-Q-Diagramm von Alter Q-Diagramme (Quantil-Quantil-Plots) erfolgen: Erwarteter Normalwert 4 2 0 -2 -4 0 20 40 60 80 100 Beobachteter Wert Abbildung 6: Q-Q-Diagramm der „Explorativen Datenanalyse“ (Variable Alter) Die Gerade in der obigen Darstellung entspricht bei einer sog. Q-QVerteilung den Werten, die bei einer Normalverteilung des Merkmals zu erwarten sind – also der theoretischen Verteilung. Auf der YAchse sind die Erwartungswerte skaliert, auf der X-Achse die Beobachtungswerte. Die Punkte markieren die vorliegenden Beobachtungen und interpretiert werden die Abweichungen von der theoretischen NV, die hier durch eine Linie dargestellt wird. Wenn alle Punkte auf der Geraden liegen, liegt eine perfekte Normalverteilung vor. 9 Trendbereinigtes Q-Q-Diagramm von Alter Abweichung von Normal 1,00 0,75 0,50 0,25 0,00 -0,25 20 40 60 80 Beobachteter Wert Abbildung 7: Trendbereinigtes Q-Q-Diagramm der „Explorativen Datenanalyse“ (Variable Alter) Das Trendbereinigte Q-Q-Diagramm stellt ebenfalls die Unterschiede von beobachteten und erwarteten Werten dar. Die Y-Achse kennzeichnet aber in dieser Darstellung die z-transformierten beobachteten Werte. Hier werden die Abweichungen der Punkte von einer horizontalen Normalverteilungslinie (Nulllinie) betrachtet. Bei einer perfekten NV wären alle Abweichungen Null, d. h. dass alle Punkte auf der Geraden liegen würden. Für beide Q-Q-Verteilung-Plots gilt: Je mehr die Punkte von der Geraden abweichen, umso weniger kann von einer NV ausgegangen werden. Da die beiden Diagramme die Abweichungen von der NV unabhängig vom Stichprobenumfang darstellen, sind sie oft besser als statistische Tests zur Beurteilung geeignet. Diese verbleibt jedoch – da es keine eindeutigen Regeln gibt – im Ermessen der Forschenden, womit zwingend ein gewisser Grad an Subjektivität verbleibt. Boxplot Eine weitere Alternative ist die übersichtliche Darstellung einer Beobachtungsreihe in Form eines Boxplots, der sich außerdem gut zum Vergleich mehrerer überschneidungsfreier Teilgruppen eignet (Gruppierte Boxplots). 10 80 Die Box (Kasten) ist der Bereich, in dem sich die mittleren 50 % der Beobachtungswerte befinden. Sie wird daher durch das obere Quartil P75 und das untere Quartil P25 begrenzt. Die Länge der Box entspricht somit dem Interquartilsabstand IQA. Die Box ist umso größer, je mehr die beobachteten Daten in diesem Bereich streuen. Der Median ist als durchgehender waagrechter Strich in der Box eingezeichnet. Dieser Strich teilt das gesamte Diagramm (ohne Ausreißer) in zwei Hälften, in denen jeweils 50 % der Daten liegen. Whisker 60 Quartil P75 40 Box Median P50 Quartil P25 20 Whisker Alter Durch seine Lage in der Box erhält man einen grafischen Eindruck von der Schiefe der Verteilung. Ist der Median, wie im Datenbeispiel eher im unteren (bzw. linken) Teil der Box, so ist die Verteilung linkssteil, andernfalls umgekehrt. Die genauen Werte dazu liefert die explorative Datenanalyse. Durch die Antennen (Whisker) werden die außerhalb der Box liegenden Werte dargestellt (Streuung). Die Festlegung der Antennen ist in der Literatur nicht einheitlich. Die Definition von TUKEY beschränkt die Länge der Whisker auf das maximal 1,5-Fache des Interquartilabstands (1,5 * IQA). Dabei endet der Whisker jedoch nicht genau nach dieser Länge, sondern bei demjenigen Datenwert, der noch innerhalb dieser Grenze liegt. Die Länge der Whisker wird also durch die Datenwerte und nicht allein durch den IQA bestimmt. Deshalb müssen die Whisker nicht auf beiden Seiten gleich lang sein. Liegen keine Werte (Ausreißer) außerhalb von 1,5 * IQR vor, wird die Länge der Whisker durch Maximum und Minimum festgelegt. (Vgl. SCHENDERA 2007, S. 177) Kippt man den Boxplot nach rechts, werden die Form der Verteilung und die Struktur der Daten anschaulicher – insbesondere dann, wenn man die Darstellung mit der entsprechenden Verteilungskurve kombiniert. Alter 20 40 60 80 Abbildung 8: Verteilungsanalyse anhand des Boxplots zur Variablen Alter 11