Quantitative Methoden (Vertretung für Prof. Th. Pechmann) Deskriptive Statistik II Kennwerte der Dispersion Andreas Opitz Universität Leipzig Institut für Linguistik Fragen, die Sie nach der letzten Sitzung beantworten können sollten • Welche Skalen-Niveaus unterscheidet die Messtheorie? • Was sind Gütekriterien wissenschaftlicher Messungen? • Welche Kennwerte der zentralen Tendenz kennen Sie? Wie lassen sich diese definieren? • Wann ist die Berechnung eines arithmetischen Mittels wenig sinnvoll? Kennwerte der zentralen Tendenz • Modalwert • arithmetisches Mittel • Median 3 diese Woche • Kennwerte der Dispersion: – – – – Variationsbreite (Range) Standardabweichung Varianz Standardfehler • Darstellung und Bericht der Daten (Tabellen, Grafiken) Kennwerte der Dispersion • Varianzbreite (range) • Varianz • Standardabweichung (Streuung) Variationsbreite • Differenz zwischen dem größten und kleinsten Messwert einer Verteilung • leicht bestimmbar • abhängig von den Extremwerten • wenig stabil gegenüber Zufallseinflüssen Variationsbreite • Rosenbeispiel: – Max(Rosen) = 7 Tage – Min(Rosen) = 2 Tage – Range(Rosen) = 2 Tage – 7 Tage = 5 Tage • Königreich-Beispiel: – Max(Land) = 1000 Taler – Min(Land)= 8 Taler – Range(Land)= 1000 Taler – 8 Taler = 992 Varianz – misst die Streuung der Werte relativ zum Erwartungswert – ist die Summe der Abweichungsquadrate aller Werte durch die Anzahl der Werte (vgl. Howell, 2002, S. 48 u. 55) – ist der wahre Mittelwert bekannt (wird z.B. die ganze Grundgesamtheit untersucht), dann berechnet sich die Varianz für die Population wie folgt: σ 2 = 𝑁 𝑖=1 𝑥𝑖 − µ 2 𝑁 µ - Mittelwert der Population N – Anzahl der Elemente in der Population Varianz Beispiel: Noten einer Schulklasse Summe der Werte Mittelwert Varianz bei Stichproben – Ist der Populationskennwert (z.B. Mittelwert) nicht bekannt, sondern muss geschätzt werden, so berechnet man die sogenannte korrigierte Stichprobenvarianz: 2 𝑠 = 𝑛 𝑖=1 𝑥𝑖 −𝑥 2 𝑛−1 x − Mittelwert der Stichprobe n – Anzahl der Elemente in der Stichprobe – Bei kleinen Stichproben ergibt sich durch die Subtraktion von eins eine relativ größere Varianz als bei großen Stichproben. – Würden die Abweichungen nicht quadriert, wäre die Summe gleich Null. Varianz Dichten zweier normalverteilter Zufallsvariablen mit gleichem Erwartungswert (0) aber unterschiedlichen Varianzen. rot = geringe Varianz grün = hohe Varianz Standardabweichung (engl. standard deviation, sd, σ) – Wurzel der Varianz 𝑠= 𝑠2 = 𝑛 𝑖=1 𝑥𝑖 − 𝑥 𝑛−1 Deskriptive Statistik 2 12 Vorteile von Varianz und Standardabweichung • von zufälligen Extremwerten kaum beeinflusst • hängen von allen Messwerten einer Verteilung ab • sind zuverlässige Schätzwerte für die Streuung in der Grundgesamtheit • für Prüfstatistik geeignet Standardabweichung • Für die Standard-Normalverteilung gilt: ca. 68% ca. 95.5% Standardabweichung Konfidenzintervall Prozent innerhalb 0,674 490σ 50% 0,994 458σ 68% 1σ 68,269% 1,281 552σ 80% 1,644 854σ 90% 1,959 964σ 95% 2σ 95,45% 2,575 829σ 99% 3σ 99,73% 3,290 527σ 99,9% 3,890 592σ 99,99% 4σ 99,993 666% Standardabweichung Konfidenzintervall Prozent innerhalb 0,674 490σ 50% 0,994 458σ 68% 1σ 68,269% 1,281 552σ 80% 1,644 854σ 90% 1,959 964σ 95% 2σ 95,45% 2,575 829σ 99% 3σ 99,73% 3,290 527σ 99,9% 3,890 592σ 99,99% 4σ 99,993 666% Standardabweichung Beispiel • Die Körpergröße des Menschen ist näherungsweise normalverteilt. Bei einer Stichprobe von 1.284 Mädchen und 1.063 Jungen zwischen 14 und 18 Jahren wurde bei den Mädchen eine durchschnittliche Körpergröße von 166,3 cm (Standardabweichung 6,39 cm) und bei den Jungen eine durchschnittliche Körpergröße von 176,8 cm (Standardabweichung 7,46 cm) gemessen. • Demnach lässt obige Schwankungsbreite erwarten, dass 68,3 % der Mädchen eine Körpergröße im Bereich 166,3 cm ± 6,39 cm und 95,4 % im Bereich 166,3 cm ± 12,78 cm haben, • 16 % [≈ (100 % − 68,3 %)/2] der Mädchen kleiner als 160 cm (und 16 % entsprechend größer als 173 cm) sind und 2,5 % [≈ (100 % − 95,4 %)/2] der Mädchen kleiner als 154 cm (und 2,5 % entsprechend größer als 179 cm) sind. Für die Jungen lässt sich erwarten, dass 68 % eine Körpergröße im Bereich 176,8 cm ± 7,46 cm und 95 % im Bereich 176,8 cm ± 14,92 cm haben, 16 % der Jungen kleiner als 169 cm (und 16 % größer als 184 cm) und 2,5 % der Jungen kleiner als 162 cm (und 2,5 % größer als 192 cm) sind. • • • • Varianz und Standardabweichung • Varianz (s2): Summe der Abweichungsquadrate aller Messwerte einer Verteilung von ihrem arithmetischen Mittel dividiert durch die Anzahl der Messungen (-1) • Standardabweichung (s): Quadratwurzel aus der Varianz Standardfehler auch: Stichprobenfehler • Arbeiten wir mit Stichproben (weil Daten über die Grundgesamtheit nicht verfügbar sind), dann wird jede Stichprobe einen leicht anderen Kennwert aufweisen. • Diese Kennwerte der einzelnen Stichproben variieren um den tatsächlichen Kennwert der Population. • Die Kennwerte der einzelnen Stichproben sind dabei normalverteilt (um den Populationskennwert). • Die Standardabweichung der Stichproben-Kennwerte ist dabei der Stichprobenfehler (Standardfehler). Standardfehler • Der Standardfehler des arithmetischen Mittels ist gleich σ 𝑋 = σ 𝑛 • wobei σ die Standardabweichung einer einzelnen Messung bezeichnet. • Der Standardfehler ist abhängig von der Standardabweichung der Grundgesamtheit und der Größe der Stichprobe (n). Standardfehler (Stichprobenfehler) Differenz zwischen dem Kennwert einer Stichprobe und dem ‚wahren‘ Wert der entsprechenden Grundgesamtheit die Stichprobenmittelwerte bilden ihrerseits eine Verteilung der Mittelwert der Stichprobenverteilung ist der beste Schätzwert für den Parameter der Grundgesamtheit wenn die Zahl der Stichproben gegen Unendlich geht, ist die Verteilung der Stichprobenmittelwerte stets normal je größer die Variabilität des Merkmals in der Grundgesamtheit ist, desto größer ist auch der Standardfehler des Mittelwerts je kleiner die Größe der Stichprobe ist, desto größer ist der Standardfehler des Mittelwerts Standardfehler Beispiel Für die Eiscreme-Daten* wurde für den Pro-Kopf Verbrauch von Eiscreme (gemessen in Pint) das arithmetische Mittel, dessen Standardfehler und die Standardabweichung für die Jahre 1951, 1952 und 1953 berechnet. Für die Jahre 1951 und 1952 sind die geschätzten Mittelwerte und Standardabweichungen sowie die Beobachtungszahlen etwa gleich. Deswegen ergeben die geschätzten Standardfehler auch etwa den gleichen Wert. Im Jahr 1953 sind zum einen die Beobachtungszahlen geringer als auch die Standardabweichung größer. Daher ist der Standardfehler fast doppelt so groß wie die Standardfehler aus den Jahren 1951 und 1952. Jahr Mittelwert Standardfehler des Mittelwerts Standardabweichung Anzahl der Beobachtunge n 1951 0,34680 0,01891 0,05980 10 1952 0,34954 0,01636 0,05899 13 1953 0,39586 0,03064 0,08106 7 * Koteswara Rao Kadiyala (1970) Testing for the independence of regression disturbances. Econometrica, 38, 97-117. Siehe auch: http://lib.stat.cmu.edu/DASL/Datafiles/IceCream.html Standardfehler vs. Standardabweichung • Der Standardfehler ist die Standardabweichung der geschätzten Parameter in vielen Stichproben. • Im Gegensatz dazu bildet die Standardabweichung die tatsächlich vorhandene Streuung ab (entweder in der Population: σ, oder in der Stichprobe: s). Diese Streuung ist auch bei höchster Messgenauigkeit und unendlich vielen Einzelmessungen vorhanden. Sie zeigt, ob die Einzelwerte nahe beieinander liegen oder eine starke Spreizung der Daten vorliegt. Exkurs: Quantile (zu Streuungsmaßen) • Beispiel: Reaktionszeitdaten – 200 Messungen – Mittelwert: 540.8ms – Standardabweichung: 120.01ms • (Range: 832.6 – 238.7) • (Median: 544.1) Exkurs: Quantile (zu Streuungsmaßen) Exkurs: Quantile (zu Streuungsmaßen) Exkurs: Quantile (zu Streuungsmaßen) Median 100 % 75 % 50% 25% Exkurs: Quantile / Quartile (zu Streuungsmaßen) Median Q0,25 (unteres Quartil) Q0,50 (mittleres Quartil) Q0,75 (0,75-Quantil, oberes Quartil) • Zum Beispiel Ausgabe in R: summary(test.rt) Min. 1st Qu. Median Mean 3rd Qu. Max. 238.7 456.3 544.1 540.8 617.3 832.6 Quantile • Ein Quantil ist ein Lagemaß in der Statistik. Das p-Quantil ist ein Wert einer Variablen, der die Menge aller Merkmalswerte (salopp "die Verteilung") in zwei Abschnitte unterteilt: Links vom p-Quantil liegt der Anteil p ≡ p*100% aller Beobachtungswerte oder der Gesamtzahl der Zufallswerte oder der Fläche unter der Verteilungskurve; rechts davon liegt der jeweilige restliche Anteil 1-p ≡ (1-p)*100%. Die Zahl p heißt auch der Unterschreitungsanteil. • Spezielle Quantile sind der Median, die Quartile (sowie die Quintile, die Dezile und die Perzentile). Deskriptive Statistik 30 Quartile • Quartile (lat. „Viertelwerte“) sind die Quantile Q0,25(0,25Quantil), Q0,5(0,5-Quantil=Median) und Q0,75(0,75-Quantil), die auch als Q1 („unteres Quartil“), Q2 („mittleres Quartil“) und Q3 („oberes Quartil“) bezeichnet werden. Sie sind die in der Statistik mit am häufigsten verwendete Form der Quantile. • Der (Inter-)Quartilabstand (engl. interquartile range) bezeichnet die Differenz zwischen dem oberen und dem unteren Quartil, also Q0,75-Q0,25 und umfasst daher 50 % der Verteilung. Der Quartilabstand wird auch als Streuungsmaß verwendet. Deskriptive Statistik 31 zu den Quantilen zu merken: • Zur Visualisierung von Verteilungen sind Boxplots gut geeignet. • „Quantile teilen die Verteilung in einen Bereich oberhalb und unterhalb.“ • Spezielle Quantile sind der Median (0.5) sowie die Quartile (0.25; 0.5 und 0.75). Deskriptive Statistik Bericht Deskriptive Statistik Bericht • Die Werte der deskriptiven Statistik können auf verschiedene Weise berichtet werden: – Zahlen (im Text) – Tabellen – Grafiken American Psychological Association (1994). Publication manual of the American Psychological Association. Washington, DC: APA. Zur Erinnerung: • deskriptive Statistik erfolgt immer vor Inferenzstatistik! • Beschreibung der Daten anhand von Kennwerten – Anzahl der gültigen Werte – Kennwerte der zentralen Tendenz – Kennwerte der Streuung Deskriptive Statistik • Text „For the analyses of the reaction time experiment, we included participants with error scores less than 20%. […] Thus, the data of seven participants were removed from further analyses. • Similarly, four nouns from the low singular frequency condition were removed due to error percentages exceeding 30%“. (Schreuder & Baayen, 1997, p. 129) 36 „We excluded the data from one participant whose residual reading times were extremely slow (2.5 standard deviations away from the average). To remove outlier data points, the residual reading times were trimmed so that data points beyond three standard deviations from the relevant condition and position cell mean were discarded, corresponding to less than 1.8% of the data. The reading time data that we report corresponds to all the remaining data, whether or not the comprehension questions were answered correctly.“ (Nakatani & Gibson, 2008, p. 76) Deskriptive Statistik • Tabellarische Darstellung Hartsuiker, Kolk, & Huiskamp (1999) 39 Deskriptive Statistik • Tabellarische Darstellung American Psychological Association (1994). Publication manual of the American Psychological Association. Washington, DC: APA. 40 Deskriptive Statistik • Tabellarische Darstellung Smith & Wheeldon (2001) 41 Deskriptive Statistik • Tabellarische Darstellung Rastle, Davis, & New (2004) 42 Deskriptive Statistik • Abbildungen – Säulen und Balken – Linien – Punkte – selten Kreisdiagramme ("Torten") 43 Säulendiagramme Für welches Skalenniveau gut geeignet? Säulendiagramme Säulendiagramme Säulendiagramme • Abbildung: Säulen American Psychological Association (1994). Publication manual of the American Psychological Association. Washington, DC: APA. 47 Säulendiagramme • Abbildung: gestapletes Säulendiagramm Bernolet, Hartsuiker, & Pickering (2009) 48 Scatterplot Für welches Skalenniveau gut geeignet? Liniendiagramme • Abbildung: Linien American Psychological Association (1994). Publication manual of the American Psychological Association. Washington, DC: APA. 50 Liniendiagramme Für welches Skalenniveau gut geeignet? • Abbildung: Linien Nakatani & Gibson (2008) 51 Liniendiagramme • Abbildung: Linien Dahan, Tanenhaus, & Chambers, (2002) 52 Tortendiagramme • … sollte man nach Möglichkeit nicht verwenden. Tortendiagramme Tortendiagramme Tortendiagramme Tortendiagramme Tortendiagramme Die gleichen Daten als Tortendiagramme ? In welcher Relation stehen zum Beispiel Kategorie „e“ und „h“ zu einander? Tortendiagramme Beispiele der Übungsdaten • Rosen-Beispiel von letzter Woche Beispiel: „Rosen-Experiment“ Hypothetisches Szenario: Karl ist Rosenzüchter. Er möchte herausfinden, wie lange es dauert, bis eine frische Rose seiner neuen Züchtung in einer Vase mit Wasser verwelkt. (Eigenschaft der Population) Vorgehen: Am Tag des Aufblühens wird eine Rose abgeschnitten und in eine genormte Vase mit Wasser gestellt. Notiert wird am wievielten Tag das erste Blütenblatt welkt ist. Karl führt diesen Versuch mit insgesamt 100 Rosen durch. 62 Ergebnis: 1 2 3 4 5 6 … 10 0 Verblüh-Tag 5 2 4 6 5 4 … 3 Versuch Nr. Bericht (deskriptive Daten): • Insgesamt wurden 100 Exemplare untersucht. Die durchschnittliche Blühdauer betrug 4.41 Tage (SD = 1.23, Range = 1-7). • Ausblick: Verändert sich die Haltbarkeit, wenn die Rosen nicht nur in normales Wasser gestellt werden, sondern dem Wasser noch Zucker zugesetzt wird? Fragen, die Sie nach der heutigen Sitzung beantworten können sollten • Welche Kennwerte der Dispersion kennen Sie? Wie werden sie berechnet? • Was sind die Vorteile der Varianz gegenüber der Variationsbreite? • Was versteht man unter dem Standardfehler(Stichprobenfehler)? • Wieviel Prozent der Werte liegen bei einer Normalverteilung ca. im Bereich von Mittelwert +/- 2 Standardabweichungen? Ausblick nächste Woche: Inferenzstatistik Statistik • Auf Messergebnisse werden i.d.R. statistische Tests angewandt, die aussagen, wie wahrscheinlich es ist, dass die beobachteten Ergebnisse zufällig sind oder ob sie auf die Grundgesamtheit verallgemeinert werden können. • Liegt die ermittelte Irrtumswahrscheinlichkeit unter einem vorher festgelegten Niveau (Signifikanzniveau, i.d.R. < 5%), dann gelten die Ergebnisse als signifikant. Grundgedanke Man will zum Beispiel ermitteln, ob eine Stichprobe der Grundgesamtheit entstammt. • Man bestimmt den Kennwert einer Stichprobe (z.B. Mittelwert). • Man vergleicht den Kennwert der Stichprobe mit dem entsprechenden Kennwert der Population. • Man berechnet, wie wahrscheinlich es ist, dass die Differenz der Kennwerte zufällig ist. (Die Wahrscheinlichkeit, dass die gemessene Abweichung der Stichprobe von der Population zufällig ist)