Modul G.1 WS 06/07: Statistik 15.11.2006 1 Nachtrag zu Mittelwerten und Maßen der Dispersion 120 140 100 80 60 40 dur [ms] Darstellungsmethode Boxplot Strich innerhalb der Boxen: Median Boxen: Interquartilsabstand Whiskers: 1.5 * Interquartilsabstand an den äußeren Rändern der Box Bedeutung: innerhalb der „whiskers“ liegen 95% der Daten (entspricht 1.96* sx) Ausreißer bzw. outlier: Werte außerhalb der whiskers 160 Consonant duration L N S Zur Erinnerung: Der Median ist derjenige Wert, der die geordnete Reihe der Messwerte in die oberen und unteren 50 Prozent aufteilt. Somit ist die Anzahl der Messwerte über und unter dem Median gleich. Als Quartile werden jene Punkte Q1, Q2 und Q3 bezeichnet, welche eine Verteilung in vier gleich große Abschnitte aufteilen. Das mittlere Quartil Q2 entspricht dem Median, das untere Quartil Q1 einem Prozentrang von 25 und das obere Quartil Q3 von 75. Die Differenz von Q3 und Q1 wird als Interquartilabstand (IQA) bezeichnet. sx ist die Standardabweichung einer Stichprobe Normalverteilung (Auch Gauß’sche Normalverteilung oder „Glockenverteilung“, normal distribution) Bei der Normalverteilung handelt es sich um eine unimodale, symmetrische Verteilung, die sich asymptotisch der Abszisse annähert. Die Gauß´sche Normalverteilung wird bei vielen natur- und sozialwissenschaftlichen Variablen vorausgesetzt. Der Ausgangspunkt ist, dass Messungen in Experimenten meist zufälligen Variationen unterliegen (Reaktion der Versuchsperson, Messmethode etc.). Ist diese Annahme korrekt, so ergibt eine genügend große Anzahl an Messungen eine symmetrische Verteilung um einen zentralen Wert, der am häufigsten auftritt und durch den Mittelwert widergegeben werden kann. Modul G.1 WS 06/07: Statistik 15.11.2006 2 Johnson (2004, p.14) beschreibt diese mittlere Tendenz als das zugrundeliegende Merkmal, das wir bei Experimenten herausfinden wollen, das aber durch zufällige Fehler „verfälscht“ wird. Für die zufälligen Fehler gilt, dass die größeren Abweichungen seltener auftreten, weshalb sich die Verteilung zu den Rändern hin an null annähert. Die besondere Bedeutung der Normalverteilung beruht unter anderem auf dem zentralen Grenzwertsatz, der besagt, dass eine Summe von n unabhängigen, identisch verteilten Zufallsvariablen im Grenzwert normalverteilt ist. Das bedeutet, dass man Zufallsvariablen dann als normalverteilt ansehen kann, wenn sie durch Überlagerung einer großen Zahl von Einflüssen entstehen, wobei jede einzelne Einflussgröße einen im Verhältnis zur Gesamtsumme unbedeutenden Beitrag liefert. Beispiel: Auf einer Hühnerfarm mit sehr vielen Hühnern werden eine Woche lang die einzelnen Eier gewogen. Definieren wir die Zufallsvariable X: Gewicht eines Eis in Gramm. Es stellt sich heraus, dass ein Ei im Durchschnitt 50 g wiegt. Der Erwartungswert EX (oder auch µ) ist daher 50. Außerdem sei bekannt, dass die Varianz s2(x) = 25 g2 beträgt. Man kann die Verteilung des Gewichts annähernd wie in der Grafik darstellen. Man sieht, dass sich die meisten Eier in der Nähe des Erwartungswerts 50 befinden und dass die Wahrscheinlichkeit, sehr kleine oder sehr große Eier zu erhalten, sehr klein wird. Wir haben hier eine Normalverteilung vor uns. Sie ist typisch für Zufallsvariablen, die sich aus sehr vielen verschiedenen Einflüssen zusammensetzen, die man nicht mehr trennen kann, z.B. Gewicht des Huhns, Alter, Gesundheit, Standort, Vererbung usw. Die Normalverteilung ist symmetrisch bezüglich μ. Die Verteilung P(X ≤ a) von X ist die Fläche unter dem Graph der Dichtefunktion. Sie wird bezeichnet als Beispielsweise beträgt die Wahrscheinlichkeit, dass ein Ei höchstens 55 g wiegt, 0,8413. Das entspricht der roten Fläche in der Abbildung. Modul G.1 WS 06/07: Statistik 15.11.2006 3 Mit Standardabweichung = 𝜎 und Erwartungswert = µ Der Erwartungswert (selten und doppeldeutig Mittelwert) ist ein Begriff der Stochastik. Der Erwartungswert μ einer Zufallsvariablen (X) ist jener Wert, der sich (in der Regel) bei oftmaligem Wiederholen des zugrunde liegenden Experiments als Mittelwert der Ergebnisse ergibt. Er bestimmt die Lokalisation (Lage) einer Verteilung und ist vergleichbar mit dem empirischen arithmetischen Mittel einer Häufigkeitsverteilung in der deskriptiven Statistik. Das Gesetz der großen Zahlen sichert in vielen Fällen zu, dass der Stichprobenmittelwert bei wachsender Stichprobengröße gegen den Erwartungswert konvergiert. Eigenschaften: Datenreduktion: Mit den beiden Kenngrößen μ und σ kann die Wahrscheinlichkeit für das Auftreten einzelner Messwerte vorhergesagt werden. Die Fläche unterhalb der Kurve ist immer 1, d.h. Normalverteilungen mit einem Mittelwert, der eine geringe Häufigkeit aufweist, haben eine große Standardabweichung („flach und breit“) und umgekehrt („spitz und schmal“) Dichte (density): gibt die Wahrscheinlichkeit an, dass ein Maß sehr nah an einem Messwert liegt. Wahrscheinlichkeiten liegen zwischen 0 und 1 mit steigender Wahrscheinlichkeit. Durch die Definition der Funktionsgleichung ist es möglich, das Integral, die Fläche, unter der Kurve, zu berechnen. Mit dieser Fläche kann man die Intervalle bestimmen, in denen gewisse Prozentanteile der Stichprobe mit hoher Wahrscheinlichkeit enthalten sind. Eine Dichtefunktion, Wahrscheinlichkeitsdichte oder Wahrscheinlichkeitsdichtefunktion (WDF oder pdf von engl. probability density function) dient in der Mathematik der Beschreibung von Wahrscheinlichkeitsverteilungen Bei normalverteilten Daten liegen 68,28% der Daten innerhalb eines Bereiches von ± 1Standardabweichung und 95,44 % im Bereich von ± 2 SD Im statistischen Sinne normale Daten liegen zwischen -1,96 * SD und +1,96*SD. Alle außerhalb dieser 95% Marke liegenden Daten sind Ausreißer. Modul G.1 WS 06/07: Statistik 15.11.2006 4 Die Wahrscheinlichkeiten der einzelnen Ausprägungen einer stetigen Zufallsvariablen können (im Gegensatz zum diskreten Fall der Wahrscheinlichkeitsfunktion) nicht angegeben werden, denn die Wahrscheinlichkeiten für jede einzelne Ausprägung müssen streng genommen 0 gesetzt werden. Es lassen sich nur Wahrscheinlichkeiten f(x)dx dafür angeben, dass die Werte innerhalb eines Intervalls dx um x liegen. Die Funktion f(x) heißt dann Dichtefunktion. Die Wahrscheinlichkeit, dass die Zufallsvariable Werte zwischen a und b annimmt, wird dann allgemein definiert als das Integral über diese Funktion mit den Integrationsgrenzen a und b. Beispielsweise fragt man nicht, wie viele Personen exakt 1,75 Meter groß sind, sondern z. B., wie viele Personen zwischen 1,75 und 1,76 m groß sind. Denn die Wahrscheinlichkeit, dass eine Person auf beliebig viele Nachkommastellen genau 1,75 Meter groß ist, ist theoretisch und praktisch gleich Null (daraus folgt: Nullmenge). Beispiel: Der HAWIE (Hamburg-Wechsler-Intelligenztest für Erwachsene) besitzt einen Mittelwert von 𝒙 = 100 IQ-Punkte und eine Standardabweichung von sx=15 Punkten. Dies bedeutet, dass 4,56% der Bevölkerung einen IQ von unter 70 oder über 130 Punkten haben. Abweichungen von der Normalverteilung 0.008 0.006 0.004 0.002 Density 0.010 0.012 1. Mehrere Gipfel (bimodal bis multimodal) bedeutet meist, dass die Quelle der Variation nicht zufällig ist, z.B. Vokaldauern, wenn Kurzund Langvokale in einem Datensatz analysiert werden. 60 80 100 120 Vokaldauer [ms] 140 160 180 Modul G.1 WS 06/07: Statistik 15.11.2006 5 2. Asymmetrie (skewness) Achtung: linkssteil = rechtsschief, rechtsteil = linksschief Die Schiefe wird mit dem zentralen Moment dritter Ordnung berechnet. Als zentrales Moment wird die Differenz eines individuellen Werts vom Mittelwert bezeichnet: (xi - 𝑥 )a Der Exponent a bestimmt die Ordnung des zentralen Moments. a3=0: Symmetrie a3<0: rechtssteil a3>0: linkssteil Modul G.1 WS 06/07: Statistik 3. „Gipfeligkeit“, Exzess, Breite a4=3: normal a4<3: platykurtisch (breit) a4>3: leptokurtisch (spitz) 15.11.2006 6 Modul G.1 WS 06/07: Statistik 15.11.2006 Rechenbeispiel zur Schiefe und Gipfeligkeit einer Verteilung 7 Modul G.1 WS 06/07: Statistik 15.11.2006 8 Normierung Wichtig ist, dass die gesamte Fläche unter der Kurve gleich 1 ist, also der Wahrscheinlichkeit eines fast sicheren Ereignisses entspricht. Somit folgt, dass, wenn zwei gaußsche Glockenkurven dasselbe μ, aber unterschiedliche σ-Werte haben, jene Kurve mit dem größeren σ breiter und niedriger ist (da ja beide zugehörigen Flächen jeweils den Wert von 1 haben und nur die Standardabweichung (oder „Streuung“) höher ist). Zwei Glockenkurven mit dem gleichen σ, aber unterschiedlichen μ haben gleich aussehende Graphen, die jedoch auf der x-Achse um die Differenz der μ-Werte zueinander verschoben sind. Standardnormalverteilung und die z-Transformation Die Standardnormalverteilung hat einen Mittelwert von 0 und eine Standardabweichung von 1. Modul G.1 WS 06/07: Statistik 15.11.2006 9 Dichtefunktion der Standardnormalverteilung Eigenschaften der z-Verteilung: Die Fläche ist wiederum 1 bzw. 100%. Transformation zur Standardnormalverteilung (z-Transformation) Ist eine Normalverteilung mit beliebigen μ und σ gegeben, so kann diese durch eine Transformation auf eine -Normalverteilung zurückgeführt werden. Die Überführung geschieht durch die z-Transformation in die sogenannten z scores. zi=(xi-𝑥)/sx Geometrisch betrachtet entspricht die durchgeführte Substition einer flächentreuen Transformation der Glockenkurve von zur Glockenkurve von . Durch die z-Transformation können sämtliche Normalverteilungen standardisiert werden, d.h. auf einen Standard gebracht werden. Wir bezeichnen deshalb die Normalverteilung mit μ= 0 und σ=1 als Standardnormalverteilung. Modul G.1 WS 06/07: Statistik 15.11.2006 10 (vgl. Bortz, 5. Auflage, S. 75, vgl. Übungsaufgabe zur z-Transformation) Wichtige Anwendung in der Phonetik: Sprechernormalisierung Problem: Formanten sind nicht nur von der Vokalqualität sondern auch von sprecherspezifischen Merkmalen des Ansatzrohres abhängig. Lösung: 1. z-Transformation mit sprecherspezifischen Mittelwerten und Standardabweichungen = Lobanov-Transformation Fn.norm=(Fn-Fn.mean)/Fn.sd Fn.norm wird für jeden einzelnen Sprecher berechnet. n entspricht jeweils dem n-ten Formanten (F1, F2 etc.) 2. Daten werden auf den maximalen Range der einzelnen Sprecher normalisiert = Gerstman-Transformation Fn.norm=(Fn-Fn.min)/(Fn.max-Fn.min) (vgl. Harrington & Cassidy (1999) S. 76-78)