Statistik & Methodenlehre e ode e e Prof. Dr. G. Meinhardt 6 Stock, 6. St k W Wallstr. ll t 3 (Raum 06-206) Sprechstunde Sp echst nde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden I Dr. Malte Persike } [email protected] http://psymet03.sowi.uni-mainz.de/ WS 2010/2011 Fachbereich Sozialwissenschaften Psychologisches Institut Johannes Gutenberg Universität Mainz Statistik & Methodenlehre e ode e e Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Numerische Beschreibung: Kennwerte Grafische Darstellung I Maße der zentralen Tendenz • Mittelwert Kennwerte Streuungsmaße (Dispersionsmaße) Grafische Darstellung II • • • • Mittlere Differenz (Abweichungs-)Quadratsumme Varianz a a Standardabweichung Statistik & Methodenlehre e ode e e Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Numerische Beschreibung: Mittelwert Grafische Darstellung I Kennwerte Grafische Darstellung II Der Mittelwert ist bei n Beobachtungen x1 … xn definiert als 1 1 n x = ( x1 + x2 + … xN ) = ∑ xi n n i =1 Ist durch „extreme“ Werte beeinflussbar (ausreißerempfindlich) Ist der Schwerpunkt der Beobachtungen, d.h. n ∑(x − x ) = 0 i =1 i Statistik & Methodenlehre e ode e e Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Numerische Beschreibung: Mittelwert Grafische Darstellung I Kennwerte Der Mittelwert stimmt häufig mit keiner beobachteten Realisation überein Der Mittelwert ist äquivariant gegenüber gewissen (z.B. linearen) Transformationen Insbesondere Grafische Darstellung II 1. Addition einer Konstanten a zu allen n Beobachtungen x1 … xn x+a = x +a 2. Multiplikation aller n Beobachtungen x1 … xn mit einer Konstanten c a⋅x = a⋅x Statistik & Methodenlehre e ode e e Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Numerische Beschreibung: Mittelwert Grafische Darstellung I Lageregeln für die Maße der zentralen Tendenz Bei symmetrischen Verteilungen: Kennwerte Grafische Darstellung II x ≈ xmed ≈ xmod Bei linkssteilen Verteilungen: x > xmed ≥ xmod Bei rechtssteilen Verteilungen x < xmed ≤ xmod Statistik & Methodenlehre e ode e e Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Numerische Beschreibung: Mittlere Abweichung Grafische Darstellung I Kennwerte Grafische Darstellung II Als mittlere Abweichung g ((MD)) von n Beobachtungen g x1 … xn in einem Datensatz wird die Summe aller Abweichungsbeträge zum Median bezeichnet. 1 n MD = ∑ xi − x n i =1 Für jeden anderen Wert als für den Median ist der mittlere Abweichungsbetrag größer, d.h. 1 n 1 n xi − x ≤ ∑ xi − c ∑ n i =1 n i =1 Statistik & Methodenlehre e ode e e Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Numerische Beschreibung: Abweichungsquadratsumme Grafische Darstellung I Kennwerte Grafische Darstellung II Die Abweichungsquadratsumme g q ((oder auch: Fehlerquadratsumme oder einfach Quadratsumme) ist die Summe der quadrierten Abweichungen aller n Beobachtungen x1 … xn vom Mittelwert. n QS ( x ) = ∑ ( xi − x ) 2 i=1 Erfasst die Streuung um den Mittelwert Nur ffalls N ll keine k i Streuung St b besteht, t ht iistt QS = 00, d.h. dh alle beobachteten Werte sind gleich. Sonst: QS> 0 Je g größer die Streuung, g, desto größer g ist die QS Q Problem: Die Fehlerquadratsumme wird um so größer, je mehr Beobachtungen vorliegen Statistik & Methodenlehre e ode e e Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Numerische Beschreibung: Varianz Grafische Darstellung I Kennwerte Grafische Darstellung II Die Varianz ist das mittlere Abweichungsquadrat aller n Beobachtungen x1 … xn vom Mittelwert. n 1 2 2 s ( x ) = ∑ ( xi − x ) n i =1 Erfasst die mittlere Streuung um den Mittelwert Nur falls keine Streuung besteht, besteht ist ss² = 0, 0 d.h. d h alle beobachteten Werte sind gleich. Sonst: s² > 0 Je größer die Streuung um den Mittelwert, desto größer öß iist die di Varianz V i Ist anfällig gegenüber Ausreißern Statistik & Methodenlehre e ode e e Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Numerische Beschreibung: Varianz Grafische Darstellung I Kennwerte Grafische Darstellung II Für jeden anderen Wert als für den Mittelwert ist die Summe der Abweichungsquadrate höher 1 n 1 n 2 2 ( xi − x ) ≤ ∑ ( xi − c ) ∑ n i =1 n i =1 Der Mittelwert minimiert also die quadrierten Abweichungen aller Beobachtungen. Statistik & Methodenlehre e ode e e Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Numerische Beschreibung: Varianz Grafische Darstellung I Kennwerte Grafische Darstellung II Die Formel für die Varianz lässt sich leicht umformen in eine rechnerisch manchmal günstigere Variante: 1 n 1 n 2 2 2 2 2 x − x = x − x = x − x ( ) ∑ i ∑i n i =1 n i =1 Die e Varianz a a ist st a also so d die e Differenz e e des Mittelwerts tte e ts de der quadrierten Daten und dem quadrierten Mittelwert der Daten. Dies wird auch als Momentenschreibweise der Varianz bezeichnet. Statistik & Methodenlehre e ode e e Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Numerische Beschreibung: Standardabweichung Grafische Darstellung I Problem: Die Varianz ist nicht äquivariant zu erlaubten Skalentransformationen s 2 (a ⋅ x) = a 2 ⋅ s 2 ( x) (mit a = const.) const ) Kennwerte Grafische Darstellung II Durch Wurzelziehen erhält man die Standardabweichung (SD, standard deviation) n 1 2 2 s( x) = s ( x) = ( xi − x ) ∑ n i =1 Die Standardabweichung ist äquivariant zu den erlaubten Skalentransformationen Statistik & Methodenlehre e ode e e Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Numerische Beschreibung: s² und s Grafische Darstellung I Verhalten von Varianz und Standardabweichung bei Transformationen der n Beobachtungen x1 … xn Kennwerte 1. Die Addition einer Konstanten a zu allen Werten x verändert Varianz und Standardabweichung nicht s²(x + a) = s²(x) Grafische Darstellung II s(x + a) = s(x) 2 Die Multiplikation aller Werte x mit einer Konstanten a 2. führt zu einer Erhöhung der Varianz um a² und der Standardabweichung um a s²(a ²( · x)) = a²² · s²(x) ²( ) s(a · x) = a · s(x) Statistik & Methodenlehre e ode e e Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Mittelwert und Varianz aus kategorisierten Daten Grafische Darstellung I Liegen intervallskalierte Daten bereits in kategorisierter Form vor (z.B. in einer Häufigkeitstabelle), so können daraus Mittelwert und Varianz näherungsweise bestimmt werden. Kennwerte Es sei Grafische Darstellung II x j ,mid = UG j + OG j die Kategoriemitte der 2 j-ten von insgesamt k Kategorien mit der Häufigkeit fj(x). Mittelwert x = ∑ f ( x j ) ⋅ x j ,mid k j =1 Varianz s ( x) = ∑ f ( x j ) ⋅ ( x j ,mid − x ) k 2 j =1 2 Statistik & Methodenlehre e ode e e Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Grafische Beschreibung: Fehlerbalkendiagramm Grafische Darstellung I Kennwerte Das Fehlerbalkendiagramm (Error Bar) veranschaulicht Mittelwerte und die Streuung von Daten für mindestens eine Stichprobe. Für die d Länge der d Fehlerbalken hl b lk existieren verschiedene h d Konventionen (± 1·SD, ± 1.96·SD, ± 2.58·SD) Grafische Darstellung II Kö örpergröße in cm Körpergröße in c m (+/‐ cm (+/‐1.96 SD) 1 SD) 195 190 185 180 175 170 165 160 Frauen Geschlecht Männer Statistik & Methodenlehre e ode e e Intervalldaten z-Standardisierung z Standardisierung z-Standardisierung Transformationsregel Ziel: Angabe der relativen Lage von Werten in einer Verteilung. 1. Quantile: wie bereits gesehen 2. Angabe einer normierten Differenz eines Messwertes zum Mittelwert Berechnungsvorschrift: Jede Differenz eines Messwertes wird durch die Standardabweichung g aller Messwerte geteilt. g Die erhaltenen Werte werden als z-Werte bezeichnet. x−x zx = sx Statistik & Methodenlehre e ode e e Intervalldaten z-Standardisierung z-Standardisierung z Standardisierung Eigenschaften Der zz-Wert Wert kann auch als Differenz eines normierten Datenwertes vom normierten Mittelwert betrachtet werden, denn x−x x x = − zx = sx sx sx D Mitt Der Mittelwert l t von z-Werten W t iistt iimmer 0 Die Standardabweichung von z-Werten ist immer 1 Statistik & Methodenlehre e ode e e Intervalldaten z-Standardisierung z-Standardisierung z Standardisierung Eigenschaften Der zz-Wert Wert kann auch als Differenz eines normierten Datenwertes vom normierten Mittelwert betrachtet werden, denn x−x x x = − zx = sx sx sx D Mittelwert Der Mitt l t von z-Werten W t iistt iimmer 0 Die Standardabweichung von z-Werten ist immer 1 Statistik & Methodenlehre e ode e e Intervalldaten z-Standardisierung z-Standardisierung z Standardisierung Skalentransformation Mithilfe der zz-Transformation Transformation können Messdaten mit beliebigem Mittelwert und Standardabweichung in Daten transformiert werden, die einen definierten Mittelwert und Standardabweichung g aufweisen. Schritt 1: z-Standardisierung jedes Datenpunktes Schritt 2: Transformation jedes Datenpunktes in die neue Skala xneu = ( z ⋅ sneu ) + xneu Beispiele: Hamburg-Wechsler Hamburg Wechsler IQ-Test IQ Test (MW=100, (MW 100, s=15), IQ-Skala laut IST (MW=100, s=10), StanineSkala (MW=5, s=2), Statistik & Methodenlehre e ode e e Relevante Excel Funktionen Kennwerte • • • • • • • • • ABS() ^-Operator für Quadrierung, POTENZ() WURZEL() MITTELWERT(), MITTELWERTWENN(), MITTELWERTWENNS() MITTELABW() QUADRATESUMME() VAR.P() STABW.N() STANDARDISIERUNG()