Kennwerte eindimensionaler Häufigkeitsverteilungen - Einführung Statistische Kennwerte von Verteilungen sind numerische Maße mit der Funktion, zusammenfassend einen Eindruck von 1) dem „Schwerpunkt“, 2) der Variabilität und 3) der Form einer Merkmalsverteilung zu geben. Man unterteilt statistische Kennwerte dazu in Maße der: 1) Zentralen Tendenz Leitfrage: Welcher Wert kennzeichnet die Lage des Zentrums einer Merkmalsverteilung am besten? 2) Dispersion (Variabilität) Leitfrage: Wie kann das Ausmaß an Unterschiedlichkeit (Variabilität) in den Messwerten gekennzeichnet werden? 3) Verteilungsform Leitfrage: Welche Werte kennzeichnen die Merkmalsverteilung hinsichtlich Symmetrie und Schmalheit/Breite? Maße der zentralen Tendenz (1) - Modalwert I Modus (auch: Modalwert, Gipfelwert, Modalklasse) [abgekürzt: Mo oder Mod] Der Modus einer Verteilung ist der Wert, der am häufigsten gemessen wurde. Der Modus ist bereits ab Nominalskalenniveau ein sinnvolles Maß der zentralen Tendenz. Bei kategorisierten, ursprünglich mindestens intervallskalierten Merkmalen (z.B. Altersklassen) gilt die Kategorienmitte der am häufigsten besetzten Kategorie als Modalwert, nicht der Zahlenwert der Klasse. Merke: Der Modus ändert sich leicht, wenn die Definition der Klassen- bzw. Kategorieneinteilung verändert wird! Maße der zentralen Tendenz (2) - Modalwert II Beispiel nominalskaliertes Merkmal: Familienstand Werte (k) Häufigkeit (fk) ledig=1 25 verheiratet=2 15 Modus=1 (und nicht 25!) geschieden=3 6 verwitwet=4 1 Beispiel künstlich diskretes Merkmal: Altersklassen Werte (k) Häufigkeit (fk) 10 - 20 =1 10 21 - 25 =2 31 Modus=23 (und nicht 2!) 26 - 30 =3 12 31 - 40 =4 5 Die Angabe des Modus macht keinen Sinn, wenn ein kontinuierliches Merkmal sehr genau gemessen wird (z.B. Reaktionszeiten) oder wenn alle Merkmalskategorien nur mit sehr kleinen Häufigkeiten besetzt sind (im Extremfall nur mit einer Person), z.B. bei der Verteilung des genauen Geburtsdatums in einer Schulklasse. Maße der zentralen Tendenz (3) - Median I Median (auch: Zentralwert, 50%-Wert, mittlerer Wert) [abgekürzt: Md] Ordnet man alle Messwerte einer Verteilung in einer aufsteigenden Reihenfolge an (wobei mehrfach vorkommende Werte auch mehrfach aufgeführt werden), dann ist der Median einer Verteilung der Wert, unterhalb dessen genausoviele Fälle liegen wie oberhalb. Der Median halbiert die Stichprobenverteilung. Der Median kann bei mindestens ordinalskalierten Merkmalen sinnvoll als Maß der zentralen Tendenz angegeben werden. Sind einzelne Merkmalsausprägungen mehrfach besetzt, so wird der Median als der Wert xi angegeben, bei dem die Verteilungsfunktion (kumulierte rel. Häufigkeit) den Wert 0.5 überspringt (Medianklasse). Zusätzlich gilt: Ist die Zahl aller Messwerte geradzahlig, gilt der Durchschnittswert der beiden mittleren Werte als der Median. Maße der zentralen Tendenz (4) - Median II Beispiel: Merkmal Altersangaben a) ungeradzahlige Anzahl Messwerte (N=7): x1=35; x2=15; x3=18; x4=24; x5=18; x6=26; x7=40 in Reihenfolge geordnet: 15; 18; 18; 24; 26; 35; 40 Md=24 geradzahlige Anzahl Messwerte (N=8): 15; 18; 18; 24; 26; 35; 40; 43 Md=(24+26): 2=25 Bei kategorisierten, ursprünglich kontinuierlichen Merkmalen kann der Median als das 50. Centil (C50) interpoliert werden. Exkurs: das Summenzeichen Σ (1) N Buchstabe des Laufindexes i =1 letzter Wert, den der Laufindex annimmt xi Summandenausdruck erster Wert, den der Laufindex annimmt Das Summenzeichen Σ (grosses griechisches Sigma) ist ein in der Statistik sehr gebräuchliches Operationszeichen. Es ist als eine Rechenvorschrift zu interpretieren, derzufolge eine Summe gebildet werden soll. - Woraus jeder Summand besteht, wird hinter dem Summenzeichen angegeben (im Ausdruck oben: Messwert x einer Person i). - Wieviele Summanden aufsummiert werden sollen, ist unter- bzw. oberhalb des Summenzeichens im sogenannten Laufindex (hier mit dem Buchstaben i bezeichnet) festgelegt. Der oben stehende Ausdruck wird gelesen als „die Summe der xi-Werte für i gleich 1 bis N“. Unterhalb des Summenzeichens steht der erste Wert, den i annimmt (hier 1), und oberhalb des Sigma der letzte Wert (hier N). Das N bedeutet, dass der letzte Summand für den letzten Messwert der Messwertreihe (Stichprobe) gebildet wird. Wurde z.B. an einer Stichprobe von N=8 Personen das Merkmal x erhoben, so bildet der Messwert der 8. Person (x8) den letzten Summanden dieser Summe. Exkurs: das Summenzeichen Σ (2) - Rechenregeln I Vorbemerkung: In den meisten Fällen werden in statistischen Analysen die Summe aller Werte können. Die benötigt, so dass die Indizes i und !N entfallen " Schreibweise Regel 1: (X + Y ) = X+ Y Regel 2: (X −Y) = X− Y Regel 3: ( X ⋅Y ) ≠ X⋅ Y Regel 4: X ≠ 2 ( X) Erst multiplizieren, dann addieren erst addieren, dann multiplizieren. Erst quadrieren, dann addieren erst addieren, dann quadrieren. 2 Exkurs: das Summenzeichen Σ (3) - Rechenregeln II Die folgenden Regeln gelten, wenn k eine Konstante ist: Regel 5: k = N ⋅k mit k = Konstante (fester Wert) Regel 6: (X + k) = X+ Regel 7: (X − k) = X − N ⋅k Regel 8: k⋅X =k⋅ X k= X + N ⋅k Maße der zentralen Tendenz (5) - Arithmetisches Mittel I Arithmetisches Mittel (auch: Mittelwert, Durchschnitt) [abgekürzt: AM oder x (lies: „x-quer“)] Das arithmetische Mittel einer Verteilung berechnet sich aus der Summe der Messwerte geteilt durch die Anzahl der Messwerte: N AM = x = i =1 xi N xi ist der i-te Messwert, i.d.R. also der Messwert der i-ten Person der Stichprobe; N ist die Zahl der Messwerte, für die der Durchschnitt gebildet werden soll. Die Berechnung des arithmetischen Mittels als Maß der zentralen Tendenz ist sinnvoll, wenn ein Merkmal mindestens Intervallskalenniveau aufweist. Bei natürlich diskreten Merkmalen wie Kinderzahl sollte die Sinnhaftigkeit der Berechnung eines AM zumindest hinterfragt werden. Maße der zentralen Tendenz (6) - Arithmetisches Mittel II Beispiel Durchschnittsalter für die folgenden Altersmesswerte x1=35; x2=15; x3=18; x4=24; x5=18; x6=26; x7=40 N AM = x = i =1 xi N = 35 + 15 + 18 + 24 + 18 + 26 + 40 ≅ 25.14 7 Maße der zentralen Tendenz (7) - Arithmetisches Mittel III Wichtige Eigenschaften des arithmetischen Mittels (1) Die Summe der (mit Vorzeichen versehenen) Abweichungen der Messwerte xi vom Mittelwert ist immer 0, d.h. die Abweichungen nach oben und unten vom Mittelwert heben sich in der Summe auf. N i =1 (2) ( xi − x ) = 0 Werden die Messwerte xi linear transformiert, dann unterliegt das arithmetische Mittel der gleichen Transformation, d.h. das arithmetische Mittel macht lineare Transformationen mit. Formal: y = a⋅x +b y = a⋅x +b i i Beispiel: Will man eine Durchschnittstemperatur, die auf Messwerten in Co beruht, in Fo angeben, dann gilt für die Transformation des Durchschnittswerts die gleiche Transformationsgleichung wie bei den Einzelmesswerten: Fo = 1.8 ⋅ Co + 32 AM(Fo ) = 1.8 ⋅ AM(Co ) + 32 Maße der zentralen Tendenz (8) - Arithmetisches Mittel IV Berechnung des AM bei kategorisierten Daten Die Berechnung des arithmetischen Mittels bei kategorisierten Daten erfolgt dadurch, dass pro Kategorie die Kategorienmitte mit der Besetzungshäufigkeit der Kategorie multipliziert wird, dieses Produkt über alle Kategorien aufsummiert und durch die Gesamtzahl aller Messwerte geteilt wird. Dieses Vorgehen kann man verkürzen, wenn man gleich die Kategorienmitte mit der relativen Besetzungshäufigkeit multipliziert und dies über alle Kategorien aufsummiert. m AM = x = k =1 xk ⋅ fk N = m k =1 xk ⋅ pk xk : Kategorienmitte der Kategorie k fk : Häufigkeit in der Kategorie k pk : relative Häufigkeit in der Kategorie k m : Anzahl der Kategorien ist Maße der zentralen Tendenz (9) - Arithmetisches Mittel V Berechnung des AM bei kategorisierten Daten (Beispiel) Alter kategorisiert (N=50) Alter k xk fk 16-20 21-25 26-30 31-35 1 2 3 4 18 23 28 33 3 20 17 10 N=50 Σ xk ⋅ fk 54 460 476 330 1320 pk 0.06 0.40 0.34 0.20 1.00 xk ⋅ pk 1.08 9.20 9.52 6.60 AM=26.40