Department of Sport Science and Kinesiology Universitätslehrgang Sports Physiotherapy Einführung in die Statistik Gerda Strutzenberger Block I Deskriptive Statistik Definition Die Deskriptive Statistik befasst sich mit Methoden zur Aufbereitung und Darstellung von Daten, sowie mit der Charakterisierung dieser Daten durch Maßzahlen. Ziel Daten ordnen Daten graphisch und tabellarisch übersichtlich darstellen Durch Kennzahlen zusammenfassen (Mittelwert, Summe...) Deskriptive Statistik Arten der Darstellung: 1. Tabellen (beschreibender Charakter) Block 1 Mittwoch 15.2.2012 • 13:00 bis 14:50 Grundlagen, Skalenniveau • 15:05 bis 17:00 Gütekriterien, Hypothese, Wiss. Arbeit Donnerstag (16.2.2012.) • 08:00 bis 09:50 zentrale Tendenz, Streumaße, Grafiken • 10:05 bis 12:00 Normalverteilung, z-Transformation, • 13:00 bis 14:50 Korrelation • 15:05 bis 17:00 Regression/partielle Regression Deskriptive Statistik Arten der Darstellung: 1. Tabellen (beschreibender Charakter) 2. Graphische Darstellungen (beschreibender Charakter) 3. Charakteristische Maßzahlen (statistische Kenngrößen) dienen zur Weiterverarbeitung in der Inferenzstatistik 3.1 Maße der zentralen Tendenz (Lokationsmaße) 3.2 Streuungsmaße (Dispersionsmaße) 3.3 Formmaße (Anpassung an die Normalverteilung) 1.Tabellen Strichliste Das Zählen von Merkmalsausprägungen ist bereits der deskriptiven Statistik zuzuordnen. 2. Graphische Darstellungen (beschreibender Charakter) 3. Charakteristische Maßzahlen (statistische Kenngrößen) Zählen heißt das Einsortieren der beobachtbaren Ausprägungen in bereits festgelegte Merkmalsklassen. dienen zur Weiterverarbeitung in der Inferenzstatistik 3.1 Maße der zentralen Tendenz (Lokationsmaße) 3.2 Streuungsmaße (Dispersionsmaße) 3.3 Formmaße (Anpassung an die Normalverteilung) Beispiel einer Strichliste: Befragung zum Familienstand (n=86) Häufigkeit (f) ledig |||||||||| |||||||||| |||||||||| || 32 verheiratet |||||||||| |||||||||| |||||||||| ||||||| 37 verwitwet ||||| 5 geschieden |||||||||| || 12 1 Tabellen Tabellen Häufigkeitstabelle – Begriffserklärung Häufigkeitstabelle Ziel: Zusammenfassen der Strichliste in eine Häufigkeitstabelle Häufigkeit: …die Anzahl, mit der ein bestimmtes Ergebnis bzw. Ereignis eingetreten ist. Bei der Angabe dieser Häufigkeit unterscheidet man verschiedene Formen: ledig verheiratet verwitwet geschieden Σ Absolute Häufigkeit (f): Häufigkeiten (f) 32 37 5 12 86 Rel. Häufigkeiten (f/n) 32/86 =0,37 37/86 =0,43 5/86 =0,06 12/86 =0,14 1.00 …wie viele Merkmalsträger zu einer bestimmten Merkmals-ausprägung in einem Datensatz gehören. Rel. Prozenthäufigkeiten (%) 37,0 43,0 6,0 14,0 100,00 Kumulierte Häufigkeiten (cum f) 32 69 74 86 Relative Häufigkeit (f/n): ….ist die absolute Häufigkeit f dividiert durch die Anzahl aller Beobachtungswerte. Für den Vergleich unterschiedlicher Datensätze wird sie als normiertes Maß verwendet. Kumulierte Prozent37,0 86,0 (N=86)100,00 Häufigkeitstabelle einer Befragung zum80,0 Familienstand häufigkeiten (cum f%) Tabellen Tabellen Häufigkeitstabelle – Begriffserklärung Übungsaufgabe – Häufigkeitstabelle Relative Prozenthäufigkeit (Prozentwert): Ein Prozentwert ist definiert als die Anzahl der Beobachtungen, die einen bestimmten Wert annehmen, dividiert durch die Anzahl aller Beobachtungen, multipliziert mit 100. Kurz: die relative Häufigkeit f/n x 100. Häufigkeiten (f) nominal ordinal intervall verhältnis 4 11 28 3 Σ Rel. Häufigkeiten (f/n) Kumulierte Häufigkeit: Die kumulierte Häufigkeit cum f ist die sukzessive summierte absolute Häufigkeit f. Rel. Prozenthäufigkeiten (%) Kumulierte Häufigkeiten (cum f) Kumulierte Prozenthäufigkeiten (Prozentränge): Prozentränge cum f% sind kumulierte (aufsummierte) Prozentwerte. Tabellen Kumulierte Prozenthäufigkeiten (cum f%) Häufigkeitstabelle der auf Frage nach Skalennvieau (n=46) Deskriptive Statistik Arten der Darstellung: 1. Tabellen (beschreibender Charakter) Übungsaufgabe – Häufigkeitstabelle 2. Graphische Darstellungen (beschreibender Charakter) nominal ordinal intervall verhältnis Σ Häufigkeiten (f) 4 11 28 3 46 Rel. Häufigkeiten (f/n) 4/46 =0,09 11/46 =0,24 28/46 =0,61 3/46 =0,06 1,00 Rel. Prozenthäufigkeiten (%) 9 24 61 6 100,00 Kumulierte Häufigkeiten (cum f) 4 15 43 46 Kumulierte Prozenthäufigkeiten (cum f%) 9 33 94 100 Häufigkeitstabelle der Vorlesungsfrage 8 (N=46) 3. Charakteristische Maßzahlen (statistische Kenngrößen) dienen zur Weiterverarbeitung in der Inferenzstatistik 3.1 Maße der zentralen Tendenz (Lokationsmaße) 3.2 Streuungsmaße (Dispersionsmaße) 3.3 Formmaße (Anpassung an die Normalverteilung) 2 Graphische Darstellung von Daten • • • • • Balkendiagramme Kreisdiagramm Liniendiagramm Boxplot Streudiagramm Kreisdiagramm • Eignet sich sehr gut für nominalskalierte Daten • Z. B. Geschlecht, Spotart… Balkendiagramm • Balkendiagramm bei nominal- und ordinalskalierten Daten • Histogramm ab intervallskalierten Daten (keine Zwischenräume) Liniendiagramm • Kommt hauptsächlich zum Einsatz, wenn Zeitverläufe dargestellt werden Boxplot Streudiagramm 1. Quartil (oder 25%-Quantil) teilt die Daten bei einem Viertel: Ein Viertel der Werte sind kleiner, drei Viertel sind größer. • Darstellung des Zusammenhangs zweier intervallskalierter Daten 3. Quartil (oder 75%-Quantil) teilt die Daten bei 75% 2. Quartil ist das 50%-Quartil = Median. • Aufschluss über Stärke und Form des Zusammenhangs 3 Graphische Darstellung Wichtige Hinweise Daten werden aus Gründen der Übersicht zusammengefasst dargestellt. Ziel dieser Art der Visualisierung ist die Fokussierung bestimmter Aspekte, die sich aus den Daten ergeben. Graphische Darstellung Verfälschungen Dabei kann es zu beabsichtigten oder unbeabsichtigten Verzerrungen kommen. WICHTIG: Die y-Achse muss immer möglichst alle annehmbaren Werte einschließen (Beispiel 0% -100%). Fehler: In manchen Fällen werden Unterschiede verstärkt dargestellt, indem die Achse unterbrochen oder verzerrt wird. Graphische Darstellung Verfälschungen Graphische Darstellung Verfälschungen 4 Deskriptive Statistik Charakteristische Maßzahlen (Kenngrößen) Arten der Darstellung: 1. Tabellen (beschreibender Charakter) 2. Graphische Darstellungen (beschreibender Charakter) Maße der zentralen Tendenz (Lokationsmaße) Beschreibung der Verteilung bzgl. ihres Schwerpunktes (Mittelwert, Modus, Median) 3. Charakteristische Maßzahlen (statistische Kenngrößen) dienen zur Weiterverarbeitung in der Inferenzstatistik 3.1 Maße der zentralen Tendenz (Lokationsmaße) 3.2 Streuungsmaße (Dispersionsmaße) 3.3 Formmaße (Anpassung an die Normalverteilung) Streuungsmaße (Dispersionsmaße) Aussagen über die Streuung von Häufigkeitsverteilungen (Standardabweichung, Varianz, Range, Quantilmaße) Formmaße Aussagen über die Anpassung der Verteilung an die Normalverteilung (Schiefe, Exzess) Maße zentrale Tendenz Statistische Kennwerte Modus oder Modalwert Geben Auskunft über bestimmte Eigenschaften eines Datenkollektivs oder einer Verteilung • Ist derjenige Wert, der am häufigsten vorkommt • Lässt sich aus einer Häufigkeitstabelle ablesen Aus vielen Werten werden einige wenige Einzelwerte gebildet Reduzierung Modus: 15-20 Punkte Maße zentrale Tendenz) Maße zentrale Tendenz) Unimodal und bimodale Verteilung Median (Zentralwert) Haarfarbe Häufigkeit Treffer/Min Häufigkeit Braun 5 1 3 Blond 12 2 6 3 4 Schwarz 1 4 6 andere 2 5 0 6 2 Unimodal; Modus blond Md = x(n+1)/2 • … ist der Wert, von dem alle übrigen Werte im Durchschnitt am wenigsten abweichen • Die Summe der Abweichungsbeträge ist minimal • Es liegen genauso viel Werte über als unter dem Median Bimodal; Modus 1 und 3 Treffer/min 7 12 6 10 5 Treffer/Minute 14 8 6 4 3 2 4 1 2 0 1 0 braun blond schwarz andere 2 3 4 5 6 Häufigkeit 5 Maße zentrale Tendenz Maße zentrale Tendenz Arithmetischer Mittelwert • …ist die Summe aller Messwerte dividiert durch die Anzahl n. Aufgabe: Bestimme den Median Die Mitglieder eine Gruppe haben folgendes Alter 59 68 51 72 67 65 53 geordnete Reihenfolge: 51 53 59 65 67 68 72 Md = x(n+1)/2 = x(7+1)/2= x(4) Maße zentrale Tendenz Aufgabe: Bestimme den Mittelwert 1. Messwerte: 12, 24, 34, 11, 2, 7, 35, 7, 34, 21, 22, 37 Maße zentrale Tendenz Die Maße der zentralen Tendenz für das jeweilige Skalenniveau x 20,5 2. Messwerte: 66, 78, 56, 77, 98, 54, 85, 60, 56, 88, 76, 45, 112, 81 x 73,7 Rasch et al., 2006 Maße zentrale Tendenz) Verwendung der Maße für die zentrale Tendenz Modus - wenn lediglich ein grober Überblick über eine Verteilung gefragt ist - wenn „durchschnittlich im Sinne von „am häufigsten“ benutzt wird Median - wenn - wenn - wenn - wenn Deskriptive Statistik Arten der Darstellung: 1. Tabellen (beschreibender Charakter) 2. Graphische Darstellungen (beschreibender Charakter) 3. Charakteristische Maßzahlen (statistische Kenngrößen) dienen zur Weiterverarbeitung in der Inferenzstatistik mindestens ordinalskalierteVariablen vorliegen man den exakten Mittelpunkt einer Verteilung kennen möchte Extremwerte das arithmetische Mittel stark verzerren würden eine deutliche Abweichung von der Normalverteilung vorliegt Arithmetisches Mittel 3.1 Maße der zentralen Tendenz (Lokationsmaße) 3.2 Streuungsmaße (Dispersionsmaße) 3.3 Formmaße (Anpassung an die Normalverteilung) - wenn mindestens eine Intervallskalierung vorliegt - wenn die Verteilung in etwa symmetrisch ist 6 Streuungsmaße Streumaße Verteilungen die bezüglich ihrer zentralen Tendenz übereinstimmen können trotzdem voneinander abweichen. Berechnung um Angabe von Streuungsmaßen um die Verteilung besser zu beschreiben Beispiel: Messreihe mit gleicher zentraler Tendenz, aber Unterschiedlicher Streuung 1. Messreihe: 100 100 110 150 150 150 190 200 200 2. Messreihe: 145 146 147 150 150 150 153 154 155 Streubreite (Range) Quartile/Boxplot Standardabweichung Varianz Variabilitätskoeffizient Modus = 150 Median = 150 Mittelwert = 150 Streubreite (Range) Streubreite (Range) Aufgabe : Bestimme den Range …Differenz zwischen dem größten und dem kleinsten Wert Messung 1: 100 100 110 150 150 150 190 200 200 Range= 200 – 100 = 100 Z. B.: Zahlenreihe: 7,8,9,5,7,12 R = 12-5 = 7 Messung 2: 145 146 147 150 150 150 153 154 155 Voraussetzung: mindestens Ordinalskalenniveau Range= 155 – 145 = 10 Quartile/Boxplot • • • 1. Quartil [Q1 = P25]: Wert, bei dem ¼ der Messwerte darunter, ¾ darüber liegen. 2. Quartil: [Q2 = P50 ]: Median 3. Quartil [Q3 = P75]: Wert, bei dem ¾ der Messwerte darunter, ¼ darüber liegen. Dezil Einteilung in 10 gleichgroße Teile. 1. Dezil = P10 usw Interquartilsabstand: Maß für die Streubreite ist hier Differenz zwischen Q1 und Q3. Boxplot 1. Quartil (oder 25%-Quantil) teilt die Daten bei einem Viertel: Ein Viertel der Werte sind kleiner, drei Viertel sind größer. 3. Quartil (oder 75%-Quantil) teilt die Daten bei 75% 2. Quartil ist das 50%-Quartil = Median. max Q3 Q2 Q1 min 7 Balkendiagramm vs .Box-Plot Standardabweichung 3. Quartil Interquartilabstand 2. Quartil 1. Quartil …durchschnittliche Abweichung der Messwerte vom Mittelwert Standardabweichung Standardabweichung Aufgabe : Berechne die Standardabweichung N=6 x Xi-mw (xi-mw)2 s n i 1 ( xi x ) 2 n Messung 1: 100 100 110 150 150 150 190 200 200 4 s = 38,3 5 3 10 16 Messung 2: 145 146 147 150 150 150 153 154 155 7 mw = Summe …durchschnittliche Abweichung der Messwerte vom Mittelwert Varianz s2 …Quadrat der Standardabweichung s = 3,3 Varianz s2 Aufgabe : Berechne die Varianz Messung 1: 100 100 110 150 150 150 190 200 200 s2 = 1466,7 …ist die Summe aller quadrierten Abweichungen vom Mittelwert, dividiert durch die Anzahl n. Messung 2: 145 146 147 150 150 150 153 154 155 s2 = 11,1 Anwendung Intervallskalierten Daten 8 Streuungsmaße Variabilitätskoeffizient Beispiel Variabilitätskoeffizient prozentuelle Abweichung der Standardabweichung vom Mittelwert Versuch Bei N=100 Vpn wird die Anzahl der Treffer in einem Experiment am Reaktionsgerät ermittelt. Es soll überprüft werden, wie groß die Streuung der Trefferzahlen beim 1., 5. und 10. Versuch ist. Anwendung: Verhältnisskalenniveau Deskriptive Statistik Arten der Darstellung: 1. Tabellen (beschreibender Charakter) 2. Graphische Darstellungen (beschreibender Charakter) 3. Charakteristische Maßzahlen (statistische Kenngrößen) Versuchsreihe Mittelwert (Treffer) Standardabweichung VK % 1. Versuch 13.85 4.75 34.3 5. Versuch 22.60 4.65 20.6 VKs zeigen, dass die Variabilität der individuellen Leistungen im Laufe 10. desVersuch Trainings 24.50 abnimmt. Die Mittelwert 3.90Streuung um den15.9 wird geringer. Verteilungen Gleichverteilung Dreiecksverteilung Gaußsche Glockenkurve/Normalverteilung dienen zur Weiterverarbeitung in der Inferenzstatistik 3.1 Maße der zentralen Tendenz (Lokationsmaße) • Formmaße – Skewness & Excess 3.2 Streuungsmaße (Dispersionsmaße) 3.3 Formmaße (Anpassung an die Normalverteilung) Gleichverteilungen Dreiecksverteilung • Im Experiment A wird 1 Würfel 60-mal gerollt. • Wie oft, glauben Sie, wird jede Zahl gewürfelt (Erwartungswert)? • In einem Experiment B wurde mit 2 Würfel gerollt. fa…absolute Häufigkeit frel…relative Häufigkeit fre…erwartete relative Häufigkeit 9 Normalverteilung Normalverteilung • In Experiment C wird mit unendlich vielen Würfel gespielt. Wie sieht die Verteilung nun aus? Eigenschaften: Mittelwert, Median, Modus fallen zusammen symmetrisch um den Mittelwert Mittelwert ist häufigster Wert asymmetrisch gegen x-Achse 2 Wendepunkte (max. u. min. Steigung) bei x ± s Häufigkeit [ x -s, x +s] ~68% [2/3] [ x -2s, x +2s] ~95% [ x -3s, x+3s] ~ 99,7% die Gesamtfläche zwischen Kurve und x-Achse entspricht der Wahrscheinlichkeit 1. D.h. eine Versuchsperson erreicht mit einer Wahrscheinlichkeit von 1 einen Wert, der im Definitionsbereich liegt. Normalverteilung Standard-NV (z-Transformation) Die Gaußsche Glockenkurve beschreibt eine Normalverteilung der Werte. Beispiel: z-Werte Normalverteilung bedeutet, dass hohe Häufigkeiten der Werte im Bereich des Mittelwertes und geringe Häufigkeiten bei Extremwerten auftreten [Willimczik,1993]. 2 Tests mit 30 Schülern: Coopertest und Weitsprung (mw & s gegeben) Martin und Josef erreichen folgende Werte Der Kurvenverlauf wird durch die Standardabweichung und den Mittelwert bestimmt. Je kleiner die Standardabweichung wird, desto steiler ist ihr Verlauf. Ist Martin individuell im Weitsprung oder beim Coopertest besser? Die Kurve nähert sich an die x-Achse an, erreicht diese aber nie, da sie Werte von annimmt. Hat Josef sein Talent in der Ausdauerleistung, oder doch eher im Weitsprung? Standard-NV (z-Transformation) Standard-NV (z-Transformation) Beispiel: z-Werte Berechnung der z-Werte um die unterschiedlichen Daten vergleichbar zu machen Beispiel: z-Werte Coopertest z Martin Weitsprung zMartin 2200 2000 1 200 4,2 4,0 1,33 0,15 z Joseph 1900 2000 0,5 200 z Joseph 3,9 4,0 0,66 0,15 Martin: ist im Weitsprung besser als im Coopertest, da er hier den höheren z-Wert erreicht Josef: ist beim Coopertest besser als beim Weitsprung, da er hier den höheren z-Wert erreicht 10 Standardnormalverteilung Standardnormalverteilung zi xi x s x 0 x s 1 z p(z)*100% -3 0,13 -2 2,28 -1 15,87 0 50 1 84,13 2 97,72 3 99,87 f ( z )dz 1 Die z-Transformation hat alle Eigenschaften einer Normalverteilung Charakteristische Maßzahlen (Kenngrößen) z p(z)*100% [-1,+1] 68,26 [-2,+2] 95,44 [-3,+3] 99,74 p(z)*100% z 95 1,65 97,5 1,96 99 2,33 99,5 2,58 Bitte lösen Sie folgende Beispiele! (Gruppe) Überblick über die wichtigsten Kenngrößen in Abhängigkeit vom Skalenniveau Kenngrößen Maße der zentralen Tendenz Streuungsmaße Formmaße Nominalskalen Modus Keine Berechnung möglich Keine Berechnung möglich Ordinalskalen Intervallskalen Modus Median Modus Median Mittelwert Quantilmaße Dezildifferenz Quartilabstand Keine Berechnung möglich Quantilmaße Dezildifferenz Quartilabstand Range Varianz Standardabweichung 1. a) b) Bestimmen Sie den z-Wert einer Standardverteilung, Oberhalb dessen ca 25% der Werte liegen Unterhalb dessen ca. 16% der Werte liegen 2. Im Leichtathletikverein Neukirchen liegt der Mittelwert der Weitsprungleistung der Frauen bei 6,4m mit einer Standardabweichung von 0,35m. Wie weit muss eine Athletin springen, um unter den besten 16% zu sein? 3. Eine Versuchsperson erhält in einem Angsttest (μ = 20, s = 5) den Testwert 12. Welches Ergebnis würde sie theoretisch in einem anderen Angsttest mit μ = 0 und s = 10 erreichen? 4. Ein Firmenchef möchte nur sehr intelligente Bewerber einstellen, nämlich nur solche, die in den oberen 3% der Population liegen. Wie groß muss der IQ-Wert einer Person in einem Intelligenztest mindestens sein, um bei ihm einen Job zu bekommen (Intelligent-Test: μ = 100, s = 15) Schiefe Exzess Weiter Beispiele Lösung: 1. Beispiel A) z = 1 b) z= -1 Lösung: 3. Beispiel 1. z berechnen; z= -1,6 2. x = -1,6*10 3. x = -16 Lösung: 2. Beispiel 1. z-Wert von 1 2. 3. x= (1*0,35) + 6,4 4. 6,75m Weitsprung Rumpfbeuge mw Jungs sd Jungs mw Mädchen sd Mädchen Josef Lisa Lösung: 4. Beispiel X = 130 • • • 144 22.7 135 18.6 150 150 -3.17 6.29 -0.69 6.73 2 2 Seitl hin&her springen 25.29 6.18 26.48 5.72 20 23 Ist Lisa oder Josef im Weitsprung besser? Ist Lisa oder Josef bei der Beweglichkeit besser? Wer von den beiden erreicht die höheren Werte in der Gesamtwertung? 11 Aufgabenblatt 12