Empirische Methoden in der Sportwissenschaft UL VL Statistik: Sportphysiotherapie 2012 Gerda Strutzenberger Skript adaptiert (Original Prof. Dr. Hermann Schwameder) 1 Inhaltsverzeichnis TEIL I. Deskriptive Statistik Inhalt 1. Grundlagen .............................................................................................................. 3 1.1. Grundbegriffe ................................................................................................. 3 1.2. Skalenniveau ..................................................................................................... 5 2. Grundlagen Excell .................................................................................................... 7 2.1 Grundlagen ....................................................................................................... 7 2.2 Rechenoperationen........................................................................................... 7 2.3 Shortcuts und nützliche Tipps ........................................................................... 8 2.4 Operationalisieren von Kurvenverläufen ........................................................... 9 2.5 Grafiken Excel .................................................................................................. 9 3. Maße für zentrale Tendenz .....................................................................................11 3.1. Modus ...............................................................................................................11 3.2. Median (Zentralwert) .........................................................................................12 3.3. Arithmetischer Mittelwert: x .........................................................................12 4. Streumaße ..............................................................................................................13 4.1. Streubreite (Range): R ......................................................................................13 4.2. Quartile / Boxplot ..............................................................................................13 4.3. Standardabweichung: s ....................................................................................14 4.4. Varianz: s² ........................................................................................................14 4.5.Variabilitätskoeffizient: v ....................................................................................14 4.6. Standardfehler: se .............................................................................................15 5.Normalverteilung ......................................................................................................16 5.1.Verteilungen ......................................................................................................16 5.1.1. Gleichverteilung..........................................................................................16 5.1.2. Dreiecksverteilung ......................................................................................16 5.1.3. Gaußsche Glockenkurve / Normalverteilung ..............................................16 5.1.4.Prüfung auf Normalverteilung: Kolmogorov-Smirnov-Test ...........................17 5.2. Standardnormalverteilung (z-Transformation) ...................................................19 6. Korrelationen ...........................................................................................................21 6.1. Grundlagen .......................................................................................................21 6.2. Vier-Felderkorrelationskoeffizient φ...................................................................22 6.3. Rangkorrelationskoeffizient nach Spearman .....................................................23 6.4. Produkt-Moment-Korrelation nach Pearson: r ...................................................24 4.5. SPSS Berechnung ............................................................................................25 6.6. Partielle Korrelation...........................................................................................25 6.7. Regression .......................................................................................................26 6.8. Multiple Regression ..........................................................................................28 2 Teil I: DESKRIPTIVE STATISTIK 1. Grundlagen Definition: Die Deskriptive Statistik befasst sich mit Methoden zur Aufbereitung und Darstellung von Daten, sowie mit der Charakterisierung dieser Daten durch Maßzahlen. Ziel: Daten ordnen Daten graphisch und tabellarisch übersichtlich darstellen Durch Kennzahlen zusammenfassen (Mittelwert, Summe...) 1.1. Grundbegriffe Grundgesamtheit: ist die Menge aller theoretisch erfassbaren Objekte für eine Fragestellung (z.B. alle 12-jährigen Kinder Österreichs) Stichprobe (Sp): ist eine Teilmenge aus der Grundgesamtheit. Da es meist weder möglich noch sinnvoll ist, alle Objekte der Grundgesamtheit zu untersuchen, wird nur ein repräsentativer Teil untersucht (z.B. 300 12-jährige, 20 Stabhochspringer...) Versuchspersonen (Vpn): sind diejenigen Menschen, die an einer wissenschaftlichen Untersuchung teilnehmen. Merkmal (Variable, Eigenschaft) Es ist nicht möglich, Personen in ihrer Gesamtheit zu erfassen, darum werden nur einzelne Merkmale oder Eigenschaften erfasst (z.B: Körpergröße, Haarfarbe, Sprungweite...). Eine Variable muss mindestens zwei verschiedene Ausprägungen annehmen können, da sie sonst eine Konstante wäre. (z.B: Merkmal Geschlecht: Ausprägungen: weiblich/männlich) Merkmalsausprägung Werte, die ein Merkmal annehmen kann (z.B.: 1.76 Meter bei Merkmal Körpergröße, braun bei Merkmal Haarfarbe...) 3 Merkmalsträger (Beobachtungseinheit) Das Objekt der Untersuchung wird als Merkmalsträger oder Beobachtungseinheit bezeichnet. Beobachtungseinheiten können Personen, Gruppen oder Objekte sein. z.B. Wenn Schüler auf ihre Weitsprungleistung untersucht werden, sind die Beobachtungseinheit die Schüler, wenn das Fassungsvermögen von Stadien untersucht wird, so sind diese die Beobachtungseinheit [Willimczik, 1993]. Manifeste Merkmale vs. Latente Merkmale Manifeste Merkmale sind unmittelbar erfassbare Merkmale (z.B: Körpergröße), latente (versteckte) Merkmale sind nicht unmittelbar zugänglich (z.B: Koordination, Intelligenz, Krankheit..). Meist kann kein eindeutiger Wert festgelegt werden. Durch Operationalisierung muss man latente Merkmale manifest (messbar) machen. Bsp: Merkmalsträger Merkmal Schüler A Körpergröße Fußballstadion Fassungsvermögen eines Stadions Sportler B Haarfarbe Turner Punkte Tennismannschaft Tabellenplatz MerkmalsAusprägung Einheit 1.80 Meter [m] 30 000 Anzahl [n] Schwarz Farbe 8.75 Punkte 3 Rang Qualitative – Quantitative Merkmale: Qualitative Merkmale sind jene Merkmale, die sich nicht zahlenmäßig erfassen, sondern nur benennen lassen (Nationalität, Sportart,...). Quantitative Merkmale sind zahlenmäßig erfassbar (Masse, Zeit,...). Diskrete - Stetige Merkmale Diskrete Merkmale können nur bestimmte Werte annehmen (z.B.: Zahl der Kinder in der Familie, Anzahl der Wiederholungen bei einer Testmessung). Stetige Merkmale können in einem bestimmten Bereich theoretisch jeden beliebigen Wert annehmen (Länge, Kraft, Geschwindigkeit). Die Genauigkeit (Kommastellen) hängt von der Genauigkeit der Messinstrumente ab. 4 1.2. Skalenniveau Merkmale lassen sich in Bezug auf die Art ihrer Messung unterscheiden. Es besteht ein Unterschied im Informationsgehalt verschiedener Aussagen. Es besteht ein Unterschied, ob die Hochsprungleistung in Zentimeter genau gemessen wird, die Rangplatzierung einer Mannschaft angeben wird oder ob nur festgestellt wird, dass eine Person an einem Ereignis teilgenommen hat oder nicht. Die Angabe der Rangplatzierung enthält mehr Information, als die Angabe der Teilnahme. Noch mehr sagt die Leistung beim Hochsprung aus. Durch die unterschiedlichen Aussagequalifizierungen müssen die Werte entsprechend ihres Informationsgehaltes differenziert behandelt werden. Dazu werden sie in Skalen eingeteilt: Nominalskala Werte, die nicht geordnet werden können: Nationalität, Schultyp, Sportarten,... Wenn nur die Beziehung Gleichheit oder Verschiedenheit angegeben werden kann (a=b, ab). Bsp: Variable: Geschlecht. Die möglichen Ausprägungen „weiblich“ und „männlich“ werden z.B.: mit 1 bzw. 2 codiert. Es ist nicht möglich mit diesen beiden Werten Rechenoperationen durchzuführen, einzige Möglichkeit ist das Zählen von Häufigkeiten. Ordinalskala (Rangskala) Größer- und Kleinerbeziehungen der Werte können angegeben werden, jedoch sind die Abstände auf der Skala nicht eindeutig definiert. Bsp.: Schulnoten 1-5: 2 ist besser als 4, aber man kann nicht sagen, dass der Schüler, der eine 2 erhalten hat doppelt so gut ist wie der Schüler mit der Note 4. Außerdem ist nicht gewiss, ob der Abstand zwischen 1 und 2 derselbe ist wie zwischen 4 und 5. Punktbewertungen (z.B.: Turnen) Ranglisten Intervallskala Die Abstände zwischen den Werten sind konstant Differenzbildung ist möglich 5 kein fester Nullpunkt gegeben Rationalskala (Verhältnisskala) Absoluter Nullpunkt ist vorhanden (z.B.: Meter, Gewicht, Zeit) Verhältnisse können gebildet werden Die Skalenniveaus hierarchischen übergeordnete untergeordneten unterliegen Ordnung, Form als Form einer wobei jede Teilmenge der aufgefasst werden kann [Fleischer, 1988]. d.h. je höher das Skalenniveau, desto mehr Möglichkeiten stehen für Rechenoperationen zur Verfügung. Bsp1: Skalenniveau Bsp2: Mögliche Aussagen Bsp Nominalskala Gleichheit-Verschiedenheit Telefonnummern Ordinalskala Größer-kleiner Relationen Wertungen im Turnen Intervallskala Gleichheit von Differenzen Temperatur Rationalskala Gleichheit von Verhältnissen Längenmessung Vergleich der Diskuswurfleistung von A=20m und B=40m auf den unterschiedlichen Skalenniveaus: Nominalskala Verschiedenheit A ist von B verschieden Ordinalskala Rangordnung B ist weiter als A Intervallskala Abstand B ist um 20 m weiter als A Rationalskala Verhältnis B ist doppelt so weit wie A 6 2. Grundlagen Excell 2.1 Grundlagen - Zeilen werden nummeriert - Spalten alphabetisiert - Zelle wird durch Spaltenbuchstabe und Zeilennummer definiert (z.B. A1) Zeilen Spalte 2.2 Rechenoperationen Datenmatrix: 3 Spalten: x,y,z a) Berechnungen von einzelnen Zellen a. z.B. Addiere C3 mit E24 und schreibe das Ergebnis in A2 b. ist für alle anderen Rechenoperationen (z.b. +,-,/,*, ^x…) möglich; es gelten die allgemeinen „Punkt vor Strich“ und Klammerregeln Aufgabe: Berechne eine neue Tabellenreihe k, in der du Spalte x mit z addierst Lösung: 7 b) Berechnungen von Spalten, Zeilen und Bereichen c) Kombinierte Aufgabe 1) Berechne die Summe der Maxima aus a),b) und c) 2) Berechne den Mittelwert der Spalte y per Hand und per Formel 3) Dividiere die Summe der Spalte x durch das Minimum der Zeile 5 und multipliziere alles mit dem Minimum des Bereichs D7:DE9 4) Addiere C8 und E7 und dividiere das Ergebnis durch 3 Lösung: 2.3 Shortcuts und nützliche Tipps Strg+c = kopiert markierten Bereich Strg+v = fügt kopierten Bereich ein Strg+y = wiederholt letzten Befehl Strg+z = letzter Befehl rückgängig 4-Pfeile Pfeil =Maus am Rand von markiertem Bereich führen – wechselt in 4Pfeile Pfeil: markierter Bereich kann verschoben werden Schwarzes Kreuz = Zelle mit Formel markieren, Maus an li untere Ecke führen – wechselt zu Kreuz: li Maustaste gedrückt halten und in nächste Spalten oder Zeilen ziehen: die Formel wird mit neuem Zellbezug in neue Spalten/Zeilen geschrieben =in einer Spalte vervollständigt schw. Kreuz die Spalte automatisch (z.B. Formel in F3 schreiben – schwarzes Kreuz holen und doppelklick – in den Spalten F4-F10 wird automatisch die Formel geschrieben, die beim ziehen entstehen würde) 8 Shift+Strg+↓ = markiert alle ausgefüllten Zellen nach unten Shift+Strg+ ← = markiert alle ausgefüllten Zellen nach links Shift+STrg+↑ = markiert alle ausgefüllten Zellen nach rechts 2.4 Operationalisieren von Kurvenverläufen Um statistische Berechnungen durchführen zu können, werden meist singuläre Parameter (z.b. Maximum, Minimum, Mittelwert….) benötigt. Allerdings werden bei der Auswertungen aber oft Datenverläufe erhalten, aus denen die singulären Parameter erst berechnet werden müssen. Beispiel CMJ: Es werden von 20 Personen CounterMovementJumps (CMJ) in 2 Techniken gesprungen: a) CMJ - Arme schwingen frei b) CMJA – Arme sind an der Hüfte fixiert Jede Sprungtechnik wird 2 mal ausgeführt (CMJ 1, CMJ2, CMJA1, CMJA2). Als Endvariablen sollen die Sprunghöhe und die Maximale Kraft berechnet werden. Aufgabe 1: Vervollständige die Datei CMJ.exl Registerblatt Endtabelle mit Hilfe des Registerblatts Fmax. 2.5 Grafiken Excel Daten, die in der Grafik dargestellt werden sollen, markieren Menüleiste: Einfügen – Toolbox Diagramme a) Säulendiagramm (Datensatz CMJ, Registerblatt: Endtabelle) Stelle die mittlere Sprunghöhe bei der Variablen CMJ1 nach Geschlecht getrennt dar. Beachte auch die Standardabweichung einzutragen. Daten: Datei aufteilen nach Geschlecht 9 Analysieren – Mittelwert (=max(Datenbereich)) und Standardabweichung (=stabw(Datenbereich)) 1) Grafik für Mittelwerte erstellen 2) Standardabweichung eintragen: Balken in Grafik markieren → Menüleiste Diagrammtools → Layout →Fehlerindikatoren → weitere Fehlerindikatoren → Benutzerdefiniert → Wert eingeben Sowohl für negative als auch positive Abweichung Wert eingeben b) Liniendiagramm (Daten CMJ, Registerblatt Fmax) Stelle grafisch die Kraftverläufe der 4 Sprünge von Proband A dar c) Kreisdiagramm (Daten CMJ, Registerblatt Endtabelle) Stelle grafisch dar, wie viele Probanden in den 3 Altersgruppen sind - Daten vorbereiten Achte auf: Das Diagramm muss selbsterklärend sein, d.h. Titel und Achsenbeschriftungen, ev. Legende… Achten auf gute Lesbarkeit der Daten: Schriftgröße, schlaue Farbwahl, Unterstützung durch Symbole…. 10 3. Maße für zentrale Tendenz Um die erfassten Daten einer Messung zu reduzieren und auf einen Blick erfassbar zu machen, werden sie häufig durch Maßzahlen charakterisiert. Maßzahlen sind vor allem Werte für die zentrale Tendenz und die Streuung. Maße für die zentrale Tendenz werden umgangsprachlich als „Mittelwerte“ bezeichnet, Es gibt verschiedene Maße für die zentrale Tendenz, die je nach Anwendungsvoraussetzung und Anwendungsbereich streng voneinander getrennt werden: Modus, Median und arithmetischer Mittelwert sind in der Statistik häufig verwendete Maße, während das geometrische und das harmonische Mittel weniger gebräuchlich sind [Willimczik, 1993]. 3.1. Modus Der Modus (Modalwert, Gipfelwert, Dichtemittel) ist jener Messwert, der am häufigsten vorkommt. Er lässt sich einfach aus der Häufigkeitstabelle ablesen. Treten mehr Häufigkeitsmaxima auf, müssen a) beide genannt werden, wenn zwischen ihnen ein kleinerer Wert liegt oder b) das arithmetische Mittel der Werte gebildet werden, wenn die Maxima benachbart sind. Anwendungsvoraussetzung: Werte können auf jedem Skalenniveau sein, besonders eignet sich der Modus jedoch für nominalskalierte Daten Bsp1: Haarfarbe braun blond schwarz andere Bsp 2. Häufigkeit 5 12 1 2 Bsp1.: Modus: blond Treffer/Minute Häufigkeit 0 1 2 3 4 5 3 6 4 6 0 2 Bsp.: 2 Modus: 1 und 3 Treffer 11 3.2. Median (Zentralwert) Ordnet man alle Merkmalsausprägungen der Größe nach an, ist der Median jener Wert, welcher (bei ungerader Anzahl von Werten) genau in der Mitte, bzw. bei einer geraden Anzahl zwischen den beiden mittleren Werten liegt. z.B.: Bei 7 bzw. 8 Wettkämpfen während der Saison belegt ein Schwimmer die folgenden Ränge. Wie hoch ist jeweils der Median? Wettkampf 1 2 3 4 5 6 7 Rang 7 9 4 4 2 6 3 Wettkampf 1 2 3 4 5 6 7 8 Rang 7 9 4 4 2 6 3 8 ordnen: Median = 4 Median = 5 Anwendungsvoraussetzung: mindestens ordinalskalierte oder nichtnormalverteilte Daten 3.3. Arithmetischer Mittelwert: x Der arithmetische Mittelwert ist die Summe aller Messwerte dividiert durch die Anzahl n n x x i 1 i n Bsp: Werte Mädchen 50m Brustschwimmen 62 s 56 s 57 s 65 s 75 s 43 s 50 s 62+56+57+65+75+43+50 = 58.3s 7 Anwendungsvoraussetzung: Daten müssen: mindestens intervallskaliert normalverteilt sein. 12 4. Streumaße 4.1. Streubreite (Range): R Die Streubreite kennzeichnet jenen Bereich, in dem alle Messwerte vorkommen. Er ist definiert als die Differenz zwischen dem Maximum- und dem Minimum–Wert: R xmax xmin Z.B.: Zahlenreihe: 7,8,9,5,7,12 →R = 12-5 = 7 Voraussetzung: mindestens Ordinalskalenniveau 4.2. Quartile / Boxplot Perzentil: Einteilung der Messwerte in Perzentile: z.B.: P10 ist. jener Wert, der bei 10% in der geordneten Reihe liegt. Quartil: Bei den Quartilen handelt es sich um besondere Perzentile: 1. Quartil [Q1 = P25]: Wert, bei dem ¼ der Messwerte darunter, ¾ darüber liegen. 2. Quartil: [Q2 = P50 ]: Median 3. Quartil [Q3 = P75]: Wert, bei dem ¾ der Messwerte darunter, ¼ darüber liegen. Wettkampf Rang Rohliste: 1 2 3 4 5 6 7 8 9 7 9 4 4 2 6 3 8 7 2 3 4 4 6 7 7 8 9 Q1 Boxplot: M Q1= 4 Median= 6 Q2= 7 Q3 graphische Darstellung der Quartile 13 Interquartilsabstand:. Maß für die Streubreite ist hier die Differenz zwischen Q1 und Q3. Wenn eine Variable eine geringe Streuung aufweist, liegen viele Werte um den Mittelwert, d.h. dass Q1 und Q3 nahe beisammen liegen. Voraussetzung: Ordinaldaten 4.3. Standardabweichung: s ist die Wurzel aus der Summe der quadrierten Abstände der Messwerte vom Mittelwert. Durch das Quadrieren erhält man einerseits stets positive Werte und andererseits wirken sich größere Abstände vom Mittelwert verhältnismäßig stärker aus. Berechnet man die Standardabweichung einer Stichprobe, so wählt man als Nenner ‚n‘. Schließt man von einer Stichprobe auf die Grundgesamtheit, wird durch ‚n-1‘ dividiert, da dies den besseren Schätzer darstellt. s ( xi x ) 2 n i 1 n z.B.: x xi-mw (xi-mw)² 2 -5,33 28,44 3 -4,33 18,78 5 -2,33 5,44 7 -0,33 0,11 12 4,67 21,78 15 7,67 58,78 mw = 7,33 Summe 133,33 Voraussetzung: 133,33 = 4,26 7,33 s= mindestens Intervalldaten s = symmetrisch zu Mittelwert; x s 4.4. Varianz: s² ( xi x ) 2 s n i 1 …ist das Quadrat der Standardabweichung n 2 4.5.Variabilitätskoeffizient: v …ist die prozentuelle Abweichung der Standardabweichung vom Mittelwert v s 100% x 14 z.B.: x1 10 s1 2 x1 20 s2 v1 2 100 20% 10 v2 2 100 10% 20 4.6. Standardfehler: se ….wird bei Messungen des Mittelwerts einer Stichprobe angegeben. Je kleiner der Standardfehler, desto genauer wurde der Mittelwert bestimmt. se s2 s n n 15 5.Normalverteilung 5.1.Verteilungen 5.1.1. Gleichverteilung Im Experiment A wird 1 Würfel 60 mal gerollt. Wie oft, glauben Sie, wird jede Zahl gewürfelt (Erwartungswert)? Zahl 1 2 3 4 5 6 Summe: fa 7 12 10 9 13 9 60 frel 0,12 0,20 0,17 0,15 0,22 0,15 1,00 fre 0,16 0,16 0,16 0,16 0,16 0,16 0,96 Abb1. Experiment A Erwartungswert Im Experiment kam man zu folgenden Ergebnissen: 0,20 0,16 0,12 0,08 0,04 0,00 1 2 3 4 5 6 Würfelzahl Abb.2 Gleichverteilungsdiagramm d. Erwartungswertes fa…absolute Häufigkeit frel…relative Häufigkeit fre…erwartete relative Häufigkeit 5.1.2. Dreiecksverteilung In einem Experiment B wurde mit 2 Würfel gerollt. Folgende Ergebnisse wurden erzielt: Zahl 2 3 4 5 6 7 8 9 10 11 12 fa 2 2 3 7 8 17 8 6 3 3 1 Abb.1 Experiment B fre 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36 Abb.2 Dreiecksverteilung d. Erwartungswerts 5.1.3. Gaußsche Glockenkurve / Normalverteilung In Experiment C wird mit unendlich vielen Würfel gespielt. Das Ergebnis lässt sich graphisch als „Gaußsche Glockenkurve“ beschreiben: 16 x-s x+s x Modus Median Eigenschaften: Mittelwert, Median, Modus fallen zusammen symmetrisch um x x ist häufigster Wert asymmetrisch gegen x-Achse 2 Wendepunkte (max. u. min. Steigung) bei x s Häufigkeit [ x -s, x +s] ~68% [2/3] [ x -2s, x +2s] ~95% [ x -3s, x +3s] ~ 99,7% die Gesamtfläche zwischen Kurve und x-Achse entspricht der Wahrscheinlichkeit 1. D.h. eine Versuchsperson erreicht mit einer Wahrscheinlichkeit von 1 einen Wert, der im Definitionsbereich liegt. Die Gaußsche Glockenkurve beschreibt eine Normalverteilung der Werte. Normalverteilung bedeutet, dass hohe Häufigkeiten der Werte im Bereich des Mittelwertes und geringe Häufigkeiten bei Extremwerten auftreten [Willimczik,1993]. Der Kurvenverlauf wird durch die Standardabweichung und den Mittelwert bestimmt. Je kleiner die Standardabweichung wird, desto steiler ist ihr Verlauf. Die Kurve nähert sich an die x-Achse an, erreicht diese aber nie, da sie Werte von annimmt. 5.1.4.Prüfung auf Normalverteilung: Kolmogorov-Smirnov-Test Die Normalverteilung der Daten wird mittels dem Kolmogorov-Smirnov-Test überprüft: Möchten wir beispielsweise wissen, ob die Daten des 20m Sprints der Skispringeruntersuchung normalverteilt sind, gehen wir folgendermaßen vor (SPSS): 17 Schritt 1: Analysieren →Nichtparametrische Tests →K-S bei einer Stichprobe Schritt 2: →Variable: 20 m markieren und ins Feld: Testvariablen transferieren → bei Testverteilung: Normal auswählen. Schritt 3: SPSS-Output interpretieren Kolmogorov -Smirnov -Anpassungstest 20m N Parameter der a,b Normalverteilung Extremste Differenzen Mittelwert Standardabweichung Absolut Positiv Negativ Kolmogorov-Smirnov-Z Asymptotische Signifikanz (2-seitig) 20 3,0715 ,12084 ,135 ,135 -,105 ,606 ,857 <0,05 keine Normalverteilung ≥ 0,05 Normalverteilung a. Die zu testende Verteilung ist eine Normalverteilung. b. Aus den Daten berechnet. Wichtig ist hier die asymptotische Signifikanz (2-seitig). Liegt diese unter 0,05, wird keine Normalverteilung angenommen, ist sie über 0,05, darf eine Normalverteilung der Daten angenommen werden. 18 5.2. Standardnormalverteilung (z-Transformation) …transformiert normalverteilte Daten nach folgender Formel: z i xi x s Bei einer Talentsuche soll das Leistungsniveau der Schüler (n=30) bestimmt werden. Dazu werden 2 Tests, Coopertest und Weitsprung, durchgeführt. Die Schüler Martin und Josef erreichen dabei folgende Werte: Cooper [m] mw 2000 s 200 Martin 2200 Josef 1900 Weitsprung [m] 4,00 0,15 4,20 3,90 •Ist Martin individuell im Weitsprung oder beim Coopertest besser? •Hat Josef sein Talent in der Ausdauerleistung, oder doch eher im Weitsprung? Um eindeutig feststellen zu können, in welcher Disziplin die 2 Schüler individuell besser sind, müssen zuerst Vorraussetzungen geschaffen werden, um die zwei unterschiedlichen Daten vergleichen zu können. Dazu wird ein Vergleichswert eingeführt, um beide Daten auf eine gleiche Ausgangsbasis zu bekommen: der z-Wert. Wendet man die Transformationsformel an, ergibt sich für die beiden Schüler: zMartin zJosef Cooper [m] 1 -0,5 Weitsprung [m] 1,33 -0,66 Martin: ist im Weitsprung besser als im Coopertest, da er hier den höheren z-Wert erreicht Josef: ist beim Coopertest besser als beim Weitsprung, da er hier den höhern z-Wert erreicht Eigenschaften: Die z-Transformation hat alle Eigenschaften einer Normalverteilung x 0 x s 1 f ( z)dz 1 Vorteile: Vergleichbarkeit von Werten, 19 Wahrscheinlichkeit, mit der ein zi anzutreffen ist, ist durch die Fläche unter der Kurve gekennzeichnet: zi ↔p(zi) Beispiele zur Wahrscheinlichkeit: p( z i ) zi f ( z)dz mit einer Wahrscheinlichkeit von 16% liegt der Wert im grauen Bereich z p(z)*100% -3 0,13 -2 2,28 -1 15,87 0 50 1 84,13 2 97,72 3 99,87 z p(z)*100% [-1,+1] 68,26 [-2,+2] 95,44 [-3,+3] 99,74 p(z)*100% 95 97,5 99 99,5 z 1,65 1,96 2,33 3,58 Bsp. 1: Die 100m Laufzeit ist in der 8b Klasse normalverteilt. Der Mittelwert x beträgt 13,5 s und die Standardabweichung s= 0,6 s. Ein Schüler läuft 13,7 s. Wie viel Prozent der Schüler sind schneller als er? Bsp.2: Im Leichtathletikverein Neukirchen liegt der Mittelwert der Weitsprungleistung der Frauen bei 6,4m mit einer Standardabweichung von 0,35m. Wie weit muss eine Athletin springen, um unter den besten 10% zu sein? 20 6. Korrelationen 6.1. Grundlagen Anhand von Korrelationen kann der Zusammenhang zwischen zwei Variablen berechnet werden (z.B.: Zusammenhang zwischen Weitsprung- und Sprintleistung). Der Zusammenhang wird mittels des Korrelationskoeffizienten dargestellt. Dieser kann zwischen -1 und +1 liegen, was bedeutet, dass bei: +1 ein vollständiger positiver Zusammenhang besteht (z.B. je größer, desto mehr Gewicht…) 0 kein Zusammenhang besteht -1 ein vollständiger negativer Zusammenhang besteht (z.B. je größer die Schnellkraft, umso weniger Zeit braucht man) Verbalqualifikation des Korrelationskoeffizienten: Korrelationskoeffizient Verbalklassifikation 1,00-0,90 sehr hoch 0,90-0,80 hoch 0,80-0,70 mittelhoch 0,70-0,50 0,50-0,30 gering 0,30-0,00 sehr gering Bestimmtheitsmaß – Determinationskoeffizient = r² …gibt an, wie viel Prozent der Varianz der Variablen 1 durch die Varianz der Variablen 2 erklärt werden kann. z.B. Sprint- Weitsprung Leistung r = 0,8 → r² = 0,64 = 64 % d.h.: 64% der Weitsprungleistung (Variable 1) können schon durch die Sprintleistung (Variable 2) bestimmt werden. 21 6.2. Vier-Felderkorrelationskoeffizient φ Der Vier-Felderkorrelationskoeffizient stellt eine der Möglichkeiten dar, nominalskalierte Daten zu korrelieren: Die Formel dazu lautet: ad bc (a b) (c d ) (a c) (b d ) a, b, c, d…. bezeichnen jeweils ein Feld der schematischen 4-Felder Darstellung: Bsp1: Besteht ein Zusammenhang zwischen Händigkeit und Treffern beim Korbleger im Basketball. Ein Basketballspieler hat jeweils 10 Versuche für Korbleger links und Korbleger rechts. Dabei trifft er rechts 8 mal und links 3 mal. Tabellarisch lässt sich diese Situation wie folgt darstellen: Ergebnis Getroffen Nicht getroffen Insgesamt D.h.: KL rechts 8 (a) 2 (c) 10 KL links 3 (b) 7 (d) 10 Summe 11 9 87 32 0,50 (8 3) (2 7) (8 2) (3 7) Bei den Treffern von Korblegern, die links oder rechts ausgeführt wurden, besteht ein Zusammenhang von 0,50. Bsp2: Ein Tennisspieler hat bei 50 Matches 30mal Rechtshänder zum Gegner und 20mal Linkshänder. Er erzielte folgende Ergebnisse: Ergebnis Gewonnen Verloren Insgesamt Gegner Linkshänder Rechtshänder Summe a 15 b 10 25 c 5 d 20 25 20 30 0,41 Voraussetzung: Daten auf Nominalskalaniveau 22 6.3. Rangkorrelationskoeffizient nach Spearman Voraussetzung: bei Daten, die ordinalskaliert sind oder: bei Daten, die zwar mindestens intervallskaliert sind, aber nicht normalverteilt n Formel: 1 6 di 2 i 1 2 n (n 1) Bsp.1 Körpergröße und Rangliste beim Basketball xi [cm] 175 180 185 170 190 yi [Rang] 3 2 4 5 1 Rxi 4 3 2 5 1 Ryi 3 2 4 5 1 di 1 1 -2 0 0 di² 1 1 4 0 0 Summe: 6 = 0.7 Das bedeutet: Zwischen der Körpergröße und der Rangliste beim Basketball besteht ein sehr hoher Zusammenhang von 0,7. Korrelationskoeffizient bei homogenen bzw. inhomogenen Gruppen: Die Höhe des Korrelationskoeffizienten hängt auch von der Homogenität der Gruppen ab. Bsp: Coopertest: Gruppe A trainiert im LA-Verein, Gruppe B sind Schüler der 6 Klasse. In Form einer Test (T) – Retest (RT) Situation läuft jede Gruppe den Coopertest zweimal: Während es in der LA-Gruppe, in der die Athleten in etwa auf einem gleichen Leistungsniveau sind, viel mehr auf die Tagesverfassung ankommt, bleibt die Rangstruktur in der Schulklasse eher erhalten: T 1 2 3 4 5 Gruppe A RT 3 2 4 1 5 roh = 0,3 T 1 2 3 4 5 Gruppe B RT 1 2 4 3 5 roh = 0,9 23 6.4. Produkt-Moment-Korrelation nach Pearson: r Daten mindestens intervallskaliert Vorraussetzung: normalverteilt n (x r Formel: i 1 n (x i 1 i x ) ( yi y ) n i x )² ( y i y ) 2 i 1 Bsp: Korrelation zwischen Gewicht (x) und Körpergröße (y): xi yi- y xi- x yi (xi- x )*(yi- y ) (xi- x )² (yi- y )² 1 70 1,75 -5 -0,05 0,25 25 0,0025 2 80 1,80 5 0 0 25 0 3 75 1,85 0 0,05 0 0 0,0025 4 65 1,70 -10 -0,10 1 100 0,01 5 85 1,90 10 0,10 1 100 0,01 2,25 250 0,025 mw 75 1,80 r 2,25 250 0,025 0,90 Scatter-Plot: Graphische Darstellung mittels einem Streuungsdiagramm, dem “Scatter- Plot“: 17 30 10 16 25 15 9 8 20 14 7 13 6 5 15 12 4 10 11 3 5 10 2 1 9 0 0 0 5 10 15 20 25 30 35 8 1100 1600 2100 2600 3100 3600 0 2 4 6 Abb.1: Abb.2. Abb.3. Positiver Zusammenhang Kein Zusammenhang Vollständiger negativer 8 10 Zusammenhang Der Korrelationskoeffizient gibt zwar den Zusammenhang zwischen 2 verschiedenen Variabeln an, aber keine Richtung! Das heißt, dass der Zusammenhang zwischen 24 Ursache-Wirkung nicht geklärt wird. Man kann nicht sagen, ob der Sportler soweit springt, weil er so schnell läuft, oder ob er so schnell läuft, weil er so weit springt. 4.5. SPSS Berechnung Schritt 1: Analysieren Schritt 2: →Korrelation Variablen und Art des Korrelationskoeffizienten →Bivariat eingeben Einseitig oder zweiseitig testen→ OK Schritt 3: SPSS - Output Korrelationen 100m 100m 20m Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N 1 20 ,873** ,000 20 20m ,873** ,000 20 1 r = 0,873 ≤ als 0,05 = signifikant 20 **. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant. 6.6. Partielle Korrelation Durch die partielle Korrelation ist es möglich, den Zusammenhang zwischen zwei Variablen x und y zu untersuchen, wobei der störende Einfluss der dritten Variablen z ausgeschaltet wird. Dazu partialisiert man sowohl aus x als auch aus y jenen Teil heraus, welcher auf z zurückgeführt werden kann: x = x/z +Rx y = y/z + Ry 25 Die partielle Korrelation rxy,z entspricht dann der einfachen Korrelation zwischen Rx und Ry, jener Restteile von x und y, welche mit der Störvariablen z nichts mehr zu tun haben. Formel: r12,3 r12 r13 r23 1 r13 1 r23 2 2 z.B.: Korreliert man bei einer genügend großen Stichprobe von Männern die Schuhgröße mit ihrem Intelligenzquotienten, wird zwischen den beiden Variablen eine geringe, aber signifikante Korrelation festgestellt [Bühl & Zöfel, 2002]. Hier liegt offensichtlich eine Scheinkorrelation vor. Der signifikante Korrelationskoeffizient in diesem Beispiel ist nicht Ausdruck eines kausalen Zusammenhangs zwischen Intelligenz und Schuhgröße, sondern er wird von einer anderen Variablen entscheidend mitbestimmt, der Störvariablen Körpergröße. Es existiert zwischen Körpergröße und Intelligenz eine geringe Korrelation, zwischen Körpergröße und Schuhgröße jedoch eine deutlich höhere. Diese beiden Korrelationen zusammen verursachen die Scheinkorrelation. Um die Störvariable ausschließen zu können, wird die partielle Korrelation benötigt: Schuhgröße: Variable 1 r12 = 0,560 Intelligenz: Variable 2 r23 = 0,446 Körpergröße: Variable 3 r13 = 0,903 Partielle Korrelation r12,3 = 0,42 Daraus wird ersichtlich, dass die ursprüngliche signifikante Korrelation von 0,56, durch das Herausfiltern der Störvariablen Körpergröße, zu einer nicht mehr signifikanten partiellen Korrelation von 0,42 wird. 6.7. Regression Bei manchen Fragestellungen ist nicht nur die Frage nach dem Zusammenhang zweier Merkmale wichtig, sondern auch die Frage nach der Abhängigkeit eines Merkmals von einem anderen. Die mathematische Formulierung dieser Abhängigkeit im Sinne der Vorhersage des einen Merkmals aus dem anderen, wird Regression genannt [Willimczik, 1993, S. 58]. 26 Zur Veranschaulichung wird eine Regressionsgerade (y = ax+b) hergestellt, deren Verlauf optimal in den Scatter-Plot angepasst wird. Voraussetzung: Definieren einer abhängigen und einer unabhängigen Variablen Daten sind mindestens intervallskaliert z.B.: Wie hängt die Gleichgewichtsfähigkeit vom Alter ab? x…unabhängige Variable [Alter] y…abhängige Variable [Gleichgewichtsfähigkeit] Regressionsgerade: y ax b n a (xi x) (yi y) i 1 n ( x i x )2 i 1 b y ax Regressionen dienen dazu, um bestimmte Abhängigkeiten vorhersagen zu können: z.B.: Wenn ein Sportler die 20m in 2,9 s läuft → wie schnell läuft er dann auf 100m? 27 Wird nun der Scatter-Plot zur Antwort herangezogen, ist eine ungefähre Aussage möglich, legt man aber eine Regressionsgerade in den Scatter-Plot, kann eine genaue Aussage getroffen werde. 6.8. Multiple Regression Von eine multiplen Regression spricht man dann, wenn man die Abhängigkeit einer Variablen von mehreren unabhängigen Variablen bestimmen möchte. Als Ergebnis erhält man eine lineare Regressionsgleichung der Form: y a0 a1 x1 a2 x 2 ... an xn z.B.: Wie hängt das Körpergewicht von den Variablen Alter, Körperhöhe und Fettanteil ab? → abhängige Variable: Körpergewicht G(y) → unabhängige Variablen: Alter A (x1) Körperhöhe H (x2) Fettanteil F (x3) Geradengleichung: y a0 a1 x1 a 2 x 2 a3 x 3 G a0 a1 A a 2 H a3 F 28