Empirische Methoden in der Sportwissenschaft

Werbung
Empirische Methoden in der
Sportwissenschaft
UL VL Statistik: Sportphysiotherapie 2012
Gerda Strutzenberger
Skript adaptiert (Original Prof. Dr. Hermann Schwameder)
1
Inhaltsverzeichnis
TEIL I. Deskriptive Statistik
Inhalt
1. Grundlagen .............................................................................................................. 3
1.1. Grundbegriffe ................................................................................................. 3
1.2. Skalenniveau ..................................................................................................... 5
2. Grundlagen Excell .................................................................................................... 7
2.1 Grundlagen ....................................................................................................... 7
2.2 Rechenoperationen........................................................................................... 7
2.3 Shortcuts und nützliche Tipps ........................................................................... 8
2.4 Operationalisieren von Kurvenverläufen ........................................................... 9
2.5 Grafiken Excel .................................................................................................. 9
3. Maße für zentrale Tendenz .....................................................................................11
3.1. Modus ...............................................................................................................11
3.2. Median (Zentralwert) .........................................................................................12
3.3. Arithmetischer Mittelwert: x .........................................................................12
4. Streumaße ..............................................................................................................13
4.1. Streubreite (Range): R ......................................................................................13
4.2. Quartile / Boxplot ..............................................................................................13
4.3. Standardabweichung: s ....................................................................................14
4.4. Varianz: s² ........................................................................................................14
4.5.Variabilitätskoeffizient: v ....................................................................................14
4.6. Standardfehler: se .............................................................................................15
5.Normalverteilung ......................................................................................................16
5.1.Verteilungen ......................................................................................................16
5.1.1. Gleichverteilung..........................................................................................16
5.1.2. Dreiecksverteilung ......................................................................................16
5.1.3. Gaußsche Glockenkurve / Normalverteilung ..............................................16
5.1.4.Prüfung auf Normalverteilung: Kolmogorov-Smirnov-Test ...........................17
5.2. Standardnormalverteilung (z-Transformation) ...................................................19
6. Korrelationen ...........................................................................................................21
6.1. Grundlagen .......................................................................................................21
6.2. Vier-Felderkorrelationskoeffizient φ...................................................................22
6.3. Rangkorrelationskoeffizient nach Spearman .....................................................23
6.4. Produkt-Moment-Korrelation nach Pearson: r ...................................................24
4.5. SPSS Berechnung ............................................................................................25
6.6. Partielle Korrelation...........................................................................................25
6.7. Regression .......................................................................................................26
6.8. Multiple Regression ..........................................................................................28
2
Teil I: DESKRIPTIVE STATISTIK
1. Grundlagen
Definition: Die Deskriptive Statistik befasst sich mit Methoden zur Aufbereitung und
Darstellung von Daten, sowie mit der Charakterisierung dieser Daten durch
Maßzahlen.
Ziel:

Daten ordnen

Daten graphisch und tabellarisch übersichtlich darstellen

Durch Kennzahlen zusammenfassen (Mittelwert, Summe...)
1.1. Grundbegriffe
Grundgesamtheit:
ist die Menge aller theoretisch erfassbaren Objekte für eine Fragestellung (z.B. alle
12-jährigen Kinder Österreichs)
Stichprobe (Sp):
ist eine Teilmenge aus der Grundgesamtheit. Da es meist weder möglich noch
sinnvoll ist, alle Objekte der Grundgesamtheit zu untersuchen, wird nur ein
repräsentativer Teil untersucht (z.B. 300 12-jährige, 20 Stabhochspringer...)
Versuchspersonen (Vpn):
sind diejenigen Menschen, die an einer wissenschaftlichen Untersuchung
teilnehmen.
Merkmal (Variable, Eigenschaft)
Es ist nicht möglich, Personen in ihrer Gesamtheit zu erfassen, darum werden nur
einzelne Merkmale oder Eigenschaften erfasst (z.B: Körpergröße, Haarfarbe,
Sprungweite...). Eine Variable muss mindestens zwei verschiedene Ausprägungen
annehmen können, da sie sonst eine Konstante wäre. (z.B: Merkmal Geschlecht:
Ausprägungen: weiblich/männlich)
Merkmalsausprägung
Werte, die ein Merkmal annehmen kann (z.B.: 1.76 Meter bei Merkmal
Körpergröße, braun bei Merkmal Haarfarbe...)
3
Merkmalsträger (Beobachtungseinheit)
Das Objekt der Untersuchung wird als Merkmalsträger oder Beobachtungseinheit
bezeichnet. Beobachtungseinheiten können Personen, Gruppen oder Objekte sein.
z.B. Wenn Schüler auf ihre Weitsprungleistung untersucht werden, sind die
Beobachtungseinheit die Schüler, wenn das Fassungsvermögen von Stadien
untersucht wird, so sind diese die Beobachtungseinheit [Willimczik, 1993].
Manifeste Merkmale vs. Latente Merkmale
Manifeste Merkmale sind unmittelbar erfassbare Merkmale (z.B: Körpergröße),
latente (versteckte) Merkmale sind nicht unmittelbar zugänglich (z.B: Koordination,
Intelligenz, Krankheit..). Meist kann kein eindeutiger Wert festgelegt werden. Durch
Operationalisierung muss man latente Merkmale manifest (messbar) machen.
Bsp:
Merkmalsträger
Merkmal
Schüler A
Körpergröße
Fußballstadion
Fassungsvermögen
eines Stadions
Sportler B
Haarfarbe
Turner
Punkte
Tennismannschaft
Tabellenplatz
MerkmalsAusprägung
Einheit
1.80
Meter [m]
30 000
Anzahl [n]
Schwarz
Farbe
8.75
Punkte
3
Rang
Qualitative – Quantitative Merkmale:
Qualitative Merkmale sind jene Merkmale, die sich nicht zahlenmäßig erfassen,
sondern nur benennen lassen (Nationalität, Sportart,...). Quantitative Merkmale
sind zahlenmäßig erfassbar (Masse, Zeit,...).
Diskrete - Stetige Merkmale
Diskrete Merkmale können nur bestimmte Werte annehmen (z.B.: Zahl der Kinder
in der Familie, Anzahl der Wiederholungen bei einer Testmessung).
Stetige Merkmale können in einem bestimmten Bereich theoretisch jeden
beliebigen Wert annehmen (Länge, Kraft, Geschwindigkeit). Die Genauigkeit
(Kommastellen) hängt von der Genauigkeit der Messinstrumente ab.
4
1.2. Skalenniveau
Merkmale lassen sich in Bezug auf die Art ihrer Messung unterscheiden. Es besteht
ein Unterschied im Informationsgehalt verschiedener Aussagen. Es besteht ein
Unterschied, ob die Hochsprungleistung in Zentimeter genau gemessen wird, die
Rangplatzierung einer Mannschaft angeben wird oder ob nur festgestellt wird, dass
eine Person an einem Ereignis teilgenommen hat oder nicht. Die Angabe der
Rangplatzierung enthält mehr Information, als die Angabe der Teilnahme. Noch mehr
sagt
die
Leistung
beim
Hochsprung
aus.
Durch
die
unterschiedlichen
Aussagequalifizierungen müssen die Werte entsprechend ihres Informationsgehaltes
differenziert behandelt werden. Dazu werden sie in Skalen eingeteilt:
Nominalskala
 Werte, die nicht geordnet werden können: Nationalität, Schultyp, Sportarten,...
 Wenn nur die Beziehung Gleichheit oder Verschiedenheit angegeben werden kann
(a=b, ab).
Bsp: Variable: Geschlecht. Die möglichen Ausprägungen „weiblich“ und „männlich“
werden z.B.: mit 1 bzw. 2 codiert.
Es ist nicht möglich mit diesen beiden Werten Rechenoperationen durchzuführen,
einzige Möglichkeit ist das Zählen von Häufigkeiten.
Ordinalskala (Rangskala)
 Größer- und Kleinerbeziehungen der Werte können angegeben werden, jedoch sind
die Abstände auf der Skala nicht eindeutig definiert.
Bsp.: Schulnoten 1-5: 2 ist besser als 4, aber man kann nicht sagen, dass der
Schüler, der eine 2 erhalten hat doppelt so gut ist wie der Schüler mit der
Note 4. Außerdem ist nicht gewiss, ob der Abstand zwischen 1 und 2
derselbe ist wie zwischen 4 und 5.
Punktbewertungen (z.B.: Turnen)
Ranglisten
Intervallskala
Die Abstände zwischen den Werten sind konstant
Differenzbildung ist möglich
5
kein fester Nullpunkt gegeben
Rationalskala (Verhältnisskala)
 Absoluter Nullpunkt ist vorhanden (z.B.: Meter, Gewicht, Zeit)
 Verhältnisse können gebildet werden
Die
Skalenniveaus
hierarchischen
übergeordnete
untergeordneten
unterliegen
Ordnung,
Form
als
Form
einer
wobei
jede
Teilmenge
der
aufgefasst
werden
kann [Fleischer, 1988].
d.h. je höher das Skalenniveau, desto mehr
Möglichkeiten stehen für Rechenoperationen
zur Verfügung.
Bsp1: Skalenniveau
Bsp2:
Mögliche Aussagen
Bsp
Nominalskala
Gleichheit-Verschiedenheit
Telefonnummern
Ordinalskala
Größer-kleiner Relationen
Wertungen im Turnen
Intervallskala
Gleichheit von Differenzen
Temperatur
Rationalskala
Gleichheit von Verhältnissen
Längenmessung
Vergleich
der
Diskuswurfleistung
von
A=20m
und
B=40m
auf
den
unterschiedlichen Skalenniveaus:
Nominalskala Verschiedenheit
A ist von B verschieden
Ordinalskala
Rangordnung
B ist weiter als A
Intervallskala
Abstand
B ist um 20 m weiter als A
Rationalskala Verhältnis
B ist doppelt so weit wie A
6
2. Grundlagen Excell
2.1 Grundlagen
- Zeilen werden nummeriert
- Spalten alphabetisiert
- Zelle wird durch Spaltenbuchstabe und Zeilennummer definiert (z.B. A1)
Zeilen
Spalte
2.2 Rechenoperationen
Datenmatrix: 3 Spalten: x,y,z
a) Berechnungen von einzelnen Zellen
a. z.B. Addiere C3 mit E24 und schreibe das Ergebnis in A2
b. ist für alle anderen Rechenoperationen (z.b. +,-,/,*, ^x…) möglich;
es gelten die allgemeinen „Punkt vor Strich“ und Klammerregeln
Aufgabe: Berechne eine neue Tabellenreihe k, in der du Spalte x mit z
addierst
Lösung:
7
b) Berechnungen von Spalten, Zeilen und Bereichen
c) Kombinierte Aufgabe
1) Berechne die Summe der Maxima aus a),b) und c)
2) Berechne den Mittelwert der Spalte y per Hand und per Formel
3) Dividiere die Summe der Spalte x durch das Minimum der Zeile 5
und multipliziere alles mit dem Minimum des Bereichs D7:DE9
4) Addiere C8 und E7 und dividiere das Ergebnis durch 3
Lösung:
2.3 Shortcuts und nützliche Tipps
Strg+c
= kopiert markierten Bereich
Strg+v
= fügt kopierten Bereich ein
Strg+y
= wiederholt letzten Befehl
Strg+z
= letzter Befehl rückgängig
4-Pfeile Pfeil
=Maus am Rand von markiertem Bereich führen – wechselt in 4Pfeile Pfeil:
markierter Bereich kann verschoben werden
Schwarzes Kreuz
= Zelle mit Formel markieren, Maus an li untere Ecke führen – wechselt zu
Kreuz: li Maustaste gedrückt halten und in nächste Spalten oder Zeilen
ziehen: die Formel wird mit neuem Zellbezug in neue Spalten/Zeilen
geschrieben
=in einer Spalte vervollständigt schw. Kreuz die Spalte automatisch (z.B.
Formel in F3 schreiben – schwarzes Kreuz holen und doppelklick – in
den Spalten F4-F10 wird automatisch die Formel geschrieben, die beim
ziehen entstehen würde)
8
Shift+Strg+↓ = markiert alle ausgefüllten Zellen nach unten
Shift+Strg+ ← = markiert alle ausgefüllten Zellen nach links
Shift+STrg+↑ = markiert alle ausgefüllten Zellen nach rechts
2.4 Operationalisieren von Kurvenverläufen
Um statistische Berechnungen durchführen zu können, werden meist singuläre
Parameter (z.b. Maximum, Minimum, Mittelwert….) benötigt. Allerdings werden bei der
Auswertungen aber oft Datenverläufe erhalten, aus denen die singulären Parameter
erst berechnet werden müssen.
Beispiel CMJ:
Es werden von 20 Personen CounterMovementJumps (CMJ) in 2 Techniken
gesprungen:
a) CMJ - Arme schwingen frei
b) CMJA – Arme sind an der Hüfte fixiert
Jede Sprungtechnik wird 2 mal ausgeführt (CMJ 1, CMJ2, CMJA1, CMJA2). Als
Endvariablen sollen die Sprunghöhe und die Maximale Kraft berechnet werden.
Aufgabe 1: Vervollständige die Datei CMJ.exl Registerblatt Endtabelle mit Hilfe des
Registerblatts Fmax.
2.5 Grafiken Excel
Daten, die in der Grafik dargestellt werden sollen, markieren
Menüleiste: Einfügen – Toolbox Diagramme
a) Säulendiagramm (Datensatz CMJ, Registerblatt: Endtabelle)
Stelle die mittlere Sprunghöhe bei der Variablen CMJ1 nach Geschlecht
getrennt dar. Beachte auch die Standardabweichung einzutragen.
Daten: Datei aufteilen nach Geschlecht
9
Analysieren – Mittelwert (=max(Datenbereich)) und Standardabweichung
(=stabw(Datenbereich))
1) Grafik für Mittelwerte erstellen
2) Standardabweichung eintragen:
Balken in Grafik markieren → Menüleiste Diagrammtools → Layout
→Fehlerindikatoren → weitere Fehlerindikatoren → Benutzerdefiniert
→ Wert eingeben Sowohl für negative als auch positive Abweichung
Wert eingeben
b) Liniendiagramm (Daten CMJ, Registerblatt Fmax)
Stelle grafisch die Kraftverläufe der 4 Sprünge von Proband A dar
c) Kreisdiagramm (Daten CMJ, Registerblatt Endtabelle)
Stelle grafisch dar, wie viele Probanden in den 3 Altersgruppen sind
- Daten vorbereiten
Achte auf:
Das Diagramm muss selbsterklärend sein, d.h. Titel und Achsenbeschriftungen, ev.
Legende… Achten auf gute Lesbarkeit der Daten: Schriftgröße, schlaue Farbwahl,
Unterstützung durch Symbole….
10
3. Maße für zentrale Tendenz
Um die erfassten Daten einer Messung zu reduzieren und auf einen Blick erfassbar zu
machen, werden sie häufig durch Maßzahlen charakterisiert. Maßzahlen sind vor allem
Werte für die zentrale Tendenz und die Streuung.
Maße für die zentrale Tendenz werden umgangsprachlich als „Mittelwerte“ bezeichnet,
Es
gibt
verschiedene
Maße
für
die
zentrale
Tendenz,
die
je
nach
Anwendungsvoraussetzung und Anwendungsbereich streng voneinander getrennt
werden: Modus, Median und arithmetischer Mittelwert sind in der Statistik häufig
verwendete Maße, während das geometrische und das harmonische Mittel weniger
gebräuchlich sind [Willimczik, 1993].
3.1. Modus
Der Modus (Modalwert, Gipfelwert, Dichtemittel) ist jener Messwert, der am häufigsten
vorkommt. Er lässt sich einfach aus der Häufigkeitstabelle ablesen. Treten mehr
Häufigkeitsmaxima auf, müssen a) beide genannt werden, wenn zwischen ihnen ein
kleinerer Wert liegt oder b) das arithmetische Mittel der Werte gebildet werden, wenn
die Maxima benachbart sind.
Anwendungsvoraussetzung: Werte können auf jedem Skalenniveau sein, besonders
eignet sich der Modus jedoch für nominalskalierte Daten
Bsp1:
Haarfarbe
braun
blond
schwarz
andere
Bsp 2.
Häufigkeit
5
12
1
2
Bsp1.: Modus: blond
Treffer/Minute Häufigkeit
0
1
2
3
4
5
3
6
4
6
0
2
Bsp.: 2 Modus: 1 und 3 Treffer
11
3.2. Median (Zentralwert)
Ordnet man alle Merkmalsausprägungen der Größe nach an, ist der Median jener
Wert, welcher (bei ungerader Anzahl von Werten) genau in der Mitte, bzw. bei einer
geraden Anzahl zwischen den beiden mittleren Werten liegt.
z.B.: Bei 7 bzw. 8 Wettkämpfen während der Saison belegt ein Schwimmer die
folgenden Ränge. Wie hoch ist jeweils der Median?
Wettkampf 1 2 3 4 5 6 7
Rang
7 9 4 4 2 6 3
Wettkampf 1 2 3 4 5 6 7 8
Rang
7 9 4 4 2 6 3 8
ordnen:
Median = 4
Median = 5
Anwendungsvoraussetzung: mindestens ordinalskalierte oder nichtnormalverteilte
Daten
3.3. Arithmetischer Mittelwert: x
Der arithmetische Mittelwert ist die Summe aller Messwerte dividiert durch die Anzahl n
n
x
x
i 1
i
n
Bsp: Werte Mädchen 50m Brustschwimmen
62 s
56 s
57 s
65 s
75 s
43 s
50 s
62+56+57+65+75+43+50
= 58.3s
7
Anwendungsvoraussetzung: Daten müssen:
 mindestens intervallskaliert
 normalverteilt sein.
12
4. Streumaße
4.1. Streubreite (Range): R
Die Streubreite kennzeichnet jenen Bereich, in dem alle Messwerte vorkommen. Er ist
definiert als die Differenz zwischen dem Maximum- und dem Minimum–Wert:
R  xmax  xmin
Z.B.: Zahlenreihe: 7,8,9,5,7,12 →R = 12-5 = 7
Voraussetzung:  mindestens Ordinalskalenniveau
4.2. Quartile / Boxplot
Perzentil: Einteilung der Messwerte in Perzentile: z.B.: P10 ist. jener Wert, der bei 10%
in der geordneten Reihe liegt.
Quartil: Bei den Quartilen handelt es sich um besondere Perzentile:
1. Quartil [Q1 = P25]: Wert, bei dem ¼ der Messwerte darunter, ¾ darüber liegen.
2. Quartil: [Q2 = P50 ]: Median
3. Quartil [Q3 = P75]: Wert, bei dem ¾ der Messwerte darunter, ¼ darüber liegen.
Wettkampf
Rang
Rohliste:
1 2 3 4 5 6 7 8 9
7 9 4 4 2 6 3 8 7
2 3 4 4 6 7 7 8 9
Q1
Boxplot:
M
Q1= 4
Median= 6
Q2= 7
Q3
graphische Darstellung der Quartile
13
Interquartilsabstand:. Maß für die Streubreite ist hier die Differenz zwischen Q1 und
Q3. Wenn eine Variable eine geringe Streuung aufweist, liegen viele Werte um den
Mittelwert, d.h. dass Q1 und Q3 nahe beisammen liegen.
Voraussetzung:  Ordinaldaten
4.3. Standardabweichung: s
ist die Wurzel aus der Summe der quadrierten Abstände der Messwerte vom
Mittelwert. Durch das Quadrieren erhält man einerseits stets positive Werte und
andererseits wirken sich größere Abstände vom Mittelwert verhältnismäßig stärker aus.
Berechnet man die Standardabweichung einer Stichprobe, so wählt man als Nenner
‚n‘. Schließt man von einer Stichprobe auf die Grundgesamtheit, wird durch ‚n-1‘
dividiert, da dies den besseren Schätzer darstellt.
s
( xi  x ) 2

n
i 1
n
z.B.:
x
xi-mw (xi-mw)²
2
-5,33
28,44
3
-4,33
18,78
5
-2,33
5,44
7
-0,33
0,11
12
4,67
21,78
15
7,67
58,78
mw = 7,33 Summe 133,33
Voraussetzung:
133,33
= 4,26
7,33
s=
 mindestens Intervalldaten
s = symmetrisch zu Mittelwert; x  s
4.4. Varianz: s²
( xi  x ) 2
s 
n
i 1
…ist das Quadrat der Standardabweichung
n
2
4.5.Variabilitätskoeffizient: v
…ist die prozentuelle Abweichung der Standardabweichung vom Mittelwert
v
s
 100%
x
14
z.B.:
x1  10
s1  2
x1  20
s2
v1 
2
 100  20%
10
v2 
2
 100  10%
20
4.6. Standardfehler: se
….wird bei Messungen des Mittelwerts einer Stichprobe angegeben.
Je kleiner der Standardfehler, desto genauer wurde der Mittelwert bestimmt.
se 
s2
s

n
n
15
5.Normalverteilung
5.1.Verteilungen
5.1.1. Gleichverteilung
Im Experiment A wird 1 Würfel 60 mal gerollt.
Wie oft, glauben Sie, wird jede Zahl gewürfelt (Erwartungswert)?
Zahl
1
2
3
4
5
6
Summe:
fa
7
12
10
9
13
9
60
frel
0,12
0,20
0,17
0,15
0,22
0,15
1,00
fre
0,16
0,16
0,16
0,16
0,16
0,16
0,96
Abb1. Experiment A
Erwartungswert
Im Experiment kam man zu folgenden Ergebnissen:
0,20
0,16
0,12
0,08
0,04
0,00
1
2
3
4
5
6
Würfelzahl
Abb.2 Gleichverteilungsdiagramm d. Erwartungswertes
fa…absolute Häufigkeit
frel…relative Häufigkeit
fre…erwartete relative Häufigkeit
5.1.2. Dreiecksverteilung
In einem Experiment B wurde mit 2 Würfel gerollt.
Folgende Ergebnisse wurden erzielt:
Zahl
2
3
4
5
6
7
8
9
10
11
12
fa
2
2
3
7
8
17
8
6
3
3
1
Abb.1 Experiment B
fre
1/36
2/36
3/36
4/36
5/36
6/36
5/36
4/36
3/36
2/36
1/36
Abb.2 Dreiecksverteilung d. Erwartungswerts
5.1.3. Gaußsche Glockenkurve / Normalverteilung
In Experiment C wird mit unendlich vielen Würfel gespielt. Das Ergebnis lässt sich
graphisch als „Gaußsche Glockenkurve“ beschreiben:
16
x-s
x+s
x
Modus
Median
Eigenschaften:  Mittelwert, Median, Modus fallen zusammen
 symmetrisch um x
 x ist häufigster Wert
 asymmetrisch gegen x-Achse
 2 Wendepunkte (max. u. min. Steigung) bei x  s
 Häufigkeit
[ x -s, x +s] ~68% [2/3]
[ x -2s, x +2s] ~95%
[ x -3s, x +3s] ~ 99,7%
 die Gesamtfläche zwischen Kurve und x-Achse entspricht der
Wahrscheinlichkeit 1. D.h. eine Versuchsperson erreicht mit
einer Wahrscheinlichkeit
von
1
einen Wert,
der
im
Definitionsbereich liegt.
Die
Gaußsche
Glockenkurve
beschreibt
eine
Normalverteilung
der
Werte.
Normalverteilung bedeutet, dass hohe Häufigkeiten der Werte im Bereich des
Mittelwertes und geringe Häufigkeiten bei Extremwerten auftreten [Willimczik,1993].
Der Kurvenverlauf wird durch die Standardabweichung und den Mittelwert bestimmt. Je
kleiner die Standardabweichung wird, desto steiler ist ihr Verlauf. Die Kurve nähert sich
an die x-Achse an, erreicht diese aber nie, da sie Werte von   annimmt.
5.1.4.Prüfung auf Normalverteilung: Kolmogorov-Smirnov-Test
Die Normalverteilung der Daten wird mittels dem Kolmogorov-Smirnov-Test überprüft:
Möchten
wir
beispielsweise
wissen,
ob
die
Daten
des
20m
Sprints
der
Skispringeruntersuchung normalverteilt sind, gehen wir folgendermaßen vor (SPSS):
17
Schritt 1:
Analysieren
→Nichtparametrische Tests
→K-S bei einer Stichprobe
Schritt 2:
→Variable: 20 m markieren und
ins Feld: Testvariablen
transferieren
→ bei Testverteilung: Normal
auswählen.
Schritt 3: SPSS-Output interpretieren
Kolmogorov -Smirnov -Anpassungstest
20m
N
Parameter der a,b
Normalverteilung
Extremste Differenzen
Mittelwert
Standardabweichung
Absolut
Positiv
Negativ
Kolmogorov-Smirnov-Z
Asymptotische Signifikanz (2-seitig)
20
3,0715
,12084
,135
,135
-,105
,606
,857
<0,05 keine Normalverteilung
≥ 0,05 Normalverteilung
a. Die zu testende Verteilung ist eine Normalverteilung.
b. Aus den Daten berechnet.
Wichtig ist hier die asymptotische Signifikanz (2-seitig). Liegt diese unter 0,05, wird
keine Normalverteilung angenommen, ist sie über 0,05, darf eine Normalverteilung der
Daten angenommen werden.
18
5.2. Standardnormalverteilung (z-Transformation)
…transformiert normalverteilte Daten nach folgender Formel: z i 
xi  x
s
Bei einer Talentsuche soll das Leistungsniveau der Schüler (n=30) bestimmt werden.
Dazu werden 2 Tests, Coopertest und Weitsprung, durchgeführt. Die Schüler Martin
und Josef erreichen dabei folgende Werte:
Cooper
[m]
mw
2000
s
200
Martin
2200
Josef
1900
Weitsprung
[m]
4,00
0,15
4,20
3,90
•Ist Martin individuell im Weitsprung oder
beim Coopertest besser?
•Hat Josef sein Talent in der
Ausdauerleistung, oder doch eher im
Weitsprung?
Um eindeutig feststellen zu können, in welcher Disziplin die 2 Schüler individuell
besser sind, müssen zuerst Vorraussetzungen geschaffen werden, um die zwei
unterschiedlichen Daten vergleichen zu können. Dazu wird ein Vergleichswert
eingeführt, um beide Daten auf eine gleiche Ausgangsbasis zu bekommen: der z-Wert.
Wendet man die Transformationsformel an, ergibt sich für die beiden Schüler:
zMartin
zJosef
Cooper
[m]
1
-0,5
Weitsprung
[m]
1,33
-0,66
Martin: ist im Weitsprung besser als im Coopertest,
da er hier den höheren z-Wert erreicht
Josef: ist beim Coopertest besser als beim
Weitsprung, da er hier den höhern z-Wert erreicht
Eigenschaften:
 Die z-Transformation hat alle
Eigenschaften einer
Normalverteilung
 x 0
 x  s  1


 f ( z)dz  1

Vorteile:
 Vergleichbarkeit von Werten,
19
 Wahrscheinlichkeit, mit der ein zi anzutreffen ist, ist durch die Fläche
unter der Kurve gekennzeichnet: zi ↔p(zi)
Beispiele zur Wahrscheinlichkeit:
p( z i ) 
zi
 f ( z)dz

mit einer Wahrscheinlichkeit von 16% liegt der
Wert im grauen Bereich
z p(z)*100%
-3
0,13
-2
2,28
-1
15,87
0
50
1
84,13
2
97,72
3
99,87
z
p(z)*100%
[-1,+1]
68,26
[-2,+2]
95,44
[-3,+3]
99,74
p(z)*100%
95
97,5
99
99,5
z
1,65
1,96
2,33
3,58
Bsp. 1:
Die 100m Laufzeit ist in der 8b Klasse normalverteilt. Der Mittelwert x beträgt 13,5 s
und die Standardabweichung s= 0,6 s. Ein Schüler läuft 13,7 s. Wie viel Prozent der
Schüler sind schneller als er?
Bsp.2:
Im Leichtathletikverein Neukirchen liegt der Mittelwert der Weitsprungleistung der
Frauen bei 6,4m mit einer Standardabweichung von 0,35m. Wie weit muss eine
Athletin springen, um unter den besten 10% zu sein?
20
6. Korrelationen
6.1. Grundlagen
Anhand von Korrelationen kann der Zusammenhang zwischen zwei Variablen
berechnet werden (z.B.: Zusammenhang zwischen Weitsprung- und Sprintleistung).
Der Zusammenhang wird mittels des Korrelationskoeffizienten dargestellt.
Dieser kann zwischen -1 und +1 liegen, was bedeutet, dass bei:
 +1
ein vollständiger positiver Zusammenhang besteht
(z.B. je größer, desto mehr Gewicht…)
 0
kein Zusammenhang besteht
 -1
ein vollständiger negativer Zusammenhang besteht
(z.B. je größer die Schnellkraft, umso weniger Zeit braucht man)
Verbalqualifikation des Korrelationskoeffizienten:
Korrelationskoeffizient Verbalklassifikation
1,00-0,90
sehr hoch
0,90-0,80
hoch
0,80-0,70
mittelhoch
0,70-0,50
0,50-0,30
gering
0,30-0,00
sehr gering
Bestimmtheitsmaß – Determinationskoeffizient = r²
…gibt an, wie viel Prozent der Varianz der Variablen 1 durch die Varianz der Variablen
2 erklärt werden kann.
z.B. Sprint- Weitsprung Leistung
r = 0,8 → r² = 0,64 = 64 %
d.h.: 64% der Weitsprungleistung (Variable 1) können schon durch die Sprintleistung
(Variable 2) bestimmt werden.
21
6.2. Vier-Felderkorrelationskoeffizient φ
Der Vier-Felderkorrelationskoeffizient stellt eine der Möglichkeiten dar, nominalskalierte
Daten zu korrelieren:
Die Formel dazu lautet:  
ad bc
(a  b)  (c  d )  (a  c)  (b  d )
a, b, c, d…. bezeichnen jeweils ein Feld der schematischen 4-Felder Darstellung:
Bsp1: Besteht ein Zusammenhang zwischen Händigkeit und Treffern beim Korbleger
im Basketball. Ein Basketballspieler hat jeweils 10 Versuche für Korbleger links und
Korbleger rechts. Dabei trifft er rechts 8 mal und links 3 mal. Tabellarisch lässt sich
diese Situation wie folgt darstellen:
Ergebnis
Getroffen
Nicht getroffen
Insgesamt
D.h.:

KL rechts
8 (a)
2 (c)
10
KL links
3 (b)
7 (d)
10
Summe
11
9
87 32
 0,50
(8  3)  (2  7)  (8  2)  (3  7)
Bei den Treffern von Korblegern, die links oder rechts ausgeführt wurden, besteht ein
Zusammenhang von 0,50.
Bsp2: Ein Tennisspieler hat bei 50 Matches 30mal Rechtshänder zum Gegner und
20mal Linkshänder. Er erzielte folgende Ergebnisse:
Ergebnis
Gewonnen
Verloren
Insgesamt
Gegner
Linkshänder Rechtshänder Summe
a
15 b
10
25
c
5 d
20
25
20
30
  0,41
Voraussetzung: Daten auf Nominalskalaniveau
22
6.3. Rangkorrelationskoeffizient nach Spearman
Voraussetzung:
 bei Daten, die ordinalskaliert sind oder:
 bei Daten, die zwar mindestens intervallskaliert sind, aber nicht
normalverteilt
n
Formel:
  1
6   di
2
i 1
2
n  (n  1)
Bsp.1 Körpergröße und Rangliste beim Basketball
xi [cm]
175
180
185
170
190
yi [Rang]
3
2
4
5
1
Rxi
4
3
2
5
1
Ryi
3
2
4
5
1
di
1
1
-2
0
0
di²
1
1
4
0
0
Summe: 6

 = 0.7
Das bedeutet: Zwischen der Körpergröße und der Rangliste beim Basketball besteht
ein sehr hoher Zusammenhang von 0,7.
Korrelationskoeffizient bei homogenen bzw. inhomogenen Gruppen:
Die Höhe des Korrelationskoeffizienten hängt auch von der Homogenität der Gruppen
ab.
Bsp: Coopertest: Gruppe A trainiert im LA-Verein, Gruppe B sind Schüler der 6 Klasse.
In Form einer Test (T) – Retest (RT) Situation läuft jede Gruppe den Coopertest
zweimal:
Während es in der LA-Gruppe, in der die Athleten in etwa auf einem gleichen
Leistungsniveau sind, viel mehr auf die Tagesverfassung ankommt, bleibt die
Rangstruktur in der Schulklasse eher erhalten:
T
1
2
3
4
5
Gruppe A
RT
3
2
4
1
5
roh = 0,3
T
1
2
3
4
5
Gruppe B
RT
1
2
4
3
5
roh = 0,9
23
6.4. Produkt-Moment-Korrelation nach Pearson: r
Daten mindestens intervallskaliert
Vorraussetzung:
normalverteilt
n
 (x
r
Formel:
i 1
n
 (x
i 1
i
 x )  ( yi  y )
n
i
 x )²  ( y i  y ) 2
i 1
Bsp: Korrelation zwischen Gewicht (x) und Körpergröße (y):
xi
yi- y
xi- x
yi
(xi- x )*(yi- y ) (xi- x )²
(yi- y )²
1
70 1,75 -5
-0,05 0,25
25
0,0025
2
80 1,80 5
0
0
25
0
3
75 1,85 0
0,05
0
0
0,0025
4
65 1,70 -10
-0,10 1
100
0,01
5
85 1,90 10
0,10
1
100
0,01
 2,25
 250  0,025
mw 75 1,80
r
2,25
250  0,025
 0,90
Scatter-Plot:
Graphische Darstellung mittels einem Streuungsdiagramm, dem “Scatter- Plot“:
17
30
10
16
25
15
9
8
20
14
7
13
6
5
15
12
4
10
11
3
5
10
2
1
9
0
0
0
5
10
15
20
25
30
35
8
1100
1600
2100
2600
3100
3600
0
2
4
6
Abb.1:
Abb.2.
Abb.3.
Positiver Zusammenhang
Kein Zusammenhang
Vollständiger negativer
8
10
Zusammenhang
Der Korrelationskoeffizient gibt zwar den Zusammenhang zwischen 2 verschiedenen
Variabeln an, aber keine Richtung! Das heißt, dass der Zusammenhang zwischen
24
Ursache-Wirkung nicht geklärt wird. Man kann nicht sagen, ob der Sportler soweit
springt, weil er so schnell läuft, oder ob er so schnell läuft, weil er so weit springt.
4.5. SPSS Berechnung
Schritt 1: Analysieren
Schritt 2:
→Korrelation
Variablen und Art des Korrelationskoeffizienten
→Bivariat
eingeben
Einseitig oder zweiseitig testen→ OK
Schritt 3: SPSS - Output
Korrelationen
100m
100m
20m
Korrelation nach Pearson
Signifikanz (2-seitig)
N
Korrelation nach Pearson
Signifikanz (2-seitig)
N
1
20
,873**
,000
20
20m
,873**
,000
20
1
r = 0,873
≤ als 0,05 = signifikant
20
**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig)
signifikant.
6.6. Partielle Korrelation
Durch die partielle Korrelation ist es möglich, den Zusammenhang zwischen zwei
Variablen x und y zu untersuchen, wobei der störende Einfluss der dritten Variablen z
ausgeschaltet wird. Dazu partialisiert man sowohl aus x als auch aus y jenen Teil
heraus, welcher auf z zurückgeführt werden kann:
x = x/z +Rx
y = y/z + Ry
25
Die partielle Korrelation rxy,z entspricht dann der einfachen Korrelation zwischen Rx und
Ry, jener Restteile von x und y, welche mit der Störvariablen z nichts mehr zu tun
haben.
Formel:
r12,3 
r12  r13  r23
1  r13  1  r23
2
2
z.B.: Korreliert man bei einer genügend großen Stichprobe von Männern die
Schuhgröße mit ihrem Intelligenzquotienten, wird zwischen den beiden Variablen eine
geringe, aber signifikante Korrelation festgestellt [Bühl & Zöfel, 2002]. Hier liegt
offensichtlich eine Scheinkorrelation vor. Der signifikante Korrelationskoeffizient in
diesem Beispiel ist nicht Ausdruck eines kausalen Zusammenhangs zwischen
Intelligenz und Schuhgröße, sondern er wird von einer anderen Variablen
entscheidend mitbestimmt, der Störvariablen Körpergröße. Es existiert zwischen
Körpergröße und Intelligenz eine geringe Korrelation, zwischen Körpergröße und
Schuhgröße jedoch eine deutlich höhere. Diese beiden Korrelationen zusammen
verursachen die Scheinkorrelation.
Um die Störvariable ausschließen zu können, wird die partielle Korrelation benötigt:
Schuhgröße: Variable 1
r12 = 0,560
Intelligenz:
Variable 2
r23 = 0,446
Körpergröße: Variable 3
r13 = 0,903
Partielle Korrelation
r12,3 = 0,42
Daraus wird ersichtlich, dass die ursprüngliche signifikante Korrelation von 0,56, durch
das Herausfiltern der Störvariablen Körpergröße, zu einer nicht mehr signifikanten
partiellen Korrelation von 0,42 wird.
6.7. Regression
Bei manchen Fragestellungen ist nicht nur die Frage nach dem Zusammenhang zweier
Merkmale wichtig, sondern auch die Frage nach der Abhängigkeit eines Merkmals von
einem anderen. Die mathematische Formulierung dieser Abhängigkeit im Sinne der
Vorhersage des einen Merkmals aus dem anderen, wird Regression genannt
[Willimczik, 1993, S. 58].
26
Zur Veranschaulichung wird eine Regressionsgerade (y = ax+b) hergestellt, deren
Verlauf optimal in den Scatter-Plot angepasst wird.
Voraussetzung:
Definieren einer abhängigen und einer unabhängigen Variablen
Daten sind mindestens intervallskaliert
z.B.: Wie hängt die Gleichgewichtsfähigkeit vom Alter ab?
x…unabhängige Variable [Alter]
y…abhängige Variable [Gleichgewichtsfähigkeit]
Regressionsgerade:
y  ax b
n
a
 (xi  x)  (yi  y)
i 1
n
 ( x i  x )2
i 1
b  y ax
Regressionen dienen dazu, um bestimmte Abhängigkeiten vorhersagen zu können:
z.B.: Wenn ein Sportler die 20m in 2,9 s läuft → wie schnell läuft er dann auf 100m?
27
Wird nun der Scatter-Plot zur Antwort herangezogen, ist eine ungefähre Aussage
möglich, legt man aber eine Regressionsgerade in den Scatter-Plot, kann eine genaue
Aussage getroffen werde.
6.8. Multiple Regression
Von eine multiplen Regression spricht man dann, wenn man die Abhängigkeit einer
Variablen von mehreren unabhängigen Variablen bestimmen möchte. Als Ergebnis
erhält man eine lineare Regressionsgleichung der Form:
y  a0  a1  x1  a2  x 2  ...  an  xn
z.B.: Wie hängt das Körpergewicht von den Variablen Alter, Körperhöhe und Fettanteil
ab?
→ abhängige Variable: Körpergewicht G(y)
→ unabhängige Variablen:
 Alter A (x1)
 Körperhöhe H (x2)
 Fettanteil F (x3)
Geradengleichung:
y  a0  a1  x1  a 2  x 2  a3  x 3
G  a0  a1  A  a 2  H  a3  F
28
Zugehörige Unterlagen
Herunterladen