einführung in empirische methoden für sportwissenschaftler

Werbung
Fritz Brunner
EINFÜHRUNG IN
EMPIRISCHE METHODEN
FÜR SPORTWISSENSCHAFTLER
SS 2007
2
Inhaltsübersicht
Einleitung: Aufgaben des Proseminars
A. Empirische Untersuchungen
1. Gegenstand empirischer Untersuchungen
Leistungskontrolle
Fähigkeitskontrolle
Fertigkeits- oder Technikkontrolle
2. Phasen der empirischen Forschung
3. Untersuchungspläne und Auswertemethoden (Übersicht)
Untersuchungspläne
1. Querschnittsuntersuchungen
2. Längsschnittsuntersuchungen (Messwiederholungen)
3. Komb. Untersuchungen
Beschreibende und explorative statistische Verfahren
Prüfstatistik
4
5
5
5
5
6
6
7
7
7
7
7
8
9
B. Beschreibende Statistik
10
1. Skalenniveau
11
1.1. Nominalskala
1.2. Ordinalskala
1.3. Metrische Skalen
1.3.1. Intervallskala
1.3.2. Rationalskala
2. Verfahren bei nominalskalierten Daten
2.1. Tabellarische Ordnung
2.2. Graphische Darstellungen
2.3. Rechnerische Verfahren
2.3.1. Relativzahlen
Gliederungszahlen
Beziehungszahlen
Verhältniszahlen
Risiko
2.3.2. Zusammenhang nominalskalierter Variablen
Φ-Koeffizient
Kontingenzkoeffizient
3. Verfahren bei intervallskalierten Daten
3.1. Listen/Tabellen
3.2. Graphische Darstellung von Verteilungen
3.3. Statistische Kennwerte
3.3.1. Kennwerte für die zentrale Tendenz (Lagemaße)
Arithmetisches Mittel (Mean)
Median (Zentralwert)
Modus (Modalwert, Gipfelwert, Dichtemittel)
3.3.2. Maße für die Streuung (Dispersionsmaße)
Variationsbreite oder Spannweite (Range)
Quantile
Varianz und Standardabweichung (Standard Deviation)
Grafische Darstellung der Kenngrößen von Messdaten
Kennwerte zur Beschreibung einer Verteilung
3.3.3. Maße für den Zusammenhang
Regression
Korrelation
Zusammenhang bei mehr als zwei Variablen
11
11
11
11
12
13
13
13
13
13
13
13
13
14
14
15
15
16
16
17
19
19
19
19
20
21
21
21
23
24
26
27
27
28
30
3
C. Anwendungen bei der Konstruktion sportmotorischer Test
1. Testanalyse
Analyse der Testaufgaben und der Rohwerte
Analyse der Gütekriterien sportmotorischer Tests
Analyse der Objektivität
Analyse der Reliabilität
Analyse der Validität
2. Normierung
Bezugssysteme
Verfahren der statistischen Normierung
Prozentrang-Norm
Standard-Norm (Normalverteilung)
3. Sportmotorische Leistungsprofile
D. Schließende Statistik
32
33
33
34
34
36
39
43
43
43
43
44
47
49
1. Populationsbeschreibende Untersuchungen – induktiver Schluss
50
Begriffe
50
Grundgesamtheit (Ausgangsverteilung, Population)
50
Stichprobe
50
Repräsentativität
51
Arten von Stichproben
51
Statistische Kennwerte, Maßzahlen
51
Standardfehler des Stichprobenmittelwertes
51
Vertrauensintervall des arithmetischen Mittels von Stichproben
52
Stichprobenumfang
53
2. Hypothesenprüfende Untersuchungen - deduktiver Schluss
54
Hypothesenarten und -formulierungen
54
Unterschiedshypothese
54
Veränderungshypothese
54
Zusammenhangshypothese
55
Alternativhypothese
55
Nullhypothese
55
Prüfung von Hypothesen - Signifikanztests
56
Grundprinzip der Signifikanzprüfung
56
Signifikanzaussagen und Signifikanzschranken
57
Der α- und β-Fehler bei statistischen Entscheidungen – Power-Analyse
58
Arbeitsschritte bei der Prüfung von Hypothesen
59
Systematik der Prüfverfahren für Unterschieds- und Veränderungshypothesen
60
Parametergebundene Prüfverfahren für Unterschieds- und Veränderungshypothesen: t-Tests 61
Vergleich eines Stichprobenmittelwertes mit einem Populationsparameter
61
t-Test für unabhängige Stichproben (Unterschiedshypothesen)
61
t-Test für abhängige Stichproben (Veränderungshypothesen)
63
Parameterfreie Prüfverfahren für Unterschieds- und Veränderungshypothesen
64
U-Test von MANN-WHITNEY
64
KOLMOGOROV-SMIRNOV-Omnibustest
65
WILCOXON-Test
65
2
Vergleich von Häufigkeiten mit χ -Tests
66
Signifikanztests für Zusammenhangshypothesen
68
LITERATURAUSWAHL
69
4
Einleitung: Aufgaben des Proseminars
Die Erfassung empirischer (empirisch: griechisch „auf
Erfahrung beruhend“) Daten ist zentraler Bestandteil
sowohl der sportlichen Praxis als auch der
sportwissenschaftlichen Forschung. Letztere sucht nach
neuen Erkenntnissen durch die systematische
Auswertung von Erfahrungen. Nicht selten dienen dazu
Feld- und/oder Laborexperimente.
Die zur Auswertung anstehenden Daten repräsentieren
vorrangig das Niveau von motorischen Leistungen,
Fähigkeiten
oder
Fertigkeiten,
sowie
von
physiologischen, psychischen und soziologischen
Merkmalen.
Wie
ist
der
planmäßige
Untersuchungen?
Ablauf
Gegenstand empirischer
Untersuchungen
empirischer
Untersuchungsplanung
Welchen Anforderungen müssen wissenschaftlich
einwandfreie Methoden zur Datengewinnung genügen?
Gütekriterien der
Datenerhebung
Welche statistischen Methoden können zur Darstellung
der gewonnenen Ergebnisse eingesetzt werden?
Methoden der beschreibenden Statistik
Die an zahlenmäßig begrenzten Untersuchungsobjekten
(Stichproben) gewonnenen Einsichten münden unter
Umständen in Annahmen, die Allgemeingültigkeit
beanspruchen.
Wie kann von einer Stichprobe auf die Population
geschlossen werden ? (induktive Funktion empirischer
Forschung)
Methoden der
schließenden Statistik
Die aus Erfahrungen, persönlichen Überzeugungen und
Theorien abgeleiteten Hypothesen können erst dann als
allgemeingültige Erkenntnisse angesehen werden, wenn
sie durch empirische Befunde bestätigt werden.
Wie werden Hypothesen verifiziert/falsifiziert? (deduktive
Funktion empirischer Forschung: Schluss vom
Allgemeinen, der Population, auf das Besondere, die
Stichprobe).
Welche Voraussetzungen müssen bei der Anwendung
der statistischen Methoden erfüllt sein?
Stichproben
Signifikanztests
Anwendungsvoraussetzungen
5
A. Empirische
Empirische Untersuchungen
1. Gegenstand empirischer Untersuchungen
Motorische, physiologische, psychische, soziologische, … Merkmale
Motorische Merkmale und Methoden zu ihrer Kontrolle
(Motorische) Merkmale unterscheiden man nach ihrer Art in:
Leistungen, Fähigkeiten und Fertigkeiten (oder Techniken)
Leistungskontrolle
Zielsetzung
komplexe sportliche Leistung im Training oder
im Wettkampf
(Laufzeit, Sprunghöhe, Punktezahl ...).
Je komplexer die Leistung, umso weniger gibt die
Leistungskontrolle Auskunft über die
leistungsbestimmenden Faktoren (siehe Fähigkeiten).
Hauptmethoden
Messung
Bewertung als skalierte Beobachtung
Fähigkeitskontrolle
Zielsetzung
motorische Fähigkeiten (Eigenschaften)
Kondition (Kraft, Schnelligkeit, Ausdauer ...)
Koordination (Gleichgewicht, Rhythmisierungsfähigkeit, ...)
kognitive Fähigkeiten
Wahrnehmung, Vorstellung, Denken
musische Fähigkeiten
motivationale Fähigkeiten
Hauptmethoden
(sportmotorische) Tests
Befragung
Beobachtung
6
Fertigkeits- oder Technikkontrolle
Zielsetzung
sporttechnische und technisch-taktische
Fertigkeiten
Qualität der Ausführung
Stabilität der Ausführung
Rentabilität der Ausführung
Hauptmethoden
Beobachtung (skaliert)
visuell, Film, Video
Messung (biomechanisch)
Kinemetrie, Dynamometrie, Goniometrie, ...
2. Phasen der empirischen Forschung
Beschreiben (Deskription) – Suchen (Exploration) – Schließen (De-/Induktion)
1. Erkundungsphase: Fragestellung, Literaturstudium,
Erkundungen,
Beobachtungen durch Induktion, Überprüfen von Einsichten durch Deduktion.
Verarbeiten von
2. Theoretische Phase: Aufstellung von Hypothesen - präzise Formulierung der Annahmen eines
Sachverhaltes, Überprüfung der Hypothesen aufgrund vorliegender empirischer Befunde.
3. Planungsstufe: Konstruktion eines Versuchs, der die Hypothese prüfen soll (siehe
Untersuchungsdesign): was will ich erheben, wo (Kollektiv), wie, ... (lieber zuviel als zuwenig);
Merkmalsstichprobe: Aufstellung aller Variablen, die für die Untersuchung in irgendeiner Weise
relevant sein können - unabhängige Variablen (Einflussgrößen), abhängige Variablen
(Zielgrößen).
Operationalisierung der Variablen, Fehler der Messverfahren.
Personenstichprobe: welche Grundgesamtheit liegt der Stichprobe zugrunde; Kalkulation des
Umfangs; Auswahl, Zufälligkeit, Repräsentativität.
Untersuchungsbedingungen: Labor-, Felduntersuchungen.
Zeitlicher Ablauf der Untersuchung: Pausen, u.U. Programme für die verschiedenen
Trainingsgruppen.
Auswahl von geeigneten statistischen Verfahren.
4. Untersuchungsphase: Realisierung der Planung, Versuchsdurchführung, Datenerhebung.
5. Auswertephase:
a) Bewertung der Daten - Objektivität, Zuverlässigkeit (Reliabilität), Repräsentativität
b) Statistische Auswertung: Anlegen von übersichtlichen Tabellen, Übertragung auf Datenträger,
Datenverarbeitung (statistische Maßzahlen, grafische Darstellungen), Überprüfung der
Anwendungsvoraussetzungen für statistische Tests, Signifikanzniveau, Signifikanztest,
Irrtumswahrscheinlichkeit.
6. Entscheidungsphase: Ergebnisinterpretation und Diskussion:
Verifizierung oder Falsifizierung der Hypothese
inwieweit werden die postulierten Eigenschaften der Population (Theorie) durch stichprobenartig
erhobene Daten (Empirie) bestätigt.
7
3. Untersuchungspläne und Auswertemethoden (Übersicht)
Untersuchungspläne
unabhängige Variable, abhängige Variable, Störvariable
Einzelfalluntersuchungen – Gruppenuntersuchungen
Stichprobe - Grundgesamtheit
populationsbeschreibende – explorative – hypothesenprüfende U.
Felduntersuchungen (externe Validität ) – Laboruntersuchungen (interne Validität)
experimentelle (Zufallsstichprobe) - quasiexperimentelle (natürliche St.) U.
randomisierte, kontrollierte U.
1.
Querschnittsuntersuchungen
G2
G2
V2
V2
„One-Shot Case Study“ (Treatm → Messung)
„Ex Post facto Plan“ (Gv: Tr → M, Gk: M)
a)
b)
c)
d)
G1
G1
V1
V1
2.
Längsschnittsuntersuchungen (Messwiederholungen)
a)
b)
c)
d)
e)
f)
VPretest
VPosttest
VPretest
Treatment
VPosttest „Ein-Gruppen Pretest-Posttest-Design“
VRetest
VTest
mehr als eine Wiederholung
lange Zeitreihen (Anzahl der Messpunkte ≥ 50)
kurze Zeitreihen (A-B, A-B-A, B-A-B, A-B-A-B, ...)
G3
...
V3
...
„Leistungsprofil“
Anm.: d) aus Gruppen- und Einzelfalluntersuchungen
e) aus Einzelfalluntersuchungen
alle anderen Beispiele weiter oben und unten gelten für Gruppenuntersuchungen
3.
Komb. Untersuchungen
a)
Kontrollgruppenplan mit Pretest - Posttest:
PretestExperimentalgruppe
Treatment PosttestExp.Gr.
PretestKontrollgruppe
PosttestKontr.Gr.
z. B. der Standardtyp klinischer Studien: „randomisierte kontrollierte Doppelblindstudie“
(weder Untersucher noch Probanden wissen über die Gruppenzugehörigkeit Bescheid):
PretestExp.Gr.
Treatment
PosttestExp.Gr.
PretestKontr.Gr.
Placebo
PosttestKontr.Gr.
b)
Dreifaktorieller Pretest-Posttest-Plan:
PretestExp.Gr. A
Treatment
PretestExp.Gr. B
Treatment
PretestKontr.Gr. A
PretestKontr.Gr. B
z. B: A ... männlich
B ... weiblich
PosttestExp.Gr. A
PosttestExp.Gr. B
PosttestKontr.Gr. A
PosttestKontr.Gr. B
8
Beschreibende und explorative statistische Verfahren
Kenngrößen
Plots
1.
Querschnittsuntersuchungen
a-d)
MW, s, n
Histogramm, Boxplot, Fehlerbalken
c)
d)
r1/2, r2 , a, b
r, rMatrix, Partialkorr., multiple Korr.
Faktorenanalyse, Clusteranalyse
Streuungsdiagramm
Leistungsprofil
Dendrogramm
2.
Längsschnittsuntersuchungen
a) + b) MW und s von DiffPre-PostICC
a) + b) rPre-Post
c)
Reliabilitätskoeffizient (r), ICC
e)
3.
Autokorrelationen (ARIMA-Modelle)
Komb. Untersuchungen
a) + b) DiffExp.Gr.-Kontr.Gr: beim Pretest und Posttest
MW und s von DiffPre-Post bei Experimentalgruppe und Kontrollgruppe
b)
DiffA-B beim Pretest und Posttest bei Experimantalgruppe
DiffA-B beim Pretest und Posttest bei Kontrollgruppe
9
Prüfstatistik
Signifikanztests für Unterschieds-, Veränderungs- und Zusammenhangshypothesen
Signifikanz (p)
Methoden für normalverteilte Daten und parameterfreie Methoden
1.
a)
b)
c)
2.
Querschnittsuntersuchungen
t-Test für unabhängige Stichproben, U-Test
einfaktorielle Varianzanalye, H-Test
Fisher’s Z-Transformation
Längsschnittsuntersuchungen
a) + b)
a) + b)
Signifikanz für rPre-Post, ICC
t-Test für abhängige Stichproben, Wicoxon-Test
d)
einfaktorielle Varianzanalyse mit Messwiederholungen,
Friedmann-Test
3.
a) + b)
a)
Komb. Untersuchungen
t-Test für unabhängige Stichproben
t-Test für abhängige Stichproben
Zweifaktorielle Varianzanalyse mit Messwiederholungen
z. B. mit den Faktoren Gruppe und Wiederholung
b)
Dreifaktorielle Varianzanylyse mit Messwiederholungen
z. B. mit den Faktoren Gruppe, Wiederholung und Geschlecht
10
B. Beschreibende Statistik
Nach dem Grad ihrer Quantifizierbarkeit ordnet man Merkmale unterschiedlichen
Skalenniveaus zu: Nominalskala, Ordinalskala, metrische Skala (Intervall-,
Rationalskala).
Tabellarische und grafische Darstellungen informieren über die Verteilung eines
Merkmales in einem Kollektiv, bei nominalskalierten Variablen über die Verteilung der
Beobachtungen auf verschiedene Kategorien, bei metrisch skalierten Variablen über die
Verteilung auf Messwerteklassen.
Statistische Kennwerte haben die Aufgabe, über spezielle Eigenschaften der
Merkmalsverteilung summarisch Auskunft zu geben.
Am meisten interessieren uns hierbei Maße, die alle Messwerte möglichst typisch
repräsentieren - die Maße der zentralen Tendenz.
Des weiteren sind Kennwerte gefragt, durch welche die Unterschiedlichkeit oder
Variabilität der Ausprägung eines Merkmals in einem Kollektiv gekennzeichnet wird - die
Streuungsmaße (Dispersionsmaße).
Schließlich gibt es noch Kennwerte, die bei Untersuchungen von zwei oder mehr
Variablen den Zusammenhang zwischen den Merkmalen beschreiben – die
Zusammenhangsmaße.
11
1. Skalenniveau
1.1. Nominalskala
Quelle:
Kriterium:
Häufigkeiten
Übereinstimmung (Verschiedenheit)
führt zur Einteilung in Klassen (Kategorien).
Unterscheidungsmöglichkeit nach Anzahl der Klassen:
z.B. Alternativmerkmale ja - nein, vorhanden - nicht vorh.,
getroffen - nicht getroffen, männlich - weiblich,
oder mehrfach gestufte Merkmale,
z.B. Sportart, Studienrichtung, Beruf, Nationalität u.a.
statistische Verfahren:
Rechenoperationen:
Zählen von Häufigkeiten.
Bildung von Relativzahlen und Prozentwerten
Diese Merkmale werden auch qualitative Merkmale genannt.
1.2. Ordinalskala
Quelle:
Kriterien:
Rangdaten
1. Identität zwischen Elementen auf gleicher Stufe
2. Ordnungsbeziehung: größer – kleiner- bzw.
vor – nach - Relation.
z.B.: Zensuren: sehr gut, gut, befriedigend ...
Güteklassen von Hotels: A, B, C;
Ränge bei sportlichen Bewerben, Treatmentstufen.
statistische Verfahren:
Rangordnung, Zusammenhangsmaße
(zusätzlich zu dem im
vorausgehenden
Skalenniveau genannten)
1.3. Metrische Skal
Skalen
kalen
1.3.1. Intervallskala
Quelle:
Kriterium:
statistische Verfahren:
(zusätzlich zu den in vorausgehenden Skalenniveaus
genannten)
Rechenoperationen:
Messdaten
Abstände (Intervalle) müssen gleich sein.
Mittelwerte, Streuungsmaße,
Zusammenhangsmaße
Addition und Differenzbildung (z.B.: 10 cm größer)
12
1.3.2. Rationalskala
Auch Verhältnisskala oder Absolutheitsskala genannt; besitzt den größten
Informationsgehalt. Zusätzlich zu den Merkmalen der Intervallskala besitzt sie folgende
Eigenschaften:
Kriterium:
statistische Verfahren:
Rechenoperationen
Intervallskala mit absolutem Nullpunkt.
wie Intervallskala
Multiplikation, Division (x-mal schneller, weiter …).
Skalenprobleme!
Noten oder Wertungen mit Punkten: ungleiche Leistungsunterschiede zu benachbarten Skalenstufen
Distanzmessung bei Drehbewegungen: z.B. Rumpfbeugen vw. nach FETZ/KORNEXL
Nach der Quantifizierbarkeit wird bei Messdaten unterschieden in diskrete und stetige
Merkmale:
diskrete Merkmale: Eine Zufallsvariable ist diskret, wenn sie nur endlich (oder abzählbar)
viele Werte aufweist (Beispiel Anzahl der Geschwister, der Treffer, der
Wiederholungen).
stetige oder kontinuierliche Merkmale: können jeden Wert zwischen zwei beliebigen
Werten der Skala annehmen (Beispiel Längen, Zeiten, Gewichtsmessungen ...). Die
Anzahl möglicher Werte ist dabei theoretisch unbegrenzt, praktisch ist sie abhängig
von der Genauigkeit des Messinstrumentes bzw. von der Ablesegenauigkeit.
Werden von an sich stetig ausgeprägten Merkmalen nur ganzzahlige Werte
(Abrundung!) registriert und daraus Mittelwerte gebildet, wird häufig eine
Stetigkeitskorrektur um 0,5 Einheiten vorgenommen.
13
2. Verfahren bei nominalskalierte
nominalskalierten
ominalskalierten Daten
2.1. Tabellarische Ordnung
Kreuztabellen
Untersuchungsgruppen
Geschlecht
Gruppe
Gymnastik
Schwimmen
Kontrollgruppe
Spaltensummen
Verbesserung der Treffgenauigkeit durch Übung
männl. weibl.
6
7
5
18
Zeilensummen
2
1
2
5
8
8
7
23
vorher
getroffen
nicht getr.
getroffen
5
15
nicht getr.
3
8
Zweimalige Erhebung - eindimensional
nachher
Einmalige Erhebung - zweidimensional
2.2
2.2. Graphische Darstellungen
Darstellungen
Balkendiagramm: Streifen- od. Säulen, gruppiert od. gestapelt, absolut od. relativ
Kreis- oder Sektorendarstellung (prozentuell)
Piktogramm (Achtung bei Flächen → 2D - und Körpern → 3D!)
Kartogramm
2.3
2.3. Rechnerische Verfahren
beschränkt auf:
1. Auszählen von Häufigkeiten (N, n)
2. Berechnung von Relativzahlen und Prozentwerten:
2.3.1. Relativzahlen
Gliederungszahlen
Unterordnung einer Teilmenge, relative Häufigkeit, z.B.:
N Sportstudenten
N Studenten
( ⋅100%)
Beziehungszahlen
Nebenordnung verschiedenartiger Mengen,
Quotient zweier verschiedenartiger,
sachlich sinnvoll zusammenhängender Größen, z.B.:
Einwohnerz ahl
Zahl der Sportanlag en
oderAnzahl der Absolventen pro 1000 Studenten und Jahr
Verhältniszahlen
Nebenordnung gleichartiger Mengen,
zahlenmäßiges Verhältnis einer Menge
zu einer gleichartigen nebengeordneten Menge, z.B.:
Schwimmer
Nichtschwimmer
14
Risiko
Koeffizienten, die bei Vierfeldertafeln bestimmt werden können, z.B., wenn das
Risiko, dass ein Ereignis (z. B. Verletzung) eintritt, in Abhängigkeit von einem
Faktor, der 2-fach gestuft ist (Aufwärmen), untersucht wird:
Hinweis für SPSS Anwendungen:
abh. Variable in Spalten (1. Spalte ‚trifft ein’)
unabh. Variable in Zeilen (1. Zeile..Risiko höher)
Kontrollgruppe (wärmt nicht auf)
Interventionsgruppe (wärmt auf)
Die Inzidenzrate ist
Anzahl der
Verletzten
110
60
ohne Verletzung
90
150
bei der Kontrollgruppe
bei der Interventionsgruppe:
110/200 = 0,550
60/210 = 0,286
Das relative Risiko ist 0,550/0,286 = 1,925, d. h.: das Risiko, sich zu verletzen,
ist bei der Kontrollgruppe um das 1,9 fache höher als bei der Interventionsgruppe.
Dieser Koeffizient wird üblicherweise bei Untersuchungen angewandt, die auf Beobachtungen
während eines längeren Zeitraumes beruhen und als Kohortenstudie bezeichnet werden.
Ein weiterer Koeffizient lässt sich berechnen, wenn man die Quoten (Chancen)
bei den beiden Gruppen heranzieht:
Die „Chance“, sich zu verletzen, beträgt
bei der Kontrollgruppe:
110/90 = 1,2
bei der Interventionsgruppe:
60/150 = 0,4
Das Quotenverhältnis Kontrollgruppe/Interventionsgruppe, die sogenannte
odds ratio ist 1,2/0,4 = 3.
Dieser Koeffizient wird üblicherweise bei sogenannten Fall-Kontrollstudien angewandt, bei denen
das Ereignis bereits eingetreten ist, wie es im Beispiel USI-Fitnesstraining (unten) der Fall ist:
37/67
=
0,55
85/54
=
1,57
odds ratio (weibl./männl).:
1,57/0,55
=
2,85
Interpretation: Die Quote derer, die am USI Fitnesstraining mit Musik betreiben, ist beim weiblichen
Geschlecht 2,9 mal höher als beim männlichen Geschlecht.
2.3.2. Zusammenhang nominalskalierter Variablen
Die Quantifizierung bei Nominalskalen besteht in der Angabe von Häufigkeiten. Die
tabellarische Darstellung erfolgt in Kreuztabellen, im einfachsten Fall (bei "dichotomen"
Merkmalen) in einer 4-Feldertafel, z.B.:
USI-Fitnesstraining
Geschlecht
männlich
weiblich
Σ
mit Musik
a: 37
c: 85
122
andere
b: 67
d: 54
121
Σ
104
139
243
a, b, c, d ... beobachtete Häufigkeiten
15
Φ -Koeffizient
Der Zusammenhang von Geschlecht und gewählter Art des Fitnesstrainings kann durch
den Koeffizienten Φ (phi) ermittelt werden:
ad − bc
φ=
(1)
(a + c) ⋅ (b + d) ⋅ (a + b) ⋅ (c + d)
Der Wertebereich für Φ liegt zwischen -1 und +1. Für obiges Beispiel erhalten wir den Wert Φ = - 0,25. Das
negative Vorzeichen lässt sich nicht sinnvoll interpretieren, daher ist es außer Acht zu lassen.
Kontingenzkoeffizient
Wenn die beiden Merkmale in mehr als zwei Kategorien unterteilt sind, ist der
Kontingenzkoeffizient C zu berechnen:
C=
χ2
(2)
χ2+n
χ² (chi-Quadrat) ist eine Kenngröße zur Quantifizierung des Unterschiedes von
Beobachtungshäufigkeiten (fb) und Erwartungshäufigkeiten (fe) (siehe dazu auch
„Vergleich von Häufigkeiten“ in der schließenden Statistik).
n Stichprobenumfang.
Die Erwartungshäufigkeiten lassen sich für obiges Beispiel aus dem Verhältnis der Zeilensummen zur
Gesamtsumme (104/243 = 0,428 bzw. 139/243 = 0,572) berechnen.
Für die Kategorie ‚mit Musik’ ergeben sich die Erwartungshäufigkeiten:
a’ = 122*0,428 = 52,2
und
c’ = 122*0,572 = 69,8;
für die Kategorie ‚andere’ ergeben sich die Erwartungshäufigkeiten:
b’ = 51,8
und
d’ = 69,2.
χ² wird nach folgender Gleichung ermittelt:
χ =
2
χ2 =
k
( f b j - f e j )2
j=1
f ej
∑
(3)
(37 − 52,2) 2 (85 − 69,8) 2 (67 − 51,8) 2 (54 − 69,2) 2
+
+
+
= 15,564
52,2
69,8
51,8
69,2
Für den Kontingenzkoeffizienten C ermitteln wir mit Hilfe von Gleichung 2 den Wert 0,245.
Der Wertebereich für Φ liegt nur im Idealfall, d. h. wenn die Spaltensummen bzw.
Zeilensummen gleich sind, zwischen -1 und +1.
Für C liegt er ebenfalls nur im Idealfall zwischen 0 und +1.
Sowohl für Φ als auch für C ließen sich die maximalen Werte ermitteln, wenn der Wert a oder der Wert c
der obigen 4-Feldertafel 0 auf Null gesetzt wird, und die anderen Häufigkeiten dementsprechend
angepasst werden.
16
3. Verfahren bei intervallskalierte
intervallskalierten
ntervallskalierten Daten
3.1. Listen/Tabellen
Urliste: Ungeordnete Zusammenstellung der Einzeldaten.
Primäre Tafel: nach bestimmten Kriterien (Größe, Gewicht,...) geordnete Urliste.
Vorteil: Übersichtlichkeit, Minimal-Maximalwert,
Differenz daraus → Streuungsbreite.
Stem-and-Leaf Plot: Mittelding zwischen tabellarischer und grafischer Darstellung
Ergebnisse des Tests Armführen – Winkel beim Vortest
(Auswertung mit SPSS)
Frequency Stem & Leaf
1
0
. 9
2
1
* 44
1
1
. 5
4
2
* 3344
2
2
. 67
9
3
* 000122344
4
3
. 5599
Stem width:
Each leaf:
10,0
1 case(s)
Tabellen:
Aufbau: Spalten, Zeilen, Tabellenfach (Zahlenteil);
Formale Hinweise: Tabellen sollen möglichst alle wesentlichen Informationen enthalten.
Überschrift: mit allen notwendigen inhaltlichen Informationen.
Tabellenkopf und Randspalte bilden den Textteil der Tabelle.
Häufigkeitstabelle (Strichliste): Zusammenfassung gleicher Messwerte oder von
benachbarten Messwerten zu Messwerteklassen.
absolute Häufigkeit (fi)
relative Häufigkeit (fir):
f ir =
fi
n
f i% =
fi
⋅ 100%
n
kumulierte Häufigkeit (absolut, relativ)
Mit Hilfe der kumulierten Häufigkeit (Summenhäufigkeit, fc) kann die Frage beantwortet
werden, wieviel Beobachtungseinheiten (Prozent) unter-, ober- oder innerhalb bestimmter
Grenzen liegen. Summenhäufigkeitsverteilungen werden daher für Normierungen verwendet.
fc bis zu einem Messwert oder einer Messwerteklasse auftretende Häufigkeit (inklusiv)
fc1
fc2
fcn -1
fcn
=
=
=
=
f1
f1
f1
f1
+
+ ... +
+ ... +
f2
fn -1
fn -1
+
fn
17
Häufigkeitstabelle: Test Armführen - Winkel vor dem Aufwärmen
Messwerteklassen
< 10°
10° - 14,9°
15° - 19,9°
20° - 24,9°
25° - 29,5°
30° - 34,5°
35° - 39,5°
≥ 40°
Summe
Häufigkeit
Strichliste absolut (fi)
%
/
//
/
////
//
//// ////
////
1
2
1
4
2
9
4
0
23
kumulierte Häufigkeit
absolut
%
(fci)
1
4,3
3
13,0
4
17,4
8
34,8
10
43,5
19
82,6
23
100
23
100
4,3
8,7
4,3
17,4
8,7
39,1
17,4
0
100
Vorteil: geringer Arbeitsaufwand, übersichtlich, Verteilung sichtbar.
3.2. Graphische Darstellung von Verteilungen
Geometrisches Bild einer Menge von Daten oder eines mathematischen
Zusammenhanges; numerische Werte werden durch Punkte, Strecken, Flächen,
Körper ausgedrückt.
Häufigkeitstabelle → Häufigkeitsverteilung, dargestellt im Koordinatensystem:
Abszisse (x-Achse): Messwerteskala oder Messintervalle; Beschriftung: Merkmal, Maßeinheit
Klassenzahl:
Ordinate (y-Achse):
n ≤ 30 → k = 5
30 < n < 400 → k = √n
n ≥ 400 → k = 20
Häufigkeiten (absolut oder prozentuell)
k = 5-15 (höchstens 20)
Die am meisten verwendete Darstellung einer Häufigkeitsverteilung ist das
Histogramm (Treppen-, Stufen-, Säulendiagramm).
schiefe Verteilung (rechtssteil)
Häufigkeitsverteilung (Histogramm)
Häufigkeitsverteilung
PS SS98: Schulterbreite der Vpn. (SPSS-Chart)
PS SS98: Test Armführen - Winkel vor dem Aufwärmen
10
10
8
8
Häufigkeit (abs.)
Häufigkeit (absolut)
„normale“ Verteilung
6
4
2
6
4
2
0
0
34
36
38
40
Schulterbreite (cm)
42
44
7,5
12,5
17,5
22,5
27,5
32,5
37,5
Winkel (°)
Polygonzug (Liniendiagramm): Punkte über den Klassenmitten werden durch Geraden
verbunden.
Summenpolygon: grafische Darstellung der kumulierten Häufigkeitsverteilung
Hinweis: Im Unterschied zu Balkendiagrammen, welche zur Darstellung der Häufigkeit des Auftretens
von Fällen, die verschiedenen Kategorien zuzuordnen sind, müssen die Säulen des Histogrammes
über die ganze Klassenbreite gestellt werden.
Die Gesamtfläche des Histogrammes und die Gesamtfläche unter dem Polygonzug entsprechen der
Kollektivgröße n oder 100% aller Fälle.
Mit übereinandergelegten Polygonzügen können mehrere Verteilungen verglichen werden (bei gleicher
Gruppengröße oder wenn relative Häufigkeiten angegeben werden).
18
Darstellung zweidimensionaler Verteilungen
Die gleichzeitige Untersuchung von zwei Merkmalen einer Personengruppe kann in Form
eines Streuungsdiagrammes bzw. einer zweidimensionalen Häufigkeitsverteilung
übersichtlich dargestellt werden.
Streuungsdiagramm (engl. Scatterplot):
Die gepaarten Beobachtungen jeder Vp. sind als Datenpunkte in das kartesische
Koordinatensystem eingetragen. Üblicherweise werden auf der horizontalen Achse
die Werte der unabhängigen, auf der vertikalen die Werte der abhängigen
Veränderlichen aufgetragen.
Scatterplot
PS SS98: Test Armführen - anthropom. Messdaten
70
Armlänge (cm)
68
66
64
62
60
58
56
32
34
36
38
40
42
44
Schulterbreite (cm)
Wenn eine Tendenz zu einem Zusammenhang besteht, zeigt die Punktewolke eine
in die Länge gezogene Form:
linear - aufsteigend/abfallend
nichtlinear
Die graphische Darstellung des Zusammenhanges in Form eines
Streuungsdiagrammes dient auch als Entscheidungshilfe bei der Wahl der
Kenngrößen für den Zusammenhang (Gerade, Parabel, Kurve 3. Grades,
exponentiell).
bivariate Häufigkeitsverteilung
dreidimensionales Säulendiagramm
x- und y-Achse: Messwerte(klassen)
der beiden korrelierten Variablen;
z-Achse: Häufigkeit
19
Allgemeine Hinweise zur Erstellung von Tabellen und Grafiken
• Tabellen und Grafiken sollen so angelegt und beschriftet sein, dass sie umfassend
informieren, ohne dass man im Text nachlesen muss.
• Die Überschriften müssen die dargestellten Tatbestände in ihrer sachlichen, zeitlichen
und räumlichen Gültigkeit eindeutig abgrenzen.
• Die Benennung der Zeilen/Spalten und Achsen mit der zugehörigen Maßeinheit darf
nicht vergessen werden. Die Klassengrenzen sollen eindeutig sein.
• Bei Übernahme aus Veröffentlichungen muss die Quelle angegeben werden.
3.3.
3.3. Statistische Kennwerte
Die Kennwerte von Stichproben werden meist durch lateinische Buchstaben, Kennwerte
von Grundgesamtheiten meist durch griechische Buchstaben abgekürzt.
3.3.1. Kennwerte für die zentrale Tendenz (Lagemaße)
Bezeichnungen: Mittelwerte, Statistika, Lageparameter;
umgangssprachlich: Durchschnitt(swerte).
Arithmetisches Mittel (Mean)
Symbol: AM, x , µ (my)
n
x =
x 1 + x 2 + ... + x n
=
n
∑x
i
i=1
n
(4)
Def.: Summe aller Messwerte, dividiert durch deren Anzahl.
Gewogenes arithmetisches Mittel (gemeinsamer Mittelwert von zwei oder mehreren
Stichproben):
gleich große Stichproben:
xg =
x1 + x 2
2
unterschiedlich große Stichproben:
xg =
x1 n1 + x 2 n2 + ... + x k n k
n1 + n2 + ... + n k
Median (Zentralwert)
~
Symbol: Mdn, Z, x~ , µ
Def.: jener Messwert, der eine geordnete Reihe von Messwerten (primäre Tafel)
halbiert, sodass oberhalb und unterhalb dieses Messwertes gleich viele
Messwerte vorkommen.
Mdn bei ungeradzahligem n direkt aus der primären Tafel ablesbar, bei geradzahligem n:
arithmetisches Mittel zwischen den beiden zentralen Werten.
20
Modus (Modalwert, Gipfelwert, Dichtemittel)
Def.: Jener Messwert, der am häufigsten vorkommt.
Lage des Modus aus Polygonzug oder Histogramm ablesbar:
beim Maximum oder wenn
mehrere Maxima: bei Nachbarschaft, arithmetisches Mittel der Messwerte,
sonst: beide Werte als Modalwerte angeben, da sie für die Verteilung
charakteristisch sind.
Richtlinien für die Anwendung von Mittelwerten
• Das arithmetisches Mittel ist bei messbaren Merkmalen (Intervallskala) der wichtigste
Lageparameter.
• Der Median ist bei ordinalskalierten Merkmalen anzuwenden. Bei intervallskalierten
Merkmalen soll er zusätzlich oder an Stelle des arithmetischen Mittels bestimmt
werden, wenn die Verteilung schief, mehrgipfelig oder durch Ausreißer verzerrt ist, oder
auch, wenn sehr kleine Stichprobenumfänge vorliegen.
• Für nominal messbare Merkmale ist der Modal der einzig sinnvolle Lageparameter. Die
spezifische Ausprägung der Verteilung eines intervallskalierten Merkmales
(mehrgipfelig, schief) wird durch die Angabe des/der Modalwerte(s) berücksichtigt.
• Falls man die Verteilung der Daten nicht genau kennt oder falls man sich nicht von
vornherein über die Verwendung eines bestimmten Mittelwertes sicher ist, wird
empfohlen, die tabellarische oder besser noch die graphische Darstellung der
Verteilung (Histogramm) zu analysieren, um durch einen treffenden Mittelwert eine
sinnvolle Aussage über die Daten geben zu können.
21
3.3.2. Maße für die Streuung (Dispersionsmaße)
Zur hinreichenden Charakterisierung von Verteilungen sind Mittelwerte nicht ausreichend.
Die Streuungsmaße geben Auskunft über das Ausmaß, in dem die Messwerte vom
Mittelwert entfernt liegen.
Bei der Verwendung von Streuungsmaßen ist auf die Verteilungsform der Daten zu
achten.
Variationsbreite oder Spannweite (Range)
Symbol: R, v
R = x max - x min
Def.: Differenz zwischen dem größten und dem kleinsten Messwert.
Bestimmung: aus der Häufigkeitsverteilung oder primären Tafel )
Nachteil: nur von Extremwerten abhängig (Zufall)!
Quantile
Quantile teilen eine geordnete Zahlenreihe (primäre Tafel) in k gleich umfangreiche Teile:
Perzentile: k = 100
z.B. zehntes Perzentil (P10), neunzigstes P. (P90)
oder Prozentrang - PR30;
Dezile:
k = 10
z.B. erstes Dezil (D1), D9 = P90
Quartile:
k= 4
z.B. erstes Quartil (Q1), drittes Quartil (Q3)
Q1 ist derjenige Wert auf der Merkmalsachse einer Häufigkeitsverteilung, unter dem 25%
und über dem 75% der untersuchten Fälle liegen ( → P25, 25. Perzentil).
Q3 ist derjenige Werte auf der Merkmalsachse, unter dem 75% und über dem 25% der
untersuchten Fälle liegen ( → P75).
Q2 → Median, P50.
• Bestimmung der Quantile:
n Rohdaten (Beobachtungen) werden gereiht (primäre Tafel), sodann wird der
Index i jener Beobachtung bestimmt, die das entsprechende Quantil darstellt,
m.a.W., der wievielten Beobachtung geht die entsprechende Anzahl (10%, 25%
usw.) von Messwerten voraus.
Für Stichprobenumfänge von n = 10 bis n = 21 ist unten eine Zusammenstellung, aus der
zu entnehmen ist, der wievielte Werte (Index i) für bestimmte Quantile (Q1, Median, Q3)
heranzuziehen ist:
n
iQ1
10
3
11
3
12 3+4
13
4
14
4
15
4
iMdn
5+6
6
6+7
7
7+8
8
iQ3
8
9
9+10
10
11
12
n
16
17
18
19
20
21
iQ1
4+5
5
5
5
5+6
6
iMdn
8+9
9
9+10
10
10+11
11
iQ3
12+13
13
14
15
15+16
16
22
Die Ermittlung des Index i der Quartile wird nach folgenden Gleichungen vorgenommen
(nach TUKEY):
Q1(3) = x i
i = integer
n
n
+ 1 (i = integer ⋅ 3 + 1)
4
4
Wenn n durch 4 teilbar ist, liegen die Quartile zwischen zwei Beobachtungen (vgl.
Median):
Q1(3) =
x i + x i+1
2
i =
n
n
(i = ⋅ 3)
4
4
Anmerkung: SPSS weicht von dieser Bestimmungsmethode ab, da es den/die zur Bestimmung
des Medians herangezogenen Wert(e) außer Acht lässt.
Interquartilabstand:
IQR = Q3 − Q1
Angabe, über welchen Wertbereich die Testleistungen der mittleren 50% einer Stichprobe streuen.
Halber Quartilabstand (oder mittleres Quartil):
Q = (Q3 - Q1)/2
durchschnittliche Streuung der Daten um den Median.
Die folgenden Streuungsmaße setzen voraus, dass die Daten symmetrisch verteilt
bzw. normalverteilt sind!
Durchschnittliche Abweichung oder mittlere absolute Abweichung
Def.: arithmetisches Mittel der absoluten Abweichungen aller Messwerte vom Mittelwert.
Symbol: DA, AD
n
∑|x
AD =
i
- x|
i=1
n
Dieser Kennwert wird kaum als Streuungsmaß verwendet.
Bei Bewegungsgenauigkeitstests wird er als Präzisionsmaß verwendet (vgl. FETZ)
23
Varianz und Standardabweichung (Standard Deviation)
Varianz, mittlere quadratische Abweichung:
2
2
Symbole: s , σ
Für normalverteilte Daten.
Def.: Summe der Abweichungsquadrate aller Messwerte vom arithmetischen Mittel,
dividiert durch die Anzahl der Messwerte (vgl. Gl. 4):
n
∑( x
2
s =
i
- x )2
i=1
(5)
n
Vorteil: alle Werte werden berücksichtigt, vom Mittelwert weiter entfernte Werte mehr als
Werte nahe beim Mittelwert.
Standardabweichung:
Symbole: s, σ, SD
Def.: Quadratwurzel aus der Varianz
n
∑( x
s =
Anwendung: s2
s
2
s = ±
i
- x )2
i=1
n
(6)
vor allem in der Prüfstatistik1,
zur Interpretation von Verteilungen
Variabilitätskoeffizient oder Variationskoeffizient:
Def.: Der Variabilitätskoeffizient (v) relativiert die Standardabweichung auf das
arithmetische Mittel.
s
v =
⋅ 100%
(7)
x
Beim Vergleich von Streuungen ist der Variabilitätskoeffizient an Stelle der
Standardabweichung zu verwenden,
• wenn ein Merkmal bei 2 Populationen unterschiedliche Mittelwerte aufweist (z.B.
Körperlänge bei Neugeborenen und bei Erwachsenen - die Streuung ist bei
Erwachsenen größer);
• wenn 2 verschiedene Merkmale hinsichtlich Streuung verglichen werden (z.B.
Kraft/Newton und Schnelligkeit/s).
Einschränkungen für die Verwendung des v:
1
In der Prüfstatistik wird die Varianz/Standardabweichung der Grundgesamtheit benötigt, die in der Regel
aus der Stichprobenvarianz geschätzt wird, indem n im Nenner von Gl. 6 und 7 um 1 vermindert wird (häufig
bei EDV-Programmen).
24
• Die Skala muss einen absoluten Nullpunkt haben,
• die Skala muss konstante Klassengrößen aufweisen (= Intervallskala).
Grafische Darstellung der Kenngrößen von Messdaten
Die Darstellungen enthalten Informationen über die zentrale Tendenz und die Streuung
von Daten.
Fehlerbalken
Dienen zur Darstellung des arithmetischen Mittels und der Standardabweichung
(wahlweise des Standardfehlers und des Konfidenzintervalles - siehe Abschnitt D
Schließende Statistik, Kap 1). Die Fehlerbalken können mit Säulen, welche die Höhe
des Mittelwertes repräsentieren, kombiniert sein.
Hinweis: Zu verwenden bei normalverteilten Daten.
Beispiel:
männlich
weiblich
40
30
30
Anzahl
20
10
10
Std.abw . = .17
Std.abw . = .16
Mittel = 2.54
N = 103.00
0
2.15
2.30
2.45
2.60
2.75
2.90
Mittel = 2.01
N = 72.00
0
3.05
1.35
Standweitsprung (m)
1.50
1.65
Test Standweitsprung - SportstudentInnen
2.6
2.2
2.4
2.0
1.8
1.6
N=
1.80
1.95
2.10
2.25
Standweitsprung (m)
2.8
MW +- 1 SD
2.00
Sprungweite (m)
Anzahl
20
103
72
männlich
w eiblich
2.40
2.55
25
Boxplot
Informiert über Median, erstes und drittes Quartil und über die Extremwerte, ist
daher bei normalverteilten und nicht normalverteilten Daten verwendbar.
Test Einfachreaktion - SportstudentInnen
102
männlich
70
100
60
98
gültige Versuche
Anzahl
50
40
30
20
10
96
94
92
0
87
90
93
96
Einfachreaktion - gültige Versuche
99
90
88
N=
92
54
männlich
weiblich
Hinweis: Falls Werte um mehr als den 1½-fachen bzw. 3-fachen
Interquartilabstand von den Quartilen entfern liegen, werden sie im SPSS
durch die Symbole ° bzw. ∗ als Ausreißer gekennzeichnet.
26
Kennwerte zur Beschreibung einer Verteilung
Schiefe (Skewness) einer Verteilung:
Eine grobe Abschätzung der Schiefe einer Verteilung liefert der Vergleich der
Quartile:
linksteil:
(Q3 - Mdn) >
(Mdn - Q1)
rechtsteil:
(Q3 - Mdn) <
(Mdn - Q1)
oder der folgende Wert:
x - Modus
s
Eine genauere Schätzung der Schiefe ergibt das sog. 3. Potenzmoment (SPSS):
Sch =
n
∑z
Sch =
3
i
i=1
n
• bei linkssteiler Verteilung ist die Maßzahl positiv,
• bei symmetrischer Verteilung Null,
• bei rechtssteiler Verteilung negativ.
(8)
• Faustregel: ein Schiefe-Wert, der mehr als doppelt so groß ist wie sein
Standardfehler (siehe schließende Statistik), spricht für Abweichung von der
Symmetrie.
Exzess, Steilheit, auch Kurtosis genannt (breitgipflig vs. schmalgipflig):
wird durch das 4. Potenzmoment geschätzt (SPSS):
n
∑z
4
i
−3
(9)
n
• Bei hoher Wölbung (schmalgipflig) ist die Maßzahl positiv, bei flacher Wölbung
(breitgipflig) negativ.
Ex =
i=1
27
3.3.3. Maße für den Zusammenhang
Aus den Naturwissenschaften sind Zusammenhänge von Merkmalen bekannt, die durch
exakte Funktionsgleichungen beschrieben werden können, z.B. steigt die Fallhöhe eines
Körper im luftleeren Raum proportional zum Quadrat der Falldauer nach der Funktion
s(t) =
g
⋅ ∆ t2
2
In solchen Fällen lassen sich exakte Vorhersagen über die Höhe des Wertes der
abhängigen Variablen machen, wenn ein bestimmter Wert der unabhängigen Variablen
in die Funktionsgleichung eingesetzt wird (funktionaler Zusammenhang). Wird jedoch z.B.
der Zusammenhang zwischen Trainingsumfang/-intensität und Leistungniveau untersucht,
kann festgestellt werden, dass nicht alle Athleten mit gleichem Training das gleiche
Leistungsniveau erreichen, wofür eine Reihe von anderen z.T. unbekannten Faktoren als
Erklärung dienen können (stochastischer Zusammenhang).
Die (gleichzeitige) Beobachtung von zwei Merkmalen bei der Untersuchung einer
Personengruppe kann grafisch in Form eines Streuungsdiagrammes bzw. in einer
zweidimensionalen Häufigkeitsverteilung dargestellt werden.
Die Gleichung, die einen solchen Zusammenhang beschreibt, wird
Regressionsgleichung genannt, die Enge des Zusammenhanges zwischen zwei
Merkmalen wird charakterisiert durch den Korrelationskoeffizienten.
Regression
Die Ermittlung von Gleichungen, welche die Tendenz eines Zusammenhanges
beschreiben, ist Aufgabe der Regressionsrechnung. Die einfachste Beziehung zwischen
zwei Variablen ist beim linearen Zusammenhang gegeben, von dem im Folgenden die
Rede ist. Die Regressionsgleichung dafür entspricht der
allgemeinen Geradengleichung:
y = a + bx
(10)
Regressionskoeffizienten:
a ... Verschiebung der Geraden, Abschnitt auf der Y-Achse und
b ... Anstieg der Geraden;
a = y − b⋅ x
(11)
n
b=
∑ (x
i =1
i
− x ) ⋅ ( yi − y )
(12)
n
∑ (x
i =1
i
− x)
2
Berechnung der Regressionskoeffizienten: Die Regressionskoeffizienten werden nach dem Kriterium der
kleinsten Quadrate bestimmt: Gesucht wird jene Gerade, für die die Summe der quadrierten
Abweichungen der vorhergesagten y-Werte minimal wird. Die Lösung erhält man mit Hilfe der
Differentialrechnung.
28
Korrelation
Im Streuungsdiagramm können die Datenpunkte nahe der Regressionslinie liegen (enger
oder hoher Zusammenhang), oder weiter davon entfernt sein (niedriger Zusammenhang).
Das Maß für die Enge des Zusammenhanges von zwei Merkmalen (x und y) ist der
Korrelationskoeffizient r oder ρ (rho).
Je nach Skalenniveau wird dafür eine eigene Methode zur Berechnung des
Korrelationskoeffizienten angeboten (siehe unten).
Der Wert von Korrelationskoeffizienten liegt zwischen 0 und 1:
0
für keinen Zusammenhang,
1
für einen vollständigen Zusammenhang zwischen Variablen.
Das Vorzeichen von r beschreibt die Richtung des Zusammenhanges:
+
den positiven oder gleichsinnigen - je größer x, umso größer ist y,
den negativen oder gegensinnigen Zusammenhang - je größer x, umso
kleiner ist y.
Achtung bei der Interpretation des Vorzeichens, z.B.:
Test 1 : Jump a.R.
Test 2 : 20m Sprint
Differenz in cm
Laufzeit in sec
r = - 0.85
Was bedeutet das negative Vorzeichen?
Bei der Interpretation von Korrelationskoeffizienten ist zu unterscheiden, ob mit seiner Hilfe die Höhe des
Zusammenhangs von Variablen beurteilt wird, etwa nach folgender Skala:
r =
0.0 < r <
0.4 ≤ r <
0.7 ≤ r <
r =
0
0.4
0.7
1.0
1
kein Zusammenhang
niedriger
mittlerer
hoher
vollständiger Zusammenhang,
oder ob die Signifikanz des Korrelationskoeffizienten beurteilt wird, das heißt, ob der Zusammenhang
zwischen den Variablen signifikant von Null abweicht (r ≠ 0), siehe dazu die Ausführungen im Abschnitt
„Schließende Statistik“!
Maßkorrelation (Produkt-Moment-Korrelation)
Die Produkt-Moment-Korrelation beruht auf der Kovarianz von zwei intervallskalierten
Variablen. Die Kovarianz als Maß für das "miteinander Variieren" der Messwerte der
beiden Variablen x und y (je größer x, umso größer y) wird folgendermaßen berechnet:
cov(x, y) =
1 n
⋅ ∑ ( xi - x ) ⋅ ( y i - y )
n i=1
(13)
Es ist einsichtig, dass dieses Zusammenhangsmaß durch Maßstabs- bzw.
Streuungsunterschiede zu sehr verschiedenen Werten führen kann, die nicht ohne
weiteres interpretierbar sind; durch Division der Kovarianz durch das Produkt der
29
Standardabweichungen der Variablen x und y erhält man eine "standardisierte
Kovarianz", den sogenannten Produkt-Moment-Korrelationskoeffizienten rpm:
n
∑( x - x ) ⋅ ( y - y )
i
i
i= 1
r=
(14)
n ⋅ sx ⋅ s y
Bestimmtheitsmaß r² (Determinationskoeffizient):
Bei linearem Zusammenhang kann durch Quadrieren von r der auf 1 bezogene
Anteil der gemeinsamen Varianz zweier Merkmale angegeben werden. Als
Prozentwert (r² mal 100%) drückt er aus, welcher Anteil an der Varianz der y-Werte
durch die Variable x (oder umgekehrt) erklärt wird.
männlich
weiblich
A
90
A
Masse (kg)
=
A
A
R-Quadrat
= 0.44
Masse (kg)
80
A
A
A
70
A
A
A
Lineare Regression mit
95.00% Vorhersageintervall für Mittelwert
A AA
A A
A
A
-60.90
+
0.74
* grö
A
A
A
AA
A
A
A
A
A
A
A A
A
A AA
A A
A
A
AA
AA
A
A A
AA
A A
A
AA
A
A
A
A
Masse (kg) = -31.46 + 0.54 * grö
R-Quadrat
= 0.37
A
A
A
A
A A
A
A
A
A
A
A A
A
A A
AAA
A
A
A AA
A
AA
A
A
A
A
AA
60
A
A
A
50
A AA
A
A
A
160
170
180
190
160
Körpergröße (cm)
170
180
190
Körpergröße (cm)
Rangkorrelation
Der Zusammenhang von ordinalskalierten Variablen oder von intervallskalierten Variablen,
die "Ausreißer" enthalten, wird meistens mit dem
Rangkorrelationskoeffizient nach SPEARMAN (rs) erfasst:
n
rs = 1 −
6 ⋅ ∑ d i2
i =1
n(n 2 − 1)
(15)
di Differenz der Rangplätze, die eine Versuchsperson i bezüglich der Merkmale x und y erhalten hat.
Diese Methode für Rangdaten ist von der Produkt-Moment-Korrelation abgeleitet. Sie wird
sehr häufig auch für Messdaten (Intervalldaten) verwendet. Diese müssen zuerst in
Rangreihen übergeführt werden!
Achtung: Verbundene Ränge: Falls identische Messwerte vorkommen, ist diesen jener Rangplatz
zuzuordnen, der sich als durchschnittlicher Rang aller von ihnen beanspruchten Rangplätze ergibt,
z.B. sind den fünf gemessenen Werten 48, 50, 50, 53, 55 die Ränge 1, 2.5, 2.5, 4 und 5 zuzuordnen.
Rangkorrelationskoeffizient nach KENDALL (τ):
Ein anderes bekanntes Korrelationsmaß für Ordinaldaten ist das τ (sprich tau) von KENDALL. Es wird nicht
von der Produkt-Moment-Korrelation abgeleitet. Das τ kann nur positive Werte annehmen, d.h., es gibt nicht
die Richtung des Zusammenhanges an.
Hinweis: Die Rangkorrelation ist auch für jene Fälle heranzuziehen, in denen nur bei einer Variablen die
Voraussetzungen für die Maßkorrelation (Skalenniveau) gegeben sind.
30
Weitere Zusammenhangsmaße sind folgender Übersicht der bivariaten Korrelationsarten
zu entnehmen, die neben weiteren Korrelationsmethoden in BORTZ 1999, 214-225 erklärt
werden.
Merkmal x ⇒
Merkmal y
⇓
Intervallskala
dichotomes
Merkmal
Ordinalskala
Intervallskala
ProduktMoment-Korr.
Punktbiseriale
Korrelation
RangKorrelation
Φ-Koeffizient
biseriale
Rangkorr.
dichotomes
Merkmal
Ordinalskala
RangKorrelation
Zusammenhang bei mehr als zwei Variablen2
Multiple Korrelation
Mit der multiplen Korrelation R wird der Zusammenhang zwischen mehreren (Prädiktor-)
Variablen und einer (Kriteriums-) Variablen bestimmt. Durch Einbeziehen von mehreren
Prädiktoren (unabhängige Variablen) kann ein Kriterium (abhängige Variable) mit Hilfe
einer multiplen Regressionsgleichung vorhergesagt werden. Jede der Prädiktorvariablen
trägt einen Teil zur "Aufklärung" der Varianz der abhängigen Variablen bei. R² mit 100
multipliziert (siehe Bestimmtheitsmaß) gibt an, welchen Prozentsatz der Varianz der
abhängigen Variablen die Prädiktoren aufklären.
Partialkorrelation und „Scheinkorrelation“
Ein Spezialfall für den Zusammenhang zweier Variablen ist gegeben, wenn erst durch
Berücksichtigung einer dritten Variablen der wahre Zusammenhang aufzudecken ist. Wird
beispielsweise der Zusammenhang von Abstraktionsfähigkeit (x) und senso-motorischer
Koordination (y) bei Kindern untersucht, wird ein rxy = 0,89 ermittelt. Wird das Alter der
Kinder (z) mitberücksichtigt und sein Einfluss auf die Variablen x und y
"herauspartialisiert", erhalten wir für den Zusammenhang mit Hilfe der sogenannten
Partialkorrelation den Korrelationskoeffizienten rxy.z = 0,72.
Faktorenanalyse
Wird für die wechselseitigen Beziehungen zwischen vielen Variablen ein einfaches
Erklärungsmodell gesucht, können mit Hilfe einer Faktorenanalyse solche Variablen, die
untereinander stark korrelieren, zu einem Faktor zusammengefasst werden. Variablen von
verschiedenen Faktoren korrelieren untereinander gering. Ausgangspunkt der FA ist die
Korrelationsmatrix. Daraus werden die sogenannten Eigenwerte bestimmt. Es werden
gewöhnlich so viele Faktoren „extrahiert“, als Eigenwerte über 1 vorliegen. Wieviel % der
gesamten Varianz der einzelnen Variablen durch diese Faktoren erklärt werden, wird
angegeben. Die „rotierte“ Faktormatrix enthält die „Ladungen“, welche man als
Korrelationskoeffizienten zwischen den Faktoren und Variablen verstehen kann. Ihre
Deutung führt zum eingangs erwähnten Erklärungsmodell.
2
Die Beschreibung des Grundprinzips und der rechnerischen Durchführung dieser Methoden können
nachgeschlagen werden in BORTZ (1999), S. 429-438 und 495-546
31
Intraclass Correlation Coefficient (ICC)
Wenn die Übereinstimmung von zwei oder mehr als zwei Variablen nicht nur nach ihrer
Richtung betrachtet wird („je größer die eine, desto größer/kleiner die andere“), sondern
auch bezüglich ihres Mittelwertes, dann ist der ICC zu verwenden. Dieser setzt jedoch
voraus, dass alle Variablen in der gleichen Maßeinheit erfasst werden.
Üblicherweise repräsentieren die verschiedenen Variablen das Ausprägungsniveau ein
und desselben Merkmals, das entweder
mit verschiedenen Methoden erfasst wird (z.B. gemessenes und geschätztes
Körpergewicht) oder
das von verschiedenen Beobachtern mit derselben Methode (z. B. bei der Überprüfung
der Objektivität von Tests) erfasst wird, oder
das vom selben Beobachter bei Messwiederholungen (z. B. bei der Überprüfung der
Zuverlässigkeit von Messungen) erfasst wird.
Für Letzteres steht folgendes Beispiel, bei dem es um die Analyse der Reliabilität des
‚Agility’-Tests geht.
120 SportstudentInnen absolvierten je 4 Testdurchgänge mit je 20 Stimuli. Die durchschnittliche
Reaktionszeit bei 20 Stimuli wurde als Testwert registriert. Die Mittelwerte aller 120 Versuchspersonen
(Vp.) bei den 4 Durchgängen sind grafisch als Fehlerbalkendiagramm dargestellt.
Reaktionszeit (Mittelwert +- 1 SD in Sek.)
1000
900
800
700
N=
120
120
MW isol.Sp. V1
V1
V2
V3
V4
V1
1.0000
.7338
.7455
.7533
MW isol.Sp. V2
120
120
MW isol.Sp. V3
MW isol.Sp. V4
V2
V3
V4
1.0000
.8032
.7652
1.0000
.8453
1.0000
Die Maßkorrelationskoeffizienten aus der Kombination aller 4 Variablen sind aus der Korrelationsmatrix
abzulesen. Sie liegen zwischen 0,73 und 0,85.
Im Vergleich dazu ist der mit Hilfe von SPSS errechnete ICC, der eine Art Zusammenfassung aller 6
Kombinationen darstellt, mit 0,75 niedriger als der Durchschnitt der Maßkorrelationskoeffizienten, was auf
die Mittelwertsdifferenzen zurückzuführen ist. Nachdem der ICC hier für die Reliabilitätsüberprüfung
verwendet wurde, ist das Ergebnis so zu interpretieren, dass bei Durchführung des Agility-Tests mit nur
einem Durchgang (single Measure ICC) die Reliabilität nicht sehr überzeugend ist.
Mit der Methode des ICC lässt sich jedoch auch jener Reliabilitäts-Koeffizient ermitteln, der gilt, wenn man
alle 4 Beobachtungsreihen zusammenfasst = mittelt (Average Measure ICC). Dieser beträgt 0,92 und wäre
damit ausgezeichnet.
32
C. Anwendungen bei der Konstruktion
sportmotorischer Test
Sportmotorische Tests sind unter Standardbedingungen
durchzuführende, wissenschaftlichen Kriterien genügende
Prüfverfahren zur Untersuchung sportmotorischer
Merkmale, mit dem Ziel, möglichst genaue quantitative
Angaben über den relativen Grad der
Merkmalsausprägung zu liefern.
Ablaufdiagramm
zur Testkonstruktion
VORÜBERLEGUNGEN
Gültigkeitsbereich
(Valititätskriterium)
Geltungsbereich
TESTENTWURF
Konstruktion d. Testaufgabe
Testanweisung
ERPROBUNG
TESTANALYSE
Anal. d. Testaufgaben
Anal. d. Gütekriterien
KRITERIEN
ERFÜLLT ?
Ja
ENDFORM
NORMIERUNG
PUBLIKATION
Nein
33
1. Testanalyse
Testanalyse
Der Einsatz geeigneter Tests ist grundsätzlich Voraussetzung für die Bewertung von
Untersuchungsergebnissen. Daher ist es unumgänglich, dass wir uns einen tieferen
Einblick in die verschiedenen Aspekte verschaffen, die bei der Beurteilung der Eignung
SMTs zu beachten sind.
Analyse der Testaufgaben und der Rohwerte
Die Testvorform, die an einer repräsentativen Personengruppe erprobt wurde, wird einer
Analyse unterzogen, welche die Aufgabenschwierigkeit, Aufgabentrennschärfe und
Testpunkteverteilung näher untersucht. Sie dienen als wichtige Kriterien für die
Beurteilung der Eignung von Testaufgaben.
Die Untersuchung der Testaufgabe auf diese Kriterien hin erfolgt zweckmäßigerweise
vor der Analyse der Hauptgütekriterien.
Aufgabenschwierigkeit und Aufgabentrennschärfe
Zu hohe oder zu niedrige Schwierigkeit einer Testaufgabe kann dazu führen, dass die
Leistungsfeststellung nur bei einem eingeschränkten Personenkreis möglich ist, z.B.
Test Tauhangeln - die für die Bewertung der Kraftfähigkeit benötigten Zeit ist bei
Kindern nicht erhebbar, der Test ist für die meisten zu schwierig.
Der Test soll eine Differenzierung der Leistungsfähigkeit von Personen ermöglichen,
auch wenn sich deren Leistungsfähigkeit nur wenig unterscheidet; Testaufgaben mit
guter Trennschärfe ermöglichen dies.
Zur Verbesserung der Trennschärfe kann unter Umständen eine Erhöhung der
Testlänge oder der Wiederholungszahl dienen. Die Messgenauigkeit hat Einfluss auf die
Trennschärfe, eine Erhöhung der Messgenauigkeit zur Verbesserung der Trennschärfe
ist aber nur begrenzt sinnvoll. Auch die richtige Aufgabenschwierigkeit kann zu guter
Trennschärfe beitragen. Eine Testbatterie, deren einzelne Items alle gleich schwer sind,
differenziert schlechter als eine Testbatterie mit unterschiedlich schweren Testaufgaben.
Sowohl für die Bewertung der Aufgabentrennschärfe als auch für die Bewertung der
Aufgabenschwierigkeit gibt es „Indizes“ (für den Schwierigkeitsindex nur, wenn es sich
um Aufgabentypen mit dichotomer Leistungsfeststellung - gelöst oder nicht gelöst handelt).
Trennschärfenindizes:
Für intervallskalierte, normalverteilte Testrohwerte:
TI =
Für nichtnormalverteilte oder ordinalskalierte Merkmale:
v
p
TI’ = p
v (%) Variabilitätskoeffizient (siehe deskr. Statistik),
p (%) relative Häufigkeit des Dichtemittels (des Modus).
(vgl. K. JESCHKE, Gedanken zur Trennschärfe sportmotorischer Tests, in:
Leibesübungen - Leibeserziehung, 31(1977) 9:217-220
Für alternativ verteilte (nominalskalierte) Variablen (LIENERT 1989, 113):
34
Upper-Lower-Index: ULI =
Rsuperior - Rinferior
f
Rsup, Rinf
Anzahl der richtigen Antworten in der besseren/schlechteren
Gruppe,
f
Anzahl der Pbn in jeder der beiden gleich großen Gruppen.
Schwierigkeitsindex (LIENERT 1989, 88):
P = 100
NR
N
NR
N
Anzahl der Pbn, die die Aufgabe (richtig) gelöst haben,
Gesamtzahl der Pbn.
Diese Formel wird vor allem für Niveautests verwendet.
Rohwert-Verteilungsanalyse
Die Aufgabenanalyse soll auch darüber Auskunft geben, ob der Test eine hinreichende
Streuung der Punktewerte (Testwerte) besitzt und ob diese annähernd normal verteilt
sind. Hinreichende Streuung und Symmetrie der Rohwerteverteilung sind zwar keine
notwendigen Bedingungen für einen guten Test, aber für die Testeichung von Vorteil.
Analyse der Gütekriterien sportmotorischer Tests
Zu den allgemein geforderten und anerkannten Kriterien von Tests zählen die
sogenannten Hauptgütekriterien:
OBJEKTIVITÄT
RELIABILITÄT oder ZUVERLÄSSIGKEIT
VALIDITÄT,
neben diesen gibt es einige (z.T. umstrittene) Nebengütekriterien wie: Normierung,
Ökonomie, Vergleichbarkeit, Nützlichkeit.
Analyse der Objektivität
Def. (LIENERT 1989, 13): "Unter Objektivität eines Tests verstehen wir den Grad, in
dem die Ergebnisse eines Tests unabhängig vom Untersucher sind. Ein
Test wäre dann vollkommen objektiv, wenn verschiedene Untersucher bei
demselben Probanden zu gleichen Ergebnissen gelangten."
Aufgrund der Differenzierung des testdiagnostischen Prozesses in Durchführung
(Provokation, Registrierung d. Testverh.) Auswertung und Interpretation unterscheiden
wir
- Durchführungsobjektivität,
- Auswertungsobjektivität und
- Interpretationsobjektivität.
35
Zur Erzeugung einer hohen Durchführungsobjektivität ist eine möglichst vollständige
Standardisierung der Bedingungen von Provokation und Registrierung des
Testverhaltens notwendig.
Ermittlung der Durchführungsobjektivität
Indem
1. zwei oder mehrere Untersucher einen Test an derselben Personenstichprobe
durchführen, d.h. das Testverhalten provozieren und registrieren,
2. man das registrierte Testverhalten nach objektiven Kriterien auswertet (-Rohwerte),
3. man den Korrelationskoeffizienten robj(D) zwischen den Testbefunden der
verschiedenen Untersucher ermittelt.
Die Wiederholung der Testdurchführung kann zu einem veränderten Ergebnis führen.
Um dieser Abweichung auf den Grund zu gehen, differenzieren wir den registrierten
Testwert tD in seinen
wahren Wert w (wahre Messkomponente) und seine
Fehlerkomponente eD:
tD = w + e D
Die Fehlerkomponente selbst ist wiederum abhängig von einer Reihe von Faktoren:
eD = eP + eR + eÜb + eFl
eD ... totaler Zufallsfehler bei der Testdurchführung
eP ... Unterschiede in der Provokation
eR ... Registrierungsfehler
eÜb .. Übungseffekte
eFl .. Fluktation des Merkmals
Die Varianz der Messwerte aus wiederholter Testdurchführung, die aus Übungseffekten
stammt, nimmt bei längeren Intervallen zwischen Test und Testwiederholung ab,
während jene Varianz, die durch die Zufallsfehler infolge der Fluktuation bestimmt wird,
größer wird.
Bei der Prüfung der Durchführungsobjektivität ist daher das zeitliche Intervall zwischen
den beiden Testdarbietungen so zu wählen, dass die Summe aus beiden Varianzen ein
Minimum wird.
Ermittlung der Auswertungsobjektivität
Die Auswertungsobjektivität wird ermittelt, indem
1. zwei oder mehrere Auswerter ein registriertes Testverhalten nach bestimmten
Kriterien beurteilen und in Form von Rohwerten aufbereiten.
2. man den Korrelationskoeffizienten zwischen den durch die verschiedenen Auswerter
ermittelten Rohwerten berechnet
Je höher der quantitative Informationsgehalt des testrelevanten Verhaltens ist, umso höher ist der Grad der
Auswertungsobjektivität; bei sportmotorischen Tests spielt die Ermittlung der Auswertungsobjektivität eine
untergeordnete Rolle, wenn die registrierten Ergebnisse eindeutig sind, bzw. auch schon das Testergebnis
darstellen, z.B. Wiederholungszahlen, Trefferzahlen, Zeitwerte, Längenwerte, Gewichtgrößen, Rangziffern,
Punktewerte...
Ermittlung der Interpretationsobjektivität:
Indem zwei oder mehrere Interpreten die Rohwerte nach bestimmten Richtlinien einer
Interpretationskategorie zuordnen und man die Übereinstimmung unter den Interpreten
mit Hilfe des Kontingenzkoeffizienten ermittelt.
36
Beurteilung der Objektivitätskoeffizienten robj
Angaben nur zur komplexen Objektivität (Durchführung, Auswertung, Interpretation):
nach CLARKE (siehe BÖS 1987, 121):
robj
> 0,95
sehr hoch; bei den besten Tests
0,90 - 0,94 hoch; annehmbar
0,80 - 0,89 noch genügend für Individualuntersuchungen
0,70 - 0,79 genügend für Gruppenanalysen, aber nicht ausreichend für
Individualanalysen
< 0,69
brauchbar für Gruppendurchschnittswerte,
völlig ungenügend für Individualanalysen
Analyse der Reliabilität
Def.: (LIENERT 89, 14) "Unter Reliabilität eines Tests versteht man den Grad der
Genauigkeit, mit dem er ein bestimmtes Persönlichkeits- oder
Verhaltensmerkmal misst, gleichgültig, ob er dieses Merkmal auch zu
messen beansprucht (welche Frage ein Problem der Validität ist)."
Ein Test oder eine Messung wäre perfekt zuverlässig, wenn er in der Läge wäre, den
wahren Wert eines Merkmals ohne jeden Messfehler zu erfassen. Ein vollständig
reliabler Test müsste bei wiederholter Anwendung bei denselben Versuchspersonen zu
den gleichen Ergebnissen führen, wenn sich die Fähigkeit (der wahre Wert) nicht
inzwischen geändert hat. Dieser Idealfall kommt in der Praxis nicht vor, wie aus der
Erfahrung mit Versuchswiederholungen bei sportmotorischen Tests bekannt ist.
Fehlereinflüsse können durch Messinstrumente, die Messsituation, durch Ermüdung
und weitere Faktoren verursacht sein.
Voraussetzung
für
die
Bestimmung
der
Reliabilität:
möglichst
genaue
Reproduzierbarkeit der Testergebnisse der einzelnen Testpersonen. Wenn die Messung
genau ist, dann ergibt eine wiederholte Messung dasselbe oder ein ähnliches Ergebnis
( t = w + e).
Der Grad der Zuverlässigkeit wird durch einen Reliabilitätskoeffizienten bestimmt, der
angibt, in welchem Maße die Testergebnisse reproduzierbar sind.
1. Testwiederholungsreliabilität - RETEST-Methode
Die Reliabilität wird bestimmt, indem
1. ein und derselbe Test nach angemessenem Zeitabstand an ein und dieselbe
Stichprobe dargeboten wird und
2. aus den Rohwerten von Test und Testwiederholung der Korrelationskoeffizient rtt
berechnet wird.
Die Anwendung der Retest-Methode ist nur dann sinnvoll, wenn begründet
angenommen werden darf, dass WIEDERHOLUNGSEINFLÜSSE (Übung, ...) keine
oder eine nur sehr geringe, praktisch zu vernachlässigende Auswirkung auf die
Korrelation zwischen Test und Retest haben.
Ein mot. Koordinationstest prüft im Wiederholungsfall zugleich die Funktion des
motorischen Gedächtnisses ⇒ Bedingungsfluktuation.
37
Interpretation der Höhe des Retestkoeffizienten in Abhängigkeit von der Länge des
Zeitintervalls (ROTH 1983, 119):
Länge des Zeitintervalls
Höhe des Retestkoeffizienten
ausreichend
nicht ausreichend
Kurz
hohe Bedingungskonstanz geringe Bedingungskonstanz
(Kurzzeitfunktionsfluktuation)
lang
hohe Merkmalskonstanz
geringe Merkmalskonstanz
hohe Bedingungskonstanz (Langzeitfunktionsfluktuation)
Funktionsfluktuation: ein Test prüft nach einer gewissen Zeit etwas anderes als vorher
oder bei unterschiedlichen Bedingungen einen anderen Aspekt des zu untersuchenden
Merkmals.
Merkmalsfluktuation: das zu prüfende Merkmal weist nach einer gewissen Zeit einen
anderen Ausprägungsgrad auf.
Kriterien für die Anwendung des Retestverfahrens:
1. Wenn die zu untersuchende sportmotorische Leistung eine zeitlich mehr oder weniger
ausgedehnte Invarianz aufweist und
Wiederholungseinflüsse zu vernachlässigen sind.
2. Bei heterogenen Tests, die ein schwer abgrenzbares Persönlichkeitsmerkmal oder
einen Merkmalskomplex diagnostizieren sollen (kein Paralleltest, keine Testhalbierung,
da inhomogene Testbatterie, -profile).
3. Bei sog. Schnelligkeitstests.
2. Paralleltestreliabilität - PARALLELTEST-Methode
wenn wegen Wiederholungseinflüssen (Lern- oder Übungseffekte, Sättigung,
Vertrautheit mit der Testsituation usw.) ein Retest nicht angezeigt ist, dann kann durch
einen PARALLELTEST (validitätsähnlicher Test) die Reliabilität überprüft werden.
Die P. wird bestimmt indem man
1. einen Test und seine Parallelform an derselben Personenstichprobe durchführt
und
2. aus den Rohwertepaaren den Korrelationskoeffizienten rtt ermittelt.
Voraussetzung zur Anwendung ist die Existenz einer Parallelform zu dem
ursprünglichen Test.
Anwendungsgrund: Ausschaltung von Wiederholungseinflüssen.
Problem: Je größer die Gleichartigkeit der beiden Parallelformen ist, umso wirksamer
sind Wiederholungseinflüsse.
Beurteilung der Retest- und Paralleltestreliabilität
BÖS (1987, 123):
Korrelationskoeffizient r
≥ 0,90
0,80 - 0,89
0,70 - 0,79
0,60 - 0,69
< 0,60
ausgezeichnet
sehr gut
annehmbar
mäßig
gering
LIENERT (1989, 309): untere Schranken für r
0,70 zur Beurteilung individueller Differenzen noch ausreichend
0,50 zur Beurteilung von Gruppendifferenzen
0,80 für standardisierte Tests
38
3. Testhalbierungsreliabilität - SPLIT-HALF-Methode
Bei einer Testbatterie kann unter der Voraussetzung, dass der Test aus mehreren
Aufgaben besteht, die sich als Paralleltestformen anordnen lassen.
Die Testhalbierungsreliabilität wird bestimmt, indem man
1. einen Test an einer Personenstichprobe durchführt,
2. die Testaufgaben nach festgelegten Halbierungstechniken aufteilt,
3. den Korrelationskoeffizienten zwischen den beiden Rohwertereihen ermittelt und
4. den Gesamttest Reliabilitätskoeffizienten rtt mit Hilfe einer Schätzformel (u.a.
SPEARMAN-BROWN3) aus dem Halbtest- Reliabilitätskoeffizienten berechnet.
Halbierungstechniken: Halbierung nach geradzahligen und ungeradzahligen Aufg., nach
zufällig ausgewählten Aufg., nach Aufgabenpaaren annähernd gleicher Schwierigkeit,
nach der Testzeit u.a. (LIENERT 1989, 219).
Höhe des Korrelationskoeff. bei allen Methoden abhängig von der Merkmalsvarianz in
der Bezugsgruppe (Stichprobe, Population): bei Leistungshomogenität r ↓,
bei Leistungsheterogenität r ↑.
Komponenten des Messfehlers bei den verschiedenen Verfahren zur Bestimmung
der Reliabilität:
Testwiederholungsmethode
eSubj
eÜb
eFl
e = eSubj + eÜb + eFl
Fehler, der sich auf die Varianz d. Erg. auf Grund mangelnder Objektivität
(bei Provokation, Registrierung, Auswertung) auswirkt.
Fehler, der aus Übungseffekten infolge der ersten Testdurchführung
stammt.
Fehler, der der Fluktuation des zu diagnostiziernden Merkmals
zuzuschreiben ist.
Die Summe aus eÜb und eFl soll ein Minimum sein,
esubj wird ausgeschlossen durch möglichst vollständige Standardisierung.
Paralleltestverfahren
eÄq
e = eSubj + eÜb + eFl + eÄq
mangelnde Übereinstimmung zwischen Test und Paralleltest (eigentl. kein
Fehler sondern wahre Varianz).
Problem: je größer Äquivalenz, desto größer Übungseffekt.
3
vgl. LIENERT 1989, 221
39
Testhalbierung
e = eSub + eÄq
Die Übereinstimmung der beiden "Testhälften" ist am höchsten bei Homogenität des
Tests, d.h. wenn die Testaufgaben dieselbe Variable messen.
Erhöhung der Reliabilität durch Steigerung der Testlänge:
• homogene sportmot. Testbatterien werden erweitert durch weitere homogene Testaufgaben,
• "Verlängern" eines Tests durch Erhöhung der Wiederholungszahl, z.B Wurfgenauigkeit wird besser
gemessen aus 10 Versuchen als aus 5 (Mittelwert daraus - ohne/mit schlechtestem/bestem)
Analyse der Validität
Def.: V. eines Tests gibt den Grad der Genauigkeit an, mit dem dieser Test
dasjenige Persönlichkeitsmerkmal od. diejenige Verhaltensweise, das (die)
er messen soll oder zu messen vorgibt, tatsächlich misst (LIENERT 1989,
16).
Die Validität ist das wichtigste Gütekriterium.
Problem der Gültigkeit von Kontrollmethoden
In den Naturwissenschaften od. in der Anthropometrie sind Messungen eindeutig,
z.B. mit der Waage wird das Gewicht gemessen. Es stellt sich die Frage nach der
Zuverlässigkeit, aber nicht nach der Gültigkeit.
Die bei sportmotorischen Tests geforderten Bewegungsabläufe sind nie Ergebnis
eines einzelnen Funktions- oder Steuerungsprozesses, sondern vielseitig
determiniert.
Das Ergebnis eines sportmot. Tests ist zunächst einmal Ausdruck der erreichten,
speziellen sportmot. Fähigkeit (Fertigkeit) in den geforderten Bewegungen.
Bei der Konstruktion von Testverfahren für die Diagnose mot.
Grundeigenschaften ist zu beachten, dass Einflüsse von Fertigkeiten durch die Art
der Testaufgabe ausgeschaltet werden.
1. Inhaltliche Validität (logische V., triviale V.)
"Der Test bzw. seine Elemente sind so beschaffen, dass sie das zu erfassende
Persönlichkeitsmerkmal oder die in Frage stehende Verhaltensweise repräsentieren, mit
anderen Worten: Der Test selbst stellt das optimale Kriterium für das
Persönlichkeitsmerkmal dar ... Inhaltliche Validität wird einem Test in der Regel durch
ein Rating von Experten zugebilligt" (LIENERT 1989, 16).
Die Erfassung der Maximalkraft mit einem Dynamometer oder die Messung der allgemeinen aeroben
Ausdauer durch Dauerläufe (einfach strukturierte Merkmale) können als inhaltlich valide Methoden
angesehen werden.
Die Interpretation des Ergebnisses hat bei den tatsächlich durchgeführten Operationen zu bleiben,
z.B. Testaufgabe "Wurfgenauigkeit" für die Fähigkeit "genaues Werfen" unter den gegebenen
Bedingungen (z.B aus dem Stand,Bewegung...).,
z.B. kann aus einem Reaktionsschnelligkeitstest nicht auf die Schnelligkeit geschlossen werden, mit der
allgemein reagiert wird.
40
Bei der Inanspruchnahme der inhaltlichen V. werden die zu bewertenden Testaufgaben
einer Gruppe von kompetenten Beurteilern vorgelegt, die über den Gegenstand der
Diagnose befragt werden.
Beispiel: MEINIG (nach ROTH, 1. Aufl. 1977, 133):
Bestätigung der inhaltlichen Validität bei 20 Tests durch Befragung von 110 kompetenten Beurteilern;
einerseits sollte die Dominanz einer "allg. sportmot. Fähigkeit" (mot. Eigenschaft) andererseits der
Gültigkeitsbereich der Fähigkeit nach beteiligten Hauptmuskelgruppen (Arm, Schulter, Bauch, Rücken,
Beinmuskulatur) angegeben werden.
Ergebnis der Beurteiler beim Test:
Klimmziehen
Kraft
64%
Armmuskulatur
61%
Ausdauer
27%
Dreier Hop
Kraft
(50%)
Beinmuskulatur
78%
Gewandtheit
20%
2. Kriteriumsvalidität
Um ein Maß (einen Koeffizienten) für die Höhe der Validität zu erhalten, muss der
Zusammenhang zwischen den nicht direkt beobachtbaren sportmotorischen Funktionsund
Steuerungsprozessen
('latente
Fähigkeiten')
und
den
konkreten
Bewegungsvollzügen ('manifestes Testverhalten') untersucht werden.
Die Kriteriumsvalidität geht davon aus, dass es neben dem Test weitere Möglichkeiten
(Kriterien) gibt, das zu diagnostizierende Merkmal zu erfassen.
Zusammenhang zwischen der latenten Dimension, dem Testverhalten und dem
4
Kriteriumsverhalten (nach FISCHER 1974, 71) :
latente
Dimension
sportmot. Fähigkeit(en) W
die sich bei der Testleistung
und sonstigem (Kriteriums-)
Verhalten auswirken.
rKW
manifeste
Testleistung
rB1W ... Konstruktvalidität
Kriteriumsverhalten K
abhängig von den
sportmot.Fähigkeit(en)
und vom Zufall
rB1K
Testverhalten B1 abhängig
von einer sportmotorischen
Fähigkeit und von
zufälligen Komponenten
Kriteriumsvalidität
4
aus ROTH 1983, 123
41
Unter Kriteriumsvalidität versteht man die Korrelation des Tests B1 mit dem Test K,
dessen Gültigkeit als Messinstrument der latenten sportmot. Fähigkeit bereits
hinreichend nachgewiesen ist.
Der Koeffizient gibt die Enge des Zusammenhanges zwischen Testleistung und dem
(jetzigen oder künftigen) Verhalten in der Kriteriumssituation an.
Solche Situationen liegen z.B. vor, wenn (gleichzeitig) mit dem sportmot. Test
Leistungsmessungen
mit
Paralleltests,
physiologischem
Belastungstest,
dynamographischen Untersuchungen usw. durchgeführt werden, oder wenn
Leistungswertungen von Lehrern, Trainern oder Mitspielern auf Grund von
Beobachtungen der Probanden vorgenommen werden. Da die Übereinstimmung
zwischen Testergebnis und dem Außenkriterium erhoben wird spricht man hier von
⇒ Übereinstimmungsvalidität.
Es gibt auch Kriteriumssituationen, die erst eine gewisse Zeit nach dem Test oder
außerhalb einer Testsituation eintreten, wie z.B. dann, wenn der Test zur Untersuchung
der Eignung oder des Talents für eine bestimmte Sportart durchgeführt wird und das auf
Grundlage des Testergebnisses Vorhergesagte mehr oder weniger eintritt, oder dann,
wenn das Testergebnis durch Wettkampfergebnisse bestätigt wird. Die Gültigkeit des
Tests wird hier unter dem Aspekt der Leistungsrelevanz der beim Test untersuchten
Fähigkeiten beurteilt. Da es hier um die Vorhersage eines Verhaltens geht, das
außerhalb der Testsituation liegt, spricht man daher von
⇒ Vorhersage- oder prädikativer Validität.
Laut LIENERT kommt der Kriteriumsvalidität eine dominierende Rolle bei der
Bestimmung der Validität zu (1989, 255).
3. Konstruktvalidität
"Als K.V. wird die Korrelation zwischen dem Test und der zu messenden latenten
Dimension bezeichnet" (FISCHER zit. nach ROTH 1983, 123). Ihre Bedeutung liegt "in
der theoretischen Klärung dessen, was der betreffende Test misst" (LIENERT 1989,
261), womit die Fähigkeiten und Eigenschaften angesprochen sind.
Methoden zur Konstruktvalidierung
Bei LIENERT wird eine Reihe von möglichen Methoden zur Konstruktvalidierung
aufgezählt und erläutert (1989, 262-264), die einander ergänzen und das Konstrukt (→
Fähigkeit) von verschiedenen Seiten her "einkreisen":
• Korrelation des Testes mit Außenkriterien.
• Korrelation des Tests mit Tests ähnlichen Validitätsanspruches - konvergente
Validität: Verschiedene Methoden zur Erfassung derselben Eigenschaften sollten
hoch miteinander korrelieren (ROTH 1983, 128).
• Korrelation mit Tests, die andere Persönlichkeitsmerkmale erfassen - diskriminante
Validität: Merkmale korrelieren niedrig untereinander.
5
5
Unter diesen Punkt könnte die "Multitrait-Multimethod-Methode" eingeordnet werden, die bei BÖS mit
einem Beispiel erklärt wird (1987, 143-145).
42
• Faktorenanalyse des zu validierenden Testes gemeinsam mit Außenkriterien,
validitätsverwandten und validitätsdivergenten Tests - faktorielle V.: Bei Vorliegen
vieler Interkorrelationen schafft die Faktorenanalyse einen Überblick durch die
6
"Faktoren", welche die konstruktnahen Testaufgaben oder Kriterien hoch "aufladen".
• Analyse interindividueller Unterschiede in den Testresultaten: Der Unterschied oder
die Verteilung der Testresultate bei sog. "Extremgruppen", die repräsentiv bzw. nicht
repräsentativ für bestimmte Fähigkeiten sind, tragen zur Validierung von Tests bei
(Eignungstests, spezielle Leistungsprofile).
• Analyse der intraindividuellen Veränderung bei wiederholter Durchführung mit und
ohne systematische Variation der Durchführungsbedingungen.
• Inhaltlich-logische Analyse der Testelemente.
Validitätskennwerte
Die aufgezählten Gesichtspunkte umfassen neben logischen Analysen auch empirischkorrelationsstatistische und experimentelle Ansätze.
Als Methoden zur Ermittlung eines Validitätskennwertes können vier unterschiedliche
statistische Verfahren zum Einsatz kommen7:
1. Prozentuelle Übereinstimmung von Expertenratings.
2. Prüfung von Mittelwertsunterschieden bei der Extremgruppen-Methode (LIENERT
1989, 280-283)8: Eine Gruppe besitzt das fragliche Persönlichkeitsmerkmal in
"extrem" hohem, die andere in niedrigem Ausmaß.9
3. Prüfung von Korrelations- oder Kontingenzkoeffizienten zwischen Test und Kriterium
bei der Repräsentativgruppenmethode (LIENERT 1989,283-294). Diese Methode
wird mit Stichproben durchgeführt, die der zu testenden Population weitgehend
entsprechen.
4. Verfahren, welche über sogenannte Konstrukte Auskunft geben, indem zunächst die
Korrelationen einer Reihe von Tests in Form einer Korrelationsmatrix dargestellt
werden, und daraus dann sogenannte Faktoren bzw. Faktorladungen bestimmt
werden.
BÖS nennt weiters ein Verfahren, das auch mittels Korrelationsanalysen zur Klärung
von Konstrukten beiträgt, die Multitrait-Multimethod-Methode. Dabei werden
gleichzeitig mehrere Merkmalsbereiche (traits) mit Hilfe verschiedener Methoden (z.B.
Expertenrating und sportmotorische Tests) untersucht und aus den möglichen
Korrelationskoeffizienten werden bestimmte nach vorgegebenen Regeln geprüft (BÖS
1987, 143-145).
6
Vgl. die Faktorenanalyse von 21 speziellen Konditionstests für Schirennläufer bei KORNEXL 1980,
146-164
7
8
9
In diesem Zusammenhang wird auf die Methoden der schließenden Statistik verwiesen.
siehe Statistik: t-Test, U-Test
Beispiel dafür bei E. MÜLLER; E. KORNEXL; W. LEITENSTORFER, Fußballspezifischer
Ausdauertest, in: Leistungssport, 22(1992)3:22-26.
43
Neben den drei behandelten Hauptgütekriterien, die ein in der Forschung eingesetzter
Test erfüllen muss, werden auch Nebengütekriterien genannt, denen ein Test genügen
soll, nämlich
Normierung (siehe unten)
Ökonomie
1. kurze Durchführungszeit,
2. geringer Geräteaufwand,
3. einfache Handhabung,
4. Durchführbarkeit als Gruppentest,
5. schnelle und bequeme Auswertbarkeit,
Nützlichkeit (wenn der Test ein sportmot. Merkmal misst, für dessen Erfassung ein
praktisches Bedürfnis besteht), und
Vergleichbarkeit (wenn Parallelformen oder validitätsähnliche Tests verfügbar sind, die
einen Vergleich des Tests mit sich selbst ermöglichen – vgl. Analyse der Reliabilität und
Validität).
2. Normierung
N. oder Eichung eines Tests ist gegeben, wenn über ihn Angaben vorliegen, die für die
Einordnung des individuellen Testergebnisses als Bezugssystem dienen können.
Bezugssysteme
ideale Norm: Leistung weltbester Sportler, Theorie (Modellvorstellung).
Statistische Norm: dient zur Darstellung intraindividueller und interindividueller
Leistungsunterschiede. Sie beruht auf der Erhebung und Auswertung von
Erfahrungswerten der gesamten Population oder von Teilmengen davon (wenn die
Norm z. B. nach Altersgruppen, Geschlecht, Sportdisziplinen, sozialen Schichten,
Schultypen u.a. differenziert wird).
Für gewöhnlich erhält man das statistische Datenmaterial aus repräsentativen
Bezugsgruppen. Wenn es kein repräsentatives Bezugssystem gibt, dann können auch
Testergebnisse einer Stichprobe als Vergleichswerte dienen.
Für die Interpretation der (Test-)Leistung einer Versuchsperson oder einer Stichprobe wird
deren Leistung mit den Werten der Population verglichen.
Verfahren der statistischen Normierung
Prozentrang-Norm
Mit Hilfe des Prozentranges eines Testwertes einer Versuchsperson wird angegeben,
wieviel Prozent aller Mitglieder eines Kollektivs einen kleineren (oder größeren) Wert
erhalten haben, als die Versuchsperson. Leistungen von verschiedenen
Versuchspersonen lassen sich damit sinnvoll vergleichen.
Prozentrangwerte
können
einfach
Häufigkeitsverteilung bestimmt werden.
anhand
der
kumulierten
44
relativierten
Prozentrang:
PR ( x) = 100
f cum ( x)
N
(16)
Prozentrangnorm für den BODY MASS INDEX (aus: www.medizin-netz.de/adipositas/bmierl.htm)
Standard-Norm
Für Merkmale, die auf metrischem Niveau liegen, und deren Verteilungsform der
sogenannten Normalverteilung entspricht (siehe nächste Seite). Diese Norm beruht auf
der sogenannten z-Transformation:
x -µ
z= i
(17)
σ
Der z-Wert drückt den Unterschied zwischen individueller Leistung (xi) und „Normleistung“
(arithmetisches Mittel der Bezugspopulation = µ) als Bruchteile oder Vielfaches der
Standardabweichung (σ) aus. Jeder Wert einer normalverteilten Variablen lässt sich damit
in einen z-Wert transformieren (siehe Beispiel ‚Sportmotorische Eigenschaftsprofile’, Seite
48). Nach der z-Transformation kann mit Hilfe einer z-Tabelle der Prozentrang (siehe
nächste Seite) der Leistung einer Versuchsperson angeben werden.
Gelegentlich werden z-transformierte individuelle Leistungswerte auch nach folgenden
Regeln in normierte Werte umgerechnet:
Z-Skala:
Z = 100 + 10 z
Standard-Notenskala:
SN = 3 - z
45
Normalverteilung
Die Normalverteilung ist durch µ und σ eindeutig festgelegt. Die Funktion für die
Normalverteilung lautet:
y = f ( x) =
1
2π ⋅ σ
2
⋅e
−
( x−µ )2
2σ 2
Diese theoretische Verteilung ist charakteristisch für viele empirische Verteilungen von psychologischen,
biologischen, anthropologischen und sozialwissenschaftlichen Merkmalen, z.B. Körpergröße, -gewicht,
Testleistungen usw. "Erklärt werden kann das damit, dass empirische Sachverhalte von einer großen
Anzahl unabhängiger Faktoren beeinflusst werden, deren Zusammenwirken aufgrund statistischer
Gesetzmäßigkeiten eine Normalverteilung zur Folge haben" (WILLIMCZIK 1975, 64).
Eigenschaften der Normalverteilung
-3,5
-3
-2,5
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
2,5
3
3,5
z
• glockenförmiger Verlauf,
• symmetrisch,
• Modalwert, Median und arithmetisches Mittel fallen zusammen,
• Verlauf nähert sich asymptotisch der Abszisse,
• die Wendepunkte der Glockenkurve liegen bei ± 1σ; die Tangenten in den Wendepunkten schneiden die
Abszisse in den Punkten µ - 2σ und µ +2σ,
• Die Gesamtfläche zwischen Kurve und Abszisse entspricht der Wahrscheinlichkeit 1.
Die Wahrscheinlichkeit, mit der ein Ereignis in einem bestimmten Bereich auftritt, kann
durch Integration der Teilflächen berechnet werden (Summenhäufigkeitsverteilung).
z-TABELLEN geben den hier graphisch dargestellten Zusammenhang zwischen z-Werten
und relativer Häufigkeit (Wahrscheinlichkeit p) an.
RECHTSSEITIGE FLÄCHENANTEILE DER STANDARDNORMALVERTEILUNG
Wahrscheinlichkeit (rel. Häufigkeit) von Fällen, die größer/gleich z sind
0,5
0,4
0,3
0,2
0,1
0,0
0
0,5
1
1,5
2
z
2,5
3
3,5
46
Beispiel: der Anteil, der von z = 1 von der Fläche unter der Normalkurve abgeschnitten wird, beträgt
0,1587.
Frage: Wieviel bleibt von der Gesamtfläche übrig, wenn man von der anderen Seite gleich viel wegschneidet?
Antwort: Zwischen z = -1 und z = +1 liegen ~68%
Übungsbeispiele zur z-Transformation und z-Tabelle:
Beispiel 1:
Bei (172) Studenten, die zur Prüfung im 100m-Lauf angetreten sind, wurde im Durchschnitt eine
Laufleistung von µ100m = 12,72 s bei einer Standardabweichung von σ100m = 0,58 s erreicht.
Die Messwerte sind annähernd normalverteilt. Es wird angenommen, dass die Forderung nach
Repräsentativität erfüllt ist.
Frage: In wieviel % der Fälle darf man eine Laufleistung von xL = 13,3 s (ehemaliges Limit) oder
besser erwarten ?
Lösung:
zL = (13,3 - 12,72)/0,58 = 1,0 ⇒ p(z ≥ 1) = 0,1587 – Die Wahrscheinlichkeit, dass
jemand eine Leistung von 13,3 s oder schlechter erreicht, ist 0,1587 (15,9%). 84,1% der Fälle
erreichen eine bessere Leistung.
Beispiel 2:
Frage: Wie kann die Leistung eines Läufers bewertet werden, der eine Zeit von x1 = 11,5 s gelaufen
ist?
Lösung: z1 = (11,5-12,72)/0,58 = -2,103 ⇒ Fläche: p = 0,018 (1,8%)
Nur 1,8% der Sportstudenten laufen eine Zeit von 11,5 s oder schneller!
• Diese Beispiele zeigen, wie man mit Hilfe der Standardnormalverteilung empirische
Daten und Verteilungen interpretieren kann.
• Folgende Teilflächen werden durch die z-Werte ± 1, ± 2 und ± 3 eingeschlossen:
µ± σ ⇒
68% aller Ereignisse (Fälle),
µ ± 2σ ⇒
95%
µ ± 3σ ⇒
99,7%.
• In der schließenden Statistik haben vor allem jene z-Werte Bedeutung, die
Flächenanteile von 5% und 1% entweder von einer Seite oder von beiden Seiten der
Normalverteilung abschneiden. Zeichne in untenstehender Abbildung die
entsprechenden Flächenanteile ein!
2-seitig
1-seitig
1,65
α=5%
1,96
-3,5
-3
-2,5
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
2,5
3
3,5
-3,5
-3
-2,5
-2
-1,5
-1
-0,5
z
0
0,5
1
1,5
2
2,5
3
3,5
0,5
1
1,5
2
2,5
3
3,5
z
2,33
α=1%
2,58
-3,5
-3
-2,5
-2
-1,5
-1
-0,5
0
z
0,5
1
1,5
2
2,5
3
3,5
-3,5
-3
-2,5
-2
-1,5
-1
-0,5
0
z
• Bedeutung der NV in der statistischen Fehlertheorie:
47
Eine Messung setzt sich aus 2 Komponenten zusammen:
wi ...... wahre Ausprägung des Merkmales bei einem Objekt i, die gleich bleibt;
ei ....... spezifischer Fehleranteil bei jeder Messung, der vom Zufall abhängt.
Unter der Annahme, dass die Anzahl der zufällig wirksamen Fehlerfaktoren sehr groß ist, sind die
Fehlerkomponenten ei bei vielen Wiederholungsmessungen normal verteilt, positive und negative
Abweichungen gleichen sich aus.
• Mit der Normalverteilung eng verknüpft sind weitere Verteilungen, die eine wichtige
Rolle bei der Prüfung von Hypothesen spielen:
χ -Verteilung
2
(sprich: Chi-Quadrat-Verteilung)
Verteilung quadrierter z-Werte aus einer normalverteilten Zufallsvariablen.
χ = z1 + z2 + z3 +
2
2
2
2
…….
t-Verteilung
Verteilung der Quotienten aus z- und Varianzwerten
F-Verteilung
Verteilung der Quotienten aus Varianzen
3. Sportmotorische
Sportmotorische Leistungsprofile
SPORTMOTORISCHE LEISTUNGSPROFILE
allgemeine/spezielle (n. FETZ, Sportm. Entw. S.32)
mot. Fertigkeiten:
Brauchformen
Sportformen
Kunstformen
mot. Eigenschaften:
Kraft
Schnelligkeit
Ausdauer
Gleichgewicht
Gelenkigkeit
Definition: Allg. sportmot. Leistungsprofile sind genormte graphische Darstellungen der
Ausprägungsgrade relativ eigenständiger Faktoren sportmotorischer Leistungen
(Profilkomponenten) von Einzelpersonen oder Gruppen.
Spezielle sportmotorische Leistungsprofile erfassen leistungsbestimmende
Faktoren einer Sportart.
Die Normierung erfolgt durch die z-Transformation.
Will man eine Gesamtbeurteilung der sportmot. Leistungsfähigkeit abgeben, bietet sich
die Möglichkeit, die z-Werte der einzelnen Faktoren zu summieren und erhält damit
einen einzigen Indikator für die sportmot. Leistungsfähigkeit. Die in den einzelnen Tests
erfassten Eigenschaften können jedoch von sehr unterschiedlicher Bedeutung sein,
daher muss in solchen Fällen eine Wichtung derselben vorgenommen werden. Den so
erhaltenen Indikator bezeichnet FETZ mit allg. sportmot. Leistungsniveau
(Eigenschaftsniveau, Fertigkeitsniveau).
48
Bei der Bildung von Summenscores ist zu beachten, dass Profile dadurch nivelliert werden (z.B. hohes
Ausdauerniveau korreliert häufig mit niedrigem Maximalkraftniveau und umgekehrt), und dass damit
gezielte Maßnahmen zur Verbesserung von Fähigkeiten nicht möglich sind. Die Summenscorbildung ist
nur sinnvoll bei homogenen (eindimensionalen) Testbatterien. Für Komplextests werden
Profilauswertungen vorgeschlagen (vgl. BÖS 1987, 467).
Beispiel: SPORTMOTORISCHE EIGENSCHAFTSPROFILE von Skigymnasiasten und
Lehrlingen Population: 15-jährige männliche Schüler Österreichs 1970 - 1979
Normgruppe: Schüler von Allgemeinbildenden Höheren Schulen
Quelle der Daten: F. FETZ, Sportmotorische Entwicklung, Wien 1982
AHS: Seite 62-73; Skigymnasium: 62-73; Berufsschulen: 163-174
Tabelle 1: Untersuchungsergebnisse
AHS = Bezugsgruppe
TEST
1
2
3
4
5
6
7
8
9
10
11
12
Jump and Reach
Standweitsprung
Klimmzüge
Liegestütze
Aufsitzen
20m-Sprint
Stabfassen
800m-Lauf
Stabbalancieren
Einb. Schwebestehen
Armführen
Rumpfbeugen vw.
SKIGYMNASIUM
BERUFSSCHULE
n
MW
SD
n
MW
SD
275
135
179
211
238
261
146
298
245
277
208
309
42,30
218,20
5,23
9,50
12,01
3,68
16,70
179,00
32,14
20,71
21,05
6,08
7,21
21,60
3,47
2,42
3,33
0,37
3,48
18,70
20,60
16,80
7,92
7,34
10
10
10
10
10
10
10
10
9
10
11
9
49,60
242,90
13,40
16,60
15,30
3,27
11,24
149,89
49,83
47,80
17,60
12,87
6,65
17,10
4,80
1,78
1,64
0,16
2,74
9,55
19,39
10,50
5,00
4,85
n
MW
SD
285
285
226
285
285
285
285
278
285
285
285
285
43,09
195,38
4,49
9,41
11,47
3,80
20,37
199,20
20,41
17,48
21,20
2,10
8,00
20,53
2,19
2,17
1,96
0,24
4,82
27,50
18,92
13,76
6,07
6,69
Tabelle 2: z-Transformation
SKIGYMNASIUM
TEST
1
2
3
4
5
6
7
8
9
10
11
12
BERUFSSCHULE
z-Wert
Jump and Reach
Standweitsprung
Klimmzüge
Liegestütze
Aufsitzen
20m-Sprint
Stabfassen
800m-Lauf
Stabbalancieren
Einb. Schwebestehen
Armführen
Rumpfbeugen vw.
z-Wert
1,01
1,14
2,35
2,93
0,99
1,11
1,57
1,56
0,86
1,61
0,44
0,93
0,11
-1,06
-0,21
-0,04
-0,16
-0,32
-1,05
-1,08
-0,57
-0,19
-0,02
-0,54
16,6
3,00
2,50
13,4
2,00
11,2
47,8
150
1,50
z-Wert
49,6
243 c
15,3
1,00
3,27
12,9
49,8
17,6
0,50
43,1
0,00
4,49
21,2
11,5
9,4
17,5
3,80
-0,50
20,4
-1,00
195
199
Schnell
Kraft
-1,50
Test
Maßeinheit
2,1
20,4
Ausd
1
2
3
4
5
6
7
8
9
cm
cm
Wh
Wh
Wh
s
cm
s
s
Skigymnasium
Berufsschule
Glg
w
Gel
10
11
s
°
12
cm
49
D. Schließende Statistik
Empirische Forschung dient nicht nur dazu, Vorgänge oder Sachverhalte mit geeigneten
Mitteln zu beschreiben, sondern auch dazu, um aus bekannten oder angenommenen
Sachverhalten Folgerungen abzuleiten oder daraus Schlüsse zu ziehen.
induktive Methoden
direkter Schluss
STICHPROBE
Stochastik
GRUNDGESAMTHEIT
MODELL
deduktive Methoden
indirekter Schluss
Wie in vielen Forschungsbereichen gelangt man in den Sportwissenschaften aus einer
Vielzahl von Einzelbeobachtungen (Stichprobenergebnissen) zu allgemeingültigen
Aussagen (induktive Methode). Die Kennwerte der Stichprobe dienen zur Beschreibung
der Parameter der Grundgesamtheit. Bei Verwendung dieser Methode muss man
allerdings mit einem Stichprobenfehler (→ Standardfehler) rechnen, der „nur“ die
Schätzung eines Intervalles erlaubt, in welchem sich ein Parameter der Grundgesamtheit
(z.B. µ) befindet (→ Vertrauensintervall).
Zu den Aufgabenstellungen der schließenden Statistik, die mit deduktiven Methoden
bearbeitet werden, gehört die Prüfung von Hypothesen (→ Hypothesen). Diese
behaupten bestimmte Eigenschaften der Grundgesamtheit (Modell), und es ist empirisch
mit Hilfe von Stichprobenuntersuchungen zu prüfen, ob sie zutreffen. Wie weit dürfen
Stichprobenkennwerte von den (theoretischen) Erwartungswerten abweichen, dass sie
noch als Beweis für die Brauchbarkeit der Hypothese verwendet werden können? - damit
beschäftigen sich die → Signifikanztests.
Die Sicherheit bei Schlüssen jeder Art kann nicht vollkommen sein, weil Stichproben vom
Zufall abhängig sind. Aber das Risiko, die Irrtumswahrscheinlichkeit solcher Aussagen,
kann mit Hilfe der Wahrscheinlichkeitslehre (Stochastik - von στοχοσ = „das Vermutete“)
abgeschätzt werden.
50
Die allgemeine Definition der Wahrscheinlichkeit ist:
p ( A) =
p
(A)
p(A)
•
Anzahl der günstigen Ereignisse
f ( A)
=
Anzahl der möglichen Ereignisse
n
(18)
engl. (lat.) Probability,
Ereignis
die Wahrscheinlichkeit für das Eintreten von Ereignis A.
aus der Definition ergibt sich, dass für p(A) nur Werte zwischen 0 und 1 möglich sind:
0 ≤ p(A) ≤ 1.
•
die Differenz aus empirischer und theoretischer Wahrscheinlichkeit ist umso kleiner, je
größer die Anzahl der Beobachtungen ist. ⇒ Die Genauigkeit mit der aus
empirischen Beobachtungen auf das Modell geschlossen werden kann, ist
abhängig von der Anzahl der Beobachtungen.
1. Populationsbeschreibende Untersuchungen – induktiver
Schluss
Frage der Generalisierbarkeit von Ergebnissen, Formulierung allgemeingültiger Aussagen,
die über die Beschreibung einer spezifischen Personengruppe (Stichprobe) hinausgehen,
an der die Ergebnisse erhoben wurden.
Begriffe
Grundgesamtheit (Ausgangsverteilung, Population)
umfasst alle (N) potentiell untersuchbaren Einheiten, die ein gemeinsames Merkmal oder
gleiche Merkmalskombinationen aufweisen.
Grundgesamtheiten lassen sich voneinander durch sachliche, zeitliche und lokale
Kriterien abgrenzen. Z.B. Studenten des 1. Jahrganges des ISW Innsbrucks im laufenden
Studienjahr.
Untersuchungen sämtlicher Elemente einer Population (Total- oder Vollerhebung) sind in
den uns tangierenden Wissenschaften äußerst selten, da zu kostspielig, z.T. auch
theoretisch nicht möglich (hypothetische Grundgesamtheit, z.B. Population aller
Bewegungsgestörten).
Es besteht grundsätzlich die Möglichkeit, aufgrund von Daten, die bei einer kleineren
Personen- oder Objektgesamtheit erhoben wurden, induktiv allgemeingültige Aussagen
über die Population zu treffen.
Stichprobe
Teilmenge
(des
Umfanges
n)
aller
Untersuchungseinheiten,
die
die
untersuchungsrelevanten Eigenschaften der Grundgesamtheit möglichst genau abbilden
soll - "Miniaturbild" der Grundgesamtheit.
51
Die Entnahme der Stichprobe aus der Grundgesamtheit muss mit Hilfe von geeigneten
Zufallsmechanismen erfolgen.
Eine auf solche Art und Weise gefundene Stichprobe besitzt die Eigenschaft der
Repräsentativität.
Repräsentativität
• Globale Repräsentativität - in Bezug auf alle Merkmale
• Spezifische Repräsentativität - in Bezug auf bestimmte Merkmale.
Arten von Stichproben
Zufallsstichprobe:
Jedes Element der Grundgesamtheit kann mit gleicher Wahrscheinlichkeit ausgewählt
werden (wenn über die Verteilung des relevanten Merkmals nichts bekannt ist);
systematischer Fehler z.B. wenn nur Leute mit Telefon befragt werden).
geschichtete Stichprobe:
wenn die Determinanten für das zu untersuchende Merkmal bekannt sind.
Schichtungsmerkmale: Geschlecht, Alter, sozioökonomische (Beruf, Schule, Einkommen,
…) u.a.
Generell gilt, dass eine sinnvoll geschichtete Stichprobe repräsentativer ist als eine
Zufallsstichprobe.
Klumpenstichprobe:
Teilmengen, die schon vorgruppiert sind, z.B. Schulklassen.
Statistische Kennwerte, Maßzahlen
Stichprobe: „Statistiken“ x, ~
x , s, r
Grundgesamtheit: „Parameter“ µ, σ, ρ
Parameter für die Grundgesamtheit werden mit griechischen Buchstaben
bezeichnet, Stichprobenkennwerte mit lateinischen Buchstaben.
Standardfehler des Stichprobenmittelwertes
Werden aus einer Grundgesamtheit mehrere Stichproben gezogen, darf nicht erwartet
werden, dass die statistischen Kennwerte, z.B. Mittelwerte, identisch sind. Die
Unterschiede sind jedoch aus folgenden Gründen kalkulierbar:
• Mittelwerte ( x ) aus hinreichend großen Zufallsstichproben (n > 30) verteilen sich
normal um den Mittelwert der Grundgesamtheit (µ) mit einer Streuung σ x )
• Die Streuung von Mittelwerten aus Zufallsstichproben des gleichen Umfanges, gezogen
aus einer Grundgesamtheit wird als Standardfehler der Mittelwerte ( σ x ) bezeichnet.
• Der Standardfehler der Mittelwerte ist proportional zur Populationsstreuung σ.
• Der Standardfehler nimmt mit zunehmendem Stichprobenumfang ab.
Wenn die Populationsvarianz bekannt ist, gilt folgende Beziehung:
σX =
σ2
52
σ
Wenn die Populationsvarianz aus der Stichprobenvarianz geschätzt
n
n
werden muss, was normalerweise der Fall ist, muss die Stichprobenvarianz zunächst mit
dem Faktor n/(n - 1) multipliziert werden, da sie die Populationsvarianz um diesen Faktor
unterschätzt:
=
σ$ 2 =
∑( x i - x )2
n
⋅
n
(n - 1)
daher ist
σ$ x =
σ$ 2
n
=
∑( x i - x )2
n(n - 1)
(19)
Vertrauensintervall des arithmetischen Mittels von Stichproben
Nachdem wir also annehmen dürfen, dass die Mittelwerte aus einer genügend großen
Zahl von Stichproben normalverteilt sind, können wir die Verteilungseigenschaften der
Normalverteilung auf die Verteilung der Stichprobenmittelwerte übertragen, z.B. liegt der
Mittelwert µ der Grundgesamtheit mit einer Wahrscheinlichkeit von ca. 68% im Bereich
von x ± σˆ x .
Üblicher ist es jedoch, dasjenige Vertrauensintervall zu ermitteln, in dem sich der
Populationsparameter µ mit einer Wahrscheinlichkeit von 95% (α = 5%) oder 99% (α =
1%) befindet.
∆ krit = x ± z (α / 2) ⋅ σˆ x
(20a)
Für α = 5% (α/2 = 2,5%) ist der z-Wert 1,96 (vgl. z-Tabelle).
Der Mittelwert der Population liegt mit 95%iger Wahrscheinlichkeit im Intervall:
x - 1,96 ⋅ σ$ x
≤ µ ≤ x + 1,96 ⋅ σ$ x
(20b)
Übungsbeispiel:
Berechne mit den Angaben des Übungsbeispiels zur z-Transformation (n = 172, x 100m = 12,72 s,
σˆ 100 m =± 0,58 s) jenes Intervall, in welchem mit 95 %iger (99 %iger) Wahrscheinlichkeit der
Mittelwert der Grundgesamtheit liegt!
σˆ x =
Untergrenze =
Obergrenze =
Vertrauensintervalle für den Median siehe SACHS (1992), LIENERT (1978).
53
Stichprobenumfang
Rückschlüsse auf die zu untersuchende Grundgesamtheit sind umso sicherer, je größer
der Stichprobenumfang ist. Aus Gründen der Zeit und des Aufwandes muss die Größe der
Stichproben oft klein gehalten werden, sodass mit zufallsbedingten Schwankungen der
Ergebnisse zu rechnen ist. Daher sind in der schließenden Statistik die Methoden zur
Bestimmung des „optimalen“ Stichprobenumfanges von Wichtigkeit, bei denen die
Sicherheit der Schlüsse ausreichend und der Aufwand vertretbar ist.
Der Untersucher hat daher schon bei der Planung der Untersuchung Folgendes
festzulegen:
• Obergrenze für die Irrtumswahrscheinlichkeit (z.B α ≤ 5%)
• Fehlerspanne (Vertrauensintervall; z.B. das Intervall, in welchem der
Mittelwert der Grundgesamtheit mit einer Wahrscheinlichkeit von p = 0,95
liegt, soll nicht größer als 0,2 sec sein).
Unter Berücksichtigung dieser Punkte kann auf der Basis von Vorversuchen die
Stichprobengröße bestimmt werden.
Für die Größe der Stichprobe ist nicht der Umfang der Grundgesamtheit (N)
maßgebend.
Allgemein gilt, dass mit kleiner werdendem Vertrauensintervall bei konstanter
Irrtumswahrscheinlichkeit der benötigte Stichprobenumfang quadratisch anwächst
(BORTZ 1989, 138).
"Groß, klein, ausreichend (hinlänglich) groß, optimal" sind statistische Ausdrucksweisen:
"groß" für den Statistiker:
n > 30,
"klein":
n ≤ 30.
Übungsbeispiel:
Wie groß müsste in obigem Beispiel die Stichprobe sein, dass das 95 % Vertrauensintervall 0,01 s
beträgt?
54
2. Hypothesenprüfende
Hypothesenprüfende Untersuchungen - deduktiver
Schluss
Im letzten Kapitel wurde beschrieben, wie man mit Hilfe statistischer Kennwerte ( x , s)
einer Stichprobe allgemeingültige, d.h. nicht nur für die Stichprobe gültige Aussagen
formulieren kann - über die Berechnung der Vertrauensintervalle.
Wir wollen jetzt den umgekehrten Weg gehen, indem wir zuerst bestimmte Eigenschaften
für eine Population fordern (Formulierung von Hypothesen) und daraufhin überprüfen,
inwieweit die postulierten Eigenschaften der Population (Theorie) durch stichprobenartig
erhobene Daten (Empirie) bestätigt werden (Signifikanztests).
Hypothesenarten und -formulierungen
Bei Hypothesen unterscheiden wir nach Art (Unterschieds-, Veränderungs- und
Zusammenhangshypothese), Richtung (gerichtete, ungerichtete) und Inhalt (H1, H0).
In den angeführten Beispielen werden zwei Formulierungen gegeben, die inhaltliche,
welche den Sachverhalt umschreibt, und die statistische, welche in formelhafter Weise
den Inhalt möglichst präzise ausdrückt und damit auch die Wahl des Verfahrens zur
Prüfung der Hypothese andeutet.
Unterschiedshypothese
Zwei Populationen, die die Ausprägung einer unabhängigen Variablen (z.B. Geschlecht)
repräsentieren, unterscheiden sich bezüglich einer abhängigen Variablen (Gelenkigkeit,
Wirkung von MVC).
Beispiel:
a) einseitig gerichtet:
Kurzform
inhaltliche Formulierung
µF > µM
Die Gelenkigkeit bei Frauen liegt auf höherem
Niveau als bei Männern.
b) zweiseitig gerichtet (ungerichtet): µF ≠ µM
Die Wirkung von MVC ist unterschiedlich bei
Männern und Frauen.
Veränderungshypothese
Die über die Zeit verteilten Ausprägungen einer unabhängigen Variablen (z.B.
Aufwärmen) verändern die Ausprägung einer abhängigen Variablen (Gelenkigkeit,
Schnellkraft).
Beispiel:
a) einseitig gerichtet:
Kurzform
inhaltliche Formulierung
µvor < µnach Die Gelenksbeweglichkeit ist vor dem Aufwärmen
schlechter als nach dem Aufwärmen.
b) zweiseitig gerichtet:
µvor ≠ µnach Durch
MVC
verändert.
wird
die
Schnellkraftleistung
55
Zusammenhangshypothese
Zwischen zwei oder mehreren Merkmalen besteht ein Zusammenhang.
Beispiel:
a) einseitig gerichtet:
Oder
b) zweiseitig gerichtet:
Kurzform
ρ>0
ρ<0
ρ≠0
inhaltliche Formulierung
Je
höher
das
Leistungsniveau
der
Versuchspersonen, umso stärker ist die Wirkung
von MVC auf die Schnellkraftleistung (positiver
Zusammenhang).
Je besser das Ergebnis beim COOPER-Test,
desto schlechter die Leistung beim 100 m Sprint
(negativer Zusammenhang).
Es besteht ein Zusammenhang zwischen
Reaktionsschnelligkeit und Aktionsschnelligkeit.
Alternativhypothese
Die Beispiele zu den drei Arten der Hypothesen sind als sogenannte Alternativhypothese
(H1) formuliert worden.
Nullhypothese
In Abhängigkeit von der Alternativhypothese wird die sogenannte Nullhypothese (H0)
formuliert: sie beinhaltet allgemein, dass der in der Alternativhypothese formulierte
Sachverhalt nicht zutrifft, dass die Behauptung nicht stimmt oder, dass das Gegenteil der
Fall ist (bei einseitig formulierter Hypothese).
Bei den genannten Beispielen lauten die Nullhypothesen:
Unterschiedshypothese
a) H0 einseitig gerichtet:
b) H0 zweiseitig gerichtet:
µF ≤ µM
µF = µM
Veränderungshypothese
a) H0 einseitig gerichtet:
b) H0 zweiseitig gerichtet:
µvor ≥ µnach
µvor = µnach
Zusammenhangshypothese a) H0 einseitig gerichtet:
b) H0 zweiseitig gerichtet:
ρ≤0
ρ=0
bzw. ρ ≥ 0
Bei einseitig gerichteten Alternativhypothesen unterscheidet man zudem zwischen
spezifischen und unspezifischen Hypothesen.
Im Gegensatz zu den obigen unspezifischen Formulierungen geben spezifische
Hypothesen auch die Größe des Unterschiedes, der Veränderung oder des
Zusammenhanges an. In der Regel können Hypothesen nur unspezifisch formuliert
werden.
Von der Art der Hypothese hängt das statistische Verfahren zu ihrer Prüfung ab. Die
Verfahren beruhen auf Häufigkeits-, Mittelwerts- und Streuungsvergleichen bei
Unterschieds- und Veränderungshypothesen, auf Korrelationsrechnungen bei
Zusammenhangshypothesen (→ Signifikanztests).
56
Prüfung von Hypothesen - Signifikanztests
Grundprinzip der Signifikanzprüfung
Eine mehr oder weniger begründete Behauptung über Eigenschaften einer Population
muss erst durch wiederholte Konfrontation mit Stichprobenergebnissen ihre Brauchbarkeit
erweisen. Wie kann ein Stichprobenergebnis, das Zufallsschwankungen unterliegen kann,
herangezogen werden, um über die Richtigkeit einer aus einer allgemeinen Theorie
abgeleiteten Hypothese zu entscheiden? Wie stark darf beispielsweise ein
Stichprobenmittelwert von dem nach der Theorie zu erwartenden Mittelwert abweichen,
um ihn gerade noch 'als mit der Theorie übereinstimmend' zu deklarieren?
Die klassischen statistischen Tests oder Signifikanztests dienen zur Entscheidung
zwischen den zwei Hypothesenformulierungen, der H0 und H1. Signifikanztests sind
Methoden, die mit Hilfe wahrscheinlichkeitstheoretischer Ansätze prüfen, ob Unterschiede,
Veränderungen oder Zusammenhänge bei Stichprobenuntersuchungen (Empirie) besser
durch die Nullhypothese erklärt werden können, sodass es also angezeigt ist, die H0
beizubehalten, oder ob sie besser mit der Alternativhypothese übereinstimmen, sodass es
also angezeigt ist, die H0 zu "verwerfen", und damit die H1 zu akzeptieren.
Die Nullhypothese stellt in der klassischen Prüfstatistik die Basis dar, von der aus
entschieden wird, ob die Alternativhypothese akzeptiert werden kann oder nicht. Es
wird also zunächst die Nullhypothese angenommen und berechnet, wie wahrscheinlich
das empirische (oder ein extremeres) Ergebnis bei dieser Annahme ist.
Beispiel:
Die Untersuchung des allgemeinen sportmotorischen Eigenschaftsniveaus von
Sportgymnasiasten ergab, dass diese ein höheres Niveau aufweisen, als AHSSchüler der vergleichbaren Alters- und Geschlechtsgruppe.
Die Parameter der Population (AHS-Schüler) seien µ = 40 (Punkte), σ = 8.
Der Mittelwert der Stichprobe (Sportgymnasiasten, n=100) beträgt 42 Punkte.
Im Abschnitt über Stichproben haben wir abgeschätzt, wie stark Stichprobenergebnisse
zufällig vom Populationsparameter abweichen können. Wir nehmen an, die Daten seien
normalverteilt und die Nullhypothese wäre richtig: Die Gruppe der Sportgymnasiasten
gehört bezüglich des sportmotorischen Eigenschaftsniveaus zur Grundgesamtheit der
breit untersuchten AHS-Schüler, ein eventueller Unterschied ist zufällig.
Frage: Mit welcher Wahrscheinlichkeit ist mit dem gefundenen (42 Punkte) oder einem extremeren Ergebnis
zu rechnen, wenn wir davon ausgehen, dass die Nullhypothese richtig ist? Je geringer die
Wahrscheinlichkeit für ein x = 42 Punkte ist, umso eher dürfen wir uns zugunsten der
Alternativhypothese entscheiden.
Lösung: Für alle Zufallsstichproben des Umfanges n = 100 lässt sich ihre Streuung um den Populationsmittelwert
berechnen (siehe Standardfehler):
σX =
σ
n
=
8
= 0,8
100
Über die z-Transformation des Stichprobenmittelwertes kann die Irrtumswahrscheinlichkeit bestimmt werden:
z=
x-µ
σX
=
42 - 40
= 2,5
0,8
57
Die Wahrscheinlichkeit, dass ein Stichprobenmittelwert so gut oder besser ausfällt, als der
Stichprobenmittelwert x = 42 Punkte, kann an der Fläche α abgelesen werden.
Der Flächenanteil, der mit z = +2,5 von der Normalverteilungsfläche abgeschnitten wird
(vgl. Seite 45 f.), beträgt 0,0062, mit anderen Worten: wenn 100 Stichproben des
Umfanges n = 100 aus der Population der AHS-Schüler gezogen werden, können wir nur
bei weniger als einer Stichprobe eine durchschnittliche Leistung von x = 42 Punkten oder
mehr erwarten. Die Wahrscheinlichkeit dafür, dass das gefundene oder ein extremeres
Ergebnis bei Gültigkeit der H0 hätte auftreten können, beträgt 0,0062, d.h. sie ist sehr
gering, weswegen wir besser annehmen, dass Sportgymnasiasten einer anderen
Population angehören.
Der Wert 0,0062 ist also ein Wahrscheinlichkeitswert und wird als Signifikanz (p-Wert)
bezeichnet.
Die Nullhypothese „Das mot. Eigenschaftsniveau von Sportgymnasiasten ist gleich (oder
niedriger) wie (als) das von AHS-Schülern“ wird also auf Grund des berechneten p-Wertes
verworfen und die einseitig formulierte Alternativhypothese („Sportgymnasiasten weisen
ein höheres sportmot. Eigenschaftsniveau als AHS-Schüler auf“) wird akzeptiert. Das
Risiko, dass wir irren, wenn wir die H0 verwerfen, ist nur sehr gering, anders gesagt beträgt
die Irrtumswahrlscheinlichkeit (α) bei Annahme der Alternativhypothese 0,62%.
Signifikanzaussagen und Signifikanzschranken
Für die statistische Entscheidung (H0 versus H1) werden Schranken gesetzt, die von den
Konsequenzen eines Fehlschlusses abhängen. Im Allgemeinen setzt man die Schranke
bei einem Risiko von 5 %, d. h., die Irrtumswahrscheinlichkeit α beträgt 5%, mit anderen
Worten, wenn der p-Wert kleiner oder gleich 0,05 ist, wird die Nullhypothese verworfen,
und man spricht von einem signifikanten Ergebnis („Der Unterschied zwischen ... und …
ist signifikant“, bzw. „Durch das Treatment hat sich ...... signifikant verändert“, oder „Der
Zusammenhang zwischen ... und ... ist signifikant“) und fügt der Aussage den p-Wert (ev.
in Klammer) bei.
Dabei ist zu berücksichtigen, ob die Hypothese einseitig, wie im obigen Beispiel, oder
zweiseitig formuliert ist. Für obiges Beispiel ließen sich die Schranken (Punktewerte)
ermitteln, ab denen signifikante Unterschiede auftreten. Signifikant unterscheide sich eine
Gruppe von den AHS-Schülern dann, wenn sie außerhalb des 95% Vertrauensintervalles
(der Stichprobenmittelwertsverteilung) liegen. Die Schranke für α = 5% (zweiseitig) liegt in
der Normalverteilung bei z = 1,96. Damit ergibt sich die
obere Schranke = x + z( α ) ⋅ σˆ x = 40 + 1,96 ⋅ 0,8 = 40 + 1,568 = 41,568
und die
untre Schranke = x − z( α ) ⋅ σˆ x = 40 − 1,568 = 38,432
Den Wahrscheinlichkeitswerten werden folgende Signifikanzaussagen zugeordnet:
0,05 ≥ p > 0,01:
0,01 ≥ p > 0,001:
p ≤ 0,001:
Sternsymbolik
signifikantes Ergebnis
*
stark signifikantes Ergebnis
**
sehr stark signifikantes Ergebnis
***
Aufgabe: Überprüfe, ob das Niveau der Sportgymnasiasten stark signifikant über dem der
Vergleichsgruppe liegt.
58
Der Begriff Signifikanz bedeutet also: Wie hoch ist die Wahrscheinlichkeit, dass das
Ergebnis falsch interpretiert wird (Irrtumswahrscheinlichkeit). Oder: Wie sicher kann man
sein, dass das Ergebnis auf die reelle Welt übertragbar ist.
Dabei werden 2 Arten von Fehlentscheidungen unterschieden:
Der α- und β -Fehler bei statistischen Entscheidungen – Power-Analyse
In der Population gilt:
H0
Entscheidung auf Grund
der Stichprobe zugunsten der:
richtige Entscheidung
H0
H1
α-Fehler (Typ I)
H1
β-Fehler (Typ II)
richtige Entscheidung
Da die Entscheidung beim Signifikanztest auf Grund von Stichprobenergebnissen gefällt
wird, kann sie falsch sein. Während das α-Fehler-Risiko bei der einer Entscheidung für
die Alternativhypothese geschätzt werden kann, da die Bedingungen, unter denen die
Nullhypothese gilt, bekannt sind, ist die Schätzung des β-Fehlers – das Fehlerrisiko bei
Beibehaltung der Nullhypothese – häufig nicht möglich, da die Alternative µ1 noch
unbekannt ist, man also nicht weiß, auf welcher Position der Verteilung der
Stichprobenkennwert x liegt.
H0
H1
x
µ1
Ist der p-Wert größer als 0,05, kann nicht von vornherein geschlossen werden, dass kein
signifikanter Unterschied besteht, sondern es ist eventuell damit zu rechnen, dass eine
Signifikanz nicht entdeckt wird, weil die so genannte Teststärke (power) zu gering ist.
Diese nimmt mit dem Stichprobenumfang und dem α-Fehlerniveau zu und mit der
Merkmalsstreuung ab. Um die Power ausreichend groß zu gestalten, wird häufig auf
Grund von Voruntersuchungen oder Vergleichsstudien eine Abschätzung der Effektgröße
(z. B. Unterschied zwischen Gruppen wird auf die Standardabweichung relativiert)
vorgenommen und daraus der Mindeststichprobenumfang für Untersuchungen mit einer
ausreichenden Teststärke berechnet (Power-Analyse). Als akzeptabler Power-Wert
werden 80% (= 100 - β) verlangt. Damit wird ausgesagt, dass der β-Fehler nicht größer ist
als 20% (β = 100 % – Teststärke).
Praktischer Hinweis: Programme zur Power-Analyse sind im Internet abrufbar, z.B. ‚HyperStat Online
Power’: http://davidmlane.com/hyperstat/power.html
59
Arbeitsschritte bei der Prüfung von Hypothesen
Im Folgenden sind die wesentlichen Schritte aufgezählt, die bei der Prüfung von
Hypothesen mit Hilfe sogenannter Signifikanztests durchgeführt werden:
1. Formulierung der HYPOTHESE (H1, H0)
2. Festlegung des SIGNIFIKANZNIVEAUS α:
das ist die maximal zugelassene Irrtumswahrscheinlichkeit bei Annahme der H1.
(z.B. α = 5%).
Nach Möglichkeit schon vor der Datengewinnung!
3. Prüfung der VORAUSSETZUNGEN
Frage nach dem SKALENNIVEAU
Frage nach der VERTEILUNG
4. Wahl der PRÜFGRÖSSE oder des statistischen Tests
z, t, F, U, T, χ2, r
5. Berechnung der PRÜFGRÖSSE (z.B. temp)
6. Entweder: a) Ermittlung des KRITISCHEN WERTES (Signifikanzschranke) der
Prüfgröße aus einer statistischen Tafel (z.B. ttab),
oder
b) Ermittlung des WAHRSCHEINLICHKEITSWERTES p der
berechneten Prüfgröße
(bildlich ausgedrückt jenes Anteiles, den eine empirisch berechnete
Prüfgröße von einer Verteilung abschneidet). Bei
Statistikprogrammen (z.B. SPSS) ist diese Variante üblich.
7. Statistische ENTSCHEIDUNG zwischen H0 und H1:
Die Nullhypothese wird verworfen, wenn
entweder
a) die berechnete Prüfgröße die kritische Schranke erreicht oder
überschreitet,
z.B.: temp ≥ ttab,
oder
b)
der Wahrscheinlichkeitswert p kleiner oder gleich
Signifikanzniveau α ist, z.B.: α = 5%, p = 0,023, ⇒ p < α
Andernfalls wird die H0 beibehalten.
dem
60
Arten von Signifikanztests
Es gibt statistische Verfahren zur Prüfung von Unterschieden, Veränderungen,
Zusammenhängen und Zeitreihen.
Bei der Prüfung des Unterschiedes von Stichproben ist die Art des Unterschiedes von
Bedeutung:
werden Mittelwerte verglichen bzw. geprüft, spricht man von Lokationstest,
ob Stichproben in gleichem Maße streuen, prüft man mit Dispersionstests,
Tests, die gleichzeitig beide Kenngrößen, eventuell auch noch Schiefe und/oder Exzess
prüfen, heißen
Omnibustests.
Von der Prüfung der Voraussetzungen ist abhängig, ob parametergebundene
Prüfmethoden gewählt werden können, bei welchen intervallskalierte und normalverteilte
Daten gegeben sein müssen (siehe Beispiel im Kapitel Grundprinzip der
Signifikanzprüfung), oder ob parameterfreie Prüfverfahren verlangt werden, die auf
Ranginformationen oder Häufigkeitsinformationen beruhen. Diese werden eingesetzt,
wenn eine oder mehrere der genannten Voraussetzungen nicht erfüllt sind.
Systematik der Prüfverfahren für Unterschieds- und Veränderungshypothesen
Für die Wahl des Prüfverfahrens aus der folgenden Übersichtstabelle sind folgende
Fragen zu klären:
1.
2.
3.
4.
Welches SKALENNIVEAU liegt vor (Intervall-, Ordinal-, Nominal-)?
Wie ist die VERTEILUNG (normal-, nichtnormalverteilt; Varianzhomogenität)?
Wie ist das VERHÄLTNIS der Stichproben zueinander (abhängig, unabhängig)?
Wieviele Stichproben werden verglichen?
STICHPROBENZAHL
SKALA
VERTEILUNG
VERHÄLTNIS
unabhängig
Zwei
mehrere
t-Test f. unabh. Stichpr.
für homogene/
heterogene Varianzen
Varianzanalyse
einfaktorielle
mehrfaktorielle
t-Test für gepaarte.
Stpr.
Varianzanalyse mit
Messwiederholung
einfaktorielle/
mehrfaktorielle
U-Test
H-Test
Rangvarianzanlyse
normal
abhängig
INTERVALL
unabhängig
nicht normal
abhängig
ORDINAL
NOMINAL
unabhängig
KOLMOGOROVSMIRNOV-Test
WILCOXON-Test
FRIEDMANN-Test
Rangvarianzanalyse
U-Test
H-Test
χ²-Methoden
61
Parametergebundene Prüfverfahren für Unterschieds- und
Veränderungshypothesen: t-Tests
Parametergebundene Prüfverfahren setzen metrische Daten voraus, die normalverteilt
sind.
Vergleich eines Stichprobenmittelwertes mit einem Populationsparameter
Am vorausgehenden Beispiel haben wir ein Verfahren kennengelernt, das beim Vergleich
eines Stichprobenmittelwertes mit dem Populationsparameter eingesetzt wird. Die
untersuchte Stichprobe hatte einen Umfang n = 100. Wir hatten angenommen, dass sich
die Messwerte in der Grundgesamtheit normalverteilen und dass die
Stichprobenmittelwerte deswegen auch normalverteilt sind. Der α - Fehler wurde dabei mit
Hilfe der Normalverteilung geschätzt.
Sind die zu untersuchenden Stichproben jedoch klein (n<50), kann man nicht mehr davon ausgehen, dass
die Stichprobenmittelwerte normalverteilt sind, ihre Verteilung folgt der sogenannten
t-Verteilung, statt
z=
x−µ
σx
verwenden wir daher
t=
x−µ
σx
und entnehmen die Irrtumswahrscheinlichkeit der t-Verteilung mit dem Freiheitsgrad n-1.
ad Freiheitsgrade: Die Varianz weist n - 1 Freiheitsgrade auf: ist der Mittelwert
festgelegt, können von n Messwerten nur noch n - 1 frei variieren.
Weitaus häufiger kommen in der Praxis Verfahren zur Überprüfung der Unterschiedlichkeit
zweier (oder mehrerer) Stichprobenergebnisse zur Anwendung.
t-Test für unabhängige Stichproben (Unterschiedshypothesen)
Er dient dem Vergleich zweier arithmetischer Mittelwerte aus unabhängigen Stichproben.
Er überprüft die Nullhypothese, dass die beiden Stichproben auf Grund ihrer Mittelwerte
aus Populationen stammen, deren Mittelwerte identisch sind:
H0: µ1 = µ2
H1: µ1 ≅ µ2.
Theoretische Überlegung: Wir ziehen aus 2 Populationen sehr häufig 2 voneinander
unabhängige Stichproben und bilden jedesmal aus den je 2 Mittelwerten die
Differenz. (d = x1 - x 2 ). Diese Differenzen sind (nach dem zentralen
Grenzwerttheorem) bei großen Stichprobenumfängen (n1 + n2 > 50) normalverteilt,
bei kleineren t-verteilt.
Die Streuung der Differenzenverteilung = Standardfehler der Differenzen wird beim
Vergleich zweier Stichproben aus den Daten der beiden Stichproben geschätzt mit
σˆ d =
σˆ d =
2
2
(n1 − 1) ⋅ σˆ 1 + (n2 − 1) ⋅ σˆ 2  1
1
⋅  + 
n1 − 1 + n2 − 1
 n1 n2 
σˆ 1 2
n1
+
σˆ 2 2
n2
bei homogenen Varianzen
(21a)
bei heterogenen Verianzen (21b)
62
Sodann wird der Unterschied zwischen den Stichprobenmittelwerten auf den
Standardfehler der Differenzen relativiert:
x −x
t= 1 2
(22)
σˆ d
Die Zufallswahrscheinlichkeit eines t-Wertes wird bei größeren Stichproben (n ≥ 50)
anhand der Normalverteilungstabelle bestimmt (t z), bei kleinen Stichproben (n < 50)
anhand der t-Verteilung beim Freiheitsgrad FG = n1 +n2 - 2.
Anwendungsvoraussetzungen für diesen t-Test:
1. Die Grundgesamtheiten, aus denen die Stichproben stammen, müssen normalverteilt
sein.
2
2
2. Die geschätzten Populationsvarianzen σ1 und σ2 sollten annähernd gleich groß
(Varianzhomogenität, F-Test), und die Stichprobenumfänge möglichst gleich groß
sein.
3. Die Stichproben müssen voneinander unabhängig sein, m. a. W. verschiedene
Personengruppen oder Merkmalsträger sein.
ad 1. Prüfung auf Normalverteilung
Zur Prüfung der Normalverteilungshypothese „Die Verteilung der Daten entspricht einer
Normalverteilung“ ist die Erstellung je eines Histogrammes von beiden Stichprobendaten
angezeigt. Als quantitative Entscheidungshilfen stehen folgende statistische Prüfgrößen
bzw. Prüfmethoden zur Verfügung:
⇒ SPSS)
a) Berechnung von Schiefe und Exzess (⇒
b) DAVID-Test: (SACHS 1992)
R
Spannweite
DAVID-Quotient :
=
s
St.abweichung
Liegt der Quotient außerhalb der Schranken (10%-Schranken, um β-Fehlerrisiko klein
zu halten!), die bei SACHS zu finden sind, soll die Normalverteilungshypothese
verworfen werden.
c) Ein-Stichproben-KOLMOGOROV-SMIRNOV-Test (⇒ SPSS)
(genannt KSA-Test = KS-Anpassungstest; für singuläre Messreihen; für gruppierte
Messreihen, wenn k > 5, n > 20); LILLIEFORS-Modifikation des KSA.
d) χ2-Anpassungstest
Für große und gruppierte Messreihen (LIENERT 1973): Aus den beobachteten (fb)
und erwarteten Häufigkeiten (fe) einer k Messwerteklassen aufweisenden
Häufigkeitsverteilung (k ~ n ) kann nach der Formel (siehe Gleichung 3)
k ( f
- f e j )2
bj
2
χ = ∑
f ej
j=1
ein χ2-Wert ermittelt werden. Wenn dieser kleiner ist als der kritische χ2-Wert, der für
den Freiheitsgrad FG = k - 3 bei 5%iger Irrtumswahrscheinlichkeit aus der χ2-Tabelle
entnommen wird, dann kann angenommen werden, dass die Stichprobe aus einer
normalverteilten Grundgesamtheit stammt.
63
2
Voraussetzungen für den χ -Test:
• Kein Erwartungswert (fej) einer Messwerteklasse darf kleiner als 5 sein
• Ein Fünftel der Erwartungswerte kann kleiner als 5 sein, wenn gleichzeitig alle
Erwartungswerte größer als 1 sind.
• n > 60
• k ≥ 7.
ad 2. Varianzhomogenität
Um festzustellen, ob die Varianzen von zwei unabhängigen Stichproben gleich sind, wird
2
2
der F-Test durchgeführt (H0: σ1 = σ2 ; Stichproben stammen aus Grundgesamtheiten mit
gleichen Varianzen d.h. Varianzunterschiede sind zufällig). Die Prüfgröße F ergibt sich
nach
F=
σ 12
σ 22
wobei σ1 > σ2
(23)
Sinnvoll ist bei diesem Test eine Signifikanzschranke bei α = 10%, um das β-Fehlerrisiko
klein zu halten. Zu Ermittlung des kritischen F-Wertes aus der Tabelle sind die
Freiheitgrade für den Zähler und für den Nenner mittels FG1/2 = n1/2 – 1 zu bestimmen.
t-Test für abhängige Stichproben (Veränderungshypothesen)
Vergleich zweier Stichprobenmittelwerte aus abhängigen Stichproben, deren Elemente
einander paarweise zugeordnet sind (gepaarte Beobachtungen). Die Varianz der einen
Messwertreihe beeinflusst die Varianz der anderen. Am häufigsten kommt der Fall vor in
Stichproben, in denen die Versuchspersonen identisch sind: z.B., wenn an einer
Stichprobe
zwei
Messungen
desselben
Merkmals
durchgeführt
werden:
Messwiederholung, Vortest - Nachtest.
Vorgangsweise für diesen t-Test:
1. Bildung der Differenzen di der Messwertpaare: di = xi - yi,
d =
2. Arithmetisches Mittel aller di - Werte:
∑d
i
n
3. Die Verteilung der Mittelwerte der Differenzen einer großen Anzahl von Stichproben
wird berechnet wie der Standardfehler von Stichprobenmittelwerten, vgl. σ x :
σ$ d =
σ$ 2d =
n
∑( d i - d )2
n(n - 1)
4. Die durchschnittliche Differenz kann nach folgender Beziehung auf ihre Bedeutsamkeit
hin überprüft werden:
-µ
(24)
t = di d
σˆ d
gemäß H0 gilt: µd = 0
FG = n - 1
Parameterfreie Prüfverfahren für Unterschieds- und
Veränderungshypothesen
64
Umstände, die solche Verfahren verlangen:
1. Rangreihen wurden erhoben.
2. Daten besitzen nicht Intervallcharakter (Punktewertungen).
3. Voraussetzungen für einen t-Test (Normalverteilung der Paardifferenzen) sind
nicht erfüllt.
4. Stichprobenumfänge sind klein.
Für diese Fälle dienen verteilungsfreie (parameterfreie) Verfahren, die nur die ordinale
(Ränge) oder nominale (Häufigkeiten) Information auswerten. Wird eine parametrische
Methode angewendet, obwohl die Bedingungen dafür nicht erfüllt sind, dann ist der
Signifikanztest auf jeden Fall konservativ, d.h. die Nullhypothese wird eher beibehalten.
U-Test von MANN-WHITNEY
Vergleich der zentralen Tendenz von zwei unabhängigen Stichproben - Prüfung von
Unterschiedshypothesen.
Vorgangsweise:
1. Gemeinsame Rangreihen aller Messwerte in aufsteigender Reihenfolge (bester = Nr. 1)
erstellen.
2. Summe der Rangplätze in den Gruppen 1 und 2: T1, T2
n (n + 1)
Beziehung
T1 + T2 =
;
n = n1 + n2
2
3. Bestimmung der Prüfgrößen U und U’ für die Stichproben:
n ( n + 1)
n ( n + 1)
U = n1 ⋅ n 2 + 1 1
-T1
U ′ = n1 ⋅ n 2 + 2 2
-T2
2
2
(25)
Wenn der kleinere der beiden U-Werte den mit Hilfe der U-Werte-Tafeln bestimmten
kritischen Wert (Utab) unterschreitet, ist die H0 zu verwerfen.
Für Stichproben, deren Umfang größer ist, als der in den Tafeln angegebene Umfang
(SACHS: n1 = 40, n2 = 20) oder bei Benützung entsprechender Statistikprogramme
(z.B. SPSS) werden folgende Berechnungen durchgeführt:
4. Wenn H0 gilt (kein Unterschied in den Populationen), dann ist der Mittelwert von U:
⋅
µ U = n1 n2
(26)
2
n ⋅ n ( n + n + 1)
mit der Standardabweichung von σ U = 1 2 1 2
(27)
12
Die Verteilung der U-Werte um µU ist bei größeren Stichchproben (n1 oder n2 > 10)
angenähert normal, sodass sich am z-transformierten U-Wert (vgl. Gleichung 17) die
Bedeutsamtkeit des Unterschiedes zwischen den Stichproben abschätzen lässt (einseitig
oder zweiseitig):
U - µU
z=
σU
65
KOLMOGOROV-SMIRNOV-Omnibustest
Vergleich zweier unabhängiger Stichproben hinsichtlich ihrer Verteilungsform. Dieser Test
spricht auf alle möglichen Unterschiede der Verteilungsform, wie Lokation, Dispersion,
Asymmetrie und Exzess mehr oder weniger gut an (siehe SPSS).
WILCOXON-Test
Paardifferenzentest oder Vorzeichenrangtest von WILCOXON - Vergleich der zentralen
Tendenz von zwei abhängigen Stichproben - Prüfung von Veränderungshypothesen.
Vorgangsweise:
1. Bildung der Differenzen der Messwertepaare di.
2. Reihung der absoluten Beträge der Differenzen (Achtung auf verbundene Rangplätze)
und Kennzeichnung derjenigen Rangplätze, deren Rangdifferenz negatives Vorzeichen
hat. Bei Vorkommen von Nulldifferenzen, können diese außer acht gelassen werden,
wenn n ≥.10, und die Nulldifferenzen nicht mehr als 1/10 aller Paardifferenzen
ausmachen. n wird dann um die Anzahl der Nulldifferenzen vermindert.
3. Die Prüfgröße T (T') wird berechnet als Summe der Rangplätze mit (ohne)
Vorzeichenkennung.
n(n + 1)
T + T′ =
n ... Anzahl der Paardifferenzen
Kontrolle:
2
4. Je deutlicher sich T und T' unterscheiden, umso unwahrscheinlicher ist H0. Wenn H0
gilt, erwarten wir als T-Wert die halbe Summe der Rangplätze:
n(n + 1)
(28)
µT =
4
5. Für n ≤ 50 kann der kleinere der beiden T-Werte mit dem kritischen Wert aus der
Tabelle für den WILCOXON-Paardifferenzen-Test (SACHS) verglichen und über die H0
entschieden werden:
verwerfen der H0, wenn Temp ≤ Ttab!
6. Bei größerem Stichprobenumfang (n > 30) sind die T-Werte um µT angenähert
normalverteilt mit einer Standardabweichung von
n(n + 1)(2n + 1)
σT =
24
Nach der Transformation von T in einen z-Wert
z=
(29)
T - µT
σT
kann die Irrtumswahrscheinlichkeit über die Normalverteilung beurteilt werden.
Falls die Zahl der Nulldifferenzen größer ist als 1/10 von n, gibt LIENERT (1973, 327-330)
Empfehlungen für "Nulldifferenzentests".
66
Vergleich von Häufigkeiten mit χ2-Tests
Die sogenannten χ -Tests (lies Chi-Quadrat) stellen ein ganzes System von Methoden dar
für Hypothesen, deren Prüfung auf dem Vergleich von Häufigkeiten beruht, also mit
2
Nominaldaten erfolgen muss; χ ist die Prüfgröße dieser Methoden (siehe Gleichung 3):
2
χ =
2
k
( f b j - f e j )2
j=1
f ej
∑
Der χ2-Test prüft anhand der χ2-Verteilung den Unterschied zwischen beobachteten (fb)
und erwarteten Häufigkeiten (fe).
χ2-Methoden
Die Form der Tabelle, welche die beobachteten Häufigkeiten enthält, gibt die Struktur der
verschiedenen χ2-Methoden an:
eindimensional
Beispiel 1: 1 Merkmal - zweifach gestuft (unabhängige Stichproben): Gibt es bei den
Sprungdisziplinen mehr Links- oder mehr Rechtspringer? (H0 : Nrechts = Nlinks) einmalige Untersuchung.
Beispiel 2: 1 Merkmal - zweifach gestuft mit zweimaliger Untersuchung (abhängige
Stichproben): Ein Lehrer erhebt, ob sich sich die Anzahl der Schüler, die ein
vorgegebens Ziel treffen, durch Übung verändert.
nachher
getroffen
nicht
getroffen
vorher
getroffen
nicht
getroffen
a
b
c
d
Da die Zellen a und d jene Schüler betreffen, bei denen keine Veränderung
aufgetreten ist, ist nur die Häufigkeit in den Zellen b und c von Bedeutung, (H0 :
b = c)
⇒ Mc Nemar-χ2-Test
Beispiel 3: 1 Merkmal - mehrfach gestuft: Beim χ2-Anpassungstest (S. 62) handelt
es sich um ein eindimensionales χ2 (1 Merkmal) mit mehrfacher Stufung (H0:
Die Häufigkeit in den Messwerteklassen ist gleich der Normalverteilung).
mehrdimensional
2 oder mehrere Merkmale, jedes zwei- oder mehrfach gestuft.
67
Beispiel 4: 2 Merkmale – zweifach gestuft: Siehe Kap. 2.3.2. (H0 : a:b = c:d)
USI-Konditionstraining
Geschlecht
männlich
weiblich
Σ
mit Musik
andere
Σ
104
a: 37
b: 67
139
c: 85
d: 54
122
121
243
a, b, c, d ... beobachtete Häufigkeiten
USI-Konditionstraining
Geschlecht
männlich
weiblich
Σ
mit Musik
andere
Σ
104
a’: 52,2
b’: 51,8
139
c’: 69,8
d’: 69,2
122
121
243
a’, b’, c’, d’ ... erwartete Häufigkeiten
⇒ 4-Felder χ2-Test:
χ2 =
(37 − 52,2) 2 (85 − 69,8) 2 (67 − 51,8) 2 (54 − 69,2) 2
+
+
+
= 15,564
52,2
69,8
51,8
69,2
Freiheitsgrade: (k-1)*(l-1) = 1
k … Gruppen
l … Kategorien
χ² (α = 5%) aus der Tabelle (Signifikanzschranke): 3,841
Der empirische χ²-Wert liegt weit über dem Schrankenwert, daher besteht ein statistisch
gesicherter Unterschied zwischen männlichen und weiblichen Personen bei der Wahl der
Form des Konditionstrainings.
Eine Übersicht über die Durchführung dieser und weiterer χ2-Verfahren findet sich in den
Statistik-Handbüchern, z.B.
BORZ 1999, 150 - 170,
LIENERT 1973, 143 - 211.
68
Signifikanztests für Zusammenhangshypothesen
Für die Prüfung, ob ein Korrelationskoeffizient signifikant von 0 verschieden ist (H0: ρ = 0),
gibt es folgende Möglichkeiten:
1. Es wird geprüft, ob r zu den um ρ = 0 normalverteilten Korrelationskoeffizienten gehört;
als Prüfgröße dient
z= r n-1
(30)
Der z-Wert wird anhand der Tabelle auf Signifikanz überprüft.
2. Liegt eine kleine Stichprobe vor (n < 50), testet man mit dem t-Test von R.A. FISHER
(vgl. BORTZ 1999, 207 bzw. 223):
r n-2
t=
(31a)
1 - r2
oder
t =
rs
(1 - r ) / (n - 2)
2
s
(31b)
Der kritische t-Wert ist in der t-Tabelle beim Freiheitsgrad n-2 aufzusuchen.
3. Die kritischen Werte für r können auch für α = 5% und 1% aus Tafeln in
Statistiklehrbüchern entnommen werden (vgl. SACHS 1992).
69
LITERATURAUSWAHL
mit Angabe der Standortnummer in der Bibliothek des ISW
BACHLEITNER, R., Zur Anwendungssystematik korrelationsstatistischer Verfahren, in:
LÜ-LE, 35(1981)8: 178-183
BÄSSLER, R. (1986). Einführung in die empirische (Sozial-) Forschung für
Sportwissenschaftler, ISW-Wien
BORTZ, J. (1999). Statistik für Sozialwissenschaftler, 5., vollst. überab. und
aktualisierte Aufl., Berlin-Heidelberg-New York
III/2613/1 (III/1902, III/1607)
BORTZ, J.; N. DÖRING (1995). Forschungsmethoden und Evaluation für
Sozialwissenschaftler, 2., vollst. überarb. und aktualisierte Auflage,
Berlin-Heidelberg-New York III/1535
BÖS, K. (1985). Statistikkurs I - Einführung in die statistischen Auswertungsmethoden für
Sportstudenten, Sportlehrer und Trainer. 2. Aufl., Ahrensburg
II/3626
BÖS, K. (1987). Handbuch sportmotorischer Tests. Göttingen
(III/1802)
BÜHL A.; P. ZÖFEL (2000). SPSS Version 10 - Einführung in die moderne
Datenanalyse unter Windows, 7., überarb. Aufl., München
(III/2523)
FLEISCHER, H. (1988). Grundlagen der Statistik, Studienbrief 15 der Trainerakademie
Köln, Schorndorf
III/1821
LAMES, M., Zeitreihenanalyse in der Trainingswissenschaft, in: Spectrum der
Sportwissenschaften 6(1994)1: 25-50
LIENERT, G.A., Verteilungsfreie Methoden in der Biostatistik, Band I, 2.,völlig neu
bearbeitete Aufl., Meisenheim a. Glan 1973
III/993
Band II, 2., völlig neu bearbeitete Auflage, Meisenheim am Glan 1978
III/1466
LIENERT, G.A. (1989). Testaufbau und Testanalyse. 4. Aufl., München-Weinheim
(II/4710)
MAXEINER, J., Möglichkeiten und Fallen der Statistik, in :Sportunterricht, 36(1987)8:285291
SACHS, L. (1992). Angewandte Statistik, Anwendung statistischer Methoden, 7., völlig
neu bearb. Aufl., Berlin-Heidelberg-New York
III/2171 (III/1397, III/1903)
SCHWARZE, J. (1985). Grundlagen der Statistik. Beschreibende Verfahren, 3. Aufl.,
Berlin,II/3571
STELZI, I. (1982). Fehler und Fallen der Statistik, Bern
III/3066
STEMMLER, R. (Leiter eines Autorenkollektivs) (1980), Statistische Methoden im Sport,
5., stark bearbeitete Aufl., Berlin
II/2958
WILLIMCZIK, K.(1992). Statistik im Sport - Grundlagen, Verfahren, Anwendungen. Bd. 1
von Forschungsmethoden in der Sportwissenschaft (Hrsg. K. WILLIMCZIK). 1. Aufl.,
Ahrensburg
II/4951
ZÖFEL P. (2002). Statistik verstehen – Ein Begleitbuch zur computergestützten
Anwendung. München
Herunterladen