Statistische Begriffe

Werbung
Statistik-Weiterbildung
„Methoden und statistische Verfahren der empirischen Sozialforschung“
Themen:
1. z-Transformation............................................................................................................... 2
1.1 Einführung (zentrale Tendenz und Dispersion)............................................... 2
1.2 Welche Maße gibt es für die Streuung? ......................................................... 3
1.3 Verteilungsformen..................................................................................... 4
1.4 Was aber versteht man unter einen standardisierten Verteilung?........................ 6
1.5 Zu welchem Zweck werden Verteilungen standardisiert? .................................. 6
1.6 Praktische Anwendung .............................................................................. 7
2. Unterschiedshypothesen.................................................................................................... 8
2.1 Konfidenzintervalle ................................................................................... 8
2.2 Logik von Signifikanztests .......................................................................... 9
2.3 Was sind Null- und Alternativhypothese? ...................................................... 9
2.4 Was versteht man nun unter Signifikanzniveau? ........................................... 11
2.5 Die Logik des Signifikanztests an einem Beispiel ........................................... 11
2.6 Parametrische Testverfahren..................................................................... 12
2.7 Effektstärke: die angemessene Variante ....................................................... 13
3 Zusammenhangshypothesen............................................................................................. 15
3.1 Korrelation bei metrischen Merkmalen........................................................ 16
1. z-Transformation
1.1 Einführung (zentrale Tendenz und Dispersion)
Es wird ein bestimmtes Merkmal wie z.B. Körpergröße in cm oder Intelligenz (IQ)
gemessen. Die zentrale Tendenz dieses Merkmal für n Personen lässt sich nicht immer
gleich charakterisieren. Am geläufigsten ist es, das arithmetische Mittel zu bestimmen, um
die Gruppe zu charakterisieren:
n
M=x=
∑x
i
i =1
n
Weitere Möglichkeiten sind (u.a.!) der Median, der Modalwert und das geometrische Mittel.
Der Median besagt, über und unter welchem Wert 50% aller weiteren Werte liegen. Liegt
der Wert zwischen zwei Werten, so wird exakt die Mitte zwischen diesen beiden Werten
angegeben. Wann welches Kennzeichen am günstigsten ist, hängt v.a. von dem
Skalenniveau des Merkmals ab.
n
− f kumu
2
Md = u +
× Kb
f krit
Wenn z.B. die Abstände zwischen den Merkmalsabstufungen (vermutlich) nicht äquidistant
sind, so sollte der Median verwendet werden, bei Äquidistanz kann das arithmetische Mittel
verwendet werden.
Zu beachten ist, dass diese Kennwerte der zentralen Tendenz erheblich voneinander
abweichen können. Weist Schüler A die Noten 1, 2, 3 und 4 auf, so ist das arithmetische
Mittel 2.5; und auch der Median beträgt 2.5. Schüler B dagegen erhält die Noten 1, 2, 3 und
6. Das arithmetische Mittel beträgt in diesem Fall 3.0, während der Median auch für Schüler
B den Wert 2.5 angibt.
Wie verteilen sich aber die Werte um diese zentrale Tendenz?
Es ist äußerst selten, dass alle Werte gleich sind, meistens auch gar nicht gewünscht oder
dies wird künstlich erzeugt (wenn z.B. nur Frauen betrachtet werden, variiert das Merkmal
„Geschlecht“ natürlich nicht mehr). Diese Variation der Werte wird auch als Streuung
bezeichnet, und die Maße, welche diese Streuung quantitativ beschreiben, als Streuungsoder Dispersionsmaße.
Dispersionsmaße kennzeichnen die Breite oder Ausdehnung einer Verteilung.
Copyright Dr. Uwe Neugebauer 2005 2
Die Dispersion ist ein Maß für die Abweichungen der einzelnen Maßzahlen voneinander. Sie
ist damit ein Maß für die Homogenität (Gleichheit, innere Übereinstimmung) einer
Stichprobe, bzw. wie ähnlich die Mitglieder hinsichtlich des gemessenen Merkmals sind. Sie
informieren also über die Unterschiedlichkeit der Werte und charakterisieren die
Variabilität eines Merkmals. Dispersionsmaße können zudem die Zuverlässigkeit einer
Messung/Prognose oder die Größe eines Messfehlers bestimmen helfen.
Die Maße der Dispersion werden formal analog zu den Maßen der Zentraltendenz definiert.
Sie entsprechen diesen hinsichtlich Informationsgehalt und Anwendungsvoraussetzungen:
Jedoch: ähneln sich zwei Verteilungen hinsichtlich ihrer zentralen Tendenz, können sie
dennoch auf Grund unterschiedlicher Streuungen
der einzelnen Werte stark
voneinander abweichen (sog. Varianzeninhomogenität)
1.2 Welche Maße gibt es für die Streuung?
1) Variationsbreite („absoluter Streubereich“) (R, „range“) (S „Spannweite“)
2) Quartilabstand (Q) (Interquartilbereich)
3) AD- Streuung
4a) Varianz (s², σ²)
4b) Standardabweichung (s, σ)
Am häufigsten wird die Standardabweichung σ angegeben. Diese berechnet sich aus der
Wurzel der Varianz:
n
s2 =
∑ (x
i =1
i
− M )2
n
Die Varianz ist definiert als die Summe der quadrierten Abweichungen der Einzelwerte von
ihrem arithmetischen Mittel.
Varianz ist neben der Standardabweichung das gebräuchlichste Maß zur Kennzeichnung der
Dispersion einer Verteilung. Die Varianz wird von jedem Messwert der Gruppe beeinflusst:
-
sämtliche Werte werden einzeln berücksichtigt
-
größere Abweichungen werden durch die Quadrierung stärker berücksichtigt, als
kleinere Abweichungen (ist somit empfindlich gegen Ausreißerwerte)
Die Standardabweichung oder Streuung (s, σ) ist die positive Quadratwurzel aus der
Varianz (= Maß für die Stärke der Variabilität der Rohwerte). Sie gibt an, wie weit die
einzelnen Werte im Durchschnitt vom Mittelwert abweichen.
Copyright Dr. Uwe Neugebauer 2005 3
Somit sind zwei Kennzeichen einer Verteilung in den meisten Fällen ausreichend, um eine
Verteilung zu charakterisieren; die zentrale Tendenz und die Dispersion (Streuung) der
Verteilung. Zu beachten ist, dass beide unabhängig voneinander sind und entsprechend sich
in beiden Kennzeichen bedeutsame Unterschiede zeigen können. So mag der Mittelwert
zwischen zwei Gruppen nahezu identisch sein, die Streuung aber signifikant unterschiedlich
(sog. Varianzinhomogenität). Dies wäre ein Beleg für die Unterschiedlichkeit zweier
Verteilungen, der gleich stark ist wie ein Unterschied in der zentralen Tendenz! So ist es
z.B. denkbar, dass zwei Gruppen zwei unterschiedliche Lernstrategien anwenden sollen. Im
abschließenden Test weisen beide Gruppen den gleichen Lernerfolg auf, die Gruppe B hat
aber eine wesentlich niedrigere Varianz. Dies kann dahin gehend interpretiert werden, dass
der Lerneffekt von Methode B wesentlich homogener ist als der von Methode A (also auch
„schlechte“ Lerner von Methode B stark profitieren). Entsprechend sollte Methode A
insbesondere von „guten“ Lernern verwendet werden, Methode B von „schlechten“ Lernern
(da Methode B allen gleich stark etwas bringt).
1.3 Verteilungsformen
Sind zentrale Tendenz und Streuung einer Verteilung bekannt, kann die Verteilung
betrachtet werden. Es werden immer wieder vier Prototypen von Verteilungen gefunden:
•
Gleichverteilung
•
Normalverteilung
•
Linksschiefe Verteilung
•
Rechtsschiefe Verteilung
Copyright Dr. Uwe Neugebauer 2005 4
Die meisten brechen in der Mitte des Studiums ab: Normalverteilung Die Studienabbrüche verteilen sich gleichmässig: Gleichverteilung
42
39
36
33
27
Häufigkeiten
Häufigkeiten
30
24
21
18
15
12
9
6
3
0
80
76
72
68
64
60
56
52
48
44
40
36
32
28
24
20
16
12
8
4
0
Semester
Semester
Die meisten brechen am Anfang ab: Linksschiefe Verteilung
Die meisten brechen zum Ende ab: Rechtsschiefe Verteilung
126
126
117
117
108
108
99
99
90
90
Häufigkeiten
Häufigkeiten
81
72
63
54
81
72
63
54
45
45
36
36
27
27
18
18
9
9
0
0
Semester
Semester
In den Sozialwissenschaften findet man am häufigsten die sogenannte Normalverteilung.
Diese wurde von Gauß „entdeckt“ und als erstes angewendet. Er hatte die Aufgabe,
verschiedene Strecken in ihrer Länge zu bestimmen. Ihm war klar, dass bei jeder Messung
ein gewisser Fehler enthalten ist, dass also mal etwas zu viel für eine Strecke gemessen wird,
mal etwas zu wenig. Statt den Fehler zu minimieren, versuchte er stattdessen, den Fehler so
zufällig wie möglich zu halten. Er nahm an, dass somit der zufällige Fehler mal den wahren
Wert über-, mal unterschätzen lassen würde. Wird über alle Werte gemittelt, so würde sich
dieser Fehler eliminieren (Da sein Erwartungswert null ist).
Exkurs:
Warum findet
man diese Verteilung
so häufig? Sie
entsteht
bei
vielen
Durchgängen aus der sog. Binomialverteilung.
Copyright Dr. Uwe Neugebauer 2005 5
Nehmen wir an, wir werfen vier Würfel gleichzeitig und betrachten die gesamte Punktzahl.
Es gibt verdammt viele mögliche Resultate bei einem solchen Wurf, und zwar 6 hoch 4, also
1296 Möglichkeiten. Auf der anderen Seite gibt es nur 20 verschiedene mögliche
Punktzahlen, da es minimal 4 Punkte sind (alle Würfel eine „1“) und maximal 24 (alle
Würfel eine „6“). Entsprechend sind bestimmte Punktezahlen wahrscheinlicher als andere,
die Extreme „4 Punkte“ oder „4 Punkte“ können nur durch eine mögliche
Würfelkombination zustande kommen, haben also jeweils die Wahrscheinlichkeit 1/1296
bzw. 0.08%, dagegen gibt es bereits vier mal mehr Möglichkeiten, die Punktzahl „5“ zu
erreichen (da ein beliebiger Würfel die „2“ anzeigen darf) und eine Vielzahl von
Möglichkeiten, die Punktzahl „16“ zu erhalten. Trägt man diese Wahrscheinlichkeiten für
das jeweilige Ereignis (Punktzahl) auf, so ist ersichtlich, dass bei 6 Würfeln bereits eine
recht hohe Ähnlichkeit zur Normalverteilung besteht.
Relevanz für statistische Auswertungen:
Es konnte gezeigt werden, dass eine Binomialverteilung hinreichend genau in eine
Normalverteilung übergeht, wenn n * p > 9 gegeben ist (n= Anzahl Durchgänge
bzw. Versuchspersonen; p= Anzahl der Antwortalternativen)
1.4 Was aber versteht man unter einen standardisierten Verteilung?
Eine standardisierte Verteilung ist eine (Normal-) Verteilung, deren Werte z- transformiert
wurden und die den Mittelwert 0 und die Standardabweichung 1 hat.
zi =
xi − x
s
Beispiel: Es wurde für eine Person ein IQ von 120 errechnet. Der Mittelwert beträgt 100 IQ,
die Standardabweichung 15. Eingesetzt in obige Formel ergibt sich daraus ein ztransformierter Wert von zi = (120-115)/15 = 1.3
1.5 Zu welchem Zweck werden Verteilungen standardisiert?
Eine Verteilung wird standardisiert, um verschiedene Gruppen oder Populationen
vergleichbar zu machen. Dies wird durch eine Relativierung der individuellen Leistungen an
denen der Gruppe erreicht.
a) Die einfachste Art ist, den Prozentrang zu bilden: es wird für jede Person ermittelt wie
viel Prozent aller Mitglieder der Population einen größeren bzw. kleineren Wert
erhalten. Der Prozentrang wird dann anhand kumulierter Prozentwertverteilungen
bestimmt.
Copyright Dr. Uwe Neugebauer 2005 6
b) Eine andere Möglichkeit ist der Vergleich der Abweichungen der individuellen Leistung
von den Durchschnittsleistungen der Gruppe.
Um die Abweichungen zweier Leistungen vom Mittelwert besser vergleichbar machen zu
können, müssen sie zuvor an der Unterschiedlichkeit aller Werte in der jeweiligen Gruppe
relativiert werden. Dabei werden die Abweichungen durch die Standardabweichung der
jeweiligen Gruppe dividiert und man erhält somit den z- Wert.
1.6 Praktische Anwendung
Es wurde z.B. ein Fragebogen vorgegeben. In diesem sollte angegeben werden, wie stark
man Erdbeereis mag. Vorgegeben waren die Möglichkeit „sehr stark“, stark“, „wenig“ und
„gar nicht“, das Merkmal ist also vierfach abgestuft. Personen bekommen entsprechend
einen numerischen Wert zwischen 1 und 4 zugewiesen. In einem anderen Abschnitt des
Fragebogens wurde nach der Häufigkeit von Kinobesuchen gefragt. Die Personen geben
zwischen 0-18 Kinobesuche pro Monat an. Nun möchte man diese beiden Werte vergleichen
können. Wie aber, da der Mittelwert für Erdbeereis z.B. 1.2 beträgt, die der Kinobesuche
aber 7.1 und somit beide von der Skalierung her nicht vergleichbar erscheinen?
Wandelt man beide Skalen um in z-transformierte, so ist diese Vergleichbarkeit
gewährleistet! Damit wird ein überdurchschnittlicher Erdbeereis-Möger nach wie vor einen
hohen Wert aufweisen wie auch ein überdurchschnittlicher Kinobesucher. Dieses Verfahren
ist insbesondere dann von Interesse, wenn eine Subskala gebildet werden soll, die aus zwei
oder mehr unterschiedlich skalierte Items besteht. Auf obiges Beispiel bezogen:
Es erscheint nicht zweckmäßig, einfach die Werte beider Items zu addieren (z.B. „10
[Kinobesuche]“ plus „2 [Stärke der Erdbeereispräferenz]“. Statt dessen werden die Werte
an ihrem jeweiligen Mittelwert und Streuung relativiert bzw. standardisiert, was eine
Additivität ermöglicht.
Copyright Dr. Uwe Neugebauer 2005 7
2. Unterschiedshypothesen
Häufig werden bei einer deskriptiven Auswertung Unterschiede zwischen Gruppen
gefunden, so z.B. bei einer Untersuchung von Männern und Frauen bei ihrer Einstellung
zur Homosexualität. Es seien (fiktiv) 51 Frauen und 53 Männer befragt worden sein. Der
Fragebogen ergab einen Wert von m = 17.6 für Frauen mit einer Standardabweichung von
5.6; Männer hingegen wiesen einen Wert von 14.2 auf (s = 4.1). Wie kann ich diesen
Unterschied auf entweder eine nur zufällige Schwankung/Differenz bzw. auf seine NichtZufälligkeit hin überprüfen?
Zum Anfang muss natürlich meine Hypothese stehen; ich vermute, dass Frauen toleranter
gegenüber Homosexualität sind als Männer, was ich aus Freud´s Theorie der latenten
Homosexualität und der daraus entstehenden Angst ableite.
Im zweiten Schritt operationalisiere ich dies und sehe die eine Erhebung als aus zwei
Gruppen mit jeweils getrennten Verteilungen an. Die jetzt zu beantwortende Frage ist:
wurden diese beiden Verteilungen aus der gleichen Grundgesamtheit gezogen (sind also „in
Wahrheit“ identisch), oder sind es zwei getrennte Verteilungen?
2.1 Konfidenzintervalle
Eine visuelle Unterstützung zur Beantwortung dieser Frage ermöglichen die sog.
Konfidenz- oder Vertrauensintervalle. Diese geben an, in welchem Bereich der „wahre“
Mittelwert liegt. Will man diesen erhalten, muss zuvor festgelegt werden, wie hoch die
Irrtumswahrscheinlichkeit sein darf; Konvention sind z.B. 10%, 5% oder 1%, manchmal auch
0.1%. Aus der Darstellung ist zumeist relativ direkt ersichtlich, ob ein Unterschied besteht
oder nicht; wenn beide Konfidenzintervalle stark überlappen, so ist der Unterschied mit
hoher Wahrscheinlichkeit zufällig; überlappen die beiden Konfidenzintervalle nur
gering/gar nicht, so ist davon auszugehen, dass sich die beiden Verteilungen unterscheiden.
Ein Nachteil ist, dass zwar Unterschiede in der zentralen Tendenz der Verteilungen so
aufgedeckt werden können, nicht aber ohne weiteres Unterschiede in der Streuung
ersichtlich sind. Ein zweiter Nachteil ist es, dass die Irrtumswahrscheinlichkeit nicht
quantifiziert wird, d.h. keine Angaben gemacht werden, wie wahrscheinlich es ist, dass diese
Differenz zufällig entstanden ist.
Wie hängt die Breite des Konfidenzintervalles bei Mittelwerten und Proportionen mit der
Stichprobengröße zusammen? Als Faustregel kann angenommen werden:
Je größer die untersuchte Stichprobe, um so kleiner ist das Konfidenzintervall. Es sollte
deshalb vor der Durchführung einer Untersuchung entschieden werden, wie viele Personen
benötigt werden, um Aussagen mit der gewünschten Genauigkeit machen zu können.
Copyright Dr. Uwe Neugebauer 2005 8
Der Stichprobenumfang berechnet sich nach der Gleichung n =
4 ⋅ z (2α / 2 ) ⋅ P ⋅ Q
KIB 2
Generell gilt, daß bei konstantem Konfidenzkoeffizienten mit kleiner werdendem
Konfidenzintervall der benötigte Stichprobenumfang quadratisch anwächst. So macht eine
Halbierung des Konfidenzintervalls einen vierfachen Stichprobenumfang erforderlich.
2.2 Logik von Signifikanztests
Tests zur statistischen Überprüfung von Hypothesen heißen Signifikanztests.
Der Signifikanztest ermittelt die Wahrscheinlichkeit, mit der das gefundene empirische
Ergebnis sowie Ergebnisse, die noch extremer sind als das gefundene Ergebnis, auftreten
können, wenn die Populationsverhältnisse der Nullhypothese entsprechen.
Ist diese Wahrscheinlichkeit kleiner als α%, wird das Stichprobenergebnis als statistisch
signifikant bezeichnet. Für α sind per Konvention die Werte 5% bzw. 1% festgelegt.
Stichprobenergebnisse, deren bedingte Wahrscheinlichkeit bei Gültigkeit der H0 kleiner als
5% ist, sind auf dem 5%-(Signifikanz-) Niveau signifikant (kurz: signifikant) und
Stichprobenergebnisse mit Wahrscheinlichkeiten kleiner als 1% sind auf dem 1%-Niveau
signifikant (kurz: sehr signifikant oder hochsignifikant).
2.3 Was sind Null- und Alternativhypothese?
Alternativhypothese:
- beschreibt eine Erweiterung oder Alternative zum bestehenden Wissen
- stellt inhaltlich das dar, was man vermutet und finden will
Nullhypothese:
- unterstellt, dass es keinen Zusammenhang gibt, die Alternativhypothese ist „Null und
nichtig“
- komplementär zur Alternativhypothese
Können keine Angabe über die Richtung der Abweichung des Stichproben-mittelwertes
gemacht werden, wird eine ungerichtete Hypothese formuliert.
Nullhypothese
(H0)
Alternativhypothese (H1)
:
μ0 = μ1
:
μ0 ≠ μ1
Die statistische H1 behauptet, dass die untersuchte Stichprobe einer Population angehört,
deren Parameter μ1 vom Parameter μ0 der Referenzpopulation abweicht.
Oder sie kann gerichtet formuliert werden:
Copyright Dr. Uwe Neugebauer 2005 9
:
μ0 > μ1
Alternativhypothese (H1)
:
μ0 < μ1
Nullhypothese
:
μ0 < μ1
:
μ0 > μ1
Nullhypothese
(H0)
oder:
(H0)
Alternativhypothese (H1)
Woher hat man dieses Hypothesenpaar?
Einer allgemeinen Forschungshypothese ist die operationale Hypothese bzw. empirische
Vorhersage nachgeordnet. Mit der operationalen Hypothese prognostiziert der Forscher
den Ausgang einer konkreten Untersuchung nach den Vorgaben der allgemeinen
Forschungshypothese. Zur Überprüfung werden die statistischen Hypothesen aufgestellt,
wobei die Nullhypothese komplementär zur Alternativhypothese ist.
Die Entscheidungsregel lautet:
Ist die Wahrscheinlichkeit des empirisch gefundenen Mittelwerts der Stichprobe unter
Annahme der Nullhypothese kleiner als das vorgegebene Signifikanzniveau, so wird die
Nullhypothese verworfen.
H0 ablehnen:
Nullhypothese wird verworfen, Alternativhypothese wird angenommen, wenn die
Prüfgröße außerhalb der kritischen Werte liegt (= α)
H0 nicht ablehnen:
Nullhypothese wird beibehalten, wenn die Prüfgröße zwischen den kritischen werten
liegt.
Ein (sehr) signifikantes Ergebnis ist also ein Ergebnis, das sich mit der Nullhypothese
praktisch nicht vereinbaren lässt. Man verwirft deshalb die Nullhypothese und akzeptiert die
Alternativhypothese. Andernfalls, bei einem nicht-signifikanten Ergebnis, wird die
Nullhypothese beibehalten und die Alternativhypothese verworfen (BORTZ & DÖRING,
1995).
Warum basiert der Test auf der Nullhypothese, obwohl man sich doch wissenschaftlich für
die Alternativhypothese interessiert?
Die Nullhypothese ist konkret formuliert, z.B. μ0 = μ1.
Die Alternativhypothese μ0 ≠ μ1 ist (fast immer) nicht konkret formuliert.
Copyright Dr. Uwe Neugebauer 2005 10
Hinter ihr verbergen sich eine Vielzahl von Möglichkeiten, wie stark sich μ1 und μ0
unterscheiden. Die Irrtumswahrscheinlichkeit kann nur für falsches Annehmen der
Alternativhypothese (α-Fehler ) angegeben werden, nicht für falsches Verharren auf der
Nullhypothese (β-Fehler).
(Da man die H1 nicht direkt beweisen kann, versucht man durch „Widerlegen“ der H0 die H1
zu bestätigen. D.h. man testet mit welcher Wahrscheinlichkeit das gefundene Ergebnis
unter Annahme der H0 aufgetreten wäre.)
2.4 Was versteht man nun unter Signifikanzniveau?
y
Grenz-, Irrtums-, Überschreitungswahrscheinlichkeit: Wahrscheinlichkeit, bei einer
statistischen Entscheidung einen Fehler erster Art (α-Fehler) zu begehen. Die
Irrtumswahrscheinlichkeit bezeichnet die Wahrscheinlichkeit, dass das gefundene
Ergebnis oder extremere Ergebnisse bei Gültigkeit von H0 eintreten.
y
Signifikanzniveau
(α-Fehler-Niveau):
Die
Irrtumswahrscheinlichkeit,
die
ein
Untersuchungsergebnis maximal aufweisen darf, damit die Alternativhypothese als
bestätigt gelten kann. Im allgemeinen spricht man von einem signifikanten Ergebnis,
wenn die Irrtumswahrscheinlichkeit höchstens 5%, von einem sehr signifikanten
Ergebnis, wenn sie höchstens 1% beträgt.
2.5 Die Logik des Signifikanztests an einem Beispiel
Zur Logik des Signifikanztests siehe oben, wobei hier geschaut wird, ob die zwei
Mittelwerte der zwei Stichproben aus einer Population kommen oder ob der
Mittelwertsunterschied überzufällig ist, d.h. ob die Stichproben „in Wahrheit“ aus zwei
verschiedenen Populationen stammen.
Werden zwei voneinander unabhängige Stichproben des Umfangs n1 und n2 aus zwei
Grundgesamtheiten gezogen, überprüft der t-Test für unabhängige Stichproben die
Nullhypothese, dass die beiden Stichproben aus Populationen stammen, deren Parameter μ1
und μ2 identisch sind:
Null- und Alternativhypothese:
H0:
μ1-μ2 = 0
H1 :
μ1-μ2 ≠ 0
(ungerichtet)
Die Entscheidungsregel lautet:
Copyright Dr. Uwe Neugebauer 2005 11
Ist die Wahrscheinlichkeit des empirisch gefundenen Mittelwertsdifferenz der Stichproben
unter Annahme der Nullhypothese kleiner als das vorgegebene Signifikanzniveau, so wird
die Nullhypothese verworfen.
Das in der Einführung skizzierte Beispiel: Es seien (fiktiv) 51 Frauen und 53 Männer befragt
worden sein. Der Fragebogen ergab einen Wert von m = 17.6 für Frauen mit einer
Standardabweichung von 5.6; Männer hingegen wiesen einen Wert von 14.2 auf (s = 4.1).
Somit wollen wir wissen: Ist –statistisch gesehen- der Mittelwert der Frauen (17.6) von dem
der Männer (14.2) abweichend? Hierzu legen wir ein Signifikanzniveau von 1% fest.
Die Differenz zwischen beiden Werten ist 3.4, geteilt durch die Varianz der Differenzen (z.B.
t=
μ1 − μ 0
σ
( x1− x 2 )
4.9) ergibt sich ein t-Wert von 0.69. Bei Nachschlagen in einer Tabelle der t-Verteilung
ergibt sich, dass bei 103 Freiheitsgraden (degrees of freedom, df: N-1) und alpha= 1% der tWert ca. 2.358 beträgt; der Unterschied ist insignifikant!
2.6 Parametrische Testverfahren
Der bereits erwähnte T-Test ist ein sogenanntes parametrisches Testverfahren. Was heißt
dies? Es wird davon ausgegangen, dass der Merkmalsverteilung eine Normalverteilung
zugrunde liegt. Das Gleiche wird bei sogenannten X²-Test (oder auch chi² genannt)
unterstellt.
Im Auswertungsalltag wird diese Voraussetzung allerdings häufig ignoriert bzw. es wird
davon ausgegangen, dass diese Voraussetzung erfüllt ist, obwohl häufig viele theoretische
oder auch empirische Belege dagegen existieren. Als heftigstes Beispiel seien hier
Reaktionszeitdaten genannt. Diese sind zumeist nicht normalverteilt, sondern linksschief.
Ein besonderes Problem ergibt sich, wenn viele Einzelvergleiche gerechnet werden sollen;
so z.B. die Unterschiede zwischen Männern und Frauen in einer Vielzahl von einzelnen
Aspekten wie z.B. ihre Einstellung zur Chemie, ihrem durchschnittlichen Einkommen, ihrer
Mobilität (Auto: ja vs. Nein) sowie ihre Präferenz von Erdbeereis berechnet werden sollen.
Aus dem bisher gesagten ist deutlich, dass die Signifikanz auch als Wahrscheinlichkeit, dass
die Differenz zufällig ist, verstanden werden kann. Dies impliziert, dass z.B. bei einem 5%Niveau jede zwanzigste Mittelwert-Differenz zufällig signifikant sein wird! Dennoch möchte
man gerne die Behauptung aufstellen, dass es generelle Unterschiede zwischen Männern
und Frauen gibt.
Copyright Dr. Uwe Neugebauer 2005 12
Dieses Problem wird durch zwei Möglichkeiten gelöst; entweder wird das alpha-Niveau
adjustiert, d.h. wenn diese Aussage auf 5%-Niveau getan werden soll, muss jeder
Einzelvergleich ein deutlich niedrigeres alpha-Niveau aufweisen (damit sich über alle
Einzelvergleiche hinweg ein alph-Niveau von 5% ergibt). Die Formel hierfür ist
trivialerweise
Alpha(Einzelvergleich) = alpha(Gesamtaussage)*Anzahl Einzelvergleiche
Oder -als zweite Möglichkeit ist eine Einfaktorielle Varianzanalyse- indiziert. Hier wird ein
Hauptfaktor
(Geschlecht)
als
Verursacher
der
Varianz
in
den
abhängigen
Variablen/Merkmalen angenommen.
Aber Achtung: die Abhängigen Variablen des Beispiels weisen unterschiedliche
Skalenniveaus auf!
2.7 Effektstärke: die angemessene Variante
Tja, und somit können die verschiedenen Gruppen nach Unterschieden untersucht werden.
Insbesondere, wenn große Stichproben vorliegen, werden auch in der Tat viele Differenzen
gefunden, die signifikant von Zufall verschieden sind.
Wird dann aber die Größe der Mittelwertsdifferenz betrachtet, so ist häufig ersichtlich, dass
sich beide Gruppen nur marginal voneinander unterscheiden. Daraus ergibt sich die Frage
nach der „Bedeutsamkeit“ von signifikanten Mittelwertsunterschieden. Zum einen wird
diese Bedeutsamkeit als „Varianzaufklärung“ durch einen Faktor bezeichnet, oder auch
allgemeiner als „Effektstärke“, in der Literatur meistens als d bezeichnet. Auf die
Varianzaufklärung
wird
noch
im
Abschnitt
Zusammenhangshypothesen
genauer
eingegangen.
Die Effektstärke besagt, wie stark der Effekt des gruppierenden Merkmals oder z.B. einer
Behandlungsmethode ist. Er sagt also nicht, ob die Differenz signifikant ist, sondern, wie
groß die Mittelwertsunterschiede (relativ zu ihrer Varianz) sind, wobei sich daraus auch
ableiten lässt, ab wie vielen Personen dieser Unterschied signifikant wäre.
Praktische Relevanz erhält diese Berechnung dadurch, wenn entschieden werden soll,
welches Medikament besser ist. Medikament A und auch Medikament B bewirken
signifikante Verbesserungen. Die Berechnung der Effektstärke wäre in diesem Fall eine
Möglichkeit, zu einer Entscheidung zu kommen.
Die Berechnung der Effektstärke ist sehr ähnlich der Berechnung des t-Wertes:
d=
μ1 − μ 2
σ
Copyright Dr. Uwe Neugebauer 2005 13
Effektgrößen können auch klassifiziert werden, ähnlich wie bei Korrelationen von niedrigen
(r<0.3), mittleren (0.3<r<0.6) und hohen (r>0.6) Korrelationen gesprochen wird. So wird ab
d > 0.5 von einer mittleren Effektstärke gesprochen, ab 0.8 ist diese hoch. Für eine
weiterführende Behandlung dieses und verwandter Themen ist das (kostenlose!) Programm
„G-Power“ von Buchner, Faul und „Eddy“ Erdfelder sehr zu empfehlen. Erdfelder ist im
übrigen einer meiner wenigen (n<12) musikalischen Fans...
Copyright Dr. Uwe Neugebauer 2005 14
3 Zusammenhangshypothesen
Im bisherigen ist bereits die Frage aufgekommen, wie Unterschiede über die Signifikanz
hinaus quantifizierbar sind. Das eine war die sog. Effektstärke d. Eine zweite Möglichkeit
besteht darin, die Varianzaufklärung durch das Quadrat des Korrelationskoeffizienten zu
bestimmen. Wurde z.B. zwischen der Körpergröße von Personen und der Intelligenz (rein
fiktiv!) ein Zusammenhang (Korrelation) von r=0.3 nachgewiesen, so folgt daraus, dass das
Merkmal Körpergröße 0.3²= 9% der Varianz bei der Intelligenz aufklärt.
Was habe ich hier getan? Ich habe von Merkmal A (Körpergröße) auf Merkmal B
(Intelligenz) geschlossen, also einen Zusammenhang ausgenutzt. Im Folgenden soll dies
von seinen Grundlagen noch einmal aufgearbeitet werden.
Im ersten Schritt kann ein vermuteter Zusammenhang zwischen zwei Merkmalen grafisch
betrachtet werden.
Zusammenhang zwischen der Anzahl Störche und Geburten (fiktiv!)
y= 347,196 + 5,384*x
680
640
GEBURTEN
600
560
520
480
440
20
25
30
35
40
45
50
55
60
STORCH
In der Abbildung wurde auf der X-Achse die Anzahl der Störche eingetragen, auf der YAchse die Anzahl der Geburten. Es besteht die Vermutung, dass (wie immer erzählt wurde),
dass ein Zusammenhang besteht zwischen den Störchen und den Babys. Im Grunde glauben
wir sogar aufgrund der skizzierten Theorie, dass eine Voraussage (Prognose) möglich ist
von Merkmal X (Anzahl Störche) auf Merkmal Y (Anzahl Geburten/Babys). Die Grafik
zeigt zum einen die Messwerte, zum anderen deutet sie mit der roten Linie an, wie dieser
Zusammenhang aussehen könnte: ein linearer Zusammenhang zwischen diesen beiden
Merkmalen. Oben in der Grafik ist zudem die sog. Regressionsgleichung angegeben: Die
Anzahl der Geburten ergibt sich aus der Formel y=347.2 + (5.4 * Anzahl der Störche).
Aus diesem Beispiel und seinen empirischen Daten folgt allerdings auch direkt, dass die
Theorie falsch sein muss: Zwar finden wir erst einmal einen Zusammenhang, der vermutet
wurde. Bei Betrachten der Regressionsgleichung fällt aber auf, dass selbst bei Null Störchen
Copyright Dr. Uwe Neugebauer 2005 15
immer ca. 347 Geburten zu erwarten sind. Dies steht im Widerspruch zur Theorie, dass der
Storch die Babys bringt!
Wie aber kann die Enge des Zusammenhanges zwischen zwei Merkmalen quantifiziert
werden? Über die Angabe eines Korrelationskoeffizienten, üblicherweise mit „r“ abgekürzt.
Dieser kann sich zwischen –1 und +1 bewegen, wobei
•
Null keinerlei Zusammenhang bedeutet,
•
-1 bedeutet: Immer wenn Merkmal A, dann nicht Merkmal B
•
+1 bedeutet: Immer wenn Merkmal A, dann auch Merkmal B
3.1 Korrelation bei metrischen Merkmalen
r=
∑ x × y − ( x × y)
s(x ) × s( y )
Copyright Dr. Uwe Neugebauer 2005 16
Herunterladen