file downloaden

Werbung
Weitere Files findest du auf www.semestra.ch/files
DIE FILES DÜRFEN NUR FÜR DEN EIGENEN GEBRAUCH BENUTZT WERDEN.
DAS COPYRIGHT LIEGT BEIM JEWEILIGEN AUTOR.
Zusammenfassung Statistik FGW
Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected]
1
Statistik FGW
WS 99 / SS 01
G. Müller
1. BESCHREIBENDE STATISTIK ........................................................... 3
1.1
Verteilungskennwerte ...................................................................................................3
1.1.1
Der Mittelwert .........................................................................................................3
1.1.2
Modus.....................................................................................................................3
1.1.3
Median....................................................................................................................3
1.1.4
Die Quartile .............................................................................................................4
1.1.5
Dezile und Perzentile ................................................................................................4
1.1.6
Range / Variabilität...................................................................................................4
1.1.7
Die Varianz..............................................................................................................4
1.1.8
Standardabweichung................................................................................................4
1.1.9
Variationskoeffizient .................................................................................................4
1.2
Visualisierung von Daten..............................................................................................5
1.2.1
Häufigkeitsverteilung.................................................................................................5
1.2.2
Klassifikation von Häufigkeitsverteilungen.................................................................5
1.2.3
Kumulierte Häufigkeitsverteilung...............................................................................5
1.2.4
Histogramm .............................................................................................................5
1.2.5
Tortendiagramm.......................................................................................................5
1.2.6
Säulendiagramm.......................................................................................................6
1.2.7
Stem-and-Leaf-Diagramm........................................................................................6
1.3
Skalenniveaus ...............................................................................................................6
1.3.1
Nominal- oder Kategorialskalen...............................................................................6
1.3.2
Ordinal- oder Rangskalen.........................................................................................6
1.3.3
Intervallskalen..........................................................................................................6
1.3.4
Proportional- oder Ratioskala...................................................................................7
2. INDUKTIVE (SCHLIESSENDE) STATISTIK: SCHÄTZEN UND
TESTEN VON PARAMETERN ................................................................... 7
2.1
Die Zufallsvariabel........................................................................................................7
2.2
Wahrscheinlichkeitsverteilung .....................................................................................7
2.2.1
Binominalverteilung...................................................................................................7
2.3
Wahrscheinlichkeit........................................................................................................8
2.3.1
Rechenregeln für Wahrscheinlichkeiten.....................................................................8
2.3.2
Erwartungswerte von Zufallsvariabeln .......................................................................8
2.3.3
Rechenregeln für Erwartungswerte............................................................................8
2.3.4
Varianz von Zufallsvariabeln .....................................................................................8
2.3.5
Rechenregeln für Varianz von Zufallsvariabeln...........................................................9
2.3.6
Qualitätsmerkmale guter Schätzverfahren..................................................................9
2.4
Statistische Tests für diskrete Zufallsvariabeln..........................................................9
2.4.1
Signifikanzniveau......................................................................................................9
2.4.2
Fehler erster und zweiter Art ....................................................................................9
2.4.3
Kritischer Wert........................................................................................................9
2.4.4
Hypothesenformulierung.........................................................................................10
Zusammenfassung Statistik FGW
Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected]
2
2.4.5
Gerichtete und ungerichtete Tests............................................................................10
2.4.6
Prinzip der Entscheidungsstatistik............................................................................10
2.5
Statistische Tests für kontinuierliche Zufallsvariablen.............................................10
2.5.1
Verteilungsfunktion für kontinuierliche Zufallsvariablen.............................................11
2.5.2
Zentrales Grenzwerttheorem...................................................................................11
2.5.3
Stichprobenkennwertverteilung...............................................................................11
2.5.4
Normalverteilung....................................................................................................12
2.5.5
Standardnormalverteilung .......................................................................................12
2.5.6
z-Transformation....................................................................................................12
2.5.7
Konfidenzintervall...................................................................................................13
2.5.8
z-Test ....................................................................................................................13
3. PRÜFEN VON UNTERSCHIEDSHYPOTHESEN ............................. 13
3.1
÷2-Test .........................................................................................................................13
3.1.1
Freiheitsgrade beim ÷2-Test....................................................................................14
3.1.2
Der eindimensionale ÷2-Test...................................................................................14
3.1.3
Median-Test ..........................................................................................................14
3.1.4
Der Vier-Felder Test..............................................................................................14
3.2
t-Test............................................................................................................................15
4. PRÜFUNG VON ZUSAMMENHANGSHYPOTHESEN .................... 15
4.1
Primitive Zusammenhangshypothesen.......................................................................16
4.2
Komplexe Zusammenhänge........................................................................................16
4.2.1
Korrelationskoeffizienten........................................................................................16
4.2.2
Spearman Rang-Korrealtion...................................................................................16
4.2.3
Kendalls Rangkorrelation.......................................................................................17
4.2.4
Pearson Korrelation...............................................................................................17
5. GRUNDZÜGE DER COMPUTERGESTÜTZTEN DATENANALYSE
17
5.1
Data-Handling .............................................................................................................17
5.2
Definition einer Variablen..........................................................................................17
5.3
Datentransformation...................................................................................................18
5.3.1
Datacleaning ..........................................................................................................18
5.3.2
Hinzufügen von neuen Daten...................................................................................18
5.3.3
Recodieren von Daten............................................................................................18
5.3.4
Zusammenfügen von Datensätzen...........................................................................18
5.3.5
Analyse von Teildatensätzen...................................................................................18
Zusammenfassung Statistik FGW
Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected]
1. Beschreibende Statistik
Zweck:
Kompression von Daten
übersichtliche Darstellung/rasches Erfassen der Informationen
1.1 Verteilungskennwerte
1.1.1 Der Mittelwert
Engl.: mean value
x=
Mittelwert
1 n
∑ xi
n i =1
Der Mittelwert minimiert die Distanz zu den individuellen Werten. Der
Mittelwert macht keine Angaben über die Streuung der Werte.
Mittelwert aus Häufigkeitsverteilung: siehe HIRSIG, 2.29
Wird der Mittelwert nicht aus einer Stichprobe sondern aus der Grundgesamtheit N ermittelt, so wird
x zu µ .
1.1.2 Modus
Modus: höchster Punkt einer Verteilung
1.1.3 Median
Median: Ausprägungsgrad der Merkmalsdimension, der die in eine Rangreihe geordneten
Ausprägungsgrade in zwei Hälften teilt.
Ø Medianbestimmung bei ungerader Anzahl Beobachtungen und nur einmal vorkommenden
Ausprägungsgraden: kein Problem
Ø Medianbestimmung bei gerader Anzahl Beobachtungen und nur einmal vorkommenden
Ausprägungsgraden: Arithmetisches Mittel der zwei mittleren Werte
Ø Medianbestimmung bei gerader Anzahl Beobachtungen und mehrmals vorkommenden
Ausprägungsgraden: lineare Interpolation gefunden werden.
kumulierte Häufigkeit
cf
b
a
y
KB
x
a ⋅ KB
b
Der Median ergibt sich, wenn man zum unteren Grenzwert der Klasse den Wert y addiert.
y=
3
Zusammenfassung Statistik FGW
Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected]
4
Der Median ist robust und wird nicht durch statistische Ausreisser beeinflusst. Ist die Verteilung
symmetrisch, fällt der Median mit dem Mittelwert zusammen.
1.1.4 Die Quartile
Die Quartilen teilen die Gesamtfläche in 4 gleich grosse Flächen auf. Dabei sind die Abstände zwischen
den Quartilen meistens nicht gleich gross.
Interquartilsabstand: Q3 -Q1
Grosse Gesellschaften haben einen grossen Interquartilsabstand, kleine Gesellschaften einen kleinen.
1.1.5 Dezile und Perzentile
Analog zu Median und Quartile.
1.1.6 Range / Variabilität
Engl.: range
Range: Maximalwert - Minimalwert
1.1.7 Die Varianz
Engl.: variance
Varianz
s2 =
1 n
( xi − x ) 2
∑
n i =1
Die Varianz ist ein Mass für die Variabilität einer Verteilung.
s2 = 0 heisst, dass alle untersuchten Werte genau gleich gross sind.
1.1.8 Standardabweichung
Engl.: standard deviation
Standardaweichung s = s 2 =
n
1
∑ n (x − x )
i =1
2
i
Die Standardabweichung liefert Informationen über die mittlere Abweichung zum Mittelwert.
Wird die Standardabweichung nicht aus einer Stichprobe sondern aus der Grundgesamtheit N ermittelt,
so wird s zu σ .
2
σ≅
N
1.1.9 Variationskoeffizient
Engl.: coefficient of variation
Variationskoeffizient c =
s
x
Der Variationskoeffizient relativiert die Standardabweichung am Mittelwert.
Zusammenfassung Statistik FGW
Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected]
5
1.2 Visualisierung von Daten
1.2.1 Häufigkeitsverteilung
Grundidee: Einteilung von Fällen in Klassen.
Bei der Klasseneinteilung gilt es folgendes zu beachten:
Ø gleiche Intervalle
Ø keine Lücken oder Überschneidungen
Ø Intervall so wählen, dass nicht zu viele oder zuwenig Werte in die einzelnen Intervalle fallen.
Absolute Häufigkeit (frequency): Anzahl Fälle pro Intervall
Relative Häufigkeit (precent): Division der Anzahl Fälle pro Intervall (Fallzahl) durch N (Anzahl
Elemente der Grundmenge).
Der Vorteil der relativen Häufigkeit ist die bessere Vergleichbarkeit, der Nachteil ist die Gefahr der
statistischen Ausreisser.
1.2.2 Klassifikation von Häufigkeitsverteilungen
Ø
Ø
Ø
Ø
symmetrische Häufigkeitsverteilung
rechts steile/links schiefe Häufigkeitsverteilung
links steile/rechts schiefe Häufigkeitsverteilung
mehrgipflige Häufigkeitsverteilung
1.2.3 Kumulierte Häufigkeitsverteilung
Få
Kumulierte Häufigkeitsverteilungen sind monoton
wachsend.
Der Median befindet sich bei 50%. Trifft der Median
auf ein Platteau: Mittelwert der beiden möglichen
Werte ermitteln
10%
Gewicht [kg]
I
Kummulierte Häufigkeit cf ( I ) = ∑ f (i )
i =1
1.2.4 Histogramm
Engl.: histogramm
Das Histogramm ist ähnlich wie ein Säulendiagramm, die Achsen sind jedoch hier intervall- oder
proportionalskaliert. Die Möglichen Ausprägungsdimensionen werden in Klassen zusammengefasst und
gegen die Anzahl Werte pro Klasse aufgetragen.
1.2.5 Tortendiagramm
Engl.: pie chart
Tortendiagramme eigenen sich für eine optimale Darstellung von Proportionen (bis zu 7
Ausprägungskategorien).
Zusammenfassung Statistik FGW
Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected]
6
1.2.6 Säulendiagramm
Engl.: bar chart
Säulendiagramme sind Tortendiagrammen vorzuziehen, wenn die lineare Rangfolge der
Ausprägungskategorien zu Ausdruck gebracht werden soll.
1.2.7 Stem-and-Leaf-Diagramm
Stamm: höhere Dezimalzahlen
Blätter: Kleinere Dezimalzahlen
Stemm
Leaf
(Tausender (Hunderter)
)
2
1
0
0
4
2
8
6
1000; 1200; 1600
400; 800
Da man nur zwei Dezimalen hat muss man immer auf Hunderter runden.
1.3 Skalenniveaus
Mit den Skalenniveau verbindet sich das Problem der Transformationsfreiheit. Es gilt das Prinzip der
Tranformations-Invarianz: Statistische Aussagen dürfen nicht durch statthafte Skalentransformationen
verändert werden.
1.3.1 Nominal- oder Kategorialskalen
Als ausprägungsgrade einer Merkmalsdimension sind nur eine endliche Zahl disjunkter Kategorien
denkbar. Nominalskalen mit nur zwei Ausprägungsgrade werden als dichotome Skalen bezeichnet.
Die Ausprägungskategorien dürfen sich nicht gegenseitig ausschliessen und dürfen sich nicht
überschneiden. Im weiteren müssen Sie erschöpfend sein.
Mögliche Transformationen:
Ø beliebige Permutation von numerischen Codes, bei denen die Anzahl Codes konstant bleibt.
1.3.2 Ordinal- oder Rangskalen
Die Ausprägungsgrade einer Merkmalsdimension lassen sich in eine eindimensionale Rangreihe
abbilden. Über die absoluten Abstände zwischen den Rangplätzen können keine Aussagen gemacht
werden.
Mögliche Transformationen:
Ø streng monotone Transformationen (y = ax2 + bx +c) sind erlaubt
1.3.3 Intervallskalen
Die möglichen Ausprägungsgrade einer Merkmalsdimension können nicht nur linear rangiert werden,
sondern sind äquidistant. Der Nullpunkt ist willkürlich festgelegt. Bei Intervallskalen sind Vergleiche
von Differenzen möglich.
Mögliche Transformationen:
Ø lineare Transformationen (y = ax + b)
Zusammenfassung Statistik FGW
Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected]
7
1.3.4 Proportional- oder Ratioskala
Die Ausprägungsgrade einer Merkmalsdimension sind äquidistant und durch die Merkmalsdimension
selber wird ein absoluter Nullpunkt definiert.
Ø Transformationen vom Typ y = ax
2. Induktive (schliessende) Statistik: Schätzen und Testen von
Parametern
Aus ökonomischen Gründen ist die Forschung meist gezwungen mit Stichproben und nicht mit der
Population zu arbeiten. Bei der idealen Stichprobe haben alle Mitglieder der Population die gleiche
Chance zur Stichprobe zu gehören.
Voraussetzung für ein Schätzen und Testen von Parametern ist, dass es sich um eine echte
Zufallsstichprobe handelt.
2.1 Die Zufallsvariabel
Engl.: random variable
Zufallsvariable
Funktion, welche den Ergebnissen eines Zufallsexperimentes reelle Zahlen zuordnet.
Abhängig davon, welche Eigenschaften der Ausgänge eines Zufallsexperimentes erfasst werden sollen,
unterscheiden wir Zufallsvariablen mit Nominal-, Ordinal-, Intervall- oder Porportionalskalencharakter.
Diskrete Zufallsvariabel: endlicher Wertevorrat
Kontinuierliche / stetige Zufallsvariabel: unendlicher Wertevorrat
2.2 Wahrscheinlichkeitsverteilung
Wahrscheinlichkeitsverteilung: ordnet den möglichen Werten eines Zufallsexperimentes die
Wahrscheinlichkeit für sein Eintreffen zu.
Zufallsereignisse
Werte des Zufallsereignisses
Zufallsvariabel
diskrete Wahrscheinlichkeitsfunktion
Wahrscheinlichkei
Wahrscheinlichkeitsverteilung
kontinuierliche Wahrscheinlichkeitsfunktion
2.2.1 Binominalverteilung
Bei Zufallsexperimenten mit nur zwei alternativen Resultaten (bivariate Verteilung) entspricht die
Wahrscheinlichkeitsverteilung einer Binominalverteilung. Die Binominalverteilung ist von der
Wahrscheinlichkeit der Elementarereignissen und der Anzahl Experimente abhängig. Ist die
Wahrscheinlichkeit für beide Elementarereignisse gleich gross, ist die Binominalverteilung symmetrisch.
Zusammenfassung Statistik FGW
Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected]
8
Mit der Binominalverteilung kann die Wahrscheinlichkeit berechnet werden, dass ein Ereignis A in n
unabhängigen1 Versuchen genau x-mal eintrifft; dabei ist p die konstante Wahrscheinlichkeit, dass A im
einzelnen Versuch eintrifft.
n
Binominalverteilung Pn ( x ) =   p x ⋅ q n − x
k 
Anzahl Teilmengen mit k Elementen einer Menge mit n Elementen , wobei die Reihenfolge der Elemente
unwesentlich ist (Widerholungen nicht gestattet):
n
n!
  =
 k  k !( n − k )!
Bei der binomischen Verteilung gilt:
µ= n⋅ p
C(k,n) =
σ = n ⋅ p ⋅ (1 − p )
2.3 Wahrscheinlichkeit
Der Wahrscheinlichkeit p werden Werte aus dem Intervall [0;1] zugeordnet, wobei 1 als sicheres, 0 als
unmögliches Ereignis gilt.
2.3.1 Rechenregeln für Wahrscheinlichkeiten
Wahrscheinlichkeiten zweier unabhängiger Ereignisse:
p ( M ∪ N ) = p( M ) + p( N )
p (M ∩ N ) = p (M ) ⋅ p (N )
2.3.2 Erwartungswerte von Zufallsvariabeln
Engl.: expectation
n
Erwartungswert
E ( X ) = ∑ xi ⋅ pi = µ
i =1
2.3.3 Rechenregeln für Erwartungswerte
E(X + Y) = E(X) + E(Y)
E(kX) = k · E(X)
E(X +k) = E(X) + k
wenn X und Y unabhängig:
E(X·Y) =E(x) · E(Y)
2.3.4 Varianz von Zufallsvariabeln
n
n
i =1
i =1
Varianz der Zufallsvariable V ( X ) = E( xi − E ( X ) ) 2 = ∑ pi ( xi − E ( X ) ) 2 = ∑ pi ( xi − µ)2
1
Urnenmodell: Ziehen mit Zurücklegen
Zusammenfassung Statistik FGW
Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected]
9
2.3.5 Rechenregeln für Varianz von Zufallsvariabeln
V(kX) = k2 V(X)
V(X + k) = V(X)
wenn X und Y unabhängig:
V(X + Y) = V(X) + V(Y)
2.3.6 Qualitätsmerkmale guter Schätzverfahren
Ø Erwartungstreu
Ø Konsistent
Je mehr Versuche, desto näher dem wahren Populationsparameter
Ø Effizient
Minimale Varianz bei gegebenem Stichprobenumfang
2.4 Statistische Tests für diskrete Zufallsvariabeln
Anhand von statistischen Tests können die Grenzen der Zufälligkeit ermittelt werden. Bei welche
Resultate weichen nur zufällig ab und wo ist die Abweichung signifikant?
2.4.1 Signifikanzniveau
In der Sozialwissenschaft geht man von folgenden Signifikanzniveaus aus:
Irrtumswahrscheinlichkeit
verbale Umschreibung
>5%
nicht signifikant
≤ 5%
signifikant
≤ 1%
sehr signifikant
≤ 0.1 %
hoch signifikant
2.4.2 Fehler erster und zweiter Art
Fehler erster Art (á-Fehler):
Fehler zwiter Art (â-Fehler):
Nullhypothese wird fälschlicherweise abgelehnt
(Publikation, obwohl falsch)
Nullhypothese wird fälschlicherweise angenommen
(keine Publikation obwohl neue Erkenntnis)
Fehler zweiter Art können vermieden werden, wenn das Signifikanzniveau hoch angesetzt ist, wenn
starke statistische Tests verwendet werden und wenn die Stichproben gross sind (kleine Varianz).
Entscheidung aufgrund
der Stichprobe
zugunsten von
H0
In der Populatio gilt die
H0
richtige Entscheidung
H1
â-Fehler
H1
á-Fehler
richtige Entscheidung
2.4.3 Kritischer Wert
Engl.: critical value
Der kritische Wert trennt signifikante von nicht signifikanten Resultaten.
Zusammenfassung Statistik FGW
Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected]
10
2.4.4 Hypothesenformulierung
Nullhypothese H0:
Der beobachtete Unterschied im Verteilungskennwert ist zufällig entstanden /
es besteht kein Unterschied.
(beide Stichproben stammen aus der selben Population).
Alternativhypothese H1: Der beobachtete Unterschied im Verteilungskennwert ist signifikant / es
besteht ein Unterschied.
(beide Stichproben stammen nicht aus der selben Population)
Die Alternativhypothese H1 postuliert exakt das Gegenteil der Nullhypothese Ho
Präzise Alternativhypothesen H1 sind nicht testbar, weil dann die Nullhypothese Ho unpräzise ist und
nicht mehr falsifiziert werden kann.
2.4.5 Gerichtete und ungerichtete Tests
Einseitig gerichtete Fragestellung:
Ereignis A tritt häufiger ein als Ereignis B.
Zweiseitig ungerichtete Fragestellung:
Ereignis A trifft nicht gleich oft ein wie Ereignis
B.
2.4.6 Prinzip der Entscheidungsstatistik
Um anzuklären inwieweit zur Erklärung eines Unterschiedes in den Verteilungskennwerten zweier
Stichprobenerhebungen der Zufall ausgeschlossen werden dar, formulieren wir die Nullhypothese Ho
und versuchen diese zu falsifizieren. (Karl Popper: Um allgemeine Sätze zu widerlegen muss man
Gegenbeispiele suchen.)
Ø Ist die Nullhypothese Ho unwahrscheinlich, so lehnen wir sie ab und schliessen bei der
Interpretation des beobachteten Unterschiedes eines Verteilungskennwertes den Zufall aus. Es
lässt sich jedoch nicht statistisch belegen worauf der Unterschied zurückzuführen ist.
Ø Ist die Nullhypothese Ho wahrscheinlich, so kann sie nicht abgelehnt werden. Wir können so
bei der Interpretation des beobachteten Unterschiedes eines Verteilungskennwertes den Zufall
nicht ausschliessen. Damit ist die Nullhypothese Ho jedoch nicht bewiesen.
2.5 Statistische Tests für kontinuierliche Zufallsvariablen
Wird in einem Zufallsexperiment eine kontinuierliche Grösse erfasst, besteht die Ergebnismenge aus
unendlich vielen Elementarereignissen, denen eine Zufallsvariabel X unendlich viele Werte zuweist. Für
kontinuierliche Zufallsvariablen gibt es deshalb keine Wahrscheinlichkeitsverteilung sondern eine
Dichtefunktion. Bei kontinuierlichen Zufallsvariablen fragen wir nicht nach der Wahrscheinlichkeit
einzelner Elementarereignisse (diese geht gegen Null), sondern nach der Wahrscheinlichkeit für das
Auftreten von Ereignissen, die sich in einem bestimmten Intervall der Zufallsvariablen befinden.
Zusammenfassung Statistik FGW
Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected]
11
2.5.1 Verteilungsfunktion für kontinuierliche Zufallsvariablen
Engl: distribution functions
Verteilungsfunktion F(X): kumulierte Wahrscheinlichkeitsfunktion
Bei der Verteilungsfunktion wir die Fläche der Wahrscheinlichkeitsfunktion in eine Streck umgewandelt.
å
Wahrscheinlichkeitsfunktion
Verteilungsfunktion F ( X ) =
å
Verteilungsfunktion
∑ f (x )
j
x j≤X
Wahrscheinlichkeit für X<a p ( X < a ) =
a
∫ f ( X )dX
−∞
2.5.2 Zentrales Grenzwerttheorem
Die Verteilung von Mittelwerten aus Stichproben des Umfangs n, die sämtlich derselben
Grundgesamtheit entnommen wurden, geht mit wachsendem Stichprobenumfang in eine
Normalverteilung über.
Ø Stichprobenumfang n> 30: Die Stichprobenmittelwerte sind von der Verteilung der
Merkmalsausprägung in der Population unabhängig und normalverteilt.
Ø Stichprobenumfang n < 30: Sind die Merkmalsausprägungen in der Population
normalverteilt, so darf für die Verteilung der Stichprobenmittelwerte eine t-Verteilung mit
dem Freiheitsgrad df = (n-1) angenommen werden.
2.5.3 Stichprobenkennwertverteilung
Aus einer Grundgesamtheit werden (theoretisch) unendlich viele gleich grosse Zufallsstichproben von n
Systemen gezogen. In allen diesen Stichproben werden die Verteilung des interessierenden Merkmals
und die zugehörigen Verteilungskennwerte x i und si bestimmt. Stellen wir die Verteilungskennwerte
aller Stichproben wiederum in einem Verteilungsdiagram dar, so erhalten wir die sogenannten
Stichprobenkennwertverteilungen.
Ø Die Stichprobenkennwertverteilung für den Mittelwert ist (für n > 30) normalverteilt.
Ø Der Mittelwert der Verteilung der Stichprobenmittelwerte µx entspricht dem Mittelwert µ des
Merkmals der Population (wenn n ∞ ) und ist somit erwartungstreu.
1 N  1  N  1 N
1
E ( x ) = E  ∑ xi  = E  ∑ xi  = ∑ E( xi ) = ⋅ N ⋅ E ( x i ) = E ( x i )
N
 N i =1  N  i =1  N i =1
Ø Die Varianz der Verteilung der Stichprobenmittelwerte µx entspricht dem N-ten Teil der
Varianz der Population.
1 N 
1  N 
1 N
1
1
V ( x ) = V  ∑ xi  = 2 V  ∑ x i  = 2 ∑ V ( xi ) = 2 ⋅ N ⋅ σx2i = σx2i
N
N
 N i =1  N
 i =1  N i =1
Zusammenfassung Statistik FGW
Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected]
Individualdaten xi
σ x2i
Varianz
Mittelwerte x
σ x2i
N
σxi
σ = σx i
Standardabweichung
2
xi
≅
12
N
N
2.5.4 Normalverteilung
Für die Normalverteilung gilt:
Ø glockenförmig und symmetrisch (Gaussche-Glockenkurve)
Ø Verteilung nähert sich asymptotisch der X-Achse
Ø Modalwert, Median und Erwartungswert fallen zusammen
f (x ) =
1
⋅ e−(x−µ)
2
/ 2σ 2
2πσ 2
Eine Normalverteilung ist durch den Erwartungswert ì und die Varianz ó eindeutig definiert. Man
schreibt: N(ì, ó).
2.5.5 Standardnormalverteilung
Standardnormalverteilung:
Normalverteilung mit dem Mittelwert ì =0 und der
Standardabweichung ó = 1
Durch die z-Transformation können sämtliche Normalverteilungen in eine Standardnormalverteilung
transferiert werden (in der Regel eine lineare Transformation der Zufallsvariablen x).
f(z)
−z 2
1
f (z) =
⋅e 2
2π
p (z < a ) = ∫
a
−∞
−z
1
⋅e 2
2π
2
z
0
2.5.6 z-Transformation
Mit der z-Transformation kann jede beliebige Normalverteilung in eine Standardnormalverteilung
übergeführt werden.
z − Transformation
zi =
xi − µ
σ
Graphische Darstellung der z-Transformation siehe: HIRSIG 3.14
Zusammenfassung Statistik FGW
Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected]
13
2.5.7 Konfidenzintervall
Engl.: confidence interval
f(z)
Das Konfidenzintervall kennzeichnet
denjenigen Bereich eines Merkmals, in dem sich
ein definierter Prozentsatz (in der Regel 90%
99%) aller möglichen Populationsparameter
befinden, die den empirisch ermittelten
Stichprobenkennwert erzeugt haben können.
z
0
2.5.8 z-Test
Der z-Test wird hauptsächlich angewandt um zu bestimmen mit welcher Wahrscheinlichkeit der
Ausprägungsgrad einer Zufallsvariablen zwischen zwei Grenzwerten zu erwarten ist (Konfidenzintervall).
Zum Prüfen von Hypothesen kann der z-Test angewandt werden. Dabei wird folgendes Vorgehen
angewandt:
Ø Formulieren der Nullhypothese Ho und der Alternativhypothese H1
Ø Signifikanzniveau festlegen
Ø mit z-Verteilung (Tabelle) prüfen, ob Nullhypothese Ho selten ist
Fall 1: Nullhypothese Ho ist selten verwerfen Unterschied ist signifikant
Fall 2: Nullhypothese Ho ist nicht selten nicht verwerfen Unterschied nicht signifikant
3. Prüfen von Unterschiedshypothesen
Skala
Ratioskala
Intervallskala
Ordinalskala
Nominalskala
mögliche Testverfahren
t-Test
t-Test
Vergleich der Mediane
Vergleich der Modalwerte
÷2-Test
3.1 ÷2-Test
Alle ÷2-Methoden laufen auf einen Vergleich von beobachteten und erwarteten Häufigkeiten hinaus,
wobei die erwarteten Häufigkeiten die jeweils geprüfte Nullhypothese repräsentieren. Der Test kann
gerichtet (einseitig) oder ungerichtet (zweiseitig) sein.
Ø Voraussetzung: grosse Stichprobe
Ø Anwendung bei nominalskalierten Merkmalsdimensionen
Ø Ziel: prüfen ob eine empirische Verteilung signifikant von einer beliebigen theoretischen
Verteilung abweicht
Ø minimales ÷2: kein Unterschied
Ø maximales ÷2: sicherer Unterschied
Zusammenfassung Statistik FGW
Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected]
1 Merkmalsdimension
1-dimensionales ÷2
2 Ausprägungsgrade
mehr als 2 Ausprägungsgrade 1-dimensionales ÷2
2 Merkmalsdimensionen
4-Felder- ÷2-Test
k
l
÷2-Test
14
m Merkmalsdimensinen
Konfigurationsfrequenzanalyse
für alternative Merkmale
Konfigurationsfrequenzanalyse
für alternative Merkmale mit mehr
als zwei Ausprägungen
3.1.1 Freiheitsgrade beim ÷2-Test
Engl.: degree of freedom
Die Tabellendimension (Anzahl Merkmale, Ausprägungsgrade) beeinflusst die Freiheitsgrade.
Die Freiheitsgrade werden in der Regel wie folgt berechnet:
Freiheitsgrade df (Anzahl Zeilen - 1 ) (Anzahl Spalten - 1)
3.1.2 Der eindimensionale ÷2-Test
Der eindimensionale ÷2-Test wird bei nominalskalierten Merkmalsdimensionen mit nur zwei
Ausprägungsgraden angewendet.
k
Chi-Quadrat χ 2 = ∑
i =1
( H real − H erw ) 2
H erw
mit (k-1) Freiheitsgraden
k: Anzahl Ausprägungskategorien
Ø Voraussetzung: jede Ausprägungskategorie weist mind. 5 Elemente auf. Sonst wird der Fishers
Exact-Test angewendet.
3.1.3 Median-Test
Der Median-Test prüft ob die Mediane zweier Gruppen (ordinalskalierten Merkmalsdimensionen)
unterschiedlich sind.
Ø bestimmen des gemeinsamen Medians MG (für beide Gruppe zusammen)
Ø Originaltabelle vereinfachen: Teilen oberhalb Median MG zu einem Cluster CO zusammenfassen;
Zeilen unterhalb Median MG zu einem Cluster CU zusammenfassen
Ø aus den beiden Clustern CO und Cu eine 4-Feldertabelle erstellen
Ø errechnen der erwarteten Häufigkeiten HE
Ø ÷2-Test mit Freiheitsgrade df (Anzahl Zeilen - 1 ) (Anzahl Spalten - 1)
3.1.4 Der Vier-Felder Test
Der Vier-Felder-Test prüft zwei Merkmale auf stochastische Unabhängigkeit. Zu diesem Zweck
wird eine Vier-Felder-Tafel nach untenstehendem Muster erstellt.
Merkmal 1
Merkmal 2
Total
Gruppe 1
a
c
a+c
Gruppe 2
b
d
b+d
Total
a+b
c+d
a+b+c+d
(Soll diese Tafel mit einer theoretisch begründeten oder einer zweiten empirischen Verteilung verglichen
werden, so wird der eindimensionale ÷2-Test angewendet.)
Zusammenfassung Statistik FGW
Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected]
15
2
N

N a ⋅ d − b ⋅ c − 
2

χ2 =
(a + b )(c + d )( a + c )(b + D)
mit dem Freiheitsgrad df = 1
3.2 t-Test
Der t-Test vergleicht Mittelwerte von Stichproben untereinander und mit dem Mittelwert der
Grundgesamtheit. Bei kleinen Stichproben (n>30) oder geschätzter Varianz s der
Stichprobenmittelwerte kann man nicht mehr davon ausgehen, dass die Mittelwerte der Stichproben
normalverteilt sind (zentrales Grenzwerttheorem).2 Diese Mittelwerte sind t-verteilt, sofern die
Messwerte in der Grundgesamtheit normalverteilt sind.
t-Verteilung: Werden Stichproben des Umfangs n aus einer normalverteilten Grundgesamtheit
gezogen, verteilen sich die am geschätzten Standardfehler s ( σ̂ x ) relativierten
Differenzen m1 - m2 ( x − µ ) entsprechend einer t-Verteilung mit n-1 Freiheitsgraden.
E(m1 - m2) = E(m1) - E(m2) = 0
Je weiter der Erwartungswert der Mittelwertdifferenz der beiden Stichproben von Null entfernt ist,
desto unwahrscheinlicher ist dieser Erwartungswert.
m1 − m2
s
Freiheitsdgrade df: (n1 + n2 - 2)
m1; m2 :
Stichprobenmittelwerte
s:
Schätzung der Standardabweichung
s 2 ⋅ ( n1 − 1) + s 22 ⋅ ( n 2 − 1)  1
1
Schätzung der Varianz von (m 1 - m2) s 2 = 1
⋅  − 
( n1 − 1) + ( n 2 − 1)
 n1 n 2 
t=
s12 , s 22 :
n1 , n 2 :
Varianzen der beiden Stichproben
Anzahl Beobachtungen der beiden Stichproben
Es gibt verschiedene Varianten des t-Tests. Der Unterschied besteht hauptsächlich in der
unterschiedlichen Schätzung der Standardabweichung s der Stichprobenmittelwerte m1; m2.
4. Prüfung von Zusammenhangshypothesen
Die Gleichung, die wir bei stochastischen Zusammenhängen zur Merkmalsvorhersage benötigen, wird
Regressionsgleichung genannt. Die Enge des Zusammenhangs zwischen zwei Merkmalen
charakterisiert der Korrelationskoeffizient, der Werte zwischen +1 und -1 annehmen kann. Erreicht
ein Korrelationskoeffizient Werte von +1 bzw. -1, geht der stochastische Zusammenhang in einen
funktionalen, deterministischen Zusammenhang über. Eine Korrelation von +1 zeigt einen linearen
gleichsinnigen Zusammen hang, eine Korrelation von -1 zeigt einen linearen gegenläufigen
Zusammenhang an.
Unabhängig von ihrer Höhe, dürfen Korrelationen nicht im Sinn von Kausalbeziehungen interpretiert
werden.
2
mit grösser werdendem n geht die t-Verteilung in eine Normalverteilung über.
Zusammenfassung Statistik FGW
Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected]
16
Kausalität: klare Richtung des Einflusses
x y
Korrelation: es besteht ein Zusammenhang
x y oder y x
4.1 Primitive Zusammenhangshypothesen
Bei einfachen Zusammenhangshypothesen können die selben Verfahren wie bei der Prüfung von
Unterschiedeshypothesen angewandt werden. Dazu werden die Resultate in eine Tabelle eingetragen
und dann mittels ÷2-Test geprüft.
4.2 Komplexe Zusammenhänge
4.2.1 Korrelationskoeffizienten
Engl.: correlation coefficient
r = 1.0
r = -1.0
r = 0.0
4.2.2 Spearman Rang-Korrealtion
Der Zusammenhang zweier ordinalskalierten Merkmale wird durch die Spearman Rang-Korrelation
rs erfasst.3 Die Spearman Rang-Korrelation wird eingesetzt, wenn man monotone nichtlineare und
lineare Zusammenhänge vermutet. Die Spearman Rang-Korrelation wiest ein hohes â-Fehler Risiko
auf.
n
Korrelationskoeffizient rs nach Spearman: rs −
6 ⋅ ∑ d i2
i =1
n3 − n
Vorgehen:
Ø Rangreihen für beide Merkmale bilden
Ø für jedes Individuum die Differenz di der Rangplätze bilden
Ø die Summer der quadrierten Differenzen di der Rangplätze bilden
Ø Korrelationskoeffizient rs nach obenstehender Formel ermitteln
Ø Vergleich des Korrelationskoeffizienten rs mit der Tabelle der kritischen Werte4
a) der Korrelationskoeffizient rs ist grösser als der kritische Wert Daten sind selten
unter der Annahme dass Ho: rs = 0 die Korrelation ist signifikant
b) der Korrelationskoeffizient rs ist kleiner als der kritische Wert Ho: rs = 0 kann nicht
verworfen werden Korrelation ist nicht signifikant
3
rs ist mit der Produkt-Moment-Korrelation identisch, wenn beide Merkmale jeweils die Werte 1 bis n annehmen, was bei
Rangreihen der Fall ist. Eine Rangkorrelation könnte somit berechnet werden indem in die Produkt-Moment-Korrelationsformel
statt der intervallskalierten Messwerte die Rangdaten eingesetzt werden.
4
n>30
t-Verteilung
Zusammenfassung Statistik FGW
Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected]
17
4.2.3 Kendalls Rangkorrelation
Verbunde Rangplätze (mehrere Individuen belegen den selben Rang) beeinflussen den
Korrelationskoeffizienten rs ungünstig. Sind mehr als 25% der Rangplätze verbunden, muss eine
Korrektur vorgenommen werden. Der Korrelationskoeffizient ôc von Kendall berücksichtigt diese
Korrektur.
Korrelationskoeffizient nach Kendall τc =
C−D
 m −1 
0.5 ⋅ N 2 ⋅ 

 m 
C: Konkordante Paarvergleiche
D: Diskordante Paarvergleiche
N: Total aller Beobachtungen
m: minimale Zeilen-(Kolonnenzahl)
Konkordante Paarvergleiche:
(stützt H1): Paare bestehen aus Werten bei denen die Differenz zum
erwarteten Wert (wenn H0 gilt) grösser oder gleich Null ist (jedoch
nicht beide Differenzen Null sind).
Diskonkordante Paarvergleiche: (stützt H1 nicht): Paare bestehen aus Werten bei denen die Differenz
zum erwarteten Wert (wenn H0 gilt) kleiner oder gleich Null ist
(jedoch nicht beide Differenzen Null sind).
4.2.4 Pearson Korrelation
Die Korrelation nach Pearson zeigt ähnlich dem der Rangkorrelation nach Spearman Zusammenhänge
zwischen zwei ordinalskalierten Variabeln auf. Die Pearson Korrelation gilt aber nur für lineare
Zusammenhänge.
5. Grundzüge der computergestützten Datenanalyse
5.1 Data-Handling
Um erfasste Daten auswerten zu können, müssen die einzelnen Ausprägungsgrade eines Merkmals
codiert werden (Zuordnung von Zahlen zu einem Wert).
Grundidee: Die Daten werden in eine Datenmatrix eingetragen, wobei die erste Variabel immer die
Laufnummer des Individuums ist.
5.2 Definition einer Variablen
variable name:
variable lable:
value label:
missing values:
variable type:
measurement:
decimal places:
max. 8 Buchstaben (Sonderzeichen vermeiden)
hauptsächlich für Dateneingabe
aussagekräftige Variablenbezeichnung
hauptsächlich für Datenausgabe
Zuordnung des Ausprägungsgrades zu einer Zahl (1: männlich)
nur bei nominal- und ordinalskalierten Daten sinnvoll
a) system missing: nichts eingegeben
b) selbst definiert (für verschiedene Gründe des Fehlens von Angaben).
Skalenniveau eingeben (?) eher Variablenart (Datum, Text,...)
(Compi macht was eingegeben, auch wenn unlogisch)
Skalenniveau
Anzahl Kommastellen
Zusammenfassung Statistik FGW
Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected]
5.3 Datentransformation
Operation
Entfernen
Hinzufügen
Modifizieren
Zeilen = Beobachtungen
dataclening
neue Stichproben
fehler Korrigieren
Spalten = Variablen
datacleaning
neue Indizes
recodieren
5.3.1 Datacleaning
Ø Bereich (Zeile/Spalte) markieren
Ø rechte Maustaste: clear
5.3.2 Hinzufügen von neuen Daten
Ø Cursor auf Stelle wo Daten eingefügt werden sollen
Ø rechte Maustaste: insert case/ insert variable
(paste, wenn kopierter/ausgeschnittener Teil eingefügt werden soll)
5.3.3 Visualisieren von Daten
Ø Analyse / descriptives / frequencys / Darstellung wählen
5.3.4 Recodieren von Daten
Ø
Ø
Ø
Ø
Ø
neue Spalte einfügen
Variabel definieren
Menuleiste: transform compute
Recodierung definieren
ausführen
5.3.5 Zusammenfügen von Datensätzen
Ø
Ø
Ø
Ø
Datensatz A öffnen
alles markieren: copy
Datensatz B öffen
Cursor auf Stelle von Daten eingefügt werden sollen: paste
Achtung: Aufpassen das Reihenfolge der Fragen stimmen.
5.3.6 Analyse von Teildatensätzen
Ø Data / select cases
Ø if (Bedingungen der ausgewählten Fälle angeben, z.B. gender = 2 and ...
Ø Data / split files
Ø compare groupes
WICHTIG: nicht vergessen (select all cases / analyse all cases) die Teildatensätze aufzuheben
18
Zugehörige Unterlagen
Herunterladen