Statistik mit Excel und SPSS

Werbung
Statistik mit Excel und SPSS
G. Karigl
1 Grundbegriffe
Grundgesamtheit
Erhebungseinheit
Merkmale
Wertebereich
Stichprobe
Teilbereiche der Statistik:
•
•
•
•
Deskritpive Statistik
Induktive Statistik
Explorative Statistik
Uni- / Bi- / Multivariate Statistik
Merkmale:
•
Skalenniveaus
o nominal
o ordinal
o metrisch (intervallskaliert)
o metrisch (verhältnisskaliert)
•
Merkmalstypen
o stetig
o diskret
o insb. dichotom
−1−
Zulässige Verfahren in Abhängigkeit vom Skalenniveau:
Skalenniveau
Auszählen
Ordnen
nominal
ordinal
metrisch (Intervall)
metrisch (Verhältnis)
ja
ja
ja
ja
ja
ja
ja
Summe,
Differenz
ja
ja
Quotient
ja
Das Tabellenkalkulationsprogramm Excel:
•
•
•
Arbeitsmappen mit –blättern, Symbolleiste, Bearbeitungsleiste, aktive Zelle
Daten, Formeln (mit absolutem und relativem Zellbezug), Grafiken
Statistische Analysen: Tabellenkalkulation, Statistikfunktionen, Analysefunktionen
Das Statistikprogramm SPSS (Statistical Package for the Social Sciences):
•
•
•
•
•
Dateneditor (Daten- und Variablenansicht)
Zeilen für Erhebungseinheiten (Fälle)
Spalten für Variablen
Datenaufbereitung: Umkodieren, Transformieren, Fälle gewichten, Fälle auswählen
Datenanalyse: Analysieren, Grafiken
Viewer: Ergebnisse, Tabellen, Grafiken, Export
Lernprogramm
−2−
2 Deskriptive Statistik
2.1 Deskriptive Methoden für eindimensionale Stichproben
Stichprobe x1, x2, ..., xn vom Umfang n
bzw. geordnete Stichprobe x(l) ≤ x(2) ≤ ... ≤ x(n)
Häufigkeitsverteilungen:
•
•
Diskrete Merkmale: Urliste, Häufigkeitsverteilung
Stetige Merkmale: Klassenbildung (Gruppierung)
# Klassen ≈ √n, Klassengrenzen, Klassenmitten
Excel:
SPSS:
HÄUFIGKEIT(Datenbereich; Klassen)
(mit Strg+Umschalt+Eingabe abschließen!)
Analysieren → Deskriptive Statistiken → Häufigkeiten
Transformieren → Umkodieren in andere Variablen
Grafiken → Diagrammerstellung
Maßzahlen:
Lagemaße:
•
•
•
•
arithmetisches Mittel x =
1 n
∑ xi
n i =1
für n = 2k + 1
x (k +1)


Median xɶ =  1
für n = 2k
 2 ( x (k ) + x (k +1) )
x (k +1)
mit k = [pn], falls pn keine ganze Zahl


α-Quantil xɶ α =  1
mit k = pn, falls pn ganze Zahl
 2 ( x (k ) + x (k +1) )
Modalwert xmod
Streuungsmaße:
1 n
∑ (x i − x)2
n − 1 i =1
•
Varianz s 2 =
•
Standardabweichung s = s 2
s
Variationskoeffizient v =
x
Spannweite R = xmax − xmin
Interquartilabstand IOR = xɶ 0,75 − xɶ 0,25
•
•
•
−3−
Zulässige Maßzahlen in Abhängigkeit vom Skalenniveau:
Skalenniveau
nominal
ordinal
metrisch
(Intervall)
metrisch
(Verhältnis)
Modalwert
ja
ja
ja
Lage
Median,
Quantile
ja
ja
arithm.
Mittel
ja
Spannw.,
IQR
ja
ja
ja
ja
ja
Streuung
Varianz
ja
Var.koeff.
-
ja
ja
Excel:
MITTELWERT(Daten)
MEDIAN(Daten)
QUANTIL(Daten; α)
MODALWERT(Daten)
VARIANZ(Daten)
STABW(Daten)
SPSS:
Analysieren → Deskriptive Statistiken → Häufigkeiten
Analysieren → Deskriptive Statistiken → Deskriptive Statistiken
Analysieren → Deskriptive Statistiken → Explorative Datenanalyse
−4−
2.2 Multivariate deskriptive Statistik
Stichprobe (x1,y1), (x2,y2), ..., (xn,yn) vom Umfang n
Kontingenztafeln (insb. Vierfeldertafel):
allgemeine Form einer k × m – Kontingenztafel
b1
b2
⋯
a1
n11
n12
⋯ n1 j ⋯ n1m
n1.
a2
n 21
n 22 ⋯ n 2 j ⋯ n 2 m
n 2.
⋮
⋮
⋮
ai
n i1
ni2
⋮
⋮
⋮
ak
•
•
•
bj
⋯
⋮
⋯
n ij
bm
⋮
⋯ n im
⋮
⋮
⋮
n i.
⋮
n k1 n k 2 ⋯ n kj ⋯ n km
n k.
n .1
n
n .2
⋯ n. j
⋯ n .m
absolute und relative Häufigkeiten, Randverteilungen, bedingte Verteilungen
(n ij − n ij *) 2
niini j
2
Kontingenzkoeffizient χ = ∑
mit n ij * =
n ij *
n
i, j
χ2
∈ [ 0,1]
Kontingenzindex von Cramer V =
n(min(k, m) − 1)
SPSS:
Analysieren → Deskriptive Statistiken → Kreuztabellen
Korrelation:
s xy
∈ [ −1,1] mit s xy =
•
Korrelationskoeffizient r =
•
Rangkorrelationskoeffizient von Spearman
n
6∑ d i
rs = 1 −
Excel:
SPSS:
sxsy
1 n
∑ (x i − x)(yi − y)
n − 1 i =1
2
i =1
(n − 1)n(n + 1)
∈ [ −1,1] mit d i = R(x i ) − R(yi )
KORREL(X-Bereich; Y-Bereich)
Analysieren → Korrelation → Bivariat
Grafiken → Diagrammerstellung → Streudiagramm
−5−
Regression:
•
•
Regressionsgerade nach dem Prinzip der kleinsten Quadrate
s xy
y = a + bx mit b = 2 , a = y − bx
sx
2
Bestimmtheitsmaß r
Excel:
ACHSENABSCHNITT(Y-Bereich; X-Bereich)
STEIGUNG(Y-Bereich; X-Bereich)
BESTIMMTHEITSMASS(Y-Bereich; X-Bereich)
SCHÄTZER(x; Y-Bereich; X-Bereich)
SPSS:
Analysieren → Regression → Linear
Analysieren → Regression → Kurvenanpassung
Grafiken → Diagrammerstellung → Streudiagramm
−6−
3 Über diskrete und stetige Verteilungen
Binomialverteilung B(n, p):
•
•
n
Wahrscheinlichkeitsfunktion f (k ) = P(X = k ) =   p k q n − k , k = 0,1,..., n
k
Verteilungsfunktion F(x) = P(X ≤ x) = ∑ f (k)
k≤x
Excel:
BINOMVERT(k; n; p; 0)
BINOMVERT(x; n; p; 1)
Normalverteilung N(µ, σ):
1
1  x −µ 
− 

2 σ 
2
•
Dichtefunktion f ( x ) =
•
Verteilungsfunktion F( x ) = P(X ≤ x ) =
•
α-Quantil x = F−1 (α) (gemäß P(X ≤ x) = α )
σ 2π
e
x
∫ f ( t) dt
−∞
Excel:
NORMVERT(x; µ; σ; 0)
NORMVERT(x; µ; σ; 1)
NORMINV(α; µ; σ)
Ferner: Poissonverteilung, Hypergeometrische Verteilung
t-Verteilung, F-Verteilung, χ2-Verteilung
−7−
4 Statistische Testverfahren
Zweistichproben-t-Test für unabhängige Stichproben:
•
•
•
Modell: X1, X2 sind normalverteilt gemäß N(µ1, σ) bzw. N(µ2, σ)
Nullhypothese H0: µ1 = µ2, Alternative H1: µ1 ≠ µ2, Signifikanzniveau α
X1 − X 2
n1n 2 (n1 + n 2 − 2)
Testgröße TG =
2
2
n1 + n 2
(n − 1)S + (n − 1)S
1
•
•
1
2
2
ist t-verteilt mit n1 + n2 − 2 Freiheitsgraden
P-Wert (Signifikanz) P = P(| X |>| TG |)
Entscheidung: P < α ⇒ H0 wird verworfen
Excel:
TTEST(X1-Bereich; X2-Bereich; 2; 2)
SPSS:
Analysieren → Deskriptive Statistiken → Explorative Datenanalyse
Analysieren → Mittelwerte vergleichen → T-Test bei unabhängigen
Stichproben
χ2-Anpassungstest zum Vergleich von beobachteten und erwarteten Häufigkeiten:
•
•
•
•
•
Modell: X diskret verteilt
Nullhypothese H0: X verteilt gemäß p1, p2, ..., pk, Signifikanzniveau α
k
(n − n i *) 2
Testgröße TG = ∑ i
mit n i * = npi
ni *
i =1
ist χ2-verteilt mit k − 1 Freiheitsgraden
P-Wert (Signifikanz) P = P(X > TG)
Entscheidung: P < α ⇒ H0 wird verworfen
Excel:
CHITEST(X1-Bereich; X2-Bereich)
SPSS:
Analysieren → Nichtparametrische Tests → Chi-Quadrat
−8−
Herunterladen