3 Beschreibende Statistik 3.1. Daten, Datentypen, Skalen Daten

Werbung
3
Beschreibende Statistik
3.1. Daten, Datentypen, Skalen
Daten
Datum, Daten (data)
”das Gegebene”
Fragen über Daten
Datenerhebung:
Was wurde gemessen, erfragt? Warum?
Wie wurden die Daten erhalten?
Versuchsplanung:
Wieviele Messungen (Befragungen)?
Wo messen? (Wen befragen?)
Repräsentanz, Randomisierung
Charakterisierung der Daten:
Sind es genug?
Sind alle notwendig?
Was ist naturgegeben, was von Menschen beeinflusst
(beeinflussbar)?
Art der Daten (Skalen)
Anzahl der möglichen Werte einer Variablen
Anzahl der gleichzeitig untersuchten Variablen
(univariate, multivariate Verfahren)
1
Skalenniveaus, Datentypen
• Nominalskala: qualitative Merkmale
– z.B. Eigenschaften wie ”krank” - ”gesund”, ”Raucher” ”Nichtraucher”, Geschlecht (dichotom), Farben,
Berufsgruppe, Tierart, Apfelsorte
– jede Beobachtung einer Merkmalsausprägung wird genau einer bestimmten Klasse (Kategorie) zugeordnet,
– Klassen können nicht geordnet sondern nur unterschieden werden, Klassen z.B. durch natürliche Zahlen oder
Buchstaben charakterisiert,
– Invarianz gegenüber Permutationen
• Ordinalskala: sinnvolles Ordnen der Beobachtungen möglich
– z.B. Bewertung durch Noten 1 - 5,
Antwortmuster: ”stark ablehnend” - ”ablehnend” ”unentschieden” - ”zustimmend” - ”stark zustimmend”, Platzierungen, Güteklassen, Ratingskalen
– Präferenzstruktur,
– Unterschiede zwischen den Werten bzw. Klassen nicht
vergleichbar (keine Abstände),
– wenn Klassen, dann üblicherweise durch natürliche
Zahlen charakterisiert,
– Invarianz gegenüber monotonen (isotonen)
Transformationen
2
• Intervallskala:
quantitative Merkmale, metrische Daten
– physikalische Größen wie Temperatur in Grad Celsius,
– Abstände zwischen den Werten der Skala besitzen eine
Bedeutung; Berechnung von Differenzen sinnvoll,
– kein absoluter Nullpunkt, deshalb z.B. Aussage:
”20o C sind doppelt so warm wie 10o C” unsinnig,
– Invarianz gegenüber linearen Transformationen
y = ax + b
• Absolut- oder Verhältnisskala: wie Intervallskala,
aber mit absolutem Nullpunkt
– z.B. Temperatur in Grad Kelvin, aber auch Einkommen,
– Invarianz gegenüber Ähnlichkeitstransformationen
y = ax
• Die Skalen sind nach steigendem Informationsgehalt aufgeführt (Nominalskala besitzt niedrigsten Gehalt).
• Die Überführung von einem Datenniveau in ein anderes
ist ”abwärts” stets möglich.
3
• Die Wahl der geeigneten statistischen Verfahren zur
Auswertung von Daten richtet sich nach
– der Art der Fragestellung
– dem vorliegenden Datentyp und
– der Anzahl der eingehenden Variablen.
Bsp.: Analyse von Abhängigkeiten in gemischtskalierten,
multivariaten Datensätzen
• Die Festlegung des Datentyps hängt stets von der Art der
Messung (Erfassung) der Daten ab, nicht nur von den
tatsächlichen Eigenschaften der Daten. Wird z.B. der
Aflatoxingehalt von Maispflanzen nur in Klassen ( 0 . . . 2,
2 . . . 5, 5 . . . 8, . . . [ppb]) erfasst, liegt diese Variable nur
als ordinale Variable vor (eigentlich Absolutskala).
4
3.2. Univariate Verteilungen,
grafische Darstellungen und Kenngrößen
Ausgangspunkt: Urliste
x1 , x 2 , . . . , x n
Häufigkeiten:
Hi . . . Anzahl oder absolute Häufigkeit des Auftretens der
Merkmalsausprägung ai, i = 1, . . . , l
Darstellung in Strichlisten, Häufigkeitstabellen, Balkenoder Stabdiagrammen
bei zu vielen Ausprägungen (und ordinalen Daten):
Klasseneinteilung; subjektiv, Manipulationsmöglichkeit!
Faustregel: Anzahl der Klassen etwa
√
n
hi = Hi/n . . . relative Häufigkeit von ai, i = 1, . . . , l.
Darstellung in Kreisdiagrammen
bei ordinalen Daten: kumulierte absolute und relative Häufigkeiten:
Ki =
i
X
j=1
Hj ,
ki =
i
X
j=1
hj
Darstellung in Summenkurven (Summenpolygon)
5
Kenngrößen eindimensionaler Verteilungen
• Charakterisierung von Verteilungen durch statistische Maßzahlen (Kenngrößen, Parameter), die die Eigenschaften
(Zentrum, Ausbreitung, Form) der Verteilung widerspiegeln
• wichtigste Maßzahlen sind Lage- und Streuungsparameter
• Wichtig: Skalierungsniveau beachten
Lageparameter:
Der Modalwert
• = die am häufigsten auftretende Merkmalsausprägung
• = die Klasse (Klassenmitte) mit der größten Häufigkeit
bei gruppierten Daten (Klassen)
• Mehrere Maxima: kein Modalwert
• Eigenschaften und Interpretation:
– Wert, der ”am ehesten” zu beobachten ist
(sprachl. Formulierungen wie:
”Diese Krankheit dauert normalerweise 3 Tage.”,
”Die Fahrzeit beträgt normalerweise 2 Stunden.”)
– unempfindlich gegenüber Ausreißern
(extremen Werten)
6
Median
• mindestens ordinale Daten
• Median heißt jede Merkmalsausprägung a, für die gilt:
X
i : xi ≤a
hi ≥ 1/2 ,
X
i : xi ≥a
hi ≥ 1/2
• ”oberhalb” und ”unterhalb” der Mediane befinden sich
gleichviele Elemente der Stichprobe
• Bei metrischen Daten wird häufig der Mittelwert der Mediane als Median angegeben.
• Eigenschaften und Interpretation:
– zentraler Wert bei ordinalen Merkmalen
– unempfindlich gegenüber Ausreißern
Das arithmetische Mittel
• metrische Daten
1
x̄ =
n
n
X
i=1
xi =
l
X
j=1
aj hj
• Eigenschaften und Interpretation:
– Schwerpunkt der Verteilung,
– empfindlich gegenüber Ausreißern (vgl. Median),
– Minimaleigenschaft
bezüglich
quadratischer
Abweichungen:
n
X
i=1
(xi − z)2 → min
hat die Lösung z = x̄ (Beweis: Übung).
7
Streuungsparameter (Variabilitätsparameter)
• Maßzahlen zur Bewertung der Variabilität der Messwerte, der Breite einer Verteilung, der Abweichungen vom
Mittelwert
• Ziel von Analysen: Zerlegung der Variabilität der
Messwerte nach verschiedenen Ursachen (Faktoren, Fehler
des Messgerätes usw.), Analyse der Wirkung des Zufalls
Streuungsparameter für metrische Daten
• Spannweite: xmax − xmin
• empirische Varianz: s2
1
s =
n−1
2
n
X
i=1
¶
n
1 µX
2
2
x − nx̄
(xi − x̄) =
n − 1 i=1 i
2
”mittlere quadratische Abweichung”
1
2
(· − ·)
n−1
Dimension von s2 :
ist z.B. xi eine Konzentration, dann mg 2/l2
• Eigentlich müsste durch n geteilt werden. Grund für die
Division durch n − 1 ist die Anwendung der so
erhaltenen Größe in der schließenden Statistik.
√
• Standardabweichung: s = s2
gleiche Dimension wie xi
• Variationskoeffizient:
s
100%
x̄
8
dimensionslos
3.3. Bivariate Verteilungen
• zwei Variablen X, Y werden gemeinsam betrachtet
(an jedem Objekt werden gleichzeitig zwei Merkmale
beobachtet)
• Beobachtungswerte
prägungen (x, y)
sind
Paare
von
Merkmalsaus-
• Beispiele:
– Material – Festigkeit
– Höhe einer Maispflanze – Masse des Kolbens
– Düngermenge – Ertrag
– Wetter – Anzahl der Kunden
• Variablen mit verschiedenem Skalenniveau
zusammengestellt werden (Problem!)
können
• Fragen:
– Zusammenhang ja / nein
– Stärke des Zusammenhanges
– evtl. Richtung, Typ des Zusammenhanges
• Kausalität muss Fachwissenschaft klären
• verschiedene grafische Methoden und viele Maßzahlen zur
Bewertung von Zusammenhängen
9
• Bestimmung der absoluten Häufigkeiten für
möglichen Beobachtungspaare/Kombinationen
alle
(für metrische Variable evtl. Klasseneinteilung vornehmen)
Beispiel: Schulabschluss – monatliches Nettoeinkommen
des Haushaltes
• Tabelle heißt Kontingenztafel, Kreuztabelle,
(Kreuztafel)
• grafische Veranschaulichung dieser Tabelle:
bivariates Histogramm, gestapeltes Histogramm für
relative Häufigkeiten
• bei stetigen (metrischen) Variablen: häufig Klasseneinteilung (sonst Tabelle unsinnig), Informationsverlust,
• bei stetigen Daten oft besser:
Streudiagramm oder Scatterplot (Punktwolke)
Beobachtungen (x, y) als Punkte in der Zahlenebene
darstellen
zum Erahnen funktionaler Abhängigkeiten
z.B.
y
y
y
y
=
=
=
=
ax + b
ax2 + bx + c
a ∗ sin(bx) + c
f (x)
10
• lineare Abhängigkeit (metrischer Variabler) wird als
Korrelation bezeichnet (Unterschied zur Umgangssprache!
Interpretation der Linearität!)
Beispiele:
a) Variablen extrem korreliert, Korrelation positiv
b) Variablen stark korreliert, Korrelation positiv
c) Variablen schwach korreliert, Korrelation positiv
d) Variablen nahezu unkorreliert
e) Variablen negativ korreliert
f) Variablen extrem korreliert, Korrelation negativ
g) Variablen nahezu unkorreliert, jedoch starker
funktionaler Zusammenhang
• Quantifizierung der Stärke der Korrelation
→ empirischer Korrelationskoeffizient
Abhängigkeitsmaße bivariater Verteilungen
• Zusammenhang zwischen zwei Variablen soll durch
numerische
Größen,
”Kenngrößen”,
beschrieben
werden
• breites Spektrum solcher Kenngrößen
• Abhängig vom Skalenniveau:
– nominal → Kontingenzkoeffizient
– ordinal → Rangkorrelationskoeffizient
– metrisch → Korrelationskoeffizient
11
Metrische Daten
• Gegeben: n Beobachtungen zweier Merkmale X und Y :
(xi, yi), i = 1, 2, . . . , n.
• empirische Kovarianz
1
cov(X, Y ) =
n−1
n
X
i=1
(xi − x̄)(yi − ȳ)
• empirischer Korrelationskoeffizient
(auch: Produkt-Moment-Korrelationskoeffizient
Pearson und Bravais)
rXY
1
cov(X, Y )
=
= n−1
sX sY
µ X
n
i=1
nach
xiyi − nx̄ȳ
¶
sX sY
x̄ , ȳ . . . Mittelwerte der Merkmale X bzw. Y
sX , sY . . . Standardabweichung der Merkmale X, Y
• Unabhängig von der Maßeinheit
• Interpretation: Gehören zu kleinen xi häufig kleine (große)
yi, so ist das Vorzeichen von (xi − x̄)(yi − ȳ) häufig ’+’
(’–’) und die Summe wird groß, positiv (klein, negativ),
bei ”Unabhängigkeit” ergibt sich ein Wert nahe 0.
12
• Es gilt
−1 ≤ rXY ≤ 1.
Besteht zwischen den Merkmalen X und Y ein
deterministischer linearer Zusammenhang
Y = a + bX
so ist ( ⇔ )
rXY =
rXY = 0
( yi = a + b xi, i = 1, . . . , n ),









1,
wenn b > 0
−1 ,
wenn b < 0
empirische Unkorreliertheit
rXY (nur) Maß für die Stärke eines linearen Zusammenhanges
• liefert Anhaltspunkt, ob Ausgleichsgerade sinnvoll
• Beispiel:
Düngermenge [kg/ha] – Ertrag [dt/ha] ([KSV S. 60])
rXY = 0, 894
13
Ordinale Daten
• Frage nach dem Grad einer monotonen Abhängigkeit
(Zusammenhanges) zweier Merkmale X und Y
(d.h. X wächst/fällt gleichzeitig mit Y )
• Es sei:
Ri = Rg(xi) Rang von xi unter den x-Werten
Ri0 = Rg(yi)
Rang von yi unter den y-Werten
di = Ri − Ri0 Differenz der Ränge
• treten Rangplätze mehrfach auf = Bindungen:
→ Literatur
• Rangkorrelationskoeffizient nach Spearman und
Krueger für ordinale Daten ohne Bindungen
6
R = 1 −
n
X
d2i
i=1
n(n2 −
1)
• Summe klein bei etwa gleichlaufenden Reihen (di ≈ 0 also
R ≈ 1), Summe groß bei gegenläufigen Reihen,
Normierung so, dass dann R = −1.
• Es gilt : Werte zwischen –1 und 1, mit Interpretation
”gegenläufig” ←→ ”gleichläufig”
14
• Beispiel: Kundenbefragung durch einen Baumarkt
Zusammenhang zwischen der Häufigkeit der Benutzung
eines bestimmten Gerätes und der Zufriedenheit mit
diesem Gerät (n=8)
Kunde i
1
2
3
Benutzung
pro Jahr
100
5
12
Note
4
5
6
7
8
3 20 30
1
25
1,3 6,0 4,1 3,7 2,1 1,6 4,5 3,0
Rang Ri
1
6
5
7
4
2
8
3
Rang Ri0
1
8
6
5
3
2
7
4
di
0 −2 −1
2
1
0
1 −1
di 2
0
4
1
0
1
4
Damit ist R = 1 −
1
1
P
= 12
6 · 12
= 0, 857
8 (64 − 1)
Die Rangreihen sind stark gleichlaufend.
”Kunden, die das Gerät häufiger benutzten, waren häufiger
auch zufriedenere Kunden.”
”Je häufiger die Kunden das Gerät benutzten, desto
zufriedener waren sie damit.”
”Kunden, die mit dem Gerät zufrieden waren, nutzten es
auch häufiger.”
15
3.4. Regressionsanalyse
Untersuchung und Beschreibung der Abhängigkeit zwischen
einer messbaren Zielgröße (Regressand) Y und einer
(einstellbaren) Einflussgröße (Regressor) X in Form einer
(linearen) Funktion (lineare Regression). X, Y metrisch!
Konkrete Stichprobe: Messwertpaare (xi, yi), i = 1, . . . , n
Beispiele:
• Dosis (Medikament, Futterzusätze, Dünger, . . . )
−→ Wirkung (phys. Werte, Massezunahme, Milchleistung,
Ertrag, . . . )
• Alter, Dauer (Zeit) −→ Einkommen, phys. Werte
• X . . . Düngermenge in kg/ha
Y . . . Ertrag in dt/ha
Scatterplot, Korrelationskoeffizient:
rXY = 0, 894
→ Darstellung der Beziehung zwischen den beiden
Variablen durch eine Gerade der Form
Ertrag = b0 + b1 · Düngermenge
scheint sinnvoll.
Was sind b0 und b1?
b0 . . . Ertrag in dt/ha ohne Dünger
b1 . . . Ertragssteigerung in dt/ha pro zusätzlichem kg
Dünger je ha
16
Modell:
yi = b0 + b1 · xi + ri
ri . . . Residuen.
Wie b0 und b1 sinnvoll bestimmen?
Methode der kleinsten Quadrate (MkQ),
d.h. Lösung des Problems:
SQR =
n
X
i=1
n
X
ri2 → min:
i=1
( yi − (b0 + b1 · xi) )2 → min
↑
Messwert zu xi
↑
Funktionswert ŷi
der Geraden bei xi
(SQR . . . residual sum of squares)
Extremwertaufgabe
Formeln für optimale b∗0 , b∗1 :
b∗0 = ȳ − b∗1 x̄
n
P
b∗1
=
i=1
n
P
xiyi − nx̄ȳ
i=1
x2i − nx̄2
=
cov(X, Y )
s2X
Beachte: Das Resultat hängt davon ab, welche der Variablen
als abhängig und welche als unabhängig gewählt wurde.
17
Das Bestimmtheitsmaß
Ausgangspunkt: Betrachtung der yi-Werte (Erträge).
Diese schwanken um den Mittelwert ȳ = 42, 38
dt
.
ha
Dieser ist ebenfalls optimal nach der MkQ:
n
X
2
i=1
(yi − ȳ) = min
z
n
X
(yi − z)2 ,
i=1
und das Maß für die Varianz um ȳ ist
s2y
=
n
1 X
(yi
n−1
i=1
− ȳ)2 = 38, 55 .
Das entsprechende Maß für die (mittlere) Varianz um die
Ausgleichsgerade ist die (mittlere) Reststreuung
1
n−1
SQR =
n
X
1
(yi
n−1
i=1
− ŷ)2 .
Der Quotient aus beiden:
1
n−1
n
X
SQR
=
s2y
i=1
n
X
i=1
(yi − ŷ)2
(yi − ȳ)2
= 0, 201 =
’Streuung um beste Gerade’
’Streuung um beste Zahl’
erklärt, welcher Anteil der ursprünglichen Varianz nach der
Anpassung der Geraden noch übrig ist.
Die Größe
n
X
B = 1 −
i=1
n
X
i=1
(yi − ŷ)2
(yi − ȳ)
2
= 0, 799
heißt Bestimmtheitsmaß und beschreibt, welcher Anteil der
ursprünglichen Varianz der yi (der Erträge) durch die (linear
modellierte) Abhängigkeit von den xi (Düngermengen) erklärt
worden ist.
18
Es gilt:
2
B = rXY
...
Quadrat des Korrelationskoeffizienten
zwischen X und Y ,
und so werden wir B bei Handrechnung auch stets berechnen!
2
In SPSS: rXY
= Rsq
2
Im Beispiel: rXY
= 0, 799 ≈ 0, 8
” 80% der Streuung der Erträge auf den unterschiedlichen
Versuchsflächen lassen sich (bei Unterstellung eines linearen
Zusammenhanges) dadurch erklären, dass unterschiedliche
Düngermengen eingesetzt wurden.”
grafische Methode:
Residualplots
ri = yi − ŷi
→ Literatur: multiple Regression (mehrere Einflussgrößen),
nichtlineare Regression, . . .
19
Herunterladen