Folien_01

Werbung
Multivariate Statistik,
Projektplanung
und Versuchsdesign
Vorlesung
Modul M 103 (Vorl.-Nr. 28206 )
Dr. G. Lischeid
[email protected]
http://www.bayceer.uni-bayreuth.de/mod/
Gliederung der Vorlesung
15.04.05
Einführung, Verteilungen
29.04.05
(Auto-)Korrelation (zu verschieben)
22.04.05
Datentransformation
06.05.05
Multiple lineare Regression
20.05.05
(Pfingstwoche)
03.06.05
Clusteranalyse
13.05.05
27.05.05
10.06.05
17.06.05
Hauptkomponentenanalyse
Korrespondenzanalyse
Diskriminanzanalyse
Grundlagen der Versuchsplanung
24.06.05
Mehrfaktorielle Versuche
08.07.05
Nicht-lineare Methoden
01.07.05
15.07.05
Parameter-freie Methoden
Abschlusskolloquium
1
Links und Lehrbücher
http://www.multivariate.de
http://wwwhomes.uni-bielefeld.de/hjawww/glossar/stichwor.htm
Backhaus, K., Erichson, B., Plinke, W., Weiber, R. (2003): Multivariate
Analysemethoden. Eine anwendungsorientierte Einführung. 10.
Auflage, Springer, ISBN 3-540-00491-2
Bortz, J. (1993): Statistik für Sozialwissenschaftler. 4. Auflage, Springer,
ISBN 3-540-56200-1
Wackernagel, H. (1998): Multivariate Geostatistics. 2. Auflage, Springer
Statistik - Zielrichtungen
1. Deskriptiv
- Beschreibung (der Verteilung) eines
Datensatzes
2. Konfirmativ - Testen von Hypothesen (Zusammenhängen)
3. Explorativ
- Suche nach Strukturen (Zusammenhängen)
2
Datentypen
1. Nominal skaliert
- Zugehörigkeit zu einer Gruppe (Name)
2. Ordinal skaliert
- Rangfolge (Ordnung)
3. Intervall-skaliert
- Abstände der Zahlenwerte proportional
der Abstände der Merkmalsausprägung
4. Metrisch skaliert - Zahlenwerte propotional der
Merkmalsausprägung (Maß)
Dichtefunktion der Normalverteilung
PH
Häufigkeit
95,5%
3
Verteilungen
Normalverteilung: Approximaton der Binomialverteilung für große
Stichproben
für eine normalverteilte Zufallsgröße z (mit µ = 0 und σ = 1) gilt:
χ2-Verteilung:
für χ2 = z2, bzw. für n Freiheitsgrade: χ = ∑ z
t-Verteilung:
t =
F-Verteilung:
χ n
F (n , n ) = ⋅
χ n z
χ
n
mit
σ =
n
n−2
Verteilungen
Normalverteilung
χ2-Verteilung
t-Verteilung
F-Verteilung:
4
Schiefe, Exzess
AM:
Mo:
Md:
Arithmtisches Mittel
Modalwert
Median
(Bortz 1993)
Momente (I)
k-tes Moment der Variablen x:
(= Moment k-ter Ordnung)
µ ( x, A) = E[( x − A) k ]
k
gewöhnliches Moment:
A=0
zentrales Moment:
A = E (x)
Mittelwert:
Varianz:
A = 0; k = 1 :
A = µ; k = 2 :
µ = E ( x)
σ = E(x − µ )
5
Momente (II)
Normiertes Moment k-ter Ordnung:
für z =
x − E ( x)
σ
µ ( x, A) =
E[( x − A) ]
(z-Transformation):
∑z
Schiefe:
γ =
µ
σ
=
σ
n
(Werte <0: negative Schiefe => rechtssteil = linksschief)
∑z
Exzess:
γ −3=
µ
σ
−3=
− 3 (= Kurtosis, Wölbung)
n
(Werte < 0: breitgipflige Verteilung)
Kovarianz, Korrelation (I)
∑ (x − x)
Varianz:
var( x) =
n
∑ (x − x) ⋅ (x − x)
=
n
∑ (x
cov( x, y ) =
Kovarianz:
Korrelation:
r=
cov( x, y )
var( x) ⋅ var( y )
− x ) ⋅ ( y − y )
n
=
cov( x, y )
s ⋅ s
(Produkt-Moment-Korrelation, Pearson-Korrelation)
maximal
mögliche
Kovarianz
6
Kovarianz, Korrelation (II)
Korrelation:
r=
cov( x, y )
s ⋅ s
( x − x ) ⋅ ( y − y )
∑
=
=
1
⋅
n
s ⋅ s
 x − x y − y 
1
⋅ ∑
⋅

n  s s 
z-Transformation
z-Transformation
Unterschiedliche Wertebereiche für unterschiedliche Parameter
=> unterschiedliche Gewichtung in der multivariaten Analyse,
die nur vom Wertebereich (Einheit!) abhängig ist
=> Notwendigkeit der Normierung
=> analog zur Korrelation:
1. Normierung auf Mittelwert = 0,
d.h.: Substraktion des Mittelwertes
2. Normierung auf Varianz = 1 (= Standardabweichung),
d.h.: Division durch die Standardabweichung
7
Produkt-Moment-Korrelation
Moment:
µ ( x, A) =
E[( x − A) ]
µ ( x , x ) =
1. zentrales Moment:
σ
E[( x − x ) ]
σ
1. Produkt-Moment zweier Zufallsvariabler:
E [([ x − x ] ⋅ [ y − y ])
µ ( x, A) =
var ⋅ var
]
Nichtlineare Korrelation
Spearman-Rangkorrelationskoeffizient:
(Di: Rangplatzdifferenzen)
6 ⋅ ∑ D
r = 1 −
n −n
Kendall's τ:
(Ko: Konkordanzen = gleichsinnige Änderungen x1 → x2 und y1 → y2,
Di: Diskordanzen)
r =
2 ⋅ ( Ko − Di)
n ⋅ (n − 1)
8
Dichtefunktion der Normalverteilung
95,5%
Test auf Normalverteilung (I)
Χ2-Test:
• Vergleich der beobachteten Häufigkeit fi von k Klassen (mit fi >
10) mit den erwarteten Häufigkeiten ei (mit ei ≥ 1 und ei < 5 für
max. 20% der Klassen)
( f − e )
• Testgröße: χ = ∑
verteilt nach Χ2 mit (k-r-1)
e
Freiheitsgraden (r = Anzahl der geschätzten Parameter der
Verteilung)
• Verwerfen der Null-Hypothese "F = Normalverteilung" für p ≤ α
9
Fehler 1. und 2. Art
(α-, β-Fehler)
in Grundgesamtheit gilt
H0
Entscheidung aufgrund
richtig
der Stichprobe
α-Fehler
H1
β-Fehler
richtig
Nullhypothese H0 = Alternative zur eigentlich zu prüfenden Hypothese H1
Irrtumswahrscheinlichkeit p
α-Fehler: "Irrtumswahrscheinlichkeit" p = Wahrscheinlichkeit, einen
bestimmten Wert zu beobachten, wenn tatsächlich die H0 gilt:
p(beobachteten Wert | H0 = wahr)
= bedingte Wahrscheinlichkeit
β -Fehler:
p(beobachteten Wert | H1 = wahr)
=> quantitativ nur zu bestimmen, wenn die Verteilung der Werte gemäß der
H1-Hypothese à priori bekannt ist
=> dies ist aber i.d.R. nicht möglich
entsprechend für Test auf Normalverteilung: alternative Verteilung müsste
definiert werden
10
Irrtumswahrscheinlichkeit p
Die "Irrtumswahrscheinlichkeit" p
p(beobachteter Wert | H0 = wahr)
Unterscheide:
p(beobachteter Wert)
p(H0 = wahr)
1 - p(H0)
p(H0 = wahr | beobachteter Wert)
Fehler 1. und 2. Art
(α-, β-Fehler)
in Grundgesamtheit gilt
H0
Entscheidung aufgrund
richtig
der Stichprobe
α-Fehler
H1
β-Fehler
richtig
Nullhypothese H0 = Alternative zur eigentlich zu prüfenden Hypothese H1
11
Test auf Normalverteilung (II)
Kolmogorov-Smirnov mit Lilliefors-Schranken:
• Testgröße: maximale absolute Abweichung der
Ordinatenabstände zwischen der beobachteten und der
erwarteten kumulierten Häufigkeitsverteilung
• Verwerfen der Null-Hypothese "F = Normalverteilung" für p < α
Test auf Normalverteilung (III)
Anpassungstest nach Shapiro und Wilk (für n ≤ 50):
• Testgröße: Korrelationskoeffizient zwischen beobachteten und
erwarteteten Werten der kumulativen Häufigkeitsverteilungen
• Verwerfen der Null-Hypothese "F = Normalverteilung" für p < α
Q-Q-Diagramm (Quantil-Quantil-Diagramm)
von PH
12
Box-Cox Transformation
Ziel: Korrektur der Schiefe, so dass die transformierten
Daten eine Normalverteilung aufweisen
für
T ( x ) = ln x
für
λ >0
λ =0
10
transformierte Daten
xλ − 1
T ( x) =
λ
1:1
λ=1.5
8
λ=1
6
4
λ=0.5
2
λ=0
0
-2
0
2
4
6
8
10
ursprüngliche Daten
Box-Cox Transformation
(http://www.itl.nist.gov/div898/handbook/eda/section3/eda336.htm)
13
Aufgabe: Datentransformation
• Ersetzen Sie die Einträge "< Bestimmungsgrenze" durch sinnvolle
nummerische Werte.
• Überrpüfen Sie die einzelnen Parameter auf Normalverteilung, und führen
Sie, falls erforderlich, eine Box-Cox-Transformation durch. Überprüfen Sie
anschließend die transformierten Daten auf Normalverteilung.
• Führen Sie anschließend eine z-Transformation für alle Parameter durch.
14
Herunterladen