Multivariate Statistik, Projektplanung und Versuchsdesign Vorlesung Modul M 103 (Vorl.-Nr. 28206 ) Dr. G. Lischeid [email protected] http://www.bayceer.uni-bayreuth.de/mod/ Gliederung der Vorlesung 15.04.05 Einführung, Verteilungen 29.04.05 (Auto-)Korrelation (zu verschieben) 22.04.05 Datentransformation 06.05.05 Multiple lineare Regression 20.05.05 (Pfingstwoche) 03.06.05 Clusteranalyse 13.05.05 27.05.05 10.06.05 17.06.05 Hauptkomponentenanalyse Korrespondenzanalyse Diskriminanzanalyse Grundlagen der Versuchsplanung 24.06.05 Mehrfaktorielle Versuche 08.07.05 Nicht-lineare Methoden 01.07.05 15.07.05 Parameter-freie Methoden Abschlusskolloquium 1 Links und Lehrbücher http://www.multivariate.de http://wwwhomes.uni-bielefeld.de/hjawww/glossar/stichwor.htm Backhaus, K., Erichson, B., Plinke, W., Weiber, R. (2003): Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. 10. Auflage, Springer, ISBN 3-540-00491-2 Bortz, J. (1993): Statistik für Sozialwissenschaftler. 4. Auflage, Springer, ISBN 3-540-56200-1 Wackernagel, H. (1998): Multivariate Geostatistics. 2. Auflage, Springer Statistik - Zielrichtungen 1. Deskriptiv - Beschreibung (der Verteilung) eines Datensatzes 2. Konfirmativ - Testen von Hypothesen (Zusammenhängen) 3. Explorativ - Suche nach Strukturen (Zusammenhängen) 2 Datentypen 1. Nominal skaliert - Zugehörigkeit zu einer Gruppe (Name) 2. Ordinal skaliert - Rangfolge (Ordnung) 3. Intervall-skaliert - Abstände der Zahlenwerte proportional der Abstände der Merkmalsausprägung 4. Metrisch skaliert - Zahlenwerte propotional der Merkmalsausprägung (Maß) Dichtefunktion der Normalverteilung PH Häufigkeit 95,5% 3 Verteilungen Normalverteilung: Approximaton der Binomialverteilung für große Stichproben für eine normalverteilte Zufallsgröße z (mit µ = 0 und σ = 1) gilt: χ2-Verteilung: für χ2 = z2, bzw. für n Freiheitsgrade: χ = ∑ z t-Verteilung: t = F-Verteilung: χ n F (n , n ) = ⋅ χ n z χ n mit σ = n n−2 Verteilungen Normalverteilung χ2-Verteilung t-Verteilung F-Verteilung: 4 Schiefe, Exzess AM: Mo: Md: Arithmtisches Mittel Modalwert Median (Bortz 1993) Momente (I) k-tes Moment der Variablen x: (= Moment k-ter Ordnung) µ ( x, A) = E[( x − A) k ] k gewöhnliches Moment: A=0 zentrales Moment: A = E (x) Mittelwert: Varianz: A = 0; k = 1 : A = µ; k = 2 : µ = E ( x) σ = E(x − µ ) 5 Momente (II) Normiertes Moment k-ter Ordnung: für z = x − E ( x) σ µ ( x, A) = E[( x − A) ] (z-Transformation): ∑z Schiefe: γ = µ σ = σ n (Werte <0: negative Schiefe => rechtssteil = linksschief) ∑z Exzess: γ −3= µ σ −3= − 3 (= Kurtosis, Wölbung) n (Werte < 0: breitgipflige Verteilung) Kovarianz, Korrelation (I) ∑ (x − x) Varianz: var( x) = n ∑ (x − x) ⋅ (x − x) = n ∑ (x cov( x, y ) = Kovarianz: Korrelation: r= cov( x, y ) var( x) ⋅ var( y ) − x ) ⋅ ( y − y ) n = cov( x, y ) s ⋅ s (Produkt-Moment-Korrelation, Pearson-Korrelation) maximal mögliche Kovarianz 6 Kovarianz, Korrelation (II) Korrelation: r= cov( x, y ) s ⋅ s ( x − x ) ⋅ ( y − y ) ∑ = = 1 ⋅ n s ⋅ s x − x y − y 1 ⋅ ∑ ⋅ n s s z-Transformation z-Transformation Unterschiedliche Wertebereiche für unterschiedliche Parameter => unterschiedliche Gewichtung in der multivariaten Analyse, die nur vom Wertebereich (Einheit!) abhängig ist => Notwendigkeit der Normierung => analog zur Korrelation: 1. Normierung auf Mittelwert = 0, d.h.: Substraktion des Mittelwertes 2. Normierung auf Varianz = 1 (= Standardabweichung), d.h.: Division durch die Standardabweichung 7 Produkt-Moment-Korrelation Moment: µ ( x, A) = E[( x − A) ] µ ( x , x ) = 1. zentrales Moment: σ E[( x − x ) ] σ 1. Produkt-Moment zweier Zufallsvariabler: E [([ x − x ] ⋅ [ y − y ]) µ ( x, A) = var ⋅ var ] Nichtlineare Korrelation Spearman-Rangkorrelationskoeffizient: (Di: Rangplatzdifferenzen) 6 ⋅ ∑ D r = 1 − n −n Kendall's τ: (Ko: Konkordanzen = gleichsinnige Änderungen x1 → x2 und y1 → y2, Di: Diskordanzen) r = 2 ⋅ ( Ko − Di) n ⋅ (n − 1) 8 Dichtefunktion der Normalverteilung 95,5% Test auf Normalverteilung (I) Χ2-Test: • Vergleich der beobachteten Häufigkeit fi von k Klassen (mit fi > 10) mit den erwarteten Häufigkeiten ei (mit ei ≥ 1 und ei < 5 für max. 20% der Klassen) ( f − e ) • Testgröße: χ = ∑ verteilt nach Χ2 mit (k-r-1) e Freiheitsgraden (r = Anzahl der geschätzten Parameter der Verteilung) • Verwerfen der Null-Hypothese "F = Normalverteilung" für p ≤ α 9 Fehler 1. und 2. Art (α-, β-Fehler) in Grundgesamtheit gilt H0 Entscheidung aufgrund richtig der Stichprobe α-Fehler H1 β-Fehler richtig Nullhypothese H0 = Alternative zur eigentlich zu prüfenden Hypothese H1 Irrtumswahrscheinlichkeit p α-Fehler: "Irrtumswahrscheinlichkeit" p = Wahrscheinlichkeit, einen bestimmten Wert zu beobachten, wenn tatsächlich die H0 gilt: p(beobachteten Wert | H0 = wahr) = bedingte Wahrscheinlichkeit β -Fehler: p(beobachteten Wert | H1 = wahr) => quantitativ nur zu bestimmen, wenn die Verteilung der Werte gemäß der H1-Hypothese à priori bekannt ist => dies ist aber i.d.R. nicht möglich entsprechend für Test auf Normalverteilung: alternative Verteilung müsste definiert werden 10 Irrtumswahrscheinlichkeit p Die "Irrtumswahrscheinlichkeit" p p(beobachteter Wert | H0 = wahr) Unterscheide: p(beobachteter Wert) p(H0 = wahr) 1 - p(H0) p(H0 = wahr | beobachteter Wert) Fehler 1. und 2. Art (α-, β-Fehler) in Grundgesamtheit gilt H0 Entscheidung aufgrund richtig der Stichprobe α-Fehler H1 β-Fehler richtig Nullhypothese H0 = Alternative zur eigentlich zu prüfenden Hypothese H1 11 Test auf Normalverteilung (II) Kolmogorov-Smirnov mit Lilliefors-Schranken: • Testgröße: maximale absolute Abweichung der Ordinatenabstände zwischen der beobachteten und der erwarteten kumulierten Häufigkeitsverteilung • Verwerfen der Null-Hypothese "F = Normalverteilung" für p < α Test auf Normalverteilung (III) Anpassungstest nach Shapiro und Wilk (für n ≤ 50): • Testgröße: Korrelationskoeffizient zwischen beobachteten und erwarteteten Werten der kumulativen Häufigkeitsverteilungen • Verwerfen der Null-Hypothese "F = Normalverteilung" für p < α Q-Q-Diagramm (Quantil-Quantil-Diagramm) von PH 12 Box-Cox Transformation Ziel: Korrektur der Schiefe, so dass die transformierten Daten eine Normalverteilung aufweisen für T ( x ) = ln x für λ >0 λ =0 10 transformierte Daten xλ − 1 T ( x) = λ 1:1 λ=1.5 8 λ=1 6 4 λ=0.5 2 λ=0 0 -2 0 2 4 6 8 10 ursprüngliche Daten Box-Cox Transformation (http://www.itl.nist.gov/div898/handbook/eda/section3/eda336.htm) 13 Aufgabe: Datentransformation • Ersetzen Sie die Einträge "< Bestimmungsgrenze" durch sinnvolle nummerische Werte. • Überrpüfen Sie die einzelnen Parameter auf Normalverteilung, und führen Sie, falls erforderlich, eine Box-Cox-Transformation durch. Überprüfen Sie anschließend die transformierten Daten auf Normalverteilung. • Führen Sie anschließend eine z-Transformation für alle Parameter durch. 14