Motivation Ref. o o o o o 13.11.2002 Deskriptive Datenanalyse Was sind Merkmalsvektoren und was ist ein Merkmalsraum? Wie können wir die Merkmalsvektoren beschreiben um sie miteinander zu vergleichen? Transformation von N-dimensionale Merkmalsräume Principle component analysis PCA und N-Dimensionale Daten-Räume Universität Frankfurt ChemieInformatik und -Information (OC II/A) 1 Merkmalsvektoren Kelchblattlänge Kelchblattbreite Kronblattlänge Kronblattbreite Species IRIS-Blume Beispiel anhand der IRIS-Daten: Merkmalsvektor 001 5.1 3.5 1.4 0.2 setosa 002 4.9 3.0 1.4 0.2 setosa 003 4.7 3.2 1.3 0.2 setosa 004 4.6 3.1 1.5 0.2 setosa 005 5.0 3.6 1.4 0.2 setosa ....... 051 7.0 3.2 4.7 1.4 versicolor 052 6.4 3.2 4.5 1.5 versicolor 053 6.9 3.1 4.9 1.5 versicolor 054 5.5 2.3 4.0 1.3 versicolor 101 6.3 3.3 6.0 2.5 virginica 102 5.8 2.7 5.1 1.9 virginica 103 7.1 3.0 5.9 2.1 virginica 104 6.3 2.9 5.6 1.8 virginica ....... 13.11.2002 Universität Frankfurt ChemieInformatik und Information (OC II/A) 2 Verteilung der Daten Ref. 10 Daten 79 85 78 85 50 81 95 88 97 Klassen 70 79 89 Exel-Funktion: Häufigkeit() 8 6 Reihe1 4 2 0 Reihe1 1 2 3 4 5 6 7 8 9 3 4 2 8 3 1 2 4 5 4,5 4 3,5 3 2,5 Reihe1 2 Häufigkeit 1 2 4 2 13.11.2002 1,5 1 0,5 0 1 Universität Frankfurt 2 3 4 ChemieInformatik und -Information (OC II/A) 3 Normalverteilung Ref. Normalverteilung: 1 x − x 2 1 exp − 2 s s 2π RWeb x ∑ x= Mittelwert: n ∑(x−x) 2 Standardabweichung: S= n−1 Standardnormalverteilung: s 2 = 1; 13.11.2002 x =0 Universität Frankfurt ChemieInformatik und -Information (OC II/A) 4 Normalverteilung Ref. 13.11.2002 Universität Frankfurt ChemieInformatik und -Information (OC II/A) 5 Grundgesamtheit und Stichprobe Ref. 1. Stichprobe RWeb R modul: ctest S-Plus Exel: ttest Grundgesamtheit 2. Stichprobe 13.11.2002 Universität Frankfurt ChemieInformatik und -Information (OC II/A) 6 Vergleichen von Stichproben Ref. 1. Zufallsstichprobe RWeb R modul: ctest S-Plus Exel: ttest Grundgesamtheit Stammen die Stichproben aus der gleichen Grundgesamtheit? 2. zufallsstichprobe 13.11.2002 Universität Frankfurt ChemieInformatik und -Information (OC II/A) 7 Vergleichen von Stichproben Ref. RWeb R modul: ctest S-Plus Exel: ttest Sind die Stichproben aus der gleichen Grundgesamtheit? 13.11.2002 Universität Frankfurt ChemieInformatik und -Information (OC II/A) 8 Hypothesentest, Arbeitshypothese, Nullhypothese Ref. Hypothesentest: Durch Zuffalsstichproben bestimmte Annahmen über die Grundgesamtheit testen Alternativhypothese oder Arbeitshypothese HA, H1 : Die zu testende Annahme über die Grundgesamtheit. Nullhypothese H0 : Die Annahme über die Grundgesamtheit, die wiederlegt werden soll. Der Hypothesentest wird meistens über die Nullhypothese H0 angewendet! Signifikanzniveau oder Irrtumswahrscheinlichkeit: Die Wahrscheinlichkeit, mit der die Nullhypothese fälschlicherweise verworfen werden kann, obwohl sie eigentlich richtig ist. 13.11.2002 Universität Frankfurt ChemieInformatik und -Information (OC II/A) 9 Hypothesentest, Arbeitshypothese, Nullhypothese Ref. Beispiel: RWeb H1 : R modul: ctest Der Mittelwert der Datenmenge A ist kleiner als der Mittelwert der Datenmenge B a <b S-Plus Exel: ttest H0 : a =b Die Mittelwerte der beiden Mengen A und B sind gleich a −b = 0 ? Alternativhypothesen: Punkhypothese: a −b = 50 Einseitige Bereichshypothese: Zweiseitige Bereichshypothese: 13.11.2002 Universität Frankfurt a −b < 50 a −b ≠ 0 ChemieInformatik und -Information (OC II/A) 10 Parametrischer und nichtparametrischer Test Ref. Parametrischer Test: Wenn die Verteilung der Grundgesamtheit bekannt ist (z.B. Normalverteilung), dann kann der Test anhand der Geschätzter Parameter (Mittelwert, Varianz,…) der Verteilung ausgeführt. Beispiel: T-Test Nichtparametrischer Test: Wenn die Verteilung der Grundgesamtheit nicht bekannt ist dann wird nichtparametrische Test. Dabei werden andere Eigenschaften der Daten, wie Histogramme u.a., vergliechen. Beispiel: Chi2-Test 13.11.2002 Universität Frankfurt ChemieInformatik und -Information (OC II/A) 11 Mittelwertvergleich mit dem t-Test Ref. RWeb x1 = x2 ? x Herleitung! R modul: t.test von ctest x 1 2 S-Plus Exel: ttest t= x1 − x2 sx21 − sx22 ν = n1 +n2 −2 S2 Varianz S Standardabweichung x Mittelwert n Anzahl der Datenpunkte ν Anzahl der Freiheitsgrade t ausrechnen, Freiheitsgrade ausrechnen, und den gerechneten t-Wert mit dem t-Wert aus der Tabellen vergleichen 13.11.2002 Universität Frankfurt ChemieInformatik und -Information (OC II/A) 12 Ein Beispiel für den T-Test Nullhypothese H0 : Die Stichproben x1 und x2 stammen aus der selben Grundgesamtheit Ref. Suche im internet N = 36 x1 = 4.51 x2 = 6.28 s1 = 1.982 s2 = 2.542 1 s1, 2 = (1.9822 + 2.5422 ) = 5.18 2 4.51 − 6.28 t= = −3.30 (5.18 / 36) + (5.18 / 36) ν = 2(36 − 1) = 70 ⇒ Tabellenwert für P (70,1%) = 2,648 ⇒ − 3.30 > 2.648 ⇒ 13.11.2002 Nullhypothese H0 widerlegt Universität Frankfurt ChemieInformatik und -Information (OC II/A) 13 Vergleich von Häufigkeiten mit dem Chi2-Test Ref. ? Erwartete Häufigkeit = Beobachtete Häufigkeit RWeb S-Plus Exel: chitest N M χ 2 = ∑∑ i O E ij ij j (Oij − Eij ) 2 Eij N: Anzahl der Zeilen M: Anzahl der Spalten Beobachtete Häufigkeit in der Zeile i und Splate j Erwartete Häufigkeit in der Zeile i und Splate j ν = (N −1)(M −1) Anzahl der Freiheitsgrade Finde Anschauliche Beispiele für den Chi2Test! 13.11.2002 Universität Frankfurt ChemieInformatik und -Information (OC II/A) 14 Chi2-Unabhängigkeit-Test mit R Ref. H0 : Augen- und Haarfarbe sind unabhängig > > > > library(MASS) data(caith) Spalten: Haarfarbe help(caith) caith fair red medium dark black blue 326 38 241 110 3 light 688 116 584 188 4 medium 343 84 909 412 26 dark 98 48 403 681 85 > chisq.test(caith,correct=F) Zeilen: Augenfarbe Pearson's Chi-squared test data: caith X-squared = 1240.039, df = 12, p-value = < 2.2e-16 Mit help(caith) unter R werden Info‘s zu den Daten ausgegeben! 13.11.2002 Universität Frankfurt ChemieInformatik und -Information (OC II/A) 15 Einzelner Schritte beim statistischem Test Ref. •Nullhypothese und Alternativhypothese aufstellen •Prüfgröße bzw. Testverteilung bestimmen (t, Chi2,…) •Kritische Bereich bestimmen •Prüfgröße berechnen •Entscheiden, ob die Nullhypothese stimmt 13.11.2002 Universität Frankfurt ChemieInformatik und -Information (OC II/A) 16 Reduktion der Merkmalsraumdimension Ref. RWeb 3D zu 2D 2D zu 1D 13.11.2002 Universität Frankfurt ChemieInformatik und -Information (OC II/A) 17 Vorteile der reduzierte Merkmalsraumdimension •Visualisierung möglich •Niedrigere Rechenzeit •… •… Ref. RWeb Klassifikation 3D zu 2D Klassifikation 13.11.2002 Universität Frankfurt ChemieInformatik und -Information (OC II/A) 18 Principle Component Analysis PCA Ref. Neue Koordinanten bestimmen, so daß sie in Richtung größere Varianz zeigen! RWeb Num. Math. Lösung u.a. durch die Transformation der Daten mit Hilfe der PCA 13.11.2002 Universität Frankfurt ChemieInformatik und -Information (OC II/A) 19 PCA, Kovarianzmatrix Eigenwerte und Eigenvektoren Ref. Kovarianzmatrix: RWeb 1 C = E (u u ) = N T i i Eigenwerte λ Eigenvektoren T u u ∑ ii x Cx = λ x ⇒ Cx − λ x = 0 ⇒ ( C − λ I ) x = 0 •Die Eigenvektoren sind orthogonal zu einander •Eigenvektoren::Principle Components •Üblich: Normierung der Eigenvektoren x = 13.11.2002 Universität Frankfurt x x ChemieInformatik und -Information (OC II/A) 20 Kovarianzmatrix mit dem Programm R Ref. RWeb Kovarianzmatrix-berechnung mit dem Kommando cov(matname) > i <- matrix(c(59.14,-1.55,4.56,-1.55,0.09,-0.11,4.56,-0.11,27.02), 3) > cov(i) [,1] [,2] [,3] [1,] 1116.59743 -29.8914667 -129.4467 [2,] -29.89147 0.8005333 3.2096 [3,] -129.44670 3.2096000 210.3829 13.11.2002 Universität Frankfurt ChemieInformatik und -Information (OC II/A) 21 Kovarianzmatrix, Eigenwerte und Eigenvektoren mit dem Programm R > i <- matrix(c(3,1,2,4,1,3,3,1,2), 3) >i [,1] [,2] [,3] [1,] 3 4 3 [2,] 1 1 1 [3,] 2 3 2 Ref. > CovI <- cov(i) > CovI [,1] [,2] [,3] [1,] 1.0 1.500000 1.0 [2,] 1.5 2.333333 1.5 [3,] 1.0 1.500000 1.0 > eigen(CovI)$val [1] 4.294524e+00 3.880911e-02 -1.523880e-16 > eigen(CovI)$vec [,1] [,2] [,3] [1,] 0.4800193 0.5192124 -7.071068e-01 [2,] 0.7342772 -0.6788497 -2.187878e-15 [3,] 0.4800193 0.5192124 7.071068e-01 13.11.2002 Universität Frankfurt ChemieInformatik und -Information (OC II/A) 22 PCA mit dem Programm R Ref. Eigenvektoren durch das Modul PCA von R ausrechnen ØPCA_I <- pca(i) > eigen(CovI)$val [1] 4.294524e+00 3.880911e-02 -1.523880e-16 > eigen(CovI)$vec [,1] [,2] [,3] [1,] 0.4800193 0.5192124 -7.071068e-01 [2,] 0.7342772 -0.6788497 -2.187878e-15 [3,] 0.4800193 0.5192124 7.071068e-01 > plot(PCA_I$rproj[,1], PCA_I$rproj[,2]) 13.11.2002 Universität Frankfurt ChemieInformatik und -Information (OC II/A) 23 Tarnsformation der IRIS-Daten mit PCA Ref. Library(multiv) data(iris) iris <- as.matrix(iris[,1:4]) pcprim <- pca(iris) # plot of first and second principal components plot(pcprim$rproj[,1], pcprim$rproj[,2]) 13.11.2002 Universität Frankfurt ChemieInformatik und -Information (OC II/A) 24 Tarnsformation der IRIS-Daten mit PCA Ref. 13.11.2002 Universität Frankfurt ChemieInformatik und -Information (OC II/A) 25 Referenzen Ref. 1. S-Kurs 2. RWeb: http://www.sciviews.org/_rgui/ 3. Statistik 4. Stanton A. Glantz, Biostatistik, 4. Aufl., McGraw-Hill, UK, 1981 5. Schwarz H.R., Numerische Mathematik, Teubner-Verlag, Stuttgart,1993 13.11.2002 Universität Frankfurt ChemieInformatik und -Information (OC II/A) 26