Document

Werbung
Motivation
Ref.
o
o
o
o
o
13.11.2002
Deskriptive Datenanalyse
Was sind Merkmalsvektoren und was ist ein Merkmalsraum?
Wie können wir die Merkmalsvektoren beschreiben um sie
miteinander zu vergleichen?
Transformation von N-dimensionale Merkmalsräume
Principle component analysis PCA und N-Dimensionale
Daten-Räume
Universität Frankfurt
ChemieInformatik und -Information (OC II/A)
1
Merkmalsvektoren
Kelchblattlänge Kelchblattbreite Kronblattlänge Kronblattbreite Species
IRIS-Blume
Beispiel anhand der IRIS-Daten:
Merkmalsvektor
001
5.1
3.5
1.4
0.2
setosa
002
4.9
3.0
1.4
0.2
setosa
003
4.7
3.2
1.3
0.2
setosa
004
4.6
3.1
1.5
0.2
setosa
005
5.0
3.6
1.4
0.2
setosa
.......
051
7.0
3.2
4.7
1.4
versicolor
052
6.4
3.2
4.5
1.5
versicolor
053
6.9
3.1
4.9
1.5
versicolor
054
5.5
2.3
4.0
1.3
versicolor
101
6.3
3.3
6.0
2.5
virginica
102
5.8
2.7
5.1
1.9
virginica
103
7.1
3.0
5.9
2.1
virginica
104
6.3
2.9
5.6
1.8
virginica
.......
13.11.2002
Universität Frankfurt ChemieInformatik und Information (OC II/A)
2
Verteilung der Daten
Ref.
10
Daten
79
85
78
85
50
81
95
88
97
Klassen
70
79
89
Exel-Funktion:
Häufigkeit()
8
6
Reihe1
4
2
0
Reihe1
1
2
3
4
5
6
7
8
9
3
4
2
8
3
1
2
4
5
4,5
4
3,5
3
2,5
Reihe1
2
Häufigkeit
1
2
4
2
13.11.2002
1,5
1
0,5
0
1
Universität Frankfurt
2
3
4
ChemieInformatik und -Information (OC II/A)
3
Normalverteilung
Ref.
Normalverteilung:
 1  x − x 2 
1
exp − 
 
2
s
s 2π

 

RWeb
x
∑
x=
Mittelwert:
n
∑(x−x)
2
Standardabweichung:
S=
n−1
Standardnormalverteilung:
s 2 = 1;
13.11.2002
x =0
Universität Frankfurt
ChemieInformatik und -Information (OC II/A)
4
Normalverteilung
Ref.
13.11.2002
Universität Frankfurt
ChemieInformatik und -Information (OC II/A)
5
Grundgesamtheit und Stichprobe
Ref.
1. Stichprobe
RWeb
R modul: ctest
S-Plus
Exel: ttest
Grundgesamtheit
2. Stichprobe
13.11.2002
Universität Frankfurt
ChemieInformatik und -Information (OC II/A)
6
Vergleichen von Stichproben
Ref.
1. Zufallsstichprobe
RWeb
R modul: ctest
S-Plus
Exel: ttest
Grundgesamtheit
Stammen die Stichproben
aus der gleichen Grundgesamtheit?
2. zufallsstichprobe
13.11.2002
Universität Frankfurt
ChemieInformatik und -Information (OC II/A)
7
Vergleichen von Stichproben
Ref.
RWeb
R modul: ctest
S-Plus
Exel: ttest
Sind die Stichproben aus der
gleichen Grundgesamtheit?
13.11.2002
Universität Frankfurt
ChemieInformatik und -Information (OC II/A)
8
Hypothesentest, Arbeitshypothese,
Nullhypothese
Ref.
Hypothesentest:
Durch Zuffalsstichproben bestimmte Annahmen über die
Grundgesamtheit testen
Alternativhypothese oder Arbeitshypothese HA, H1 :
Die zu testende Annahme über die Grundgesamtheit.
Nullhypothese H0 :
Die Annahme über die Grundgesamtheit, die wiederlegt werden soll.
Der Hypothesentest wird meistens über die Nullhypothese H0 angewendet!
Signifikanzniveau oder Irrtumswahrscheinlichkeit:
Die Wahrscheinlichkeit, mit der die Nullhypothese fälschlicherweise verworfen
werden kann, obwohl sie eigentlich richtig ist.
13.11.2002
Universität Frankfurt
ChemieInformatik und -Information (OC II/A)
9
Hypothesentest, Arbeitshypothese,
Nullhypothese
Ref.
Beispiel:
RWeb
H1 :
R modul: ctest
Der Mittelwert der Datenmenge A ist kleiner
als der Mittelwert der Datenmenge B
a <b
S-Plus
Exel: ttest
H0 :
a =b
Die Mittelwerte der beiden Mengen
A und B sind gleich
a −b = 0
?
Alternativhypothesen:
Punkhypothese:
a −b = 50
Einseitige Bereichshypothese:
Zweiseitige Bereichshypothese:
13.11.2002
Universität Frankfurt
a −b < 50
a −b ≠ 0
ChemieInformatik und -Information (OC II/A)
10
Parametrischer und
nichtparametrischer Test
Ref.
Parametrischer Test:
Wenn die Verteilung der Grundgesamtheit bekannt ist
(z.B. Normalverteilung), dann kann der Test anhand der
Geschätzter Parameter (Mittelwert, Varianz,…) der
Verteilung ausgeführt.
Beispiel: T-Test
Nichtparametrischer Test:
Wenn die Verteilung der Grundgesamtheit nicht bekannt ist
dann wird nichtparametrische Test. Dabei werden andere
Eigenschaften der Daten, wie Histogramme u.a., vergliechen.
Beispiel: Chi2-Test
13.11.2002
Universität Frankfurt
ChemieInformatik und -Information (OC II/A)
11
Mittelwertvergleich mit dem t-Test
Ref.
RWeb
x1 = x2 ?
x
Herleitung!
R modul: t.test
von ctest
x
1
2
S-Plus
Exel: ttest
t=
x1 − x2
sx21 − sx22
ν = n1 +n2 −2
S2 Varianz
S Standardabweichung
x
Mittelwert
n
Anzahl der Datenpunkte
ν
Anzahl der Freiheitsgrade
t ausrechnen, Freiheitsgrade ausrechnen, und den gerechneten t-Wert
mit dem t-Wert aus der Tabellen vergleichen
13.11.2002
Universität Frankfurt
ChemieInformatik und -Information (OC II/A)
12
Ein Beispiel für den T-Test
Nullhypothese H0 : Die Stichproben x1 und x2 stammen aus der
selben Grundgesamtheit
Ref.
Suche im
internet
N = 36
x1 = 4.51
x2 = 6.28
s1 = 1.982
s2 = 2.542
1
s1, 2 = (1.9822 + 2.5422 ) = 5.18
2
4.51 − 6.28
t=
= −3.30
(5.18 / 36) + (5.18 / 36)
ν = 2(36 − 1) = 70 ⇒ Tabellenwert für P (70,1%) = 2,648
⇒ − 3.30 > 2.648 ⇒
13.11.2002
Nullhypothese H0 widerlegt
Universität Frankfurt
ChemieInformatik und -Information (OC II/A)
13
Vergleich von Häufigkeiten mit dem Chi2-Test
Ref.
?
Erwartete Häufigkeit = Beobachtete Häufigkeit
RWeb
S-Plus
Exel: chitest
N
M
χ 2 = ∑∑
i
O
E
ij
ij
j
(Oij − Eij ) 2
Eij
N: Anzahl der Zeilen
M: Anzahl der Spalten
Beobachtete Häufigkeit in der Zeile i und Splate j
Erwartete Häufigkeit in der Zeile i und Splate j
ν = (N −1)(M −1)
Anzahl der Freiheitsgrade
Finde Anschauliche Beispiele für den Chi2Test!
13.11.2002
Universität Frankfurt
ChemieInformatik und -Information (OC II/A)
14
Chi2-Unabhängigkeit-Test mit R
Ref.
H0 : Augen- und Haarfarbe sind unabhängig
>
>
>
>
library(MASS)
data(caith)
Spalten: Haarfarbe
help(caith)
caith
fair
red
medium dark
black
blue
326
38
241
110
3
light
688
116
584
188
4
medium 343
84
909
412
26
dark
98
48
403
681
85
> chisq.test(caith,correct=F)
Zeilen: Augenfarbe
Pearson's Chi-squared test
data: caith
X-squared = 1240.039, df = 12, p-value = < 2.2e-16
Mit help(caith) unter R werden Info‘s zu den Daten ausgegeben!
13.11.2002
Universität Frankfurt
ChemieInformatik und -Information (OC II/A)
15
Einzelner Schritte beim statistischem Test
Ref.
•Nullhypothese und Alternativhypothese aufstellen
•Prüfgröße bzw. Testverteilung bestimmen (t, Chi2,…)
•Kritische Bereich bestimmen
•Prüfgröße berechnen
•Entscheiden, ob die Nullhypothese stimmt
13.11.2002
Universität Frankfurt
ChemieInformatik und -Information (OC II/A)
16
Reduktion der
Merkmalsraumdimension
Ref.
RWeb
3D zu 2D
2D zu 1D
13.11.2002
Universität Frankfurt
ChemieInformatik und -Information (OC II/A)
17
Vorteile der reduzierte
Merkmalsraumdimension
•Visualisierung möglich
•Niedrigere Rechenzeit
•…
•…
Ref.
RWeb
Klassifikation
3D zu 2D
Klassifikation
13.11.2002
Universität Frankfurt
ChemieInformatik und -Information (OC II/A)
18
Principle Component Analysis
PCA
Ref.
Neue Koordinanten bestimmen, so daß sie in
Richtung größere Varianz zeigen!
RWeb
Num. Math.
Lösung u.a. durch die Transformation der Daten
mit Hilfe der PCA
13.11.2002
Universität Frankfurt
ChemieInformatik und -Information (OC II/A)
19
PCA, Kovarianzmatrix
Eigenwerte und Eigenvektoren
Ref.
Kovarianzmatrix:
RWeb
1
C = E (u u ) =
N
T
i i
Eigenwerte λ Eigenvektoren
T
u
u
∑ ii
x
Cx = λ x ⇒ Cx − λ x = 0 ⇒ ( C − λ I ) x = 0
•Die Eigenvektoren sind orthogonal zu einander
•Eigenvektoren::Principle Components
•Üblich: Normierung der Eigenvektoren
x =
13.11.2002
Universität Frankfurt
x
x
ChemieInformatik und -Information (OC II/A)
20
Kovarianzmatrix mit dem Programm R
Ref.
RWeb
Kovarianzmatrix-berechnung mit dem Kommando cov(matname)
> i <- matrix(c(59.14,-1.55,4.56,-1.55,0.09,-0.11,4.56,-0.11,27.02), 3)
> cov(i)
[,1]
[,2]
[,3]
[1,] 1116.59743 -29.8914667 -129.4467
[2,] -29.89147 0.8005333 3.2096
[3,] -129.44670 3.2096000 210.3829
13.11.2002
Universität Frankfurt
ChemieInformatik und -Information (OC II/A)
21
Kovarianzmatrix, Eigenwerte und
Eigenvektoren mit dem Programm R
> i <- matrix(c(3,1,2,4,1,3,3,1,2), 3)
>i
[,1] [,2] [,3]
[1,] 3 4 3
[2,] 1 1 1
[3,] 2 3 2
Ref.
> CovI <- cov(i)
> CovI
[,1]
[,2] [,3]
[1,] 1.0 1.500000 1.0
[2,] 1.5 2.333333 1.5
[3,] 1.0 1.500000 1.0
> eigen(CovI)$val
[1] 4.294524e+00 3.880911e-02 -1.523880e-16
> eigen(CovI)$vec
[,1]
[,2]
[,3]
[1,] 0.4800193 0.5192124 -7.071068e-01
[2,] 0.7342772 -0.6788497 -2.187878e-15
[3,] 0.4800193 0.5192124 7.071068e-01
13.11.2002
Universität Frankfurt
ChemieInformatik und -Information (OC II/A)
22
PCA mit dem Programm R
Ref.
Eigenvektoren durch das Modul PCA von R ausrechnen
ØPCA_I <- pca(i)
> eigen(CovI)$val
[1] 4.294524e+00 3.880911e-02 -1.523880e-16
> eigen(CovI)$vec
[,1]
[,2]
[,3]
[1,] 0.4800193 0.5192124 -7.071068e-01
[2,] 0.7342772 -0.6788497 -2.187878e-15
[3,] 0.4800193 0.5192124 7.071068e-01
> plot(PCA_I$rproj[,1], PCA_I$rproj[,2])
13.11.2002
Universität Frankfurt
ChemieInformatik und -Information (OC II/A)
23
Tarnsformation der IRIS-Daten mit PCA
Ref.
Library(multiv)
data(iris)
iris <- as.matrix(iris[,1:4])
pcprim <- pca(iris)
# plot of first and second principal components
plot(pcprim$rproj[,1], pcprim$rproj[,2])
13.11.2002
Universität Frankfurt
ChemieInformatik und -Information (OC II/A)
24
Tarnsformation der IRIS-Daten mit PCA
Ref.
13.11.2002
Universität Frankfurt
ChemieInformatik und -Information (OC II/A)
25
Referenzen
Ref.
1.
S-Kurs
2.
RWeb: http://www.sciviews.org/_rgui/
3.
Statistik
4.
Stanton A. Glantz, Biostatistik, 4. Aufl., McGraw-Hill, UK, 1981
5.
Schwarz H.R., Numerische Mathematik, Teubner-Verlag,
Stuttgart,1993
13.11.2002
Universität Frankfurt
ChemieInformatik und -Information (OC II/A)
26
Herunterladen