Computerunterstützte Chemie EINFACHE STATISTISCHE TESTS

Werbung
Chemometrie - Computerchemie - Chemoinformatik
Chemometrics - Computer Chemistry - Chemoinformatics
Ergänzende Unterlagen zu den Lehrveranstaltungen
Informationsverarbeitung in der Chemie
und
Computerunterstützte Chemie
EINFACHE
STATISTISCHE TESTS
Kurt VARMUZA
Labor Chemometrie
Institute of Chemical Engineering, Technische Universität Wien
2010
Copyright: Univ.Prof. Dr. Kurt Varmuza, c/o Labor Chemometrie, Institute for Chemical Engineering, Technische Universität Wien,
Getreidemarkt 9/166, A-1060 Wien. [email protected], www.lcm.tuwien.ac.at
cm_Statistik_100311.doc
1
1. Mittelwert, Standardabweichung, Varianz
klassische Schätzung des
Zentralwertes (central value)
klassische Schätzung der
Streuung (spread)
2. Empirische Häufigkeitsverteilungen
DATEN:
n Werte xi (i = 1 ... n)
Stichprobe (sample) aus einer
Grundgesamtheit (population)
Einteilung der Daten in k Klassen (Intervalle) und Angabe der Anzahl Werte pro Klasse
(Häufigkeit)
Faustregeln für k:
(a) 5 bis 20
(b) ( n )0.5
(c) 90 % der Daten in 7 Klassen
Häufigkeit (Anzahl Werte) in Klasse j (frequency)
Hj
hj
=
Hj / n
Shj
=
Σhl
relative Häufigkeit, eventuell in % als 100 Hj / n
mit l = 1 ... j
Häufigkeits-Verteilung:
Summenhäufigkeit (cumulative frequency)
Histogramm mit Hj (od. hj) als Funktion von j
Wahrscheinlichkeitsdichte: normiert auf Fläche = 1
(probability density function)
Summenhäufigkeits-Verteilung:
cm_Statistik_100311.doc
Histogramm mit Shj als Funktion von j
2
n = 100 normalverteilte Werte simuliert (m = 8, s = 2)
Häufigkeits-Histogramm und Wahrscheinlichkeitsdichte (geglättet)
Hj
0.20
0.15
30
0.10
20
0.05
10
0
0.00
2
4
6
8
10
12
14
x
5%-Percentile
= 0.05 Quantile
95%-Percentile
= 0.95 Quantile
Shj
Summenhäufigkeit (cumulative frequency)
1.0
Verteilung der
Summenhäufigkeit
(Fläche der
Wahrscheinlichkeitsdichte
von - 4 bis x)
0.8
0.6
0.4
0.2
0.0
2
4
min x = 3.11
6
8
10
12
14
x
max x = 13.47
n = 100 x-Werte aufsteigend sortiert,
bei jeder Stufe um 1/n = 0.01 nach oben
(gleiche Stufenhöhen, ungleiche Stufenbreiten)
cm_Statistik_100311.doc
3
3. Normalverteilung
"Gauss'sche Glockenkurve", bell-shaped distribution
y =
y =
1
s (2π)0.5
- (x - m)2
e 2s2
N(m, s)
- x2
1
e 2
(2π)0.5
N(0, 1)
Standard-Normalverteilung
Als Wahrscheinlichkeitsdichte: Fläche unter der Gesamtkurve = 1
Transformation: normalverteilt
x
z
standard-normalverteilt
normalverteilte Zufallszahl, Mittelwert m, Standardabweichung s
standard-normalverteilte Zufallszahl, m = 0, s = 1
z = (x - m) / s
bzw.
x = sz+m
Autoskalierung (autoscaling), z-Transformation
zentriert (mittelwerts-bereinigt, mean-centered) und
Varianz-skaliert (variance scaled)
cm_Statistik_100311.doc
4
Beispiel:
Annahme:
Frage:
normalverteilte Daten x, m = 5.0 und s = 0.3, also N(5, 0.3)
wie groß ist die Wahrscheinlichkeit für Werte x > 5.8 ?
(1) Manuelle Lösung unter Verwendung der Tabellen-Daten einer Standard-Normalverteilung
Autoskalieren (z-Transformation):
z = (5.8 - 5) / 0.3 = 2.67
D.h.: wie groß ist die Fläche unter der Standardnormalverteilung mit z > 2.67 ?
lt. Tabelle: 0.4962
daher: 0.5 - 0.4962 = 0.0038
z = 2.67
Antwort: Die Wahrscheinlichkeit für Werte x > 5.8 ist 0.0038 ≈ 0.4%.
(2) Mit R
Relevante Funktionen:
pnorm(x, mean = <Mittelwert>, sd = <Standardabweichung>)
liefert die Wahrscheinlichkeit (Fläche unter der Normalverteilung)
zwischen -∞ und x
d.h. die Antwort ergibt sich mit
(oder:
1 - pnorm(5.8, 5, 0.3)
1 - pnorm(5.8, mean=5, sd=0.3)
qnorm(p, mean = <Mittelwert>, sd = <Standardabweichung>)
liefert den Quantilenwert (Grenzwert) für eine Fläche p unter der Normalverteilung
zwischen -∞ und dem Quantilenwert
z.B.: Der Grenzwert (Quantile) für 95% der Werte x ist
qnorm(0.95, mean=5, sd=0.3)
=
5.4935
(95% aller x-Werte sind < 5.4935)
dnorm(x, mean = <Mittelwert>, sd = <Standardabweichung>)
liefert die Dichte (probability density, Funktionswert) der Normalverteilung an der
Stelle x
cm_Statistik_100311.doc
5
Zentraler Grenzwertsatz (central limited theorem)
Als Begründung warum viele (aber nicht alle !) Daten normalverteilt sind.
Wenn a1, a2, ... ai , ... ag
voneinander unabhängige Zufallsvariable sind
mit beliebigen (!) Verteilungen,
den Mittelwerten mi,
den Standardabweichungen si ,
dann ist
x = a1 + a2 ... + ag normalverteilt
mit dem Mittelwert
Σmi
(i = 1 ... g)
und der Varianz
Σ vi
(i = 1 ... g)
D.h.: In Summe liefern viele, von einander unabhängige Einflüsse (ai)
eine normalverteilte Variable x.
Viele statistische Tests und Auswerteverfahren setzen (mehr oder weniger strikt) eine
Normalverteilung der Daten voraus.
Test auf Vorhandensein einer Normalverteilung: Kolmogorov-Smirnov-Test.
Simulation normalverteilter Zufallszahlen
1.
Gleichverteilte Zufallszahlen [0 ... 1] haben einen Mittelwert von 0.5 und eine Varianz von
1/12.
2.
Wenn man 12 gleichverteilte Zufallszahlen addiert, erhält man eine neue Zufallszahl,
die nach dem zentralen Grenzwertsatz normalverteilt ist, mit
Mittelwert = 12 * 0.5 = 6
Varianz = 12 * (1/12) = 1
3.
Durch Mittelwertsbereinigung (Subtraktion von 6) erhält man eine standard-normalverteilte
Zufallszahl (z).
Zusammengefaßt:
cm_Statistik_100311.doc
z = Σ (RNDi) - 6
i = 1 ... 12
(RNDi) gleichverteilt [0 ...1]
6
(Pseudo-) Zufallszahlen mit R
Normalverteilte Zufallsszahlen
> random_n = rnorm(1000, mean=0, sd=3)
#
#
> summary(random_n)
Min.
1st Qu.
-11.77000 -2.07600
# Statistik
3rd Qu.
Max.
1.89500
8.19900
Median
0.01395
Mean
-0.09356
> hist(random_n)
1000 Zufallszahlen
m = 0, s = 3
# Histogramm
Gleichverteilte Zufallsszahlen (uniformly distributed random numbers)
> random_u = runif(1000, 5, 10)
#
#
> summary(random_u)
Min. 1st Qu. Median
5.008
6.231
7.484
# Statistik
Max.
9.995
Mean 3rd Qu.
7.501
8.782
1000 Zufallszahlen
gleichverteilt zw. 5 und 10
>
> hist(random_u, breaks=5)
# Histogramm mit 5 Intervallen
Gleichverteilte Integer-Zufallsszahlen zwischen A und B (inkl.)
> random_i = round(runif(1000, A-0.5, B+0.5),0)
# 1000 ganzzahlige
# Zufallszahlen, gleichverteilt zw. A (z.B. 1) und B (z.B. 6)
cm_Statistik_100311.doc
7
Verteilung von Mittelwerten
Population N(μ, σ)
μ wahrer Mittelwert (geschätzt als m)
σ wahre Standardabweichung (geschätzt als s)
Stichprobe aus Einzelwerten:
Einzelwerte sind annährend normalverteilt: N(m, s)
Stichproben aus jeweils n Einzelwerten und daraus den
Mittelwert berechnen:
0.5
Mittelwerte sind annährend normalverteilt: N(m, s/n )
Engere Verteilung als bei Einzelwerten!
Standardabweichung der Mittelwerte ist s/n0.5
Vertrauensintervall
Verteilung der
Einzelwerte oder
Mittelwerte
m
Vertrauensintervall (confidence interval)
= m + t * (Stand.abw. der Verteilung)
s für Einzelwerte
s/n0.5 für Mittelwerte aus n
Einzelwerten
Quantile (percentile)
für 95%, 99%, 99.9% Flächenanteil
cm_Statistik_100311.doc
8
4. Grundprinzip statistischer Tests
Am Beispiel des F-Tests:
Test ob sich die Standardabweichungen von 2 Stichproben signifikant unterscheiden.
population
N(m, s)
normal distribution
two randomly selected data sets
data set
no of data
mean
variance
1
n1
m1
v1
2
n2
m2
v2
in general: v1 is not equal v2
A test quantity (q) is defined: q = F = v1 / v2
H0
(zero hypothesis):
both random
samples are
from the same
population
(v1 >= v2
and F >= 1)
Assume many different pairs of random samples are tested by calculating F:
most often
F = approx. 1 (> 1)
seldom
F >> 1
if H0 is true
very seldom
F >>> 1
Probability density function (pdf) of F (parameters are n1 and n2):
0 .8
n1 = 11; n2 = 11
f1 = 10, f2 = 10
0 .6
0 .4
0 .2
0 .0
0
1
2
3
4
5
F
critical value for a certain significance level (e.g. 2.98 for p = 0.05)
Conclusion:
IF
actual value of F > critical value,
THEN
data sets are probably NOT from the same population,
and variances differ significantly (H0 is rejected);
ELSE
H0 cannot be rejected, differences of variances are accidentally.
cm_Statistik_100311.doc
9
H0 (Null-Hypothese):
Die (2) verglichenen Datensätze stammen aus der selben Population.
Die auftretenden Unterschiede bei einer Prüfgröße (q) sind zufallsbedingt.
Wenn q <= Grenzwert
q >
Grenzwert
Hohe Wahrscheinlichkeit, daß die Unterschiede zufällig sind.
H0 kann nicht verworfen werden.
So große Unterschiede treten nur sehr selten auf.
H0 wird verworfen.
Diese Aussage ist mit einer Irrtumswahrscheinlichkeit
(5%, 1%, ... 0.01%) falsch.
= Fehler 1. Art: H0 wird verworfen, obwohl sie richtig ist.
Grenzwert = f (Größe der Datensätze, Irrtumswahrscheinlichkeit)
Irrtumswahrscheinlichkeit, statistische Signifikanz, ... (p, α, ...)
Bsp.: "Die Wahrscheinlichkeit, daß die beiden untersuchten Datensätze aus der selben Population
stammen ist 0.002." Interpretiert heißt das, daß sie sich signifikant unterscheiden."
Fehler 2. Art (β): H0 wird angenommen, obwohl sie falsch ist (die dazu erforderliche AlternativHypothese H1 ist jedoch meist schwer definierbar). Wenn α klein ist, wird β groß, und umgekehrt.
Einseitiger/zweiseitiger Test
One-sided (-tailed) / two-sided (-tailed) test
pdf
zweiseitig
p = 0.05
Summe der beiden Flächen
außerhalb der Grenzwerte = 5%
(Bsp.: Ist m1 größer oder kleiner als
m2 ?)
q
pdf
einseitig
p = 0.05
Fläche außerhalb des Grenzwertes =
5%
(Bsp.: Ist m1 größer als m2 ?)
q
cm_Statistik_100311.doc
10
5. Verteilungen statistischer Prüfgrößen
(theoretische Verteilungen)
Dichtefunktion der Verteilung (probability density function, pdf )
Quantile: Grenzwerte für bestimmten Flächenabschnitt (statistische Signifikanz p).
5.1. t-Verteilung
Auch Student-Verteilung, nach einer Publikation des englischen "Bierbrauers" William Gossett (bei
Guiness) unter dem Pseudonym "Student" (siehe nächste Seite).
Ein Parameter: Anzahl Freiheitsgrade, degree of freedom (f, ν).
Ähnlich Standardnormalverteilung, jedoch breiter und flacher; für hohe Anzahl Freiheitsgrade
nahezu ident mit der Standardnormalverteilung.
Anwendung: Vergleich von Mittelwerten mit dem t-Test.
pdf
N(0, 1), f > 100
0.4
f = 10
f=4
0.3
f=2
0.2
0.1
t
0.0
-6
-4
-2
0
2
4
Quantile (beidseitiger Test)
f
p = 0.10
p = 0.05
p = 0.01
2
2.92
4.30
9.92
4
2.13
2.78
4.60
10
1.81
2.23
3.17
20
1.72
2.09
2.84
100
1.66
1.98
2.63
cm_Statistik_100311.doc
11
5.2. F-Verteilung
Nach dem Statistiker Ronald Fisher benannt.
Zwei Parameter: Anzahl Freiheitsgrade f1 und f2.
Anwendung: Vergleich von Varianzen mit dem F-Test.
pdf
0.8
f1 = f2 = 4
f1 = f2 = 10
0.6
f1 = 10; f2 = 4
0.4
0.2
F
0.0
0
1
2
3
4
5
5.3. chi2-Verteilung
Definition:
chi2 = χ2 = z12 + z22 ... + zk2
zi
standard-normalverteilte Zufallszahl
N(0, 1)
k
Parameter der Verteilung
(Anzahl der Summanden = Freiheitsgrade)
Anwendung: Vergleich von Verteilungen (chi2-Test), Bartlett-Test.
Verteilung der Zufallszahlen chi2 :
pdf
0.5
f = 2
0.4
f = 5
f = 10
0.3
0.2
0.1
0.0
0
5
10
15
20
chi-squared
cm_Statistik_100311.doc
12
6. Robuste Tests
Viele statistische Test setzen voraus, daß die Daten aus einer Normalverteilung stammen.
Robuste Tests
setzen keine Normalverteilung voraus
("nicht parametrische" / "verteilungsfreie" Tests),
sind unempfindlich gegen Ausreißer,
sind auch für kleinere Datensätze anwendbar.
MEDIAN
Anstelle des Mittelwertes (der insbesondere bei kleinen Datensätzen von Ausreißern stark
beeinflußt wird).
Ist jener Wert, für den es gleich viele größere und
kleinere Werte gibt.
Ist eine robuste Schätzung des Zentralwertes.
Wenn n eine gerade Zahl ist:
Median = arithmetisches Mittel der beiden "in der Mitte
liegenden" Werte
2 3 5 7 12
Median = 5
Mittelwert = 5.8
2 3 5 7 50
Median = 5
Mittelwert = 13.4
2 3 5 7 12 15
Median = (5 + 7) / 2 = 6
QUARTILEN-BEREICH
Anstelle der Standardabweichung (die insbesondere bei kleinen Datensätzen von Ausreißern
stark beeinflußt wird).
Die durch den Median gebildeten Hälften werden nochmals mittels Median-Bildung
halbiert. Man erhält:
unteres Quartil (lower quartile, Q1):
oberes Quartil (upper quartile, Q3):
Median der unteren Hälfte
Median der oberen Hälfte
Interquartilabstand = oberes Quartil - unteres Quartil = Q3 - Q1 = IQR
(robustes Maß für die Streuung der Daten, interquartil range, measure of dispersion).
Robuste Schätzung der Standardabweichung für normalverteilte Daten:
sIQR = 0.7413 IQR
Den Median kann man als 2. Quartil (Q2) auffassen.
cm_Statistik_100311.doc
13
RANGNUMMERN (ranking)
Die Werte werden aufsteigend sortiert und von 1 bis n durchnummeriert.
Zur weiteren Auswertung werden nur die so erhaltenen Rangnummern verwendet (z.B.: MannWhitney-U-Test benützt Rangnummern-Summen beim Vergleich von Datensätzen) .
Wenn 2 oder mehrere Werte gleich sind (engl.: tie), so erhalten diese den arithmetische Mittelwert
der Rangnummern.
Beispiel: Für die Werte 3, 4, 8, 8, 100 werden die Rangnummern 1, 2, 3.5, 3.5, 5 vergeben.
3.5 = Mittel aus
Rangnummern 3 und 4
NACHTEIL ROBUSTER TESTS
Wenn keine Verteilung vorausgesetzt wird, sind mehr Daten erforderlich um eine vorgegebene
statistische Signifikanz zu erreichen.
BEISPIELE ROBUSTER TESTS
Test auf Normalverteilung
Ausreißer-Test
statt Vergleich von Mittelwerten
Kolmogorov-Smirnov
Dixon-Q
Mann-Whitney-U
BOX-and-WHISKER PLOT
Graphische Darstellung von
Median, unteres und oberes Quartil, Minimum, Maximum (und eventuell Ausreißer
als * markiert) eines Datensatzes.
Maximum
Q3
Q2 = Median
Q1
Minimum
Milder Ausreißer (mild outlier):
im Bereich 1.5 IQR bis 3 IQR unterhalb von Q1 oder oberhalb
von Q3
Starker Ausreißer (extreme outlier): kleiner als Q1 - 3 IQR oder größer als Q3 + 3 IQR
cm_Statistik_100311.doc
14
cm_Statistik_100311.doc
15
7. Test von Verteilungen
Experimentelle Daten: Empirische Verteilung, die einer theoretischen Verteilung ähnlich sein kann
(Normalverteilung, Poissonverteilung). Viele statistische Test setzen voraus, daß die Daten aus
einer Normalverteilung stammen, daher sind Tests auf Vorhandensein einer Normalverteilung
wichtig. Bei kleinen Datensätzen wird H0 (Daten stammen aus Normalverteilung) meist nicht
verworfen.
Überblick
z
Histogramm und visuelle Beurteilung ob annähernd normalverteilt
z
Summenhäufigkeit auf "Wahrscheinlichkeitspapier"
z
Kolmogorov-Smirnov-Test
z
chi2-Test
Wenn die Daten vermutlich nicht normalverteilt sind:
„
mathematische Transformation
(z.B. Logarithmus)
„
robuste Tests anwenden
„
Aussage der Tests nur zur Orientierung
Häufigkeitsdichte
x
Logarithmische Normalverteilung:
log x ist normal verteilt
"Wahrscheinlichkeitspapier"
% cumulative frequency F(z)
(special scaling gives straight line
for normal distribution)
F(z)
F(z)
cm_Statistik_100311.doc
16
7.1. Kolmogorov-Smirnov-Test auf Normalverteilung
PRINZIP: Ein robuster Test, der auch für kleine Datensätze geeignet ist. Das Histogramm der
Summenhäufigkeit (der autoskalierten Daten) wird mit der Summenhäufigkeit der StandardNormalverteilung verglichen. H0: Daten stammen aus einer Normalverteilung.
n Werte x1, x2, ... xn
DATEN
DURCHFÜHRUNG
1.
m
s
Mittelwert
Standardabweichung
2.
z-Transformation (autoscaling):
3.
z-Werte aufsteigend sortieren.
Treppenkurve der Summenhäufigkeiten H(i) mit Stufenhöhe = 1 / n
4.
Summenhäufigkeit der Standard-Normalverteilung N(0,1) an den Stellen zi aus einer
Tabelle entnehmen.
5.
Prüfgröße
q =
m, s
aus den Daten berechnet
oder vermutete Werte
zi = (xi - m) / s
für alle i = 1 ... n
| maximale Differenz | zwischen der Treppenkurve und der
Summenhäufigkeit der N(0,1).
6.
Tabellenwert
K (n)
7.
Antwort
wenn q > K
--> keine Normalverteilung (H0 verwerfen)
Kolmogorov-Smirnov-Test (p = 0.05, zweiseitig)
TABELLE
n
K(n)
n
K(n)
n
K(n)
3
4
5
6
7
8
0.376
0.375
0.343
0.323
0.304
0.288
9
10
11
12
13
14
0.274
0.262
0.251
0.242
0.234
0.226
15
16
17
18
19
20
0.219
0.213
0.207
0.202
0.197
0.192
Lit.: Miller J.C., Miller J.N.: Statistics for Analytical Chemistry, 3rd ed., Ellis Horwood, New York
(1993)
cm_Statistik_100311.doc
17
Beispiel
Daten: n = 5 (aufsteigend sortiert)
i
1
2
3
4
5
xi
2.00
3.00
5.00
6.00
8.00
zi
- 1.17
- 0.75
0.08
0.50
1.34
F(zi)
0.1210
0.2266
0.5319
0.6915
0.9099
H(i)
0.2
0.4
0.6
0.8
1.0
| H(z) - F(zi )|
0.1210
0.1734
0.0681
0.1085
0.0901
max
Weitere Werte der Summenhäufigkeitskurve F(z) der N(0,1) zum besseren Zeichnen
z
- 2.0
- 1.5
- 1.0
- 0.5
0
0.5
1.0
1.5
2.0
F(z)
0.023
0.067
0.159
0.308
0.500
0.692
0.841
0.933
0.977
H(i) = 0.4
F(zi) = 0.2266
Prüfgröße q = max (| H(i) - F(zi )|) = 0.1734
Tabellenwert K (n=5) = 0.343 (p = 0.05, zweiseitig)
Ergebnis:
q < K, daher wird H0 (Normalverteilung) nicht verworfen
cm_Statistik_100311.doc
18
7.2. Chi-Quadrat-Test zum Vergleich von Verteilungen
PRINZIP: Die Daten werden in Klassen eingeteilt (Histogramme für die zu vergleichenden
Datensätze). Die Häufigkeiten der Klassen werden verglichen. Für beliebige Verteilungen.
H0: Die beiden Verteilungen stammen aus der selben Population.
DATEN
k
Oi
Ei
Anzahl Klassen
"observed" Häufigkeit der Klasse i
"expected" Häufigkeit der Klasse i
Oi, Ei
k=6
Häufigkeiten in beliebigen Einheiten.
Mehr als ca 50 Werte pro Verteilung
notwendig.
1
2
3
4
5
6
i
DURCHFÜHRUNG
Σ
[(Oi - Ei )2/ Ei ]
Prüfgröße
q =
Tabellenwert
Percentile der chi2-Verteilung mit f = k - 1 Freiheitsgraden.
Antwort
wenn q > Grenzwert, dann wird H0 verworfen
i = 1 ... k
BEISPIEL
i
1
2
3
4
5
6
Summe
Oi
3
5
10
4
1
1
24
Ei
4
6
8
3
2
1
24
(Oi - Ei )2
1
1
4
1
1
0
-
(Oi - Ei )2/ Ei
0.2500
0.1667
0.5000
0.3333
0.5000
0.0000
1.75 = q
Tabellenwert für k = 6 (f = 5) und p = 0.05 (χ20.95 ) = 11.1
Daher keine Ablehnung von H0.
cm_Statistik_100311.doc
19
LOTTO-BEISPIEL: Chi-Quadrat-Test auf Gleichverteilung
Wert (i)
Oi
Ei
(Oi - Ei)
(Oi-Ei)2/Ei
-7,667
1,037
1
49
56,667
2
58
56,667
1,333
0,031
3
56
56,667
-0,667
0,008
4
59
56,667
2,333
0,096
5
68
56,667
11,333
2,267
6
49
56,667
-7,667
1,037
7
69
56,667
12,333
2,684
8
57
56,667
0,333
0,002
9
49
56,667
-7,667
1,037
10
62
56,667
5,333
0,502
11
55
56,667
-1,667
0,049
12
57
56,667
0,333
0,002
13
53
56,667
-3,667
0,237
14
47
56,667
-9,667
1,649
15
48
56,667
-8,667
1,326
16
59
56,667
2,333
0,096
17
58
56,667
1,333
0,031
18
51
56,667
-5,667
0,567
19
51
56,667
-5,667
0,567
20
59
56,667
2,333
0,096
21
56
56,667
-0,667
0,008
22
58
56,667
1,333
0,031
23
58
56,667
1,333
0,031
24
55
56,667
-1,667
0,049
25
53
56,667
-3,667
0,237
26
73
56,667
16,333
4,708
27
63
56,667
6,333
0,708
28
59
56,667
2,333
0,096
29
60
56,667
3,333
0,196
30
66
56,667
9,333
1,537
31
55
56,667
-1,667
32
51
56,667
-5,667
0,049
0,567
33
64
56,667
7,333
0,949
34
48
56,667
-8,667
1,326
35
50
56,667
-6,667
0,784
36
70
56,667
13,333
3,137
37
56
56,667
-0,667
0,008
38
48
56,667
-8,667
1,326
39
66
56,667
9,333
1,537
40
53
56,667
-3,667
0,237
41
51
56,667
-5,667
0,567
42
58
56,667
1,333
43
65
56,667
8,333
0,031
1,225
44
51
56,667
-5,667
45
49
56,667
-7,667
sum= 2550
2550,015
0,567
1,037
Tabellenwert:
p = 0.01
f = 40
(statt genau 45-1 = 44)
= 63.7
Daher wird die
Nullhypothese
(Gleichverteilung)
nicht abgelehnt.
= Prüfgröße q
sum = 34,270
Expected: 425 Ziehungen * 6 Zahlen = 2550 Werte, daher expected = 2550 / 45 verschiedene Zahlen = 56,667
cm_Statistik_100311.doc
20
8. Ausreißer-Tests
Eliminierung von Ausreißern (outlier) ist problematisch, insbesondere bei kleinen Datensätzen.
Triviale Methode: Werte außerhalb Mittelwert + 3s werden als Ausreißer betrachtet.
8.1. Ausreißertest nach Grubbs
DATEN
n Werte x1, x2, ... xn
DURCHFÜHRUNG
1.
m
s
x*
Mittelwert aller n Werte
Standardabweichung aus allen n Werten
ausreißerverdächtiger Wert (H0: x* ist kein Ausreißer)
2.
Prüfgröße
q = | x* - m | / s
3.
Tabellenwert
aus Tabelle für Grubbs-Test (Parameter = n)
4.
Antwort
Wenn q > Grenzwert, dann wird x* als Ausreißer aufgefaßt.
(Autoskalierung!)
TABELLE
of H0
Lit.: J.K. Taylor: Quality assurance of chemical measurements, Lewis Publishers (1987)
cm_Statistik_100311.doc
21
8.2. Ausreißertest nach Dixon (einfache Version)
Ein robuster Test. Wird nicht von allen Experten empfohlen.
DATEN
n Werte x1, x2, ... xn
DURCHFÜHRUNG
1.
xmax
xmin
Maximalwert von x1, x2, ... xn
Minimalwert von x1, x2, ... xn
2.
Δ
Δ = xmax - xmin
3.
Prüfgröße
für alle i = 1 ... n
qi = | xi - xnext,i | / Δ
xnext,i = der zu xi (= verdächtiger Wert) nächst-liegende Wert
6.
Tabellenwert
aus Dixon-Q-Test-Tabelle (Parameter = n)
7.
Antwort
Wenn qi > Grenzwert, dann wird xi als Ausreißer aufgefaßt.
TABELLE
n
4
5
6
(Spannweite der Daten)
Dixon-Q-Test (p = 0.05, zweiseitig)
Grenzwert
0.831
0.717
0.621
n
7
8
9
Grenzwert
0.570
0.524
0.492
n
10
Grenzwert
0.464
Lit.: Miller, Miller (1984) und E.P. King, J. Am. Statist. Assoc. 48 (1958) 531.
HINWEIS
Wenn zwei Ausreißer nahe beisammen liegen (oder weit auseinander), dann werden sie nicht als
Ausreißer erkannt.
cm_Statistik_100311.doc
22
9. Vergleich von Mittelwerten und verwandte Tests
9.1. t-Test zum Vergleich von Mittelwerten
DATEN
Daten von 2 Meßreihen (Indizes: 1 und 2)
n1, n2 Anzahl Werte
m1, m2
Mittelwerte
Standardabweichungen
s1 , s2
VORAUSSETZUNGEN
(Annähernd) normalverteilte Daten.
Kein signifikanter Unterschied der Standardabweichungen s1, s2 . Je größer dieser Unterschied ist,
desto unschärfer wird das Ergebnis des t-Tests.
DURCHFÜHRUNG
1.
c = [ (n1 - 1) s12 + (n2 - 1) s22 ] / [ n1 + n2 - 2 ]
pooled variance
s = c0.5
2.
k = [ n1 . n2 / ( n1 + n2 ) ]0.5
3.
Prüfgröße
q = (m1 - m2 ) . k / s
Anzahl Freiheitsgrade
f = n1 + n2 - 2
4.
Tabellenwert
Percentile der t-Verteilung
5.
Antwort
cm_Statistik_100311.doc
Wenn |q| > Grenzwert,
dann unterscheiden sich die
Mittelwerte "signifikant".
23
9.2. t-Test zum Vergleich von Mittelwert und Sollwert
DATEN
m0
n
Sollwert
Anzahl Parallelmessungen xi (n > 2)
VORAUSSETZUNGEN
(Annähernd) normalverteilte Daten.
DURCHFÜHRUNG
1.
m = Mittelwert der xi
2.
s = Standardabweichung der xi
3.
Prüfgröße
q = n0.5 (m - m0) / s
Anzahl Freiheitsgrade
f = n-1
4.
Tabellenwert
Percentil der t-Verteilung mit f Freiheitsgraden
5.
Antwort
Wenn |q| > Grenzwert,
dann unterscheidet sich der Mittelwert
der Meßwerte "signifikant" vom
Sollwert
9.3. Toleranzbereich für den Mittelwert
Für Mittelwert m, Standardabweichung s, aus n Parallelmessungen.
mmax/min =
m0 + (qmax . s) / n0.5
Aus der Formel für die Prüfgröße beim
Vergleich von Mittelwert und Sollwert.
Beispiel
n = 5 (f = 4)
statistisches Risiko (p) = 0.05
m0 = 100
s = 2 % von m0 = 2
n=5
Zweiseitiger Test:
(zweiseitig)
qmax = 2.78
2.13
(einseitig, Wert in der Tabelle!)
+2.78 * 2 [%] / (5)0.5 = + 2.49 [%]
mmax/min = 100 + 2.5
Im Durchschnitt liegt jeder 20. Fall außerhalb dieses Bereichs obwohl der Mittelwert dem
Sollwert "entspricht".
cm_Statistik_100311.doc
24
9.4. Differenzen-t-Test (Paired t-Test)
DATEN
Paarweise Daten von 2 Meßreihen (Indizes: 1 und 2).
D.h.: zu jedem Wert x1i (aus der Meßreihe 1) gibt es einen
Vergleichswert x2i (aus der Meßreihe 2).
n1 = n2 = n
Anzahl Werte (gleich in beiden Meßreihen)
m1, m2
Mittelwerte
VORAUSSETZUNGEN
Im Gegensatz zum t-Test eher unempfindlich auf Unterschiede in den Standardabweichungen.
DURCHFÜHRUNG
1.
Δi = x1i - x2i
2.
m = (1/n) . Σ Δi
3.
Sxx = Σ (Δi - m)2
Differenzen, für alle i = 1 ... n
(i = 1 ... n)
Mittelwert der Differenzen
(H0: Datensätze stammen aus der selben
Population; m = 0)
(i = 1 ... n)
0.5
s = [Sxx / (n - 1) ]
Standardabweichung der Differenzen
Prüfgröße
q = (m / s) . n 0.5
Anzahl Freiheitsgrade
f = n-1
4.
Tabellenwert
Percentil der t-Verteilung mit f Freiheitsgraden
5.
Antwort
4.
Wenn |q| > Grenzwert,
dann unterscheidet sich der Mittelwert
der Differenzen "signifikant" von Null.
Der Differenzen-t-Test ist schärfer als der einfache t-Test. Die Daten innerhalb der Meßreihen
dürfen nicht gemischt sein. Der Differenzen-t-Test eignet sich zum Vergleich von zwei Verfahren,
wenn die Standardabweichungen groß sind und der einfache t-Test nicht eingesetzt werden kann.
Beispiel
i
1
2
3
4
5
6
m
s
x1i
20
40
15
80
35
50
40
23.5
x2i
22
50
14
100
40
60
47.7
30.8
Δi = x2i - x1i
2
10
-1
20
5
10
7.67
7.45
(1) t-Test:
c = 749.7
s = 27.38
k = 1.73
f = 10
q = 0.48
Tabellenwert für p = 0.05 und f = 10 ist 1.81
Daher kein signifikanter Unterschied der Mittelwerte.
(2) Differenzent-t-Test:
n = 6 f = 5 (!)q = 2.52
Tabellenwert für p = 0.05 und f = 5 = ist 2.02
Daher signifikanter Unterschied der Mittelwertsdifferenzen von Null.
cm_Statistik_100311.doc
25
9.5. Mann-Whitney-Test (U-Test)
Ein robuster Test. Wichtig für die Praxis, da oft nur kleine Datensätze zur Verfügung stehen.
Hypothese H0: beide Meßreihen stammen aus der gleichen Population. Äquivalent zum WilcoxonRangsummentest.
DATEN
Daten von 2 Meßreihen (Indizes: 1 und 2)
n1, n2
Anzahl Werte (Meßreihen so zuordnen, daß n1 <= n2 )
DURCHFÜHRUNG
1.
Alle Werte (1. und 2. Meßreihe zusammen) aufsteigend sortieren.
Dabei jedoch vermerken, zu welcher Meßreihe jeder einzelne Wert gehört.
2.
Rangnummern vergeben von 1 bis (n1 + n2).
Für gleiche Werte (engl.: tie) wird die selbe Rangnummer vergeben, und
zwar der Mittelwert der entsprechenden "Rangnummern" (kann auch nicht-ganzzahlig sein).
3.
S1 = Summe der Rangnummern für die Werte der 1. Meßreihe
S2 = Summe der Rangnummern für die Werte der 2. Meßreihe
Kontrolle: S1 + S2 = n(n+1)/2
(mit n = n1 + n2)
4.
T1 =
T2 =
S1 - n1 (n1 + 1) / 2
S2 - n2 (n2 + 1) / 2
5.
Prüfgröße
q = min ( T1, T2 )
4.
Tabellenwert
Tabelle für U-Test (Parameter: n1, n2)
5.
Antwort
Wenn q <= Grenzwert
dann unterscheiden sich die
Rangnummernsummen signifikant.
(Mediane unterscheiden sich signif.).
BEISPIEL
Daten:
Meßreihe 1: n1 = 4
Werte: 3, 2, 6, 5
Meßreihe 2: n2 = 5
Werte: 4, 8, 5, 8, 6
Aufsteigend sortieren und Rangnummern vergeben:
Meßreihe
1
1
2
1
2
1
Wert
2
3
4
5
5
6
Rangnummer
1
2
3
4.5
4.5
6.5
2
6
6.5
2
8
8.5
2
8
8.5
S1 = 14
S2 = 31
T1 = 1
T2 = 16
Prüfgröße
q = 4
Tabellenwert
= 1
daher: q > Grenzwert
Ergebnis: "Kein signifikanter Unterschied" der beiden Meßreihen; H0 wird nicht verworfen.
cm_Statistik_100311.doc
26
10. Vergleich von Varianzen
10.1. F-Test zum Vergleich von Varianzen
DATEN
Daten von 2 Meßreihen (Indizes: 1 und 2)
n1, n2
s1, s2
Anzahl Werte
Standardabweichungen
VORAUSSETZUNGEN
(Annähernd) normalverteilte Daten.
DURCHFÜHRUNG
1.
Zuordnung der beiden Meßreihen so daß: s1 >= s2
2.
Prüfgröße
q = s12 / s22
Anzahl Freiheitsgrade
f1 = n1 - 1
f2 = n2 - 1
3.
Tabellenwert
Percentile der F-Verteilung (Parameter: f1, f2)
Achtung: f1, f2 nicht vertauschen.
4.
Antwort
Wenn q > Grenzwert
(q >= 1)
dann unterscheiden sich die
Standardabweichungen signifikant.
HINWEIS
Bei signifikantem Unterschied der Standardabweichungen:

Vergleich der Mittelwerte mit dem t-Test problematisch.

Zusammenfassung der Meßreihen nicht gestattet.
10.2. Bartlett-Test zum Vergleich von Varianzen
Zum Vergleich von 2 oder mehreren Varianzen. Der Bartlett-Test ist weniger scharf als der F-Test.
Hypothese H0: alle Varianzen gleich.
DATEN
Daten von 2 oder mehr Meßreihen (Indizes: 1, 2, ... p)
n1, n2, ... np
s1, s2, ... sp
cm_Statistik_100311.doc
Anzahl Werte
Standardabweichungen
27
DURCHFÜHRUNG
1.
2.
fi = ni - 1
vi = si 2
für alle i = 1 ... p
Freiheitsgrade
für alle i = 1 ... p
Varianzen
v = ( f1.v1 + f2.v2 + ... fp.vp ) / ( f1 + f2 + ... fp)
pooled variance
(gewichtetes Mittel)
3.
Z = v (f1 + f2 + ... + fp)
N = (v1 f1) . (v2 f2) . ... . ( vp fp)
wenn v1 = v2 = ... = vp = v
dann ist Z = N
4.
Prüfgröße
q = ln (Z / N)
Anzahl Freiheitsgrade
f = p-1
wenn v1 = v2 = ... = vp = v
dann ist q = ln 1 = 0
5.
Tabellenwert
Percentile der chi2-Verteilung mit f Freiheitsgraden
6.
Antwort
Wenn q > Grenzwert
cm_Statistik_100311.doc
dann unterscheiden sich die
Standardabweichungen signifikant.
28
11. ANOVA - Einfache Varianzanalyse
11.1. Aufgabenstellung
ANOVA = ANALYSIS OF VARIANCE
Vergleich von mehreren Meßreihen (Labors, Methoden).
Typische Daten (Vereinfachung: gleiche Anzahl Meßwerte pro Labor):
Meßwert-Nr.
Labor 1
Labor 2
1
x11
x12
...
Labor q
x1q
2
...
n
xn1
LaborMittelwerte
LaborVarianzen
xnq
m1
m2
mq
v1
v2
vq
H0: Alle Daten stammen aus der selben Population.
ANOVA: Untersuchung ob neben den zufälligen Fehlern (random errors) auch systematische
Unterschiede (Einflußfaktoren, systematic error) zwischen den Labors auftreten und die Mittelwerte
beeinflussen. "Labors" können auch unterschiedliche (neue) Methoden sein.
Einfache Varianzanalyse (one-way ANOVA): Untersuchung von nur einem Einflußfaktor.
11.2. Methode
μ
(unbekannter) Mittelwert der Population
σ
(unbekannte) Standardabweichung der Population
Die Varianz (v) der Population wird aus den vorhandenen Daten auf zwei Arten geschätzt:
vr
"random error"-Varianz (within-sample-variation, Zufallsfehler, kein systematischer
Einfluß, vertikale Auswertung der Tabelle)
= Mittelwert der Labor-Varianzen
vs
"systematic influence"-Varianz (between-sample-variation, Varianz durch
systematischen Einfluß bzw. Unterschiede zwischen den Labors, "kontrolliert",
horizontale Auswertung der Tabelle)
= abgeleitet aus der Varianz der Labor-Mittelwerte
cm_Statistik_100311.doc
29
Wenn sich vr und vs signifikant unterscheiden (F-Test), dann ist ein systematischer Einfluß
anzunehmen (dann gibt es signifikante Unterschiede zwischen den Labors).
11.3 Durchführung
Vereinfachte Version: gleiche Anzahl Meßwerte pro Labor.
DATEN
q
n
Anzahl Labors (Meßreihen, Anzahl Spalten)
Anzahl Meßwerte pro Labor (Anzahl Zeilen)
n.q
Gesamtzahl der Meßwerte
mj
vj
Mittelwert für Labor j
(j = 1 ... q)
Varianz für Labor j
(j = 1 ... q)
VORAUSSETZUNGEN
(a)
Varianzen der Labors dürfen sich nicht stark unterscheiden (Prüfen mit Bartlett-Test).
Wenn sie sich signifikant unterscheiden, dann eventuell Ausreißer entfernen.
(b)
Daten innerhalb eines Labors müssen normalverteilt sein.
Jedoch: ANOVA ist nicht sehr empfindlich gegen Verletzungen dieser Bedingungen.
1.
Within-sample variance vr
vr
= (1/q) Σ vj
j = 1 ... q
(Mittelwert der Labor-Varianzen)
fr
2.
= q (n - 1)
Freiheitsgrade
Between-sample variance vs
m = (1/q) Σ mj
3.
j = 1 ... q
(m: Gesamt-Mittelwert, grand mean)
vs
= n Σ (mj - m)2/ (q - 1)
j = 1 ... q
fs
= q-1
Freiheitsgrade
F-Test
Prüfgröße
Anzahl Freiheitsgrade
4.
Tabellenwert
5.
Antwort
q = vs / v r
f1 = fs
f2 = fr
Percentile der F-Verteilung (Parameter: f1 , f2 )
Achtung: f1, f2 nicht vertauschen.
wenn q > Grenzwert
dann gibt es einen signifikanten
Unterschied der Varianzen vs und vr
und daher einen signifikanter Unterschied zwischen den Labors.
HINWEIS
cm_Statistik_100311.doc
30
Bei signifikantem Unterschied der Varianzen sollen die Ursachen gesucht werden (sie werden nicht
direkt durch ANOVA erhalten). Mögliche Ursachen sind beispielsweise:
(a)
(b)
(c)
(d)
Ein oder mehrere Mittelwerte der Labors sind stark unterschiedlich.
Die Mittelwerte fallen in 2 oder mehrere Gruppen.
Es gibt ein oder mehrere "schlechte" Labors.
Die verwendete Methode ist nicht ausreichend standardisiert.
Die Unterschiede können auch "erwünscht" sein, wenn beispielsweis die "Labors" unterschiedliche
Versuchsmethoden oder Prozessführungen darstellen.
11.4 Beispiel
n = 4, q = 3
Labor 1
Labor 2
Labor 3
44.7
41.1
37.0
44.0
41.7
41.7
46.9
42.8
41.0
38.7
38.7
41.0
Alle Daten stammen aus einer
Normalverteilung N(40.3, 2.93),
also aus der selben Population.
43.275
6.11
2.47
39.85
1.76
1.33
Labor-Mittelwerte
Labor-Varianzen
Labor-Standardabweichungen
Gesamt-Varianz (aus allen Daten)
7.62
(= 2.762)
vr
6.71
vs
11.76
Daraus ergeben sich:
41.70
12.25
3.50
q = 11.76 / 6.71 = 1.75
(Freiheitsgrade: 2 und 9)
Tabelle: F(2, 9, p = 0.025 einseitig entspricht p = 0.05 zweiseitig) = 5.71 (= Grenzwert)
Ergebnis: q < Grenzwert; daher bleibt H0 aufrecht.
cm_Statistik_100311.doc
31
Funktionswerte der Standard-Normalverteilung
Spiegel M.R.: Statistik. McGraw-Hill, Düsseldorf, 1976
cm_Statistik_100311.doc
32
Fläche unter der Standard-Normalverteilung
Spiegel M.R.: Statistik. McGraw-Hill, Düsseldorf, 1976
cm_Statistik_100311.doc
33
Grenzwerte für die t-Verteilung
Spiegel M.R.: Statistik. McGraw-Hill, Düsseldorf, 1976
cm_Statistik_100311.doc
34
Grenzwerte für die F-Verteilung
p = 0.05
zweiseitiger Test
Massart D.L. et al: Chemometrics: a textbook. Elsevier, Amsterdam 1988
cm_Statistik_100311.doc
35
Grenzwerte für den Mann-Whitney-U-Test
p = 0.05
zweiseitiger Test
Massart D.L. et al: Chemometrics: a textbook. Elsevier, Amsterdam 1988
cm_Statistik_100311.doc
36
Grenzwerte für die chi2-Verteilung
99
Spiegel M.R.: Statistik. McGraw-Hill, Düsseldorf, 1976
Letzte Seite "Einfache statistische Tests"
cm_Statistik_100311.doc
37
Herunterladen