Graphische Verfahren in der Statistik: QQ- und PP

Werbung
Prof. Dr. Dietmar Pfeifer
Institut für Mathematik
Graphische Verfahren in der Statistik: Q-Q- und P-P-Plots
Bei den üblichen parametrischen Testverfahren in der Statistik wird in der Regel eine Annahme über die
zugrunde liegende Verteilungsklasse getroffen. Beispielsweise wird für die Durchführbarkeit des t-Tests
das Vorliegen einer Normalverteilung N(µ, σ 2 ) vorausgesetzt. In diesem Text soll gezeigt werden, wie
man mit graphischen Methoden eine Überprüfung solcher Annahmen durchführen kann.
1. Q-Q-Plots
Wir betrachten zunächst eine Zufallsvariable X mit der Verteilungsfunktion FX , d.h. es gilt
FX ( x) = P ( X ≤ x) , x ∈ \.
FX gibt also die Wahrscheinlichkeit dafür an, dass die Zufallsvariable X Werte unterhalb von x annimmt. Hieraus lassen sich sofort auch Intervallwahrscheinlichkeiten ableiten:
P (a ≤ Y < b) = FX (b) − FX (a), a, b ∈ \ mit a < b.
Mit Hilfe der positiv-linearen Transformation
Z=
X −µ
mit µ, σ ∈ \, σ > 0
σ
wird eine verschobene und reskalierte Zufallsvariable Z definiert, die folgende Verteilungsfunktion FZ
besitzt:
⎛ X −µ
⎞
≤ x⎟⎟⎟ = P ( X ≤ µ + σ x ) = FX (µ + σ x ) , x ∈ \.
FZ ( x) = P ( Z ≤ x ) = P ⎜⎜
⎜⎝ σ
⎠
Ist beispielsweise X nach N(µ, σ 2 ) verteilt, so ist Z nach N(0,1) verteilt. Ist die Verteilungsfunktion FZ
der Standard-Typ, so heißt die Klasse der Verteilungen FX die durch FZ induzierte Lage- und Skalenfamilie mit den Parametern µ und σ.
Die Quantilfunktion QX ist nun definiert durch die Inverse der Verteilungsfunktion:
QX (u ) = FX−1 (u ) bzw. FX (QX (u )) = u, 0 < u < 1.
Für die Standard-Zufallsvariable Z ergibt sich daraus folgender Zusammenhang:
e-mail: pfeifer @ mathematik.uni-oldenburg.de
internet: http://www.mathematik.uni-oldenburg.de/personen/pfeifer/pfeifer.html
1
QX (u ) = µ + σQZ (u ), 0 < u < 1,
wie man durch Vergleich der Argumente feststellen kann:
u = FX (QX (u )) = FZ (QZ (u )) = FX (µ + σQZ (u )) , 0 < u < 1.
Trägt man also in einem Koordinatensystem die Paare (QZ (u ), QX (u )) gegeneinander auf, so erhält man
eine Gerade mit (positiver) Steigung σ und Achsenabschnitt µ. Diese Beobachtung kann man sich zunutze machen, um zu prüfen, ob einem Datensatz ( X 1 ," , X n ) eine durch eine Verteilungsfunktion induzierte Lage- und Skalenfamilie, wie z.B. eine Familie von Normalverteilungen mit Erwartungswert
µ und Standardabweichung σ, zugrunde liegt, wobei wir hier annehmen, dass alle Beobachtungen
paarweise verschieden sind (das ist theoretisch bei stetigen Verteilungsfunktionen gegeben). Dazu trägt
man in ein Koordinatensystem für geeignete Werte u1 ," , un die aus den Beobachtungen abgeleiteten
Paare Q (u ), Qˆ (u ) , k = 1," , n gegeneinander auf, wobei Qˆ die empirische Quantilfunktion be-
(
Z
k
X
k
)
X
zeichnet. Ordnet man die Daten ( X 1 ," , X n ) der Größe nach mit den Werten (sog. Ordnungsstatistiken)
k
X 1:n < " < X n:n und wählt man z.B. uk =
für k = 1," , n, so ist gerade Qˆ X (uk ) = X k :n , d.h. man
n +1
trägt die geordneten Beobachtungswerte ("beobachtete Quantile") gegen die Werte QZ (uk ) ("theoretische Quantile") auf. Mit Hilfe einer Ausgleichsgeraden durch diese n Punktepaare (z.B. durch lineare
Regression) lässt sich dann zunächst durch visuelle Überprüfung abschätzen, ob die getroffene Verteilungsannahme haltbar ist. Dazu sollten die Punktepaare nicht "zu weit" von der Ausgleichsgeraden entfernt sein. Findet man mit dieser Methode die Verteilungsannahme gerechtfertigt, lassen sich anschließend durch den Achsenabschnitt und die Steigung der Geraden die unbekannten Parameter µ und σ
schätzen. Nach dieser Methode arbeitet z.B. das Statistik-Paket STATISTICA.
Das Statistik-Paket SPSS erlaubt für die Wahl der uk folgende Möglichkeiten, die aus unterschiedlichen
theoretischen Überlegungen resultieren (vgl. etwa Bühl/Zöfel, S. 559) wobei "Blom" die Voreinstellung
ist:
Methode
van der Waerden:
e-mail: pfeifer @ mathematik.uni-oldenburg.de
uk
k
n +1
Blom:
k −3/ 8
n + 1/ 4
Tukey:
k −1/ 3
n + 1/ 3
Rankit:
k −1/ 2
n
internet: http://www.mathematik.uni-oldenburg.de/personen/pfeifer/pfeifer.html
2
Als Beispiel betrachten wir den der Größe nach geordneten Datensatz aus Aufgabe 3, mit Probe auf
Normalverteilung nach der Methode von van der Waerden:
QZ (u1 ) QZ (u2 )
QZ (u3 ) QZ (u4 )
QZ (u5 ) QZ (u6 )
QZ (u7 )
QZ (u8 ) QZ (u9 ) QZ (u10 )
-1,6684 -1,3092 -1,0676 -0,8761 -0,7124 -0,5659 -0,4307 -0,3030 -0,1800 -0,0597
X 1:20
X 2:20
X 3:20
X 4:20
X 5:20
X 6:20
X 7:20
X 8:20
X 9:20
X 10:20
159
233
255
280
295
352
366
380
393
418
QZ (u11 ) QZ (u12 ) QZ (u13 ) QZ (u14 ) QZ (u15 ) QZ (u16 ) QZ (u17 ) QZ (u18 ) QZ (u19 ) QZ (u20 )
0,0597
0,1800
0,3030
0,4307
0,5659
0,7124
0,8761
1,0676
1,3092
1,6684
X 11:20
X 12:20
X 13:20
X 14:20
X 15:20
X 16:20
X 17:20
X 18:20
X 19:20
X 20:20
472
476
486
510
523
579
603
615
673
741
zugehörige Graphik:
Als Parameter-Schätzungen ergeben sich aus der Ausgleichsgeraden: µˆ = 440, 45 und σˆ = 173,98.
e-mail: pfeifer @ mathematik.uni-oldenburg.de
internet: http://www.mathematik.uni-oldenburg.de/personen/pfeifer/pfeifer.html
3
In einigen Statistik-Paketen werden bei der Analyse die Achsen vertauscht, so dass aus der Regressionsgeraden die Parameter µ und σ nicht direkt ermittelt werden können, sondern zunächst nur die entsprechenden Parameter −µ / σ (Achsenabschnitt) und 1/ σ (Steigung). Diese Wahl der Achsen findet man
z.B. bei SPSS. In dem Q-Q-Plot werden dabei abweichend auch nicht die (theoretischen) Quantile
QZ (uk ) aufgetragen, sondern die Quantile ("erwarteter Wert von ...") derjenigen Verteilung, die aus der
Standard-Verteilung (für die Zufallsvariable Z) durch Transformation mit alternativen Schätzern für
µ und σ (z.B. Mittelwert, empirische Standardabweichung) erhalten werden.
Q-Q-Diagramm
Normalverteilung
800
Erwarteter Wert von Normal
700
600
500
400
300
200
100
100
200
300
400
500
600
700
800
Beobachteter Wert
2. P-P-Plots
Bei dieser Methode werden anstatt der Quantilfunktionen die Verteilungsfunktionen direkt verwendet.
⎛
⎛ X − µˆ ⎞⎟⎞⎟
Es werden also die Punktepaare ⎜⎜uk , FZ ⎜⎜ k :n
⎟ für k = 1," , n aufgetragen, wobei µˆ und σˆ geeig⎜⎝ σˆ ⎠⎟⎟⎠⎟
⎜⎝
⎛ X − µ ⎞⎟
nete Schätzer für µ und σ sind. Theoretisch besitzt die Zufallsvariable Y = FZ ⎜⎜
bei Stetigkeit
⎜⎝ σ ⎠⎟⎟
von FZ nämlich eine Gleichverteilung über dem Intervall [0,1], so dass mit dieser Methode Abweichungen von der bei Korrektheit des Verteilungsmodells resultierenden Gleichverteilung festgestellt
werden können. Da sowohl die Verteilungsfunktion von Y wie die der stetigen Gleichverteilung bei Null
mit Wert Null beginnt und bei 1 mit Wert 1 endet, sind Abweichungen von der Modellannahme im wee-mail: pfeifer @ mathematik.uni-oldenburg.de
internet: http://www.mathematik.uni-oldenburg.de/personen/pfeifer/pfeifer.html
4
sentlichen in der "Mitte" des P-P-Plots feststellbar. Diese Methode ist jedoch nicht dazu geeignet, die
Parameter µ und σ graphisch zu bestimmen. Vielmehr müssen diese vorher durch alternative statistische Schätzverfahren bestimmt werden. Die nachfolgende Graphik zeigt das entsprechende Ergebnis für
den obigen Datensatz, mit den Schätzern aus dem Q-Q-Plot und den uk nach van der Waerden.
Bei SPSS sieht der P-P-Plot im Prinzip genau so aus, allerdings wird die x-Achse mit "beobachtete kumulative Wahrscheinlichkeiten" und die y-Achse mit "erwartete kumulative Wahrscheinlichkeiten" bezeichnet. Dies liegt daran, dass die empirische Verteilungsfunktion gerade die Werte der uk annimmt
(und daher diese mit dem Terminus "beobachtet" belegt werden), während die Transformation mit FZ
hier die "theoretische" Rolle übernimmt.
e-mail: pfeifer @ mathematik.uni-oldenburg.de
internet: http://www.mathematik.uni-oldenburg.de/personen/pfeifer/pfeifer.html
5
P-P-Diagramm
Normalverteilung
1,0
Erwartete Kum. Wahrsch.
,8
,5
,3
0,0
0,0
,3
,5
,8
1,0
Beobachtete Kum. Wahrsch.
Literatur:
A. Bühl, P. Zöfel: SPSS Version 10. Einführung in die moderne Datenanalyse unter Windows. AddisonWesley (Imprint der Pearson Education Deutschland GmbH), München 2000.
e-mail: pfeifer @ mathematik.uni-oldenburg.de
internet: http://www.mathematik.uni-oldenburg.de/personen/pfeifer/pfeifer.html
6
Herunterladen