Prof. Dr. Dietmar Pfeifer Institut für Mathematik Graphische Verfahren in der Statistik: Q-Q- und P-P-Plots Bei den üblichen parametrischen Testverfahren in der Statistik wird in der Regel eine Annahme über die zugrunde liegende Verteilungsklasse getroffen. Beispielsweise wird für die Durchführbarkeit des t-Tests das Vorliegen einer Normalverteilung N(µ, σ 2 ) vorausgesetzt. In diesem Text soll gezeigt werden, wie man mit graphischen Methoden eine Überprüfung solcher Annahmen durchführen kann. 1. Q-Q-Plots Wir betrachten zunächst eine Zufallsvariable X mit der Verteilungsfunktion FX , d.h. es gilt FX ( x) = P ( X ≤ x) , x ∈ \. FX gibt also die Wahrscheinlichkeit dafür an, dass die Zufallsvariable X Werte unterhalb von x annimmt. Hieraus lassen sich sofort auch Intervallwahrscheinlichkeiten ableiten: P (a ≤ Y < b) = FX (b) − FX (a), a, b ∈ \ mit a < b. Mit Hilfe der positiv-linearen Transformation Z= X −µ mit µ, σ ∈ \, σ > 0 σ wird eine verschobene und reskalierte Zufallsvariable Z definiert, die folgende Verteilungsfunktion FZ besitzt: ⎛ X −µ ⎞ ≤ x⎟⎟⎟ = P ( X ≤ µ + σ x ) = FX (µ + σ x ) , x ∈ \. FZ ( x) = P ( Z ≤ x ) = P ⎜⎜ ⎜⎝ σ ⎠ Ist beispielsweise X nach N(µ, σ 2 ) verteilt, so ist Z nach N(0,1) verteilt. Ist die Verteilungsfunktion FZ der Standard-Typ, so heißt die Klasse der Verteilungen FX die durch FZ induzierte Lage- und Skalenfamilie mit den Parametern µ und σ. Die Quantilfunktion QX ist nun definiert durch die Inverse der Verteilungsfunktion: QX (u ) = FX−1 (u ) bzw. FX (QX (u )) = u, 0 < u < 1. Für die Standard-Zufallsvariable Z ergibt sich daraus folgender Zusammenhang: e-mail: pfeifer @ mathematik.uni-oldenburg.de internet: http://www.mathematik.uni-oldenburg.de/personen/pfeifer/pfeifer.html 1 QX (u ) = µ + σQZ (u ), 0 < u < 1, wie man durch Vergleich der Argumente feststellen kann: u = FX (QX (u )) = FZ (QZ (u )) = FX (µ + σQZ (u )) , 0 < u < 1. Trägt man also in einem Koordinatensystem die Paare (QZ (u ), QX (u )) gegeneinander auf, so erhält man eine Gerade mit (positiver) Steigung σ und Achsenabschnitt µ. Diese Beobachtung kann man sich zunutze machen, um zu prüfen, ob einem Datensatz ( X 1 ," , X n ) eine durch eine Verteilungsfunktion induzierte Lage- und Skalenfamilie, wie z.B. eine Familie von Normalverteilungen mit Erwartungswert µ und Standardabweichung σ, zugrunde liegt, wobei wir hier annehmen, dass alle Beobachtungen paarweise verschieden sind (das ist theoretisch bei stetigen Verteilungsfunktionen gegeben). Dazu trägt man in ein Koordinatensystem für geeignete Werte u1 ," , un die aus den Beobachtungen abgeleiteten Paare Q (u ), Qˆ (u ) , k = 1," , n gegeneinander auf, wobei Qˆ die empirische Quantilfunktion be- ( Z k X k ) X zeichnet. Ordnet man die Daten ( X 1 ," , X n ) der Größe nach mit den Werten (sog. Ordnungsstatistiken) k X 1:n < " < X n:n und wählt man z.B. uk = für k = 1," , n, so ist gerade Qˆ X (uk ) = X k :n , d.h. man n +1 trägt die geordneten Beobachtungswerte ("beobachtete Quantile") gegen die Werte QZ (uk ) ("theoretische Quantile") auf. Mit Hilfe einer Ausgleichsgeraden durch diese n Punktepaare (z.B. durch lineare Regression) lässt sich dann zunächst durch visuelle Überprüfung abschätzen, ob die getroffene Verteilungsannahme haltbar ist. Dazu sollten die Punktepaare nicht "zu weit" von der Ausgleichsgeraden entfernt sein. Findet man mit dieser Methode die Verteilungsannahme gerechtfertigt, lassen sich anschließend durch den Achsenabschnitt und die Steigung der Geraden die unbekannten Parameter µ und σ schätzen. Nach dieser Methode arbeitet z.B. das Statistik-Paket STATISTICA. Das Statistik-Paket SPSS erlaubt für die Wahl der uk folgende Möglichkeiten, die aus unterschiedlichen theoretischen Überlegungen resultieren (vgl. etwa Bühl/Zöfel, S. 559) wobei "Blom" die Voreinstellung ist: Methode van der Waerden: e-mail: pfeifer @ mathematik.uni-oldenburg.de uk k n +1 Blom: k −3/ 8 n + 1/ 4 Tukey: k −1/ 3 n + 1/ 3 Rankit: k −1/ 2 n internet: http://www.mathematik.uni-oldenburg.de/personen/pfeifer/pfeifer.html 2 Als Beispiel betrachten wir den der Größe nach geordneten Datensatz aus Aufgabe 3, mit Probe auf Normalverteilung nach der Methode von van der Waerden: QZ (u1 ) QZ (u2 ) QZ (u3 ) QZ (u4 ) QZ (u5 ) QZ (u6 ) QZ (u7 ) QZ (u8 ) QZ (u9 ) QZ (u10 ) -1,6684 -1,3092 -1,0676 -0,8761 -0,7124 -0,5659 -0,4307 -0,3030 -0,1800 -0,0597 X 1:20 X 2:20 X 3:20 X 4:20 X 5:20 X 6:20 X 7:20 X 8:20 X 9:20 X 10:20 159 233 255 280 295 352 366 380 393 418 QZ (u11 ) QZ (u12 ) QZ (u13 ) QZ (u14 ) QZ (u15 ) QZ (u16 ) QZ (u17 ) QZ (u18 ) QZ (u19 ) QZ (u20 ) 0,0597 0,1800 0,3030 0,4307 0,5659 0,7124 0,8761 1,0676 1,3092 1,6684 X 11:20 X 12:20 X 13:20 X 14:20 X 15:20 X 16:20 X 17:20 X 18:20 X 19:20 X 20:20 472 476 486 510 523 579 603 615 673 741 zugehörige Graphik: Als Parameter-Schätzungen ergeben sich aus der Ausgleichsgeraden: µˆ = 440, 45 und σˆ = 173,98. e-mail: pfeifer @ mathematik.uni-oldenburg.de internet: http://www.mathematik.uni-oldenburg.de/personen/pfeifer/pfeifer.html 3 In einigen Statistik-Paketen werden bei der Analyse die Achsen vertauscht, so dass aus der Regressionsgeraden die Parameter µ und σ nicht direkt ermittelt werden können, sondern zunächst nur die entsprechenden Parameter −µ / σ (Achsenabschnitt) und 1/ σ (Steigung). Diese Wahl der Achsen findet man z.B. bei SPSS. In dem Q-Q-Plot werden dabei abweichend auch nicht die (theoretischen) Quantile QZ (uk ) aufgetragen, sondern die Quantile ("erwarteter Wert von ...") derjenigen Verteilung, die aus der Standard-Verteilung (für die Zufallsvariable Z) durch Transformation mit alternativen Schätzern für µ und σ (z.B. Mittelwert, empirische Standardabweichung) erhalten werden. Q-Q-Diagramm Normalverteilung 800 Erwarteter Wert von Normal 700 600 500 400 300 200 100 100 200 300 400 500 600 700 800 Beobachteter Wert 2. P-P-Plots Bei dieser Methode werden anstatt der Quantilfunktionen die Verteilungsfunktionen direkt verwendet. ⎛ ⎛ X − µˆ ⎞⎟⎞⎟ Es werden also die Punktepaare ⎜⎜uk , FZ ⎜⎜ k :n ⎟ für k = 1," , n aufgetragen, wobei µˆ und σˆ geeig⎜⎝ σˆ ⎠⎟⎟⎠⎟ ⎜⎝ ⎛ X − µ ⎞⎟ nete Schätzer für µ und σ sind. Theoretisch besitzt die Zufallsvariable Y = FZ ⎜⎜ bei Stetigkeit ⎜⎝ σ ⎠⎟⎟ von FZ nämlich eine Gleichverteilung über dem Intervall [0,1], so dass mit dieser Methode Abweichungen von der bei Korrektheit des Verteilungsmodells resultierenden Gleichverteilung festgestellt werden können. Da sowohl die Verteilungsfunktion von Y wie die der stetigen Gleichverteilung bei Null mit Wert Null beginnt und bei 1 mit Wert 1 endet, sind Abweichungen von der Modellannahme im wee-mail: pfeifer @ mathematik.uni-oldenburg.de internet: http://www.mathematik.uni-oldenburg.de/personen/pfeifer/pfeifer.html 4 sentlichen in der "Mitte" des P-P-Plots feststellbar. Diese Methode ist jedoch nicht dazu geeignet, die Parameter µ und σ graphisch zu bestimmen. Vielmehr müssen diese vorher durch alternative statistische Schätzverfahren bestimmt werden. Die nachfolgende Graphik zeigt das entsprechende Ergebnis für den obigen Datensatz, mit den Schätzern aus dem Q-Q-Plot und den uk nach van der Waerden. Bei SPSS sieht der P-P-Plot im Prinzip genau so aus, allerdings wird die x-Achse mit "beobachtete kumulative Wahrscheinlichkeiten" und die y-Achse mit "erwartete kumulative Wahrscheinlichkeiten" bezeichnet. Dies liegt daran, dass die empirische Verteilungsfunktion gerade die Werte der uk annimmt (und daher diese mit dem Terminus "beobachtet" belegt werden), während die Transformation mit FZ hier die "theoretische" Rolle übernimmt. e-mail: pfeifer @ mathematik.uni-oldenburg.de internet: http://www.mathematik.uni-oldenburg.de/personen/pfeifer/pfeifer.html 5 P-P-Diagramm Normalverteilung 1,0 Erwartete Kum. Wahrsch. ,8 ,5 ,3 0,0 0,0 ,3 ,5 ,8 1,0 Beobachtete Kum. Wahrsch. Literatur: A. Bühl, P. Zöfel: SPSS Version 10. Einführung in die moderne Datenanalyse unter Windows. AddisonWesley (Imprint der Pearson Education Deutschland GmbH), München 2000. e-mail: pfeifer @ mathematik.uni-oldenburg.de internet: http://www.mathematik.uni-oldenburg.de/personen/pfeifer/pfeifer.html 6