1 7 Hypothesentests 2 • Neben der Parameterschätzung von ϑ∗ sind wir oft daran interessiert, ob die Daten mit einem bestimmten Wert von ϑ∗ kompatibel sind. • Insbesondere sollen die Ergebnisse des Kapitels über Parameterschätzung zu asymptotischen Testverfahren und Konfidenzintervallen verwendet werden. • Ferner gibt es nicht parametrische Verfahren, bei denen die zugrunde liegenden Verteilungen nicht parametrisiert sind. • Wir beginnen mit eher praktischen Aspekten der klassischen Tests unter der Normalverteilungsannahme (Gauß-Test, tTest, etc.). Stochastische Risikomodellierung und statistische Methoden 3 7.1 Grundbegriffe der Testtheorie Stochastische Risikomodellierung und statistische Methoden 4 • Die Stichprobe yT = (y1, . . . , yn) wird als Realisation einer iid Zufallsvariablen YT = (Y1, . . . , Yn) angesehen, Yi ∼ Y1. • Liegt für ein statistisches Modell wie in Kapitel 6, (6.2) eine Vermutung für den wahren Wert ϑ∗ von ϑ vor, wird dies als Nullhypothese formuliert: H0 : ϑ∗ ∈ Θ0, Θ0 ⊂ Θ. • Die Alternativhypothese lautet H1 : ϑ∗ ∈ Θ1 mit Θ1 := Θ \ Θ0. • T : Rn −→ R sei eine Prüfgröße zur Prüfung von H0. Stochastische Risikomodellierung und statistische Methoden 5 • Es gibt zwei Vorgehensweisen um über die Ablehnung von H0 zu entscheiden. 1. Vorgehensweise: • Wähle das (Signifikanz)Niveau α ∈ (0, 1) und einen Verwerfungsbereich B ⊂ R. • H0 wird verworfen, wenn T (y) ∈ B. • Für die Wahrscheinlichkeit eines Fehlers 1. Art (Ablehnung von H0 obwohl H0 wahr ist) soll gelten ∀ϑ ∈ Θ0 : Pϑ(T (Y) 6∈ B) ≤ α. Stochastische Risikomodellierung und statistische Methoden 6 2. Vorgehensweise: p-Werte • Statistische Software teilt keine Testentscheidung, sondern einen p-Wert mit. • Das ist die Wahrscheinlichkeit, dass unter H0 die Testgröße T (Y) extremer als T (y) ausfällt. • Der p-Wert ist der kleinste Wert des Niveaus, auf dem H0 gerade noch verworfen wird. • Falls α < p-Wert gilt, so wird H0 nicht verworfen. Stochastische Risikomodellierung und statistische Methoden 7 Beispiel 7.1.1 In einer Studie wurde das Gewicht von Neugeborenen untersucht. • Bei 121 Säuglingen in Mecklenburg Vorpommern ergab sich ein mittleres Gewicht von x = 3450. Wir gehen davon aus, dass das Gewicht bei Neugeborenen N (µ, 5332) verteilt ist. • Bisher ging man von einem mittleren Gewicht von 3400 aus. Wird diese Beobachtung bei einem Niveau von α widerlegt? Stochastische Risikomodellierung und statistische Methoden 8 Wir wenden den Gaußtest an. • Testgröße ist für Y1 ∼ N (µ∗, σ∗2) und H0 : µ∗ = µ0 n 1 X Y = Yi. n i=1 Y − µ0 √ T (Y) = n, σ∗ • In unserem Beispiel ist 3450 − 3400 √ T (y) = 121 = 1.03 533 • Der Verwerfungsbereich ist B = (−∞, −u1−α/2) ∪ (u1−α/2, ∞), Φ(u1−α/2) = 1 − α/2. Stochastische Risikomodellierung und statistische Methoden 9 2.5 2.0 1.5 1.0 Die Nullhypothese wird zu einem Niveau von α = 40 % abgelehnt, zu den Niveaus α = 20 %, 10 %, . . . wird sie nicht abgelehnt. 3.0 B [−0.84, 0.84] [−1.28, 1.28] [−1.64, 1.64] [−1.96, 1.96] u_(1 − α 2) α 0.4 0.2 0.1 0.05 p−Wert T(y) p−Wert 0.0 0.1 0.2 0.3 0.4 0.5 α p − Wert = PH0 (|T (Y)| > 1.03) = 0.303. Stochastische Risikomodellierung und statistische Methoden 10 • Die Wahrscheinlichkeit eines Fehlers 2. Art (H0 wird nicht verworfen obwohl H0 nicht zutrifft) hängt von ϑ ab: 0.6 0.8 β(3450) 0.4 α = 0.05 0.2 α = 0.1 0.0 Fehler 2. Art: β(µ) Pϑ(T (Y) 6∈ B) =: β(ϑ). (7.1) • β(ϑ) wird umso kleiner, je weiter ϑ von Θ0 entfernt ist. • Im Normalverteilungsfall Y1 ∼ N (µ∗, σ∗2) gilt: Fehler 2. Art in Beispiel 7.1.1 3200 3300 3400 3500 3600 3700 µ √ β(µ) = Φ(u1−α/2 − λ(µ)) − Φ(−u1−α/2 − λ(µ)) mit λ(µ) := y−µ n σ∗ Stochastische Risikomodellierung und statistische Methoden 11 Fehler 2. Art in Beispiel 7.1.1, Niveau 5 % 0.6 0.8 β(3450) 0.4 n = 121 0.2 n = 250 0.0 Fehler 2. Art: β(µ) • Der Fehler 2. Art β(ϑ∗) für ϑ∗ 6= ϑ0 hängt auch von der Stichprobengröße ab. • Je größer n desto kleiner β(ϑ∗). 3200 3300 3400 3500 3600 3700 µ Stochastische Risikomodellierung und statistische Methoden 12 • Bei vorgegebenem Signifikanzniveau α ist der Fehler 1. Art durch α begrenzt. Der Fehler 2. Art ist schwerer zu berechnen und zu kontrollieren und hängt vom unbekannten ϑ∗ ab. • Im Fall der Ablehnung von H0 kann man sich viel sicherer sein, keinen Fehler begangen zu haben als im Fall, dass der Test nicht verwirft. • Die Nullhypothese und die Alternativhypothese kann man also nicht beliebig vertauschen. • Man sollte die Nullhypothese so wählen, dass der resultierende Fehler 1. Art der gravierendere Fehler ist, den man vermeiden möchte. Stochastische Risikomodellierung und statistische Methoden 13 7.2 Der Likelihood Quotienten Test Stochastische Risikomodellierung und statistische Methoden 14 Beispiel 7.2.1 Sei Y ∼ B(50, ϑ∗), ϑ∗ ∈ (0, 1), Eine Realisierung von Y sei y = 4. • Eine Likelihood ist gegeben durch L : (0, 1) −→ (0, 1) L(ϑ) = ϑ4(1 − ϑ)46. 4 • Der ML Schätzer ist ϑ̂ = , 50 µ ¶ µ ¶ 4 4 46 46 . L(ϑ̂) = 50 50 • Die relative Likelihood L̃ : (0, 1) −→ (0, 1], µ ¶4 µ ¶46 ϑ 1 − ϑ L(ϑ) = 5050 , L̃(ϑ) = L(ϑ̂) 4 46 L̃(ϑ̂) = 1. Stochastische Risikomodellierung und statistische Methoden 15 0.6 0.8 1.0 Relative Log−Likelihood, c=0.2 0.0 0.2 0.4 ~ L • Plausibelster Wert für ϑ∗ ist ϑ̂. • Auch ϑ∗ = 0, 1 ist mit L̃(0, 1) = 0, 88 plausibel. • Eine Hypothese H0 : ϑ∗ = ϑ0 würde im Fall L̃(ϑ0) ≥ c angenommen, wobei c geeignet zu wählen ist. • Daraus lässt sich ein Konfidenzintervall gewinnen, wenn Verteilungsaussagen zu L̃(Y ) vorliegen. 0.00 0.05 0.10 0.15 0.20 0.25 ϑ Stochastische Risikomodellierung und statistische Methoden 0.30 16 Generelle Voraussetzungen • Die Dichte f von YT := (Y1, . . . , Yn) erfülle in diesem Abschnitt die Regularitätsbedingungen (A) - (D) (Kapitel 6, Seite 14) und (E) (Kapitel 6, Seite 28). • Mit Ln oder auch L bezeichnen wir eine Likelihood, `n oder auch ` sei die entsprechende Loglikelihood. iid • Zusätzlich gelte Y1, . . . , Yn ∼ Y1 mit Dichte g(y1, ϑ∗), ScoreFunktion u(ϑ∗) und die Informationsmatrix i(ϑ∗). Stochastische Risikomodellierung und statistische Methoden 17 • Gegeben seien Θ0, Θ1 ⊂ Θ disjunkt, Θ0 ∪ Θ1 = Θ. Zu testen ist die Nullhypothese H0 : ϑ∗ ∈ Θ0 und die Alternative H1 : ϑ∗ ∈ Θ1 zum Niveau α. • Als Testgröße verwenden wir den Likelihood Quotienten λ : Y −→ [0, 1], mit einem ML-Schätzer ϑ̂ für ϑ∗: λ(y) = supϑ∈Θ0 L(ϑ, y) supϑ∈Θ L(ϑ) = supϑ∈Θ0 L(ϑ, y) L(ϑ̂, y) , • Falls Θ0 = {ϑ0}, dann gilt λ(y) = L(ϑ0, y) . L(ϑ̂, y) Stochastische Risikomodellierung und statistische Methoden 18 • Der Verwerfungsbereich sei B := {y ∈ Y : λ(y) ≤ λα}, (7.2) wobei λα so gewählt ist, dass ∀ϑ ∈ Θ0 : Pϑ(λ(Y ) ≤ λα) ≤ α. (7.3) • Sei W (y) := −2 ln λ(y) für y ∈ Y mit λ(y) ∈ (0, 1). W ist f.s. definiert und B = {y ∈ Y : W (y) ≥ −2 ln λα}. (7.4) • Um λα bestimmen zu können, muss man die Verteilung von W (Y) unter H0 kennen. Stochastische Risikomodellierung und statistische Methoden 19 Satz 7.2.2 Es mögen die Regularitätsbedingungen (A)-(E) gelten. Sei ϕ : Θ −→ Rm, m ≤ k mit Rang (Dϕ) = m und Θ0 sei gegeben durch Θ0 = ϕ−1(0). Es sei (ϑ̂n)n∈N eine Folge von Schätzern wie in Satz 6.2.8 und 6.2.9 (insbesondere konsistent und asymptotisch normalverteilt). Dann gilt unter H0 d −2 ln λ(Y) −→ χ2 m. Beweis Lehmann, Romano, S. 515, Theorem 12.4.2 Stochastische Risikomodellierung und statistische Methoden 20 Folgerung: Likelihood Quotienten Test (LQT) Mit (7.2), (7.4) • Zu einem Signifikanzniveau α wird H0 verworfen, wenn W (y) ≥ χ2 m,1−α bzw. äquivalent λ(y) ≤ exp − 2 χm,1−α 2 = λα. (7.5) (7.6) • Der p-Wert ergibt sich zu p − Wert = χ2 m (W (y)). (7.7) Stochastische Risikomodellierung und statistische Methoden 21 Beweisidee für k = 1 und H0 : ϑ∗ = ϑ0. Es gilt Ln(ϑ0, Y) λ(Y) = ⇒ Wn(Y) = −2(`n(ϑ0, Y) − `n(ϑ̂n, Y)). Ln(ϑ̂n, Y) Mit der Taylorentwicklung 2. Ordnung von `n in ϑ̂n ergibt sich Wn(Y ) = = 00 (ϑ̃ ) ` n 0 −2 `n(ϑ̂n)(ϑ̂n − ϑ0) + n (ϑ̂n | {z } 2 =0 ( ) o `00 (ϑ̃n) n n , − n(ϑ̂n − ϑ0)2 − ϑ0)2 n wobei ϑ̃n zwischen ϑ̂n und ϑ0 liegt. Für den ersten Faktor gilt laut Voraussetzung N (0, 1/i(ϑ0)). √ d n(ϑ̂n − ϑ0) −→ Stochastische Risikomodellierung und statistische Methoden 22 p Da ϑ̂n konsistent ist, folgt auch ϑ̃n −→ ϑ0. Wie im Beweis von Satz 6.2.9 schließt man `00n(ϑ̂n) f.s. −→ −i(ϑ0) n und mit (e) `00n(ϑ̃n) p −→ −i(ϑ0). n Dies ergibt zusammen s √ `00(ϑ̃n) d n(ϑ̂n − ϑ0) −→ N (0, 1) n und folglich mit dem Continuous Mapping Theorem (Anhang) n(ϑ̂n − ϑ0 ` )2 00 (ϑ̃ ) n n d −→ N (0, 1)2 = χ2 1. 2 Stochastische Risikomodellierung und statistische Methoden 23 Beispiel 7.2.3 (Fortsetzung Bsp. 7.1.1, S. 7) Man verwende den LQT zum Überprüfen von H0 : µ∗ = 3.400 zum Niveau 5%. iid Bei bekannter Varianz ergibt sich für Y1, . . . , Yn ∼ N (µ∗, σ∗2) (siehe Kapitel 6, Beispiel 6.1.2 (b), Seite 8) W (y) = −2(`(µ ) − `(y)) 0 n n X X 1 1 2 2 = −2 − 2 (yi − µ0) + (y − y) i 2σ∗ i=1 2σ∗2 i=1 n 2 = − µ ) (7.8) (y 0 2 σ∗ 121 2 = 1.06 < χ2 ⇒ W (y) = 50 1,0.95 = 3.84. 2 533 Zu einem Niveau von α = 5 % wird H0 nicht verworfen. Der p-Wert beträgt χ2 1 (1.06) = 0.303. Stochastische Risikomodellierung und statistische Methoden 24 Bemerkung 7.2.4 • Im Normalverteilungsfall erhält man über den LQT (asymptotisch) die klassischen Hypothesentests. • Man beachte, dass in (7.8) das Quadrat der Testgröße beim Gaußtest gleich W (y) ist, es gilt also W (Y ) ∼ χ2 1, nicht nur asymptotisch. Stochastische Risikomodellierung und statistische Methoden 25 Beispiel 7.2.5 (Fortsetzung von Bsp. 7.2.1, S. 14) Man verwende den LQT zum Überprüfen von H0 : ϑ∗ = 0.1 zum Niveau 10%. Die Nullhypothese wird nicht verworfen, denn W (y) = −2 ln(L̃(0.1)) = 0.24 < χ2 1,0.9 = 2.71 p-Wert = 1 − χ2 1 (0.24) = 0.63. Stochastische Risikomodellierung und statistische Methoden 26 iid Beispiel 7.2.6 Seien Y1, . . . , Yn ∼ Y1 mit Dichte g(t) = e−(t−ϑ∗) t > ϑ∗ sonst . 0 Dann gilt unter H0: ϑ∗ = ϑ0 W (Y ) ∼ χ2 2 und nicht W (Y ) ∼ χ2 1 wie die Anzahl der Parameter k = 1 erwarten ließe. Θ0 erfüllt nicht die Voraussetzungen von Satz 7.2.2. Stochastische Risikomodellierung und statistische Methoden 27 Beweis L(ϑ, y) = 1(−∞,y (ϑ) exp (1) ) nϑ − n X i=1 yi , y(1) := min{y1, . . . , yn}. Damit ist ϑ̂ = min{Y1, . . . , Yn} =: Y(1) ML-Schätzer. Es gilt λ(y) = en(ϑ∗−ϑ̂) und somit W (Y ) = 2n(ϑ̂ − ϑ∗) = 2n(Y(1) − ϑ∗). Unter H0 folgt schließlich W (Y ) ∼ E(1/2) = χ2 2. 2 Stochastische Risikomodellierung und statistische Methoden 28 7.2.1 Konfidenzbereiche • Erfüllt das statistische Modell die Voraussetzungen des vorigen Abschnitts, dann ist 2(`(ϑ̂, Y ) − `(ϑ∗, Y )) für große n näherungsweise χ2 m verteilt. • Sei fY (ϑ) = 2(`(ϑ̂, Y ) − `(ϑ, Y )). • Dann ist −1 2 } = f (0, χ K(Y ) := {ϑ : 2(`(ϑ̂, Y ) − `(ϑ, Y )) ≤ χ2 m,1−α ) m,1−α Y ein Konfidenzbereich von ϑ∗ zum Niveau α wegen Pϑ∗ (ϑ∗ ∈ K(Y )) = Pϑ∗ (fY (ϑ∗) ∈ (0, χ2m,1−α)) ≈ 1 − α. Stochastische Risikomodellierung und statistische Methoden 29 Konfidenzintervalle mit LQT 0.4 ~ L 0.6 10 5 ^ )) − 2(l (ϑ) − l (ϑ 0.8 15 1.0 Konfidenzintervalle mit LQT α = 0.95 α = 0.9 α = 0.9 0.0 0 0.2 α = 0.95 0.00 0.05 0.10 0.15 0.20 0.25 0.00 0.30 ϑ Es gilt auch mit (7.4)) K(Y ) = ϑ: 0.05 0.10 0.20 0.25 ϑ 2 χm,1−α . exp − 2 L(ϑ) ≥ L(ϑ̂) 0.15 Stochastische Risikomodellierung und statistische Methoden 0.30 30 7.3 Verteilungsunabhängige Tests Stochastische Risikomodellierung und statistische Methoden 31 • Im Folgenden werden Testverfahren vorgestellt, die ohne Verteilungsannahmen auskommen. Diese Verfahren heißen verteilungsunabhängig (auch nichtparametrisch). • Sie finden insbesondere dann Anwendung, wenn die Beobachtungsergebnisse in Form von Qualitätsstufen angegeben werden. Stochastische Risikomodellierung und statistische Methoden 32 7.3.1 Der Vorzeichentest Beispiel 7.3.1 • Ein Arzt gibt 20 Patienten, je 2 Medikamente A und B. Sie sollen berichten, ob A oder B besser wirkt. • Zu entscheiden ist, ob A und B gleich wirken. • Die Antworten der Patienten interpretieren wir als Realisierungen von unabhängigen Zufallsvariablen D1 . . . , D20, die die Werte 1 bzw. 0 (Medikament A bzw. B zeigt stärkere Wirkung) annehmen können. Stochastische Risikomodellierung und statistische Methoden 33 • Zu prüfen ist nun, ob für alle i = 1, . . . , 20 gilt: 1 P(Di = 0) = P(Di = 1) = . 2 • Es seien D1, . . . , Dn : Ω −→ {0, 1} unabhängige ZufallsvariaPn blen, V := i=1 Di. (im Beispiel: V ist die Gesamtzahl der Patienten, die für Medikament A sprechen.) • Unter der Nullhypothese 1 , i = 1, . . . , n H0: P(Di = 1) = P(Di = 0) = 2 ist V ∼ B ³ n, 1 2 ´ -verteilt. Stochastische Risikomodellierung und statistische Methoden 34 • Bestimmt man nun zu vorgegebenem α (α ∈ (0, 1)) die größte Zahl k ∈ N mit n−k X ³n´ 1 P(V < k oder V > n − k) = 2P(V < k) = 2 ≤ α, n i=0 i 2 ergibt sich der Verwerfungsbereich zum Niveau α B = {0, 1, 2, . . . , k − 1} ∪ {n − k + 1, n − k + 2, . . . , n}. (7.9) • k ist das α/2-Quantil der B(n, 1/2)-Verteilung. • Für große Stichprobenumfänge n können wir die „Normalapproximation“ zur Bestimmung des kritischen Wertes k verwenden: V − n 2 k− n 2 P(V < k) = P 1 √ < 1 √ 2 n 2 n à 2k − n ≈Φ √ n ! √ 1 ⇒ k = (n+uα/2 n). 2 Stochastische Risikomodellierung und statistische Methoden 35 Beispiel 7.3.2 (Fortsetzung Beispiel 7.3.1) Mit n = 20 ergibt sich für α = 0, 05 die Schranke k = 6, wegen 5 ³ X 20´ i=0 i = 0, 021 6 ³ X 20´ i=0 i = 0, 058. Der Arzt betrachtet die Medikamente nicht als gleichwertig, wenn sich mehr als 14 oder weniger als 6 Patienten für Medikament A aussprechen. Mit der Normalapproximation ergibt sich √ 1 k = (20 + 1, 96 20) = 5, 61, 2 also k = 5. Dieses Testverfahren kann auch angewendet werden, wenn die zu analysierenden Daten nicht als Ja-Nein-Antworten (bzw. A besser als B oder B besser als A), sondern als reelle Zahlen vorliegen. Stochastische Risikomodellierung und statistische Methoden 36 Beispiel 7.3.3 • Eine Reifenfirma hat für einen neuen Winterreifen zwei Profile entwickelt, die bezüglich ihrer Griffigkeit im Schnee und ihrer Rutschfestigkeit auf Eis nahezu gleichwertig sind. • Es soll nun untersucht werden, ob sie sich im Hinblick auf ihre Bremswirkung bei trockener Fahrbahn unterscheiden. • 20 Testfahrzeuge werden einmal mit den Reifen der Profilsorte A bestückt, das andere Mal mit solchen der Profilsorte B und jeweils bei der gleichen Geschwindigkeit abgebremst. Stochastische Risikomodellierung und statistische Methoden 37 • Die bei den verschiedenen Fahrzeugen für beide Profilsorten ermittelten 20 Bremswege x1, . . . , x20 und y1, . . . , y20 sind in der folgenden Tabelle gegeben: i 1 2 3 4 5 6 7 8 9 10 xi 44.6 55.0 52.5 50.2 45.2 46.0 52.0 50.2 50.7 49.2 yi 44.7 54.8 55.6 55.2 45.6 47.7 53.0 49.9 52.2 50.6 xi − yi -0.1 0.2 -3.1 -5.0 -0.4 -1.7 -1.0 0.3 -1.5 -1.4 +/+ + - i 11 12 13 14 15 16 17 18 19 20 xi 47.3 50.1 51.6 48.7 54.2 46.1 49.9 52.3 48.7 56.9 yi 46.1 52.3 53.9 47.1 57.2 52.7 49.0 54.9 51.4 56.1 xi − yi 1.2 -2.2 -2.3 1.6 -3.0 -6.6 0.9 -2.6 -2.7 0.8 +/+ + + + Stochastische Risikomodellierung und statistische Methoden 38 • Die Daten x1, . . . , x20 und y1, . . . , y20 interpretieren wir als Realisierungen von Zufallsvariablen X1, . . . , Xn und Y1, . . . , Yn. • Die Paare (X1, Y1), . . . , (Xn, Yn) können als unabhängig angenommen werden, nicht aber, Xi und Yi bei gleichem i. • Die Zufallsvariablen Di = Xi − Yi, i = 1, . . . , 20 sind unabhängig. • Der Einfachheit halber setzen wir noch voraus, dass die Di , i = 1, . . . , 20, iid. sind, mit einer stetigen Verteilungsfunktion. Dann gilt P(Xi = Yi) = 0 für jedes i = 1, . . . , 20. Stochastische Risikomodellierung und statistische Methoden 39 • Unter der Annahme gleicher Bremswirkung können wir die Verteilungsannahme H0 : P(Di > 0) = P(Di < 0) für alle i = 1, . . . , 20 als Nullhypothese testen. Stochastische Risikomodellierung und statistische Methoden 40 • Seien (Xi, Yi), i = 1, . . . , n, unabhängige Zufallsvariablen, iid. und 1 falls X > Y i i Zi = , i = 1, . . . , n. 0 falls X < Y i i • Die Di = Xi − Yi, i = 1, . . . , n seien stetig verteilt und iid. • Sei V = Pn i=1 Zi (Anzahl der positiven Differenzen) • V ∼ B(n, 1/2) unter der Nullhypothese H0 : P (Zi = 1) = P(Zi = 0) = 1 2 , i = 1, . . . , n. Somit kann man (7.9) auf S. 35 verwenden. Stochastische Risikomodellierung und statistische Methoden 41 • Da bei dieser Entscheidungsregel lediglich die Vorzeichen der beobachteten Differenzen berücksichtigt werden, heißt sie Vorzeichentest. • Wegen der paarweisen Zusammenfassung der Beobachtungsdaten spricht man vom Vorzeichentest bei verbundenen Stichproben. Beispiel 7.3.4 (Fortsetzung 7.3.3) Auch hier ist der Stichprobenumfang n = 20. Also ist für α = 0.05 die kritische Schranke k = 6. Da genau v = 6 positive Vorzeichen beobachtet werden, ist das Ergebnis nicht signifikant auf dem 5 %-Niveau. Stochastische Risikomodellierung und statistische Methoden 42 7.3.2 Der Vorzeichen-Rang-Test • In Beispiel 7.3.3 ist das Testergebnis, die Nullhypothese nicht zu verwerfen, nicht überzeugend. • Die verwendete Testgröße benutzt das Vorzeichen, nicht aber die Unterschiede in den Größenordnungen der Differenzen. • Man muss eine Testgröße verwenden, bei der die Differenzen D1, . . . , Dn berücksichtigt werden. Die Nullhypothese lautet: H0: D1 . . . , Dn sind symmetrisch um 0 verteilt bzw. H0: ∀x > 0 ∀i = 1, . . . , n : P(Di < −x) = P(Di > x). Stochastische Risikomodellierung und statistische Methoden 43 • Wir ordnen |D1|, . . . , |Dn| der Größe nach und nummerieren sie bei der kleinsten Differenz beginnend durch. • Jetzt ordnen wir jeder positiven Differenz diese Nummer und jeder negativen Differenz das Negative dieser Nummer zu und nennen die zugeordnete Zahl den signierten Rang Ri der Differenz Di. • Aus der Tabelle des Beispiels 7.3.3 ergeben sich die folgenden signierten Rangzahlen: i ri i ri 1 -1 11 +8 2 +2 12 -13 3 -18 13 -14 4 -19 14 +11 5 -4 15 -17 6 -12 16 -20 7 -7 17 +6 8 +3 18 -15 9 -10 19 -16 10 -9 20 +5 Stochastische Risikomodellierung und statistische Methoden 44 • Als Testgröße verwenden wir die Summe U aller positiven signierten Ränge: U = X Ri . i,Ri >0 • Es ergibt sich die Realisierung u = 2 + 3 + 8 + 11 + 6 + 5 = 35. • Die Summe aller negativen Rangzahlen im Beispiel X i,ri <0 ri = − 20 X ri − u = −(210 − 35) = −175 i=1 ist dem Betrag nach wesentlich größer als 35. Bei einer einigermaßen symmetrischen Anordnung der Daten würde man für u Werte in der Nähe von 210/2 = 105 erwarten. Stochastische Risikomodellierung und statistische Methoden 45 Verteilung von U unter H0: • |R1|, . . . , |Rn| sind die Zahlen 1, . . . , n in anderer (zufälliger) Reihenfolge und mit positiven oder negativen Vorzeichen. • Es gibt 2n mögliche Vorzeichenkombinationen, die alle die 1 gleiche Wahrscheinlichkeit n besitzen. Somit gilt 2 N (u) n(n + 1) , , 0 ≤ u ≤ n 2 2 mit N (u), der Anzahl der Darstellungen von u der Form P(U = u) = u= k X ri mit 1 ≤ r1 < r2 < · · · < rk ≤ n, 0 ≤ k ≤ n. i=1 Stochastische Risikomodellierung und statistische Methoden 46 Im Fall n = 4 erhalten wir: u 0 1 2 3 4 5 Darstellungen r1, . . . , r4 < 0 1 2 3, 1+2 1+3, 2+2 1+4, 2+3 P(U = u) 1/16 1/16 1/16 2/16 2/16 2/16 u 6 7 8 9 10 Darstellungen 1+2+3, 2+4 1+2+4, 3+4 l+3+4 2+3+4 l+2+3+4 P(U = u) 2/16 2/16 1/16 1/16 1/16 Man kann zeigen: Stochastische Risikomodellierung und statistische Methoden 47 • Die Zufallsvariable U ist für große n, näherungsweise normalverteilt (siehe Pruscha, S. 170 ff. Abschnitt 3.5) und es gilt (siehe Pruscha, S. 146, Korollar) n(n + 1) E(U ) = , 4 also näherungsweise à n(n + 1)(2n + 1) Var(U ) = . 24 U − E(U ) P(U < k) ≈ Φ √ VarU ! k − n(n+1) 4 = Φ r n(n+1)(2n+1) 24 α • Aus P (U < k) = ergibt sich für die kritische Schranke der 2 Näherungswert s k< n(n + 1) n(n + 1)(2n + 1) − u1−α/2 . 4 24 Stochastische Risikomodellierung und statistische Methoden 48 • Der Verwerfungsbereichs zum Niveau-α ist ( ) n(n + 1) n(n + 1) − k + 1, . . . , . B = {0, 1, . . . , k − 1} ∪ 2 2 • Im Bsp. 7.3.3: n = 20, E(U ) = 105, Var(U ) = 26.792. • Damit erhält man bei einem Niveau α = 0.05 die kritische Schranke k = 52. Der beobachtete Wert u = 35 führt demnach zur Ablehnung der Nullhypothese. Stochastische Risikomodellierung und statistische Methoden 49 Bemerkung 7.3.5 • Wir haben bisher vorausgesetzt, dass die Beträge |Di| = |Xi − Yi|, i = 1, . . . , n, alle verschieden und ungleich 0 sind. (In diesem Fall lässt sich jedem Paar (Xi, Yi) eindeutig ein signierter Rang Ri zuordnen.) • Diese Annahme ist jedoch bei der praktischen Anwendung des Vorzeichen–Rang–Tests häufig unrealistisch (Wegen Messungenauigkeiten kann gelten: xi = yi oder |xi − yi| = |xj − yj |. In diesen Fällen spricht man von Bindungen). • Der Vorzeichen-Rang-Test lässt sich in modifizierter Form auch auf Messreihen mit Bindungen anwenden (siehe Lehn, Wegmann, S. 169). Stochastische Risikomodellierung und statistische Methoden