Themenliste für den Kurs 01084 - Statistisches

Werbung
Themenliste für den Kurs
01084 - Statistisches Praktikum
Sommersemester 2015
I Hypothesentest:
1. Gegeben sei jeweils eine Messreihe zweier normalverteilten Zufallsvariablen Xi
mit Erwartungswert µi und Varianz σi2 , i = 1, 2. (Messreihe X1 und Messreihe X2 )
(i) Testen Sie jeweils die Hypothese H0 : σi2 = 1 gegen die Hypothese H1 : σi2 6= 1
zum Signifikanzniveau α = 0,01.
(ii) Testen Sie jeweils die Hypothese H0 : µi = 2 gegen die Hypothese H1 : µi =
6 2
zum Signifikanzniveau α = 0,01.
(iii) Ist die Stichprobe groß genug, um sich gegen einen Fehler 2. Art zum Niveau
β = 0,01 an der Stelle µi = 1 abzusichern?
2. Es werden 40 Klausuren eingesammelt und in der Reihenfolge korrigiert, in der die
zuvor zufällig plazierten Studenten gesessen haben. Eine Eins bedeutet bestanden,
eine Null bedeutet nicht bestanden. Ist die Reihenfolge
1001110111100000110001000010001111100111
von Einsen und Nullen zufällig? Wählen Sie α = 0,05 als Signifikanzzahl. Dazu
folgende Hinweise:
(a) Die Null-Hypothese, die es zu testen gilt,
lautet: die Reihenfolge der Nullen
und Einsen ist zufällig, d. h., alle n401 möglichen Reihenfolgen sind gleichwahrscheinlich, wobei n1 die Anzahl der Einsen ist.
(b) Zur Beurteilung der Null-Hypothese wird die Anzahl der Iterationen I herangezogen, d. h., die Anzahl der Wechsel von Null auf Eins und von Eins auf
Null.
(c) Berechnen Sie Erwartungswert und Varianz von I und verwenden Sie die
Approximation der Normalverteilung, um die Null-Hypothese zu testen.
II Konfidenzintervall:
1. Der Physiker A. A. Michelson führte 1879 fünf Messreihen (M1, M2, M3, M4,
M5) zur Messung der Lichtgeschwindigkeit durch. Nehmen Sie an, dass diese
Messergebnisse normalverteilt sind mit unbekanntem Mittelwert und unbekannter Varianz. Bestimmen Sie ein 98%-Konfidenzintervall für die Lichtgeschwindigkeit, und zwar für jede Messreihe von 20 Messungen einzeln sowie für die gesamte
Messreihe von 100 Messungen.
1
2. Wir betrachten Glühbirnen, deren Lebensdauer jeweils unabhängig voneinander
exp (λ)-verteilt sind. Eine Messung von N = 1000 Glühbirnen ergibt die Lebensdauer (in Jahren), eine zweite Messung von N = 10 Glühbirnen die Lebensdauer (in Jahren)
(Messreihe 1 und Messreihe 2). Wir wählen für λ den Schätzer
P
λ̂ := N/ N
x
i=1 i und das Konfidenzintervall zum Niveau 1 − α gleich
" 2
#
χ2N,α/2 χ22N,1−α/2
, PN
,
P
2 N
x
2
x
i
i
i=1
i=1
wobei χ2m,β das β-Quantil der χ2 -Verteilung mit m Freiheitsgraden ist. Erklären
Sie diese beiden Ansätze und geben Sie die 99%-Konfidenzintervalle an.
3. In der Aufgabe II.2 wird die Schätzung des Parameters λ erst durchgeführt
nachdem alle N Glühbirnen ausgefallen sind. Wir wollen jetzt eine Schätzung
durchführen, wobei wir nur bis zu einem Zeitpunkt T warten. Sei daher M
(0 ≤ M ≤ N ) die Anzahl der bis zum Zeitpunkt T ausgefallenen Glühbirnen.
Diese ist B N, 1 − exp (−λT ) -verteilt, d. h. Bernoulli–verteilt mit Wahrscheinlichkeit p := 1 − exp (−λT ). Seien p1 und p2 die Grenzen des Konfidenzintervalles
für p. Dann ist das (1 − α)-Konfidenzintervall für λ gleich
ln(1 − p1 ) ln(1 − p2 )
−
,−
.
T
T
Erklären Sie diese Sachverhalte und geben Sie das 90%-Konfidenzintervall für die
folgende Werte an: T = 20, N = 500, M = 17.
4. Schätzung bei fest vorgegebener Anzahl von Ausfällen: Wir haben N Glühbirnen
mit exp (λ)-verteilter Lebensdauer. Fällt eine Glühbirne aus, so wird diese sofort
durch eine neue ersetzt. Wir warten ab bis M Glühbirnen ausgefallen sind und
wollen daraus λ schätzen und dafür ein Konfidenzintervall angeben.
Seien Tj , j = 1, . . . , M die Ausfallszeiten der Glühbirnen, wobei wir vernachlässigen, dass zwei Glühbirnen gleichzeitig ausfallen (warum?). Wir setzen T0 = 0.
Die Lebensdauer Tj − Tj−1 , j = 1, . . . , M ist exp (N λ)-verteilt. Die Größe
M −1
M
X
(Tj − Tj−1 ) = M −1 TM
j=1
ist ein erwartungstreuer Schätzer für 1/(N λ) (warum?). Daher ist λ̂ := M/(N TM )
ein Schätzer für λ. Zeigen Sie, dass
"
#
χ22M,α χ22M +2,1−α
,
2N TM
2N TM
2
ein (1 − 2α)-Konfidenzintervall für λ ist. Führen Sie dies für die folgenden Daten
aus: N = 60, (T1 , . . . , T10 ) = (50, 60, 95, 190, 260, 370, 460, 600, 690, 770).
Nehmen Sie nun im Unterschied zu vorher an, dass eine ausgebrannte Glühbirne
nicht ersetzt wird. Die gesamte Funktionsdauer aller N Glühbirnen ist nun die
Zufallsvariable
M
X
T :=
Tj + (N − M )TM .
j=1
Daraus ergibt sich λ̂ := M/T als Schätzer für λ und das (1−2α)-Konfidenzintervall
h χ2
2M,α
2T
,
χ22M +2,1−α i
2T
.
Führen Sie dies für die gleichen Daten aus der obigen Tabelle aus.
5. Das Newcomb–Benford–Gesetz besagt, dass die relative Häufigkeit pk mit der
die erste signifikante Zahl einer (reellen) Zahl gleich k ist von der Form pk =
log10 (1 + 1/k) ist. Die folgende Tabelle beinhaltet die Messergebnisse von radioaktiven α-Zerfall-Halbwertszeiten von Atomen mit Kernladungszahl 100 bis 260,
deren Halbwertszeit von 10−6 (für Po212 ) bis 1015 Jahre (für Sm148 ) variieren.
Testen Sie die Hypothese zur Signifikanzzahl α = 0,05 , ob diese Messergebnisse
dem Newcomb–Benford–Gesetz folgen. Testen Sie ebenso die Hypothese, dass die
ersten 106 Primzahlen bzw. die physikalische Konstanten aus der Tabelle jeweils
dem Newcomb–Benford–Gesetz folgen.
III Korrelationskoeffizient:
1. Wir haben eine Gruppe von 15 Männern, deren Alter mit ai und deren Blutdruck
mit bi für i = 1, . . . , 15 bezeichnet wird (Daten: a;b).
Nehmen Sie an, dass sowohl Alter wie Blutdruck normalverteilt sind.
(i) Schätzen Sie die Korrelation ρ zwischen Alter und Blutdruck und finden Sie
für ρ ein 90%-Konfidenzintervall.
(ii) Testen Sie die Hypothese H0 : ρ = 0 gegen die Alternative H1 : ρ 6= 0 zum
Niveau α = 0,1.
2. (a) Gegeben sei die Tabelle, die die Inflationsrate und die Staatsverschuldung
(in % des BIP) verschiedener Länder(gruppen) auflistet. Stellen Sie eine Hypothese über die Korrelation zwischen Staatsverschuldung und Inflationsrate
auf und bestimmen Sie ein 95%-Konfidenzintervall für den Korrelationskoeffizienten.
(b) Stellen Sie eine Hypothese über die Korrelation zwischen Bruttosozialprodukt pro Einwohner und Arbeitslosigkeit pro Einwohner europäischer Länder
3
auf und bestimmen Sie ein 95%-Konfidenzintervall für den Korrelationskoeffizienten. Die Daten dazu finden Sie auf http://www.welt-in-zahlen.de.
IV Kolmogorov–Smirnov–Test und χ2 -Test:
1. Jemand behauptet, auf einem Intervall [a, b] gleichverteilte Zahlen zu produzieren.
Testen Sie diese Hypothese mit dem Kolmogorov–Smirnov–Test und dem χ2 -Test
zur Signifikanzzahl 1% für die beiden Testreihen (i) Z1 und (ii) Z2. Die Intervalle
in (i) und (ii) sind nicht gleich.
2. Anpassungstests für die Exponentialverteilung:
Zwei konkurrierende Glühbirnenhersteller geben die Lebensdauer ihrer Produkte
als exponentialverteilt mit Erwartungswert 2,5 Jahre an. Als Grundlage hierfür
werden jeweils Meßdaten der Lebensdauer (in Jahren) von 1000 Glühbirnen aus
einer Langzeitstudie genannt: Hersteller 1 und Hersteller 2.
Testen Sie beide Hypothesen mit dem χ2 -Anpassungstest sowie dem Kolmogorov–
Smirnov–Anpassungstest zum Niveau α = 0,01 .
V Histogramm zu Wigner–Zufallsmatrizen: Eine N × N -Wigner–Matrix G (N ∈ N)
ist eine Zufallsmatrix (d. h. eine matrixwertige Zufallsvariable), in der alle oberen
Matrixelemente Gij , 1 ≤√i ≤ j ≤ N , unabhängige, zentrierte, normalverteilte Zufallsvariablen mit Varianz 1/ N sind. Für die unteren Nichtdiagonalelemente Gij , 1 ≤ j <
i ≤ N gilt Gij = Gji , sodass G symmetrisch ist.
(i) Erstellen Sie repräsentative Histogramme für die Verteilung der zufälligen Eigenwerte von G für verschiedene Werte
√ von N und vergleichen Sie diese mit der
Halbkreis-Dichtefunktion f (x) = 4 − x2 /(2π) für |x| ≤ 2.
(ii) Führen Sie das gleiche Programm nun mit N ×N -Zufallsmatrizen B aus, wobei die
zufälligen Matrixelemente durch eine Binomialverteilung anstelle der Normalverteilung bestimmt sind. Die Zufallsvariablen
Bij , 1 ≤ i ≤ j ≤ N sind unabhängig
√
und nehmen die Werte ±1/ N jeweils mit gleicher Wahrscheinlichkeit 1/2 an.
Für die unteren Nichtdiagonalelemente Bij , 1 ≤ j < i ≤ N setzen wir wieder
Bij = Bji .
VI Histogramm zu Erdős–Renyi–Graphen: Sei N ∈ N eine Anzahl von Punkten
(Vertices oder Ecken) und p ∈ [0, 1]. Diese N Punkte werden unabhängig voneinander
mit der Wahrscheinlichkeit p durch Kanten verbunden. [Ist alsop = 0, so sind alle N
Punkte isoliert, für p = 1 sind alle N Punkte durch insgesamt N2 Kanten miteinander
verbunden.] Wir definieren die N × N -Adjazenzmatrix G folgendermaßen: sind zwei
Punkte 1 ≤ i 6= j ≤ N verbunden, so setzen wir Gij = 1, andernfalls ist Gij =
0. G ist also eine zufällige, symmetrische N × N -Matrix mit Einträgen Null oder
4
Eins. Wählen Sie N = 20 und p = 1/(2N ), 0,9/N , 1,2/N , 2/N , 5/N . Erstellen Sie
Histogramme für die Verteilung der Eigenwerte der Adjazenzmatrix in allen fünf Fällen
und interpretieren Sie die Ergebnisse in Bezug auf das Verhalten von p.
VII Histogramm zur längsten aufsteigenden Teilfolge einer zufälligen Permutation (anspruchsvoll): Bei gegebenem N ∈ N sei π eine Permutation der Zahlen
1, . . . , N , d. h. eine bijektive Abbildung auf {1, . . . , N } und SN die Menge aller N !
Permutationen. Eine aufsteigende Teilfolge von π ist eine Folge 1 ≤ i1 < · · · < ik ≤ N
mit π(i1 ) < π(i2 ) < · · · < π(ik ). Sei LN (π) die Länge der längsten aufsteigenden Teilfolge von π. Angenommen, jede der N ! Permutationen ist gleichwahrscheinlich. Dann
ist die Zufallsvariable LN eine Abbildung von der Menge der Permutationen SN in
die natürlichen Zahlen. Erstellen Sie ein Histogramm für LN mit N = 2, 3, . . . , 10,
indem Sie alle Permutationen erfassen und für L20 , indem Sie nur einen Teil der 20!
Permutationen erfassen. Ermitteln Sie damit eine Liste
der Werte der gewichteten
Erwartungswerte N −1/2 E(LN ) und Varianzen N −1/6 E(L2N ) − E(LN )2 .
Zusatzinformation: Baik, Deift und Johansson haben 1999 gezeigt, dass
√
lim PN LN − 2 N ≤ tN 1/6 = F1 (t) ,
N →∞
wobei F1 mit
F1 (t) := exp
n
Z
−
∞
[(s − t)2 q(s)2 ] ds
o
t
die sogenannte Tracy–Widom–Verteilungsfunktion ist. Sei dazu q die eindeutige Lösung der Painlevè–
II-Differentialgleichung q 00 (t) = tq(t) + 2q(t)3 , t ∈ R mit q(t) ∼ Ai(t) für t → ∞, wobei Ai die
Airy–Funktion ist.
VIII Histogramm zum größten Eigenwert von Wigner–Matrizen: Sei G wie in
Punkt V eine N × N -Wigner–Matrix. Erstellen Sie repräsentative Histogramme für
den größten Eigenwert, λmax , von G für N = 10, 20, 30 und vergleichen Sie dies mit
der Tracy–Widom–Verteilungsfunktion F1 (siehe Punkt VII).
Zusatzinformation: 1999 hat Soshnikov in diesem Zusammenhang bewiesen, dass
lim PN λmax ≤ 2 + tN −2/3 = F1 (t) .
N →∞
IX Methode der kleinsten Quadrate:
1. Für die gegebenen Stichproben bestimmen Sie (i) die Regressionsgerade und (ii)
die Exponentialfunktion y(x) = a + b exp (cx) mit Konstanten a, b, c jeweils mit
Hilfe der Methode der kleinsten Quadrate. Testen Sie die Hypothesen, dass (i) die
Regressionsgerade und (ii) die Exponentialfunktion als Regressionskurve gewählt
5
werden kann. Dabei setzen Sie voraus, dass die y entsprechende Zufallsvariable
Y für jedes feste x normalverteilt ist, wobei die Varianz nicht von x abhängt.
Als Signifikanzniveau wählen Sie 5%. [Hinweis zu (ii): Logarithmieren Sie die
Funktionalgleichung und schätzen Sie den Parameter a, um damit die Parameter
b und c zu bestimmen.]
2. Weibull–verteilte Lebensdauer: Wir haben N Objekte, deren Lebensdauer X unabhängig voneinander Weibull–verteilt mit Parameter α > 0 und β > 0 sind,
d. h. αX β ist exp (1)-verteilt. Somit ist die Verteilungsfunktion F von X gegeben
durch
β
1 − e−αx
für x > 0
F (x) =
0
für x ≤ 0
mit Dichte
f (x) =
αβxβ−1 e−αx
0
β
für x > 0
.
für x ≤ 0
Die Überlebenswahrscheinlichkeit eines Objektes ist somit F̄ (x) := 1 − F (x) =
β
P (X > x) = e−αx . Es gilt dann
ln ln(1/F̄ (x)) = ln α + β ln x .
Seien T1 , . . . , TM die Ausfallszeitpunkte der M Objekte, wobei M ≤ N vor dem
Test fest gewählt wurde. Die ausgefallenen Objekte werden nicht durch neue
ersetzt. Als Schätzer für die Überlebenswahrscheinlichkeit eines Objektes dient
τj := 1 − (j − 1/2)/N, j = 1, . . . , M . Seien nun
aj := ln Tj ,
bj := ln ln(1/τj ) ,
j = 1...,M
so ergibt sich
bj = ln α + βaj + j ,
j = 1, . . . , M
mit Fehlertermen 1 , . . . , M . Sei ā der Mittelwert der aj , j = 1, . . . , M und b̄ der
Mittelwert der bj , j = 1, . . . , M . Nach der Methode der kleinsten Quadrate erhält
man als Schätzer für β der Wert
PM
j=1 (bj − b̄)(aj − ā)
β̂ :=
PM
2
j=1 (aj − ā)
und für α der Wert
α̂ := eb̄−β̂ā .
Erklären Sie diese Zusammenhänge und führen Sie die Schätzung für α und β
für das Beispiel aus folgender Tabelle (F̄ (x); x). Schätzen Sie daraus die mittlere
Lebensdauer und Ausfallsrate eines Objektes.
6
X Spektrum von Feinberg–Zee–Zufallsmatrizen:
Sei σ ∈ (0, 1] und 0 < p ≤ 1. Eine N ×N -Feinberg–Zee–Zufallsmatrix F = (Fij )1≤i,j≤N
(N ∈ N) ist eine Matrix, deren erste obere Nebendiagonale nur Einsen enthält und
deren erste untere Nebendiagonale zufällige und voneinander unabhängige Einträge
mit den beiden möglichen Werten ±σ besitzt (die erste untere Nebendiagonale kann
als (N − 1)-dimensionaler, unabhängiger Zufallsvektor aufgefasst werden). Genauer
gilt, F (i, i + 1) := Fij = 1 für 1 ≤ i < N , F (i + 1, i) = σ mit Wahrscheinlichkeit p (und
daher F (i + 1, i) = −σ mit Wahrscheinlichkeit 1 − p), wobei F (i, i + 1) und F (j, j + 1)
stochastisch unabhängig für i 6= j sind. Alle übrigen Matrixeinträge sind 0.
Wählen Sie N = 20, 100, 1000, p = 1/3, 1/2, 3/4, 19/20 und σ = 1/2, 2/3, 1 und
plotten Sie das Spektrum von F . Diskutieren Sie insbesondere das Verhalten für p und
σ nahe 1.
XI Textanalysen: Studieren Sie die folgenden Textstellen und führen Sie die für Sie interessantesten Beispiele im Detail aus.
1. aus dem Buch von Krämer3 , S. 127–150.
2. aus dem Buch von Dubben und Beck-Bornholdt2 , S. 214–233.
3. aus dem Buch von Dubben und Beck-Bornholdt2 , S. 133–160.
Literaturhinweise:
1. Hans-Otto Georgii: Stochastik, de Gruyter Lehrbuch.
2. Hans-Hermann Dubben und Hans-Peter Beck-Bornholdt: Der Hund, der Eier legt —
Erkennen von Fehlinformation durch Querdenken, Reinbek: Rowohlt.
3. Walter Krämer: Denkste! Trugschlüsse aus der Welt des Zufalls und der Zahlen, Campus Verlag Frankfurt/New York.
4. Ulrich Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik, Vieweg
Studium.
5. Erwin Kreyszig: Statistische Methoden und ihre Anwendungen, Vandenhoeck & Ruprecht.
7
Herunterladen