Themenliste für den Kurs 01084 - Statistisches

Themenliste für den Kurs
01084 - Statistisches Praktikum
Sommersemester 2015
I Hypothesentest:
1. Gegeben sei jeweils eine Messreihe zweier normalverteilten Zufallsvariablen Xi
mit Erwartungswert µi und Varianz σi2 , i = 1, 2. (Messreihe X1 und Messreihe X2 )
(i) Testen Sie jeweils die Hypothese H0 : σi2 = 1 gegen die Hypothese H1 : σi2 6= 1
zum Signifikanzniveau α = 0,01.
(ii) Testen Sie jeweils die Hypothese H0 : µi = 2 gegen die Hypothese H1 : µi =
6 2
zum Signifikanzniveau α = 0,01.
(iii) Ist die Stichprobe groß genug, um sich gegen einen Fehler 2. Art zum Niveau
β = 0,01 an der Stelle µi = 1 abzusichern?
2. Es werden 40 Klausuren eingesammelt und in der Reihenfolge korrigiert, in der die
zuvor zufällig plazierten Studenten gesessen haben. Eine Eins bedeutet bestanden,
eine Null bedeutet nicht bestanden. Ist die Reihenfolge
1001110111100000110001000010001111100111
von Einsen und Nullen zufällig? Wählen Sie α = 0,05 als Signifikanzzahl. Dazu
folgende Hinweise:
(a) Die Null-Hypothese, die es zu testen gilt,
lautet: die Reihenfolge der Nullen
und Einsen ist zufällig, d. h., alle n401 möglichen Reihenfolgen sind gleichwahrscheinlich, wobei n1 die Anzahl der Einsen ist.
(b) Zur Beurteilung der Null-Hypothese wird die Anzahl der Iterationen I herangezogen, d. h., die Anzahl der Wechsel von Null auf Eins und von Eins auf
Null.
(c) Berechnen Sie Erwartungswert und Varianz von I und verwenden Sie die
Approximation der Normalverteilung, um die Null-Hypothese zu testen.
II Konfidenzintervall:
1. Der Physiker A. A. Michelson führte 1879 fünf Messreihen (M1, M2, M3, M4,
M5) zur Messung der Lichtgeschwindigkeit durch. Nehmen Sie an, dass diese
Messergebnisse normalverteilt sind mit unbekanntem Mittelwert und unbekannter Varianz. Bestimmen Sie ein 98%-Konfidenzintervall für die Lichtgeschwindigkeit, und zwar für jede Messreihe von 20 Messungen einzeln sowie für die gesamte
Messreihe von 100 Messungen.
1
2. Wir betrachten Glühbirnen, deren Lebensdauer jeweils unabhängig voneinander
exp (λ)-verteilt sind. Eine Messung von N = 1000 Glühbirnen ergibt die Lebensdauer (in Jahren), eine zweite Messung von N = 10 Glühbirnen die Lebensdauer (in Jahren)
(Messreihe 1 und Messreihe 2). Wir wählen für λ den Schätzer
P
λ̂ := N/ N
x
i=1 i und das Konfidenzintervall zum Niveau 1 − α gleich
" 2
#
χ2N,α/2 χ22N,1−α/2
, PN
,
P
2 N
x
2
x
i
i
i=1
i=1
wobei χ2m,β das β-Quantil der χ2 -Verteilung mit m Freiheitsgraden ist. Erklären
Sie diese beiden Ansätze und geben Sie die 99%-Konfidenzintervalle an.
3. In der Aufgabe II.2 wird die Schätzung des Parameters λ erst durchgeführt
nachdem alle N Glühbirnen ausgefallen sind. Wir wollen jetzt eine Schätzung
durchführen, wobei wir nur bis zu einem Zeitpunkt T warten. Sei daher M
(0 ≤ M ≤ N ) die Anzahl der bis zum Zeitpunkt T ausgefallenen Glühbirnen.
Diese ist B N, 1 − exp (−λT ) -verteilt, d. h. Bernoulli–verteilt mit Wahrscheinlichkeit p := 1 − exp (−λT ). Seien p1 und p2 die Grenzen des Konfidenzintervalles
für p. Dann ist das (1 − α)-Konfidenzintervall für λ gleich
ln(1 − p1 ) ln(1 − p2 )
−
,−
.
T
T
Erklären Sie diese Sachverhalte und geben Sie das 90%-Konfidenzintervall für die
folgende Werte an: T = 20, N = 500, M = 17.
4. Schätzung bei fest vorgegebener Anzahl von Ausfällen: Wir haben N Glühbirnen
mit exp (λ)-verteilter Lebensdauer. Fällt eine Glühbirne aus, so wird diese sofort
durch eine neue ersetzt. Wir warten ab bis M Glühbirnen ausgefallen sind und
wollen daraus λ schätzen und dafür ein Konfidenzintervall angeben.
Seien Tj , j = 1, . . . , M die Ausfallszeiten der Glühbirnen, wobei wir vernachlässigen, dass zwei Glühbirnen gleichzeitig ausfallen (warum?). Wir setzen T0 = 0.
Die Lebensdauer Tj − Tj−1 , j = 1, . . . , M ist exp (N λ)-verteilt. Die Größe
M −1
M
X
(Tj − Tj−1 ) = M −1 TM
j=1
ist ein erwartungstreuer Schätzer für 1/(N λ) (warum?). Daher ist λ̂ := M/(N TM )
ein Schätzer für λ. Zeigen Sie, dass
"
#
χ22M,α χ22M +2,1−α
,
2N TM
2N TM
2
ein (1 − 2α)-Konfidenzintervall für λ ist. Führen Sie dies für die folgenden Daten
aus: N = 60, (T1 , . . . , T10 ) = (50, 60, 95, 190, 260, 370, 460, 600, 690, 770).
Nehmen Sie nun im Unterschied zu vorher an, dass eine ausgebrannte Glühbirne
nicht ersetzt wird. Die gesamte Funktionsdauer aller N Glühbirnen ist nun die
Zufallsvariable
M
X
T :=
Tj + (N − M )TM .
j=1
Daraus ergibt sich λ̂ := M/T als Schätzer für λ und das (1−2α)-Konfidenzintervall
h χ2
2M,α
2T
,
χ22M +2,1−α i
2T
.
Führen Sie dies für die gleichen Daten aus der obigen Tabelle aus.
5. Das Newcomb–Benford–Gesetz besagt, dass die relative Häufigkeit pk mit der
die erste signifikante Zahl einer (reellen) Zahl gleich k ist von der Form pk =
log10 (1 + 1/k) ist. Die folgende Tabelle beinhaltet die Messergebnisse von radioaktiven α-Zerfall-Halbwertszeiten von Atomen mit Kernladungszahl 100 bis 260,
deren Halbwertszeit von 10−6 (für Po212 ) bis 1015 Jahre (für Sm148 ) variieren.
Testen Sie die Hypothese zur Signifikanzzahl α = 0,05 , ob diese Messergebnisse
dem Newcomb–Benford–Gesetz folgen. Testen Sie ebenso die Hypothese, dass die
ersten 106 Primzahlen bzw. die physikalische Konstanten aus der Tabelle jeweils
dem Newcomb–Benford–Gesetz folgen.
III Korrelationskoeffizient:
1. Wir haben eine Gruppe von 15 Männern, deren Alter mit ai und deren Blutdruck
mit bi für i = 1, . . . , 15 bezeichnet wird (Daten: a;b).
Nehmen Sie an, dass sowohl Alter wie Blutdruck normalverteilt sind.
(i) Schätzen Sie die Korrelation ρ zwischen Alter und Blutdruck und finden Sie
für ρ ein 90%-Konfidenzintervall.
(ii) Testen Sie die Hypothese H0 : ρ = 0 gegen die Alternative H1 : ρ 6= 0 zum
Niveau α = 0,1.
2. (a) Gegeben sei die Tabelle, die die Inflationsrate und die Staatsverschuldung
(in % des BIP) verschiedener Länder(gruppen) auflistet. Stellen Sie eine Hypothese über die Korrelation zwischen Staatsverschuldung und Inflationsrate
auf und bestimmen Sie ein 95%-Konfidenzintervall für den Korrelationskoeffizienten.
(b) Stellen Sie eine Hypothese über die Korrelation zwischen Bruttosozialprodukt pro Einwohner und Arbeitslosigkeit pro Einwohner europäischer Länder
3
auf und bestimmen Sie ein 95%-Konfidenzintervall für den Korrelationskoeffizienten. Die Daten dazu finden Sie auf http://www.welt-in-zahlen.de.
IV Kolmogorov–Smirnov–Test und χ2 -Test:
1. Jemand behauptet, auf einem Intervall [a, b] gleichverteilte Zahlen zu produzieren.
Testen Sie diese Hypothese mit dem Kolmogorov–Smirnov–Test und dem χ2 -Test
zur Signifikanzzahl 1% für die beiden Testreihen (i) Z1 und (ii) Z2. Die Intervalle
in (i) und (ii) sind nicht gleich.
2. Anpassungstests für die Exponentialverteilung:
Zwei konkurrierende Glühbirnenhersteller geben die Lebensdauer ihrer Produkte
als exponentialverteilt mit Erwartungswert 2,5 Jahre an. Als Grundlage hierfür
werden jeweils Meßdaten der Lebensdauer (in Jahren) von 1000 Glühbirnen aus
einer Langzeitstudie genannt: Hersteller 1 und Hersteller 2.
Testen Sie beide Hypothesen mit dem χ2 -Anpassungstest sowie dem Kolmogorov–
Smirnov–Anpassungstest zum Niveau α = 0,01 .
V Histogramm zu Wigner–Zufallsmatrizen: Eine N × N -Wigner–Matrix G (N ∈ N)
ist eine Zufallsmatrix (d. h. eine matrixwertige Zufallsvariable), in der alle oberen
Matrixelemente Gij , 1 ≤√i ≤ j ≤ N , unabhängige, zentrierte, normalverteilte Zufallsvariablen mit Varianz 1/ N sind. Für die unteren Nichtdiagonalelemente Gij , 1 ≤ j <
i ≤ N gilt Gij = Gji , sodass G symmetrisch ist.
(i) Erstellen Sie repräsentative Histogramme für die Verteilung der zufälligen Eigenwerte von G für verschiedene Werte
√ von N und vergleichen Sie diese mit der
Halbkreis-Dichtefunktion f (x) = 4 − x2 /(2π) für |x| ≤ 2.
(ii) Führen Sie das gleiche Programm nun mit N ×N -Zufallsmatrizen B aus, wobei die
zufälligen Matrixelemente durch eine Binomialverteilung anstelle der Normalverteilung bestimmt sind. Die Zufallsvariablen
Bij , 1 ≤ i ≤ j ≤ N sind unabhängig
√
und nehmen die Werte ±1/ N jeweils mit gleicher Wahrscheinlichkeit 1/2 an.
Für die unteren Nichtdiagonalelemente Bij , 1 ≤ j < i ≤ N setzen wir wieder
Bij = Bji .
VI Histogramm zu Erdős–Renyi–Graphen: Sei N ∈ N eine Anzahl von Punkten
(Vertices oder Ecken) und p ∈ [0, 1]. Diese N Punkte werden unabhängig voneinander
mit der Wahrscheinlichkeit p durch Kanten verbunden. [Ist alsop = 0, so sind alle N
Punkte isoliert, für p = 1 sind alle N Punkte durch insgesamt N2 Kanten miteinander
verbunden.] Wir definieren die N × N -Adjazenzmatrix G folgendermaßen: sind zwei
Punkte 1 ≤ i 6= j ≤ N verbunden, so setzen wir Gij = 1, andernfalls ist Gij =
0. G ist also eine zufällige, symmetrische N × N -Matrix mit Einträgen Null oder
4
Eins. Wählen Sie N = 20 und p = 1/(2N ), 0,9/N , 1,2/N , 2/N , 5/N . Erstellen Sie
Histogramme für die Verteilung der Eigenwerte der Adjazenzmatrix in allen fünf Fällen
und interpretieren Sie die Ergebnisse in Bezug auf das Verhalten von p.
VII Histogramm zur längsten aufsteigenden Teilfolge einer zufälligen Permutation (anspruchsvoll): Bei gegebenem N ∈ N sei π eine Permutation der Zahlen
1, . . . , N , d. h. eine bijektive Abbildung auf {1, . . . , N } und SN die Menge aller N !
Permutationen. Eine aufsteigende Teilfolge von π ist eine Folge 1 ≤ i1 < · · · < ik ≤ N
mit π(i1 ) < π(i2 ) < · · · < π(ik ). Sei LN (π) die Länge der längsten aufsteigenden Teilfolge von π. Angenommen, jede der N ! Permutationen ist gleichwahrscheinlich. Dann
ist die Zufallsvariable LN eine Abbildung von der Menge der Permutationen SN in
die natürlichen Zahlen. Erstellen Sie ein Histogramm für LN mit N = 2, 3, . . . , 10,
indem Sie alle Permutationen erfassen und für L20 , indem Sie nur einen Teil der 20!
Permutationen erfassen. Ermitteln Sie damit eine Liste
der Werte der gewichteten
Erwartungswerte N −1/2 E(LN ) und Varianzen N −1/6 E(L2N ) − E(LN )2 .
Zusatzinformation: Baik, Deift und Johansson haben 1999 gezeigt, dass
√
lim PN LN − 2 N ≤ tN 1/6 = F1 (t) ,
N →∞
wobei F1 mit
F1 (t) := exp
n
Z
−
∞
[(s − t)2 q(s)2 ] ds
o
t
die sogenannte Tracy–Widom–Verteilungsfunktion ist. Sei dazu q die eindeutige Lösung der Painlevè–
II-Differentialgleichung q 00 (t) = tq(t) + 2q(t)3 , t ∈ R mit q(t) ∼ Ai(t) für t → ∞, wobei Ai die
Airy–Funktion ist.
VIII Histogramm zum größten Eigenwert von Wigner–Matrizen: Sei G wie in
Punkt V eine N × N -Wigner–Matrix. Erstellen Sie repräsentative Histogramme für
den größten Eigenwert, λmax , von G für N = 10, 20, 30 und vergleichen Sie dies mit
der Tracy–Widom–Verteilungsfunktion F1 (siehe Punkt VII).
Zusatzinformation: 1999 hat Soshnikov in diesem Zusammenhang bewiesen, dass
lim PN λmax ≤ 2 + tN −2/3 = F1 (t) .
N →∞
IX Methode der kleinsten Quadrate:
1. Für die gegebenen Stichproben bestimmen Sie (i) die Regressionsgerade und (ii)
die Exponentialfunktion y(x) = a + b exp (cx) mit Konstanten a, b, c jeweils mit
Hilfe der Methode der kleinsten Quadrate. Testen Sie die Hypothesen, dass (i) die
Regressionsgerade und (ii) die Exponentialfunktion als Regressionskurve gewählt
5
werden kann. Dabei setzen Sie voraus, dass die y entsprechende Zufallsvariable
Y für jedes feste x normalverteilt ist, wobei die Varianz nicht von x abhängt.
Als Signifikanzniveau wählen Sie 5%. [Hinweis zu (ii): Logarithmieren Sie die
Funktionalgleichung und schätzen Sie den Parameter a, um damit die Parameter
b und c zu bestimmen.]
2. Weibull–verteilte Lebensdauer: Wir haben N Objekte, deren Lebensdauer X unabhängig voneinander Weibull–verteilt mit Parameter α > 0 und β > 0 sind,
d. h. αX β ist exp (1)-verteilt. Somit ist die Verteilungsfunktion F von X gegeben
durch
β
1 − e−αx
für x > 0
F (x) =
0
für x ≤ 0
mit Dichte
f (x) =
αβxβ−1 e−αx
0
β
für x > 0
.
für x ≤ 0
Die Überlebenswahrscheinlichkeit eines Objektes ist somit F̄ (x) := 1 − F (x) =
β
P (X > x) = e−αx . Es gilt dann
ln ln(1/F̄ (x)) = ln α + β ln x .
Seien T1 , . . . , TM die Ausfallszeitpunkte der M Objekte, wobei M ≤ N vor dem
Test fest gewählt wurde. Die ausgefallenen Objekte werden nicht durch neue
ersetzt. Als Schätzer für die Überlebenswahrscheinlichkeit eines Objektes dient
τj := 1 − (j − 1/2)/N, j = 1, . . . , M . Seien nun
aj := ln Tj ,
bj := ln ln(1/τj ) ,
j = 1...,M
so ergibt sich
bj = ln α + βaj + j ,
j = 1, . . . , M
mit Fehlertermen 1 , . . . , M . Sei ā der Mittelwert der aj , j = 1, . . . , M und b̄ der
Mittelwert der bj , j = 1, . . . , M . Nach der Methode der kleinsten Quadrate erhält
man als Schätzer für β der Wert
PM
j=1 (bj − b̄)(aj − ā)
β̂ :=
PM
2
j=1 (aj − ā)
und für α der Wert
α̂ := eb̄−β̂ā .
Erklären Sie diese Zusammenhänge und führen Sie die Schätzung für α und β
für das Beispiel aus folgender Tabelle (F̄ (x); x). Schätzen Sie daraus die mittlere
Lebensdauer und Ausfallsrate eines Objektes.
6
X Spektrum von Feinberg–Zee–Zufallsmatrizen:
Sei σ ∈ (0, 1] und 0 < p ≤ 1. Eine N ×N -Feinberg–Zee–Zufallsmatrix F = (Fij )1≤i,j≤N
(N ∈ N) ist eine Matrix, deren erste obere Nebendiagonale nur Einsen enthält und
deren erste untere Nebendiagonale zufällige und voneinander unabhängige Einträge
mit den beiden möglichen Werten ±σ besitzt (die erste untere Nebendiagonale kann
als (N − 1)-dimensionaler, unabhängiger Zufallsvektor aufgefasst werden). Genauer
gilt, F (i, i + 1) := Fij = 1 für 1 ≤ i < N , F (i + 1, i) = σ mit Wahrscheinlichkeit p (und
daher F (i + 1, i) = −σ mit Wahrscheinlichkeit 1 − p), wobei F (i, i + 1) und F (j, j + 1)
stochastisch unabhängig für i 6= j sind. Alle übrigen Matrixeinträge sind 0.
Wählen Sie N = 20, 100, 1000, p = 1/3, 1/2, 3/4, 19/20 und σ = 1/2, 2/3, 1 und
plotten Sie das Spektrum von F . Diskutieren Sie insbesondere das Verhalten für p und
σ nahe 1.
XI Textanalysen: Studieren Sie die folgenden Textstellen und führen Sie die für Sie interessantesten Beispiele im Detail aus.
1. aus dem Buch von Krämer3 , S. 127–150.
2. aus dem Buch von Dubben und Beck-Bornholdt2 , S. 214–233.
3. aus dem Buch von Dubben und Beck-Bornholdt2 , S. 133–160.
Literaturhinweise:
1. Hans-Otto Georgii: Stochastik, de Gruyter Lehrbuch.
2. Hans-Hermann Dubben und Hans-Peter Beck-Bornholdt: Der Hund, der Eier legt —
Erkennen von Fehlinformation durch Querdenken, Reinbek: Rowohlt.
3. Walter Krämer: Denkste! Trugschlüsse aus der Welt des Zufalls und der Zahlen, Campus Verlag Frankfurt/New York.
4. Ulrich Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik, Vieweg
Studium.
5. Erwin Kreyszig: Statistische Methoden und ihre Anwendungen, Vandenhoeck & Ruprecht.
7

Zugehörige Unterlagen

Ubungen zum Computerpraktikum Stochastik - staff.uni

Stochastik für die Informatik Klausur

13. ¨Ubungsblatt ,,Einführung in die Wahrscheinlichkeitstheorie”

STATISTIK II BWL

STATISTIK II F¨UR WIWI

Themenliste für den Kurs 01084 - Statistisches

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können