Ludger Rüschendorf

Werbung
Ludger Rüschendorf
Mathematische
Statistik
Mathematische Statistik
Ludger Rüschendorf
Mathematische Statistik
Prof. Dr. Ludger Rüschendorf
Albert-Ludwigs-Universität Freiburg
Freiburg, Deutschland
ISSN 1234-5678
ISBN 978-3-642-41996-6
DOI 10.1007/978-3-642-41997-3
ISBN 978-3-642-41997-3 (eBook)
Mathematics Subject Classification (2010): 62-01,62-C05,62-B05,62-N05
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
Springer Spektrum
© Springer-Verlag Berlin Heidelberg 2014
Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt
insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der
Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann
benutzt werden dürften.
Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier.
Springer Spektrum ist eine Marke von Springer DE. Springer DE ist Teil der Fachverlagsgruppe Springer
Science+Business Media
www.springer-spektrum.de
Vorwort
Das vorliegende Textbuch gibt eine Einführung in Fragestellungen und Methoden
der mathematischen Statistik. Es basiert auf Vorlesungen, die der Autor seit 1980
regelmäßig in mathematischen Studiengängen in Aachen, Essen, Münster und Freiburg gehalten hat. Ziel dieses Kurses ist es, ausgehend von der Datenanalyse und
deren Motivation darzustellen, dass mit der Verwendung stochastischer Modelle
ermöglicht wird, statistische und datenanalytische Verfahren zu bewerten und zu
begründen. Die Statistik wird auf diese Weise in die Entscheidungstheorie und
Spieltheorie eingeordnet und damit in besonderer Weise Gegenstand der mathematischen Behandlung. Diese Eingliederung erlaubt es, die klassischen statistischen
Fragestellungen wie Test- und Schätzprobleme und Konfidenzbereiche einheitlich
darzustellen und statistische Auswahlkriterien wie Bayes-, Minimax- und weitere
spezifische Optimalitätskriterien systematisch zu entwickeln. Durch eine Reihe von
motivierenden Beispielen, z.B. zum Problem der optimalen Auswahl zur Erkennung von gefälschten Folgen und Daten, zur Identifikation und Rekonstruktion von
verrauschten Bildern soll der breite Horizont statistischer Fragestellungen skizziert
und die Bedeutung der Statistik als praxisrelevante und weitreichende Theorie der
Entscheidungen beschreiben werden.
Klassische und auch moderne Konstruktionsprinzipien für statistische Verfahren werden behandelt und begründet. Hierzu werden zunächst eine Reihe von
grundlegenden statistischen Methoden und Begriffen eingeführt. Ein zentraler Begriff ist die Suffizienz, die den Informationsgehalt einer Statistik oder σ-Algebra
beschreibt. Weitere wichtige Prinzipien sind die Reduktion durch Invarianz oder
Äquivarianz, durch Unverfälschtheit oder Erwartungstreue und die Reduktion auf
geeignete Schätz- und Testklassen. ‘Highlights‘ sind dann jeweils die entscheidungstheoretische Begründung für diverse statistische Verfahren wie z.B. die Zulässigkeit
des arithmetischen Mittels in Normalverteilungsmodellen, die Optimalität von tTest, F -Test, dem Pitman-Permutationstest und dem exakten Test von Fisher oder
die Optimalität von Pitman-Schätzern und von U -Statistiken.
Das Textbuch versucht neben den klassischen Themengebieten auch bis zu einem gewissen Grad in Anwendungen einzuführen, die nicht unbedingt in Standardtexten zur mathematischen Statistik zu finden sind. Gegeben wird eine Einführung
in grundlegende Prinzipien der asymptotischen Statistik. Es wird in den Kapiteln zur Schätz- und Testtheorie oder zu den Konfidenzbereichen in den ganzen
vi
Vorwort
Text eingebunden gezeigt, dass die Grenzwertsätze der Wahrscheinlichkeitstheorie
es ermöglichen, unter sehr allgemeinen Bedingungen approximative Tests und Konfidenzbereiche zu konstruieren und Eigenschaften von Schätzverfahren zu beschreiben. So wird z.B. die asymptotische Verteilung von Maximum-Likelihood-Schätzern
oder von Martingalschätzern bestimmt und der Begriff der asymptotischen Effizienz von Schätzverfahren eingeführt. Detailliert wird beispielhaft für eine Reihe
nichtparametrischer Schätzverfahren die Dichteschätzung behandelt. Gegeben wird
auch eine Einführung in robuste und sequentielle Tests sowie in die Statistik von
Zählprozessen wie z.B. die Methode der Martingalschätzer sowie die Martingalmethode für Anpassungstests. Themen der asymptotischen Entscheidungstheorie
überschreiten jedoch den Rahmen dieser Einführung.
Diese Darstellung dient insbesondere dem Ziel, in die Vielfachheit und Breite
statistischer Fragestellungen einzuführen, wie etwa in das Problem der sequentiellen Statistik, mit einer möglichst geringen Anzahl von Beobachtungen effiziente
Entscheidungen zu treffen oder in das Problem der robusten Statistik trotz nur approximativ zutreffender Modelle zuverlässige Entscheidungen zu konstruieren. Die
Statistik von Zählprozessen ist eine methodisch wichtige Erweiterung der Statistik,
mit bedeutsamen Anwendungen z.B. in der Survival-Analyse oder allgemeiner für
die Statistik von zeitabhängigen Ereignissen.
Behandelt werden im Text parametrische und nichtparametrische Modelle.
Es werden auch einige neuere Anwendungen der Statistik angesprochen, wie z.B.
auf Bildverarbeitung und Bildrekonstruktion oder auf das Quantile hedging in der
Finanzmathematik.
Ein zentrales Ziel dieses Textbuches ist es zu zeigen, dass die Mathematische
Statistik ein Gebiet mit vielen besonders schönen Ideen und Methoden und überraschenden Resultaten ist. Es ist reizvoll zu sehen, wie die Auswahl statistischer
Verfahren schon viel über das zugrunde liegende Modell verrät. Dieses knüpft an
die Begründung des Normalverteilungsmodells mit der Optimalität des arithmetischen Mittels durch Gauß und Laplace an. Die Charakterisierung von Modellen
durch Eigenschaften statistischer Verfahren ist zentrales Thema des anspruchsvollen Buches von Kagan, Linnik und Rao (1973). Überraschend ist z.B. die von Stein
entdeckte Nichtzulässigkeit des arithmetischen Mittels im Normalverteilungsmodell
in Dimension d ≥ 3. Verbesserungen lassen sich mit Hilfe von superharmonischen
Funktionen konstruieren.
Ziel ist es auch besonders, der zunehmenden Spezialisierung in der Statistik entgegenzuwirken und eine breite Orientierung über unterschiedliche Gebiete
und Themenkreise der Statistik zu geben. Wie zuverlässig sind datenanalytische
Methoden, wann können die Daten für sich sprechen, was ist die Bedeutung von
p-Werten, wie lassen sich Abweichungen vom Modell in die statistische Analyse
einbeziehen? Auch mit diesen und ähnlichen für die Anwendungen bedeutsamen
Fragen soll sich dieser Text befassen.
Der vorliegende Kurs baut auf grundlegenden Kenntnissen der Maß- und
Wahrscheinlichkeitstheorie auf. Verwendete Methoden und Resultate der Funktionalanalysis, der Spieltheorie, über analytische Funktionen und lokal kompakte
Vorwort
vii
Gruppen werden im Text vorgestellt. Etwa ab dem 5.ten Studiensemester können
diese Themen sowohl in Bachelor- und Master- als auch in Staatsexamensstudiengängen mit Gewinn vermittelt werden. An den Kurs lassen sich sehr gut Spezialvorlesungen z.B. über asymptotische Statistik, Regressionsanalyse, Statistik von
Prozessen, Bayessche Statistik oder Survival-Analyse anschließen.
Das Buch enthält mehr Stoff, als in einer vierstündigen Vorlesung behandelt
werden kann. Neben den klassischen Themen einer Statistik-Vorlesung enthält es
eine Reihe von weiterführenden Darstellungen und Entwicklungen. Insbesondere
sind die Themengebiete aus den Kapiteln 9–13 nicht Standardthemen. Die zentralen Begriffe und Methoden aus den Kapiteln 1–5 sowie 7.1 und 8.1 lassen sich jedoch
einfach für eine Vorlesung herausfiltern und werden im Eingang der Kapitel herausgestellt. Die weiterführenden Themen und Beispielklassen können dann Anlass
für abschließende Anmerkungen oder Anregungen zum Selbststudium sein. Einige
exemplarische Beispielklassen werden recht ausführlich behandelt und können in
einem Vorlesungskurs stark gekürzt oder ausgelassen werden. Beispiele hierfür sind
etwa die Behandlung von Gibbs-Maßen und Bildrekonstruktion in Kapitel 3.3, die
detaillierte Darstellung verschiedener Schätzklassen in den Kapiteln 5.2–5.5 ebenso
wie in 6.5 und 8.4. Aus den weiterführenden Kapiteln 9–13 lassen sich je nach der
Vorgeschichte des Kurses vielleicht ein oder zwei Themen auswählen.
Von besonderer Bedeutung für den Autor dieses Bandes waren die klassischen Darstellungen von Ferguson (1967) zur statistischen Entscheidungstheorie,
von Lehmann (1959, 1983) zur Testtheorie und Schätztheorie, von Zacks (1971)
zu Entscheidungstheorie und zu Bayes-Verfahren und von Witting (1966) zur optimierungstheoretischen Behandlung von Testproblemen. Dieses frühe Werk sowie
die stark erweiterte Fassung von 1985 sind das wohl einflussreichste statistische
Lehrbuch im deutschsprachigen Raum. Hermann Witting verdankt der Autor dieses Bandes seine Einführung in die Mathematische Statistik sowie sein Interesse an
diesem Gebiet. Bedeutsam für den Autor waren auch die mathematische Theorie
der Experimente von Heyer (1973) sowie die mathematisch besonders interessante
Behandlung von Charakterisierungsproblemen in Kagan, Linnik und Rao (1973).
Von besonderem Interesse waren auch die weiterführenden und orientierenden Darstellungen der (asymptotischen) statistischen Entscheidungstheorie in Pfanzagl und
Wefelmeyer (1982) und Strasser (1985) sowie die Darstellung der asymptotischen
Statistik in Witting und Müller-Funk (1995) und Liese und Miescke (2008). Die
letztgenannten Werke gehen jedoch weit über den Rahmen dieses Buches hinaus.
Die Darstellung der asymptotischen Statistik in Rüschendorf (1988) schließt thematisch eng an diesen Text an.
Eine erste Ausarbeitung von Teilen dieses Vorlesungstextes wurde 1998 und
2004 von Christian Lauer erstellt. Ihm sei hiermit herzlich gedankt. Besonderen
Dank schulde ich auch Monika Hattenbach für ihre vorzügliche Arbeit am Erstellen
und Gestalten des nahezu kompletten Textes. Danken möchte ich auch Janine
Kühn, Viktor Wolf und Swen Kiesel für das Korrekturlesen einiger Buchkapitel
sowie Hans Rudolf Lerche für eine Reihe wertvoller Hinweise, insbesondere zum
Kapitel über sequentielle Tests.
Inhaltsverzeichnis
1
Einführung: Datenanalyse und mathematische Statistik
1.1 Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . . .
1.1.1 Lineare Regression . . . . . . . . . . . . . . . . . . .
1.1.2 Nichtlineare Abhängigkeit . . . . . . . . . . . . . . .
1.1.3 Lineare Modelle . . . . . . . . . . . . . . . . . . . . .
1.1.4 Nichtparametrische Regression . . . . . . . . . . . .
1.2 Mathematische Statistik – Entscheidung unter Unsicherheit
1.2.1 Ein Auswahlproblem . . . . . . . . . . . . . . . . . .
1.2.2 Zufällige Folgen . . . . . . . . . . . . . . . . . . . . .
1.2.3 Bildverarbeitung und Bilderkennung . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
. 2
. 2
. 5
. 6
. 7
. 8
. 8
. 10
. 13
2
Statistische Entscheidungstheorie
17
2.1 Statistisches Entscheidungsproblem . . . . . . . . . . . . . . . . . . 17
2.2 Entscheidungskriterien, Bayes- und Minimax-Verfahren . . . . . . 29
2.3 Anwendungen auf Schätzer, Tests und Konfidenzbereiche . . . . . 40
3
Verteilungsklassen – statistische Modelle
57
3.1 Dominierte Verteilungsklassen . . . . . . . . . . . . . . . . . . . . . 57
3.2 Exponentialfamilien . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.3 Gibbs-Maße, Bildrekonstruktion und Simulated Annealing . . . . . 72
4
Suffizienz, Vollständigkeit und Verteilungsfreiheit
81
4.1 Suffiziente σ-Algebren und Statistiken . . . . . . . . . . . . . . . . 81
4.2 Minimalsuffizienz, Vollständigkeit und Verteilungsfreiheit . . . . . 101
4.3 Anwendungen in der nichtparametrischen Statistik . . . . . . . . . 114
5
Schätztheorie
123
5.1 Erwartungstreue Schätzer . . . . . . . . . . . . . . . . . . . . . . . 124
5.2 Struktur gleichmäßig minimaler Schätzer . . . . . . . . . . . . . . 141
x
Inhaltsverzeichnis
5.3
5.4
5.5
6
Unverfälschte Schätzer und konvexe Verlustfunktionen . . . . . .
5.3.1 Erwartungstreue Schätzer bei konvexer Verlustfunktion .
5.3.2 Unverfälschte Schätzer . . . . . . . . . . . . . . . . . . . .
Fisher-Information, Cramér-Rao-Schranken und Maximum-Likelihood-Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Momentenmethode und Methode der kleinsten Quadrate . . . . .
5.5.1 Die Momentenmethode . . . . . . . . . . . . . . . . . . .
5.5.2 Methode der kleinsten Quadrate . . . . . . . . . . . . . .
Testtheorie
6.1 Existenz optimaler Tests . . . . . . . . . . . . . . . . . . .
6.2 Konstruktion optimaler Tests (Neyman-Pearson-Theorie)
6.3 Zusammengesetzte Hypothesen . . . . . . . . . . . . . . .
6.4 Unverfälschte, ähnliche und bedingte Tests . . . . . . . .
6.5 Unverfälschte Tests in Linearen Modellen . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 148
. 148
. 151
.
.
.
.
156
170
171
173
181
. 182
. 189
. 197
. 214
. 224
7
Konfidenzbereiche
229
7.1 (Approximative) Konfidenzbereiche und Pivotstatistiken . . . . . . 230
7.2 Konfidenzbereiche und Tests . . . . . . . . . . . . . . . . . . . . . 240
8
Invarianz und Äquivarianz
8.1 Äquivariante Schätzer in Lokations- und
8.2 Invariante Testprobleme . . . . . . . . .
8.3 Der Satz von Hunt und Stein . . . . . .
8.4 Invariante Tests in Linearen Modellen .
9
Skalenfamilien
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Robuste Tests
9.1 Ungünstigste Paare und Kapazitäten . . . . . . . . . . . . . . . .
9.2 Umgebungsmodelle und robuste Tests . . . . . . . . . . . . . . .
9.3 Robuste Tests gegen Abhängigkeit . . . . . . . . . . . . . . . . .
10 Sequentielle Tests
.
.
.
.
249
250
267
276
283
297
. 298
. 308
. 314
317
11 Einführung in die asymptotische Statistik
337
11.1 Auswahl statistischer Verfahren . . . . . . . . . . . . . . . . . . . . 338
11.2 Dichteschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
12 Statistik für Zählprozesse und Martingalmethode
357
12.1 Zählprozesse auf R+ . . . . . . . . . . . . . . . . . . . . . . . . . . 358
12.2 Martingalschätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . 361
Inhaltsverzeichnis
xi
12.3 Konsistenz und asymptotische Normalität von Martingalschätzern 369
12.4 Verteilungsfreie Teststatistiken für Anpassungstests . . . . . . . . . 375
13 Quantile hedging
A
383
Anhang
391
A.1 Bedingte Erwartungswerte und bedingte Verteilungen . . . . . . . 391
A.2 Ergodensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397
A.3 Spieltheoretische Grundlagen . . . . . . . . . . . . . . . . . . . . . 398
Literaturverzeichnis
410
Sachverzeichnis
417
Kapitel 1
Einführung: Datenanalyse
und mathematische Statistik
Die explorative Datenanalyse (EDA) ist ein Teilgebiet der Statistik. Sie verfolgt die Aufgabe, in vorhandenen Daten Strukturen zu erkennen, Hypothesen über
Ursache und Grund der Daten zu bilden und Grundlagen für eingehendere statistische Modellbildung zu liefern. John W. Tukey hatte in den 1970er Jahren diese
Bedeutung der EDA als Kritik und Ergänzung zur (mathematischen) Statistik,
in der ein zu großes Gewicht auf das Auswerten und Testen von gegebenen Hypothesen gelegt wird, hervorgehoben. So ist neben den traditionellen statistischen
Analysen ein kreativer Impuls gesetzt worden, der mit dem Schlagwort Let the data
speak for themselves einen Anspruch auf eine bedeutsame und bisher vernachlässigte Aufgabe der Statistik erhob.
Mit der Entwicklung von geeigneten Softwarepaketen ist dieser Teil der
Statistik in vielen Anwendungsbereichen in den Vordergrund gerückt. Datenanalytische Verfahren wie z.B. Boxplots, Histogramme, QQ-Plots, Scatterplots und
Projection Pursuit sind zum Standard bei Anwendungen geworden und gehören
auch zum Repertoire des verwandten Data-Mining. Dessen Hauptaufgabenstellung und Ziel ist es, unter Verwendung von Verfahren der multivariaten Statistik neue Muster in großen Datenmengen zu entdecken. Der Fokus des machine
learning ist dagegen eher auf dem Entdecken bekannter Muster in vorhandenen
Datenmengen, z.B. dem Auffinden von Personenbildern im Internet.
Typische Aufgabenstellungen sind die Erkennung von Ausreißern in Datenmengen, die Gruppierung von Objekten nach Ähnlichkeiten (Clusteranalyse), die
Einteilung oder Einordnung in Klassen (Klassifikation), die Identifikation von
Zusammenhängen in Daten (Assoziationsanalyse) und spezifischer die Beschreibung von funktionalen Zusammenhängen in Datenmengen (Regressionsanalyse).
Allgemeines Ziel dieser Verfahren ist es, eine Reduktion der Datenmenge auf eine
kompaktere Beschreibung ohne wesentlichen Informationsverlust vorzunehmen. Die
oben genannten Verfahren können sowohl einen diagnostischen Charakter als auch
einen prognostischen Charakter tragen.
L. Rüschendorf, Mathematische Statistik, Springer-Lehrbuch Masterclass,
DOI 10.1007/978-3-642-41997-3_1, © Springer-Verlag Berlin Heidelberg 2014
2
1 Einführung: Datenanalyse und mathematische Statistik
Die mathematische Statistik basiert dagegen wesentlich auf der Modellierung eines Experimentes, einer Datenmenge durch ein statistisches Modell
(X, A, {Pϑ ; ϑ ∈ Θ}). Kernaufgaben sind die Modellwahl und Modellevaluation und
die begründete Konstruktion und Bewertung von statistischen Verfahren für Hypothesen über das Experiment. Standardaufgaben sind Test- und Schätzprobleme
sowie Konfidenzintervalle und Klassifikationsverfahren. Die besondere Qualität der
mathematischen Statistik besteht in der quantitativen Evaluation der angewendeten statistischen Verfahren. Diese ist nur möglich auf Grund des statistischen
Modells, das die Daten beschreibt. Sie ist auch nur so präzise möglich, wie es die
Modellbeschreibung des Experiments ist. Für viele grundlegende Aufgaben, z.B.
Medikamententests sind präzise Modellbeschreibungen vorhanden und ermöglichen
daher abgesicherte statistische Analysen. In komplexen Datensituationen, z.B. bei
Finanzdaten oder räumlichen Datenmustern, können auch intrinsische Verfahren
zur Abschätzung der Qualität einer Prognose oder eines Verfahrens der statistischen
Datenanalyse wie z.B. Bootstrapsimulationen verwendet werden. Eine zuverlässige
Einschätzung dieser Verfahren ist jedoch nur basierend auf Modellen möglich.
In allgemeiner Form besteht die Aufgabe der mathematischen Statistik darin, begründete Entscheidungen in Situationen unter Unsicherheit zu treffen. Dieser
Aspekt spiegelt sich in dem engen Zusammenhang der mathematischen Statistik
mit der statistischen Entscheidungstheorie und insbesondere mit der Spieltheorie. Für ein grundlegendes Verständnis statistischer Fragestellungen sind diese
Verbindungen fruchtbringend und machen auch einen Teil des Reizes der mathematischen Statistik aus.
1.1
Regressionsanalyse
Als Beispiel für ein datenanalytisches Verfahren behandeln wir in diesem Abschnitt
verschiedene Varianten von Regressionsverfahren.
1.1.1
Lineare Regression
Seien (x1 , y1 ), . . . , (xn , yn ) zweidimensionale Daten. Eine Regressionsgerade y =
bx + a beschreibt eine lineare Abhängigkeit der Messvariable y von der Einflussvariablen x, z.B. eine zeitliche Abhängigkeit.
Die Methode der kleinsten Quadrate bestimmt die Regressionsgerade
als Lösung des Minimierungsproblems:
S(a, b) :=
(yi − a − bxi )2 = min!
(1.1)
i=1
Mit der notwendigen Bedingung
n
∂S
= −2
(yi − a − bxi ) = 0
∂a
i=1
1.1 Regressionsanalyse
3
y = bx + a
y
a
x
Abbildung 1.1 Regressionsgerade
ergibt sich a = y n − bxn mit xn =
1
n
n
i=1
xi , yn =
1
n
n
i=1
yi . Weiter folgt aus
∂S
= −2
(yi − a − bxi )xi = 0
∂b
i=1
n
b
n
x2i =
i=1
n
xi yi − a
i=1
n
xi .
i=1
Einsetzen von a ergibt dann die Regressionsgerade:
n
i=1 xi yi − nxn y n
, a = y n − bxn .
y=
a + bx mit b = n
2
2
i=1 xi − nxn
Der Regressionskoeffizient b hat die alternative Darstellung
b = sx,y
s2x
(1.2)
(1.3)
mit der Stichprobenkovarianz
1 (xi − xn )(yi − y n )
n − 1 i=1
n
sx,y =
und der Stichprobenvarianz
1 (xi − xn )2 .
n − 1 i=1
n
s2x = sxx =
s
Die normierte Größe rx,y := sxx,y
sy heißt empirischer Korrelationskoeffizient.
Nach der Cauchy-Schwarz-Ungleichung gilt
−1 ≤ rx,y ≤ 1.
(1.4)
Ist rx,y ≈ 0 so sind die Daten annähernd linear unabhängig. Ist rx,y > 0 so ist
s
die Steigung b = rx,y sxy der Regressionsgeraden y = a + bx positiv, d.h. die Daten sind positiv linear abhängig; ist rx,y < 0, dann negativ linear abhängig. Für
4
1 Einführung: Datenanalyse und mathematische Statistik
rx,y ≈ 1 oder −1 konzentrieren sich die Daten stark in der Nähe der Regressionsgeraden. Die Regressionsgerade liefert dann eine recht präzise Beschreibung der
Datenmengen.
Ein Problem der Methode der kleinsten Quadrate zeigt die folgende Abbildung 1.2. Die Regressionsgerade ist nicht stabil. Ein einziger Ausreißerpunkt kann
die Lage der Regressionsgerade stark verändern.
Abbildung 1.2 Regressionsgerade − − − mit Zusatzpunkt ∗ im Vergleich zur
Regressionsgerade ohne Zusatzpunkt
Eine gegen Ausreißer stabile Version der Regressionsgerade wurde von Tukey
eingeführt. Dazu werden die x-Werte gleichmäßig in drei Gruppe (kleine, mittlere,
große) eingeteilt.
n
3l
3l + 1
3l + 2
kleine
l
l
l+1
mittlere
l
l+1
l
große
l
l
l+1
Bilde nun die Mediane x
L , x
M , x
R der x-Werte dieser Gruppen und yL ,
−
yL
yM , yR der y-Werte dieser Gruppen. Sei bT = xyR
xL der Anstieg der Geraden
R −
durch (
xL , yL ), (
xR , yR ) mit Achsenabschnitt aL = aR . Sei schließlich aM der
Achsenabschnitt der hierzu parallelen Gerade durch (
xM , yM ). Mit aT := 13 (aL +
aM + aR ) heißt dann
y = aT + b T x
(1.5)
Tukey-Gerade der Daten (x1 , y1 ), . . . , (xn , yn ). Für das Beispiel aus Abbildung
1.2 mit Ausreißerpunkt ∗ bleibt die Tukey-Gerade stabil (vgl. Abbildungen 1.3 und
1.4).
Die Abweichungen
ri = yi − a − bxi
(1.6)
1.1 Regressionsanalyse
5
Abbildung 1.3 Tukey-Gerade − − − im
Vergleich zur Regressionsgeraden
ohne Zusatzpunkt
Abbildung 1.4 Tukey-Gerade − − − mit
Zusatzpunkt ∗ im Vergleich zur
Tukey-Geraden ohne Zusatzpunkt
der Variable yi von den Werten der Regressionsgeraden heißen Residuen. Ist die
Datenmenge gut durch eine lineare Regression darstellbar, dann sollten die Residuen unsystematisch um Null variieren. Das folgende Bild der Residuen würde
deutlich gegen eine lineare Regression sprechen:
Residuen
Abbildung 1.5 Residuen
1.1.2
Nichtlineare Abhängigkeit
Sei y = f (a, b, c, x) eine nichtlineare Funktion einer Einflussvariablen x mit drei
Parametern a, b, c. Bei quadratischer Abhängigkeit ist z.B. y = a + bx + cx2 .
Die Regressionsfunktion f wird wieder nach der Methode der kleinsten Quadrate angepasst.
F (a, b, c) :=
n
(yi − f (a, b, c, xi ))2 = min!
a,b,c
i=1
(1.7)
Die zugehörigen kleinste Quadrategleichungen lauten dann
∂F
= 0,
∂a
∂F
= 0,
∂b
∂F
=0
∂c
(1.8)
6
1 Einführung: Datenanalyse und mathematische Statistik
und liefern Kandidaten a, b, c für die Lösung von (1.7) wie im Fall der linearen
Regression.
y = f (
a, b, c, x) heißt dann (nichtlineare) Regressionsfunktion für die
Daten (x1 , y1 , ), . . . , (xn , yn ).
y
x
Abbildung 1.6 quadratische Regression
1.1.3
Lineare Modelle
Liegen multivariate Einflussgrößen x = (x1 , . . . , xm ) ∈ Rm und multivariate Beobachtungsgrößen y = (y1 , . . . , yk ) ∈ Rk vor, dann heißt
y = b + Ax
(1.9)
ein lineares Modell mit der Designmatrix A = (aij ) ∈ Rk×m und b = (b1 , . . . , bk )
∈ Rk , d.h. es gilt
m
yi =
aij xj + bi , 1 ≤ i ≤ k.
(1.10)
j=1
Bei gegebenen Daten (y i , xi ), 1 ≤ i ≤ n lautet die Methode kleinster
Quadrate
n
F (A, b) :=
y i − (Axi + b)2 = min!
(1.11)
i=1
A,b
b dieser Gleichungen lassen sich explizit angeben (vgl. AbDie Lösungen A,
schnitt 8.4 über Gauß-Markov-Schätzer) und bestimmen die multivariate Regressionsgerade
+ b.
y = Ax
(1.12)
Einige Klassen nichtlinearer
Regressionsgeraden wie in Abschnitt 1.1.2 z.B.
Regressionen der Form y =
ai fi (x) + b lassen sich als Spezialfall des linearen
Modells (1.9) einordnen, indem als neue Einflussvariable zi = fi (x) gewählt werden.
1.1 Regressionsanalyse
1.1.4
7
Nichtparametrische Regression
Gesucht wird ein funktionaler Zusammenhang y = f (x) zwischen der Einflussvariablen x und der Beobachtungsvariablen y. Im Unterschied zu Abschnitt 1.1.2 ist f
jedoch nicht nur bis auf einige Parameter a, b, c, . . . bestimmt sondern gänzlich bis
auf evtl. qualitative Eigenschaften unbekannt. Ein vielfach verwendetes Verfahren
zur Bestimmung einer Regressionsfunktion f bei gegebener Datenmenge (xi , yi ),
1 ≤ i ≤ n, sind Kernschätzer. Sie basieren auf einem Kern k : R1 → R+ (im Falle
x ∈ R1 ) wie z.B. dem Histogramm-Kern k(y) = 12 1[−1,1] (y) oder dem Gauß1 2
kern k(y) = √12π e− 2 y . Durch einen reellen Parameter h > 0, die Bandweite,
lässt sich aus einem Kern k eine Klasse von Kernen erzeugen
1 y
.
(1.13)
kh (y) := k
h h
Damit erhalten wir nichtparametrische Regressionsschätzer
n
1
kh (x − xi )yi
.
(1.14)
f(x) = fh (x) = n1 i=1
n
i=1 kh (x − xi )
n
f(x) ist ein gewichteter Mittelwert der yi -Werte zu xi -Werten in der ‘Nähe‘
von x. Der Gewichtsfaktor kh (x − xi ) beschreibt den Einfluss der xi in der Nähe
von x. Die Nähe hängt einerseits vom Kern ab. Als gravierender stellt sich aber der
Einfluss der Bandweite h heraus. Für kleine Bandweiten h (h ↓ 0) wird nur über
kleine Umgebungen von x gemittelt, der Regressionsschätzer f(x) wird irregulärer
und passt sich mehr den Daten an, für große Bandweiten h wird f(x) glatter und
gibt eine ‘weitsichtigere‘ Interpolation der Daten (vgl. Abbildung 1.7).
Abbildung 1.7 Regressionsschätzer mit Bandweiten h = 0, 25 (· · · ), h = 0, 5 (− − −) und
h = 1 (—).
Für zu kleine Bandweiten h ist der Bias gering aber die Varianz von f(x) groß
und daher die Prognosefähigkeit von f in Frage gestellt, für zu große Bandweiten h
8
1 Einführung: Datenanalyse und mathematische Statistik
ist die Lage umgekehrt. Dieses ist das berühmte Bias-Varianz-Dilemma. Es lässt
sich am besten in einem stochastischen Modell für die Daten (xi , yi ) beschreiben.
Dann ist der Schätzfehler gegeben durch E(f(x)−f (x))2 . Dieser lässt sich in einem
Bias-Term und einen Varianz-Term zerlegen
E(f(x) − f (x))2 = E(f(x) − E f(x))2 + (E f(x) − f (x))2 .
(1.15)
Unter sehr allgemeinen Bedingungen an das stochastische Modell gilt für
n → ∞ und h = h(n) → 0, so dass n · h → ∞
E fh (x) −→ f (x),
h→0
(1.16)
d.h. der Bias-Term (E fh (x) − f (x))2 ist klein für (nicht zu) kleines h, aber der
Varianzterm E(fh (x) − E f(x))2 ist groß für kleines h. Umgekehrt ist für ‘große‘
Bandweite h der Varianzterm klein, dafür aber der Bias-Fehler groß.
Ein wichtiges Problem bei der Anwendung von nichtparametrischen Regressionsschätzern ist daher die Wahl einer geeigneten Bandweite h.
1.2
Mathematische Statistik –
Entscheidung unter Unsicherheit
Zentrale Aufgabe der mathematischen Statistik ist es, geeignete statistische Modelle
für ein Experiment zu konstruieren und zu evaluieren und basierend auf diesen
Modellen geeignete statistische Verfahren zu konstruieren und zu bewerten. Ziel
dieser Verfahren ist es, Entscheidungen unter Unsicherheit zu treffen und deren
Risiko zu beschreiben. Im Folgenden behandeln wir einige Beispiele, um die Vielfalt
dieser Fragestellung aufzuzeigen.
1.2.1
Ein Auswahlproblem
Zwei Zettel tragen die Zahlen x bzw. y und werden vermischt. Einem ‘Spieler‘
dem die Zahlen x und y nicht bekannt sind, wird ein Zettel (zufällig ausgewählt)
angeboten. Er kann den nun zufälligen Inhalt X dieses Zettels, P (X = x) = P (X =
y) = 12 , akzeptieren oder zu dem Angebot Y des anderen Zettels wechseln und muss
dann diesen akzeptieren. Sein Ziel ist es, mit möglichst großer Wahrscheinlichkeit
eine Entscheidung für die größere der beiden Zahlen zu treffen.
Eine natürliche Frage ist es, ob der Spieler eine Entscheidungsregel finden
kann, die ihm mit größerer Wahrscheinlichkeit als 12 , also bei zufälliger Auswahl,
basierend auf der Kenntnis von X den größeren Gewinn sichert.
Die Unsicherheit in diesem Entscheidungsproblem wird durch das statistische
Modell {Px,y ; x, y ∈ R, x = y} beschrieben mit Px,y ({X = x}) = Px,y ({X = y}) =
1
2 und Px,y ({Y = y | X = x}) = Px,y ({Y = x | X = y}) = 1. Es gilt auch
Px,y ({Y = x}) = Px,y ({Y = y}) = 12 .
1.2 Mathematische Statistik – Entscheidung unter Unsicherheit
9
Gibt es ein Entscheidungsverfahren d : R → {0, 1} mit d(X) = 0 Entscheidung für X, d(X) = 1 Entscheidung für Y , so dass die Erfolgswahrscheinlichkeit
Ed größer als 12 ist:
Ed = P (d(X) = 0, X > Y ) + P (d(X) = 1, X < Y )
1
> .
2
(1.17)
Es ist überraschend, dass die Antwort auf diese Frage positiv ist. Eine Lösung
basiert auf einem randomisierten Entscheidungsverfahren. Sei Z eine Zufallsvariable mit positiver Dichte f > 0 auf R, stochastisch unabhängig von X, Y ; z.B. sei
Z normalverteilt, Z ∼ N (μ, 1). Wir nennen Z eine ‘Splitvariable‘ und definieren
die Entscheidungsregel
1, x ≤ Z,
d(x) =
(1.18)
0, x > Z.
Dann gilt
Ed = P (d(X) = 1{Y ≥X} )
= P (X ≥ Z, X ≥ Y ) + P (X < Y, X < Z)
1
= (P (X, Y < Z) + P (X, Y ≥ Z)) + P (X < Z ≤ Y ) + P (Y < Z ≤ X)
2
1 1
= + (P (X < Z ≤ Y ) + P (Y < Z ≤ X)).
(1.19)
2 2
Es ist also
Ed −
1
1
= P (Z ist ein Split von X, Y ) > 0,
2
2
(1.20)
da Z eine überall positive Dichte hat. Für jede Splitstrategie ist also die Erfolgswahrscheinlichkeit größer als 12 . Hat man keine weiteren Informationen, so gibt es
keine Möglichkeit einen ‘guten‘ oder ‘optimalen‘ Split auszuwählen.
Hat man zusätzliche Informationen über die Verteilung von (X, Y ), so lässt
sich ein guter Split konstruieren und die Erfolgswahrscheinlichkeit vergrößern. Ist
der bedingte Median mx = med(Y | X = x) bekannt, dann ist Z = mX = med(Y |
X) ein optimaler Split. Es gilt für eine Entscheidungsregel d
Ed = P (d(X) = 1(Y ≥X) )
= P (d(X) = 1, Y ≥ X) + P (d(X) = 0, Y < X)
= (d(X)1(Y ≥X) + (1 − d(X))1(Y <X) dP
=
d(X)(1(Y ≥X) − 1(Y <X) )dP + P (Y < X)
=
d(x)(P (Y ≥ x | X = x) − P (Y < x | X = x))dP X (x) + P (Y < X).(1.21)
10
1 Einführung: Datenanalyse und mathematische Statistik
Es gilt:
P (Y ≥ x | X = x) − P (Y < x | X = x)
ist ≥ 0 wenn x ≤ mx und ≤ 0 wenn x > mx .
Daraus folgt, dass
1, für x ≤ mx ,
∗
d (x) =
0, für x > mx ,
(1.22)
eine optimale Entscheidungsfunktion ist, d.h. die Erfolgswahrscheinlichkeit
Ed∗ ist maximal.
Sind X, Y stochastisch unabhängig, ist P X = P Y = Q stetig und c = mX =
med(Q), dann gilt
3
Ed∗ = .
(1.23)
4
Mit Wahrscheinlichkeit 34 lässt sich die größere Zahl finden. Der Median Z =
med(Q) ist eine optimale Split-Variable. In der in diesem Beispiel vorliegenden
Entscheidungssituation unter Unsicherheit ist es möglich eine ‘optimale‘ Entscheidung zu treffen und Erfolgs-/Misserfolgswahrscheinlichkeit genau zu quantifizieren.
1.2.2
Zufällige Folgen
a) Musterverteilungen
Gegeben sei eine 0-1-Folge x1 , . . . , xn . Gesucht ist eine Entscheidungsverfahren um
festzustellen, ob die Folge zufällig erzeugt ist, d.h. die Realisierung eines Bernoulliexperiments P = ⊗ni=1 B(1, 12 ) ist. Die Idee eines solchen Testverfahrens ist es, zu
prüfen, ob geeignete Muster in x1 , . . . , xn in der Häufigkeit vorhanden ist, die man
in einer Bernoullifolge erwarten würde.
Bezeichne etwa Rn die Anzahl der Runs in der 0-1-Folge x1 , . . . , xn , d.h.
die Anzahl der Wechsel von 0- und 1-Sequenzen. Z.B. hat die Folge 1100010000110
eine Anzahl von 6 Runs. Die maximale Runlänge Mn ist 4. Ein geeigneter Test
zur Überprüfung der Hypothese, dass x1 , . . . , xn Realisierungen eines Bernoulliexperimentes sind ist es, die beobachteten Runzahlen rn und mn mit den Verteilungen
von Rn , Mn im Bernoulli-Fall zu vergleichen.
Wir betrachten z.B. die folgenden 0-1-Folgen x, y der Länge n = 36. Welche
der beiden Folgen ist zufällig erzeugt? Eine von ihnen stammt aus einem echten
Zufallsgenerator, die andere Folge ist z.B. eine ‘ausgedachte Zufallsfolge‘.
x = 111001100010010101000001001100001110
y = 101011010011000101100110010110101011
Um die zufällige Folge zu identifizieren bestimmen wir die maximalen Runlängen und die Anzahl der Runs, Mn (x) = 5, Rn (x) = 18, Mn (y) = 3, Rn (y) = 25.
Wir vergleichen diese mit der Verteilung von Rn , Mn unter der Hypothese. Die Verteilung der maximalen Runlänge Mn (vgl. Abbildung 1.8) und der Anzahl der Runs
Herunterladen