Folien zur Vorlesung Statistik II - wiwi.uni

Werbung
Folien zur Vorlesung
Statistik II
(Wahrscheinlichkeitsrechnung
und schließende Statistik)
Sommersemester 2011
Donnerstag, 10.15 - 11.45 Uhr (regelmäßig)
Montag, 30.05.2011, 10.15 - 11.45 Uhr (1. Zusatztermin)
Montag, 20.06.2011, 10.15 - 11.45 Uhr (2. Zusatztermin)
Hörsaal: Aula am Aasee
Prof. Dr. Bernd Wilfling
Westfälische Wilhelms-Universität Münster
Inhalt
1
1.1
1.2
Einleitung
Organisatorisches
Was ist ’Schließende Statistik’ ?
2
2.1
Zufallsvorgänge und Wahrscheinlichkeiten
Zufallsvorgänge und Ereignisse
2.2
2.3
2.4
Wahrscheinlichkeiten
Bedingte Wahrscheinlichkeit und Unabhängigkeit
Totale Wahrscheinlichkeit und das Bayes-Theorem
3
3.1
3.2
3.3
3.4
Zufallsvariable und Verteilungen
Grundbegriffe und Definitionen
Erwartungswert und Varianz einer Zufallsvariablen
Spezielle diskrete Verteilungen
Spezielle stetige Verteilungen
4
Gemeinsame Verteilung und Grenzwertsätze
4.1
4.2
Gemeinsame Verteilung von Zufallsvariablen
Grenzwertsätze
5
5.1
5.2
5.3
5.4
Stichproben und Statistiken
Zufallsstichprobe
Statistiken
Exkurs: χ2 - und t-Verteilung
Statistiken bei normalverteilter Stichprobe
6
6.1
6.2
6.3
Schätzverfahren für Parameter
Punktschätzung
Eigenschaften von Punktschätzern
Intervallschätzung
7
7.1
7.2
Hypothesentests
Grundbegriffe des Testens
Tests für Erwartungswerte
Tests für Varianzen
7.3
i
Literatur
Deutschsprachig:
Hartung, J. (2005). Statistik (14. Auflage). Oldenbourg Verlag, München.
Mosler, K. und F. Schmid (2008). Wahrscheinlichkeitsrechnung und schließende Statistik
(3. Auflage). Springer Verlag, Heidelberg.
Schira, J. (2009). Statistische Methoden der VWL und BWL – Theorie und Praxis (3. Auflage). Pearson Studium, München.
Englischsprachig:
Barrow, M. (2009). Statistics for Economics, Accounting and Business Studies (5th Edition). Prentice Hall, Singapore.
Mood, A.M., Graybill, F.A. and D.C. Boes (1974). Introduction to the Theory of Statistics
(3rd Edition). McGraw-Hill, Tokyo.
ii
1. Einleitung
1.1 Organisatorisches
Ziel der Vorlesung:
• Einführung in die
Wahrscheinlichkeitsrechnung
’schließende Statistik’
(auch: induktive Statistik)
1
Internet-Seite der Vorlesung:
• http://www1.wiwi.uni-muenster.de/oeew/
−→ Studium −→ Veranstaltungen im Sommersemester 2011
−→ Bachelor −→ Statistik II
Vorlesungsstil:
• Freier Vortrag anhand von Projektor-Folien
• Folien stehen als PDF-Dateien auf Internetseite zur Verfügung
(Beschaffung der Folien wird unbedingt empfohlen)
2
Literatur:
• Mosler, K. , Schmid, F. (2008). Wahrscheinlichkeitsrechnung und schließende Statistik (3. Auflage), Springer-Verlag
• Formelsammlung ”Definitionen, Formeln und Tabellen zur
Statistik” (6. Auflage) von Bomsdorf/Gröhn/Mosler/Schmid
(notwendiges Hilfsmittel, in der Klausur zugelassen)
3
Klausurvorbereitung:
• Stoff der Vorlesung
• Aufgaben der Tutoriums
Ansprechpartner: Frau Dipl.-Vw. Heike Bornewasser-Hermes
• Klausurtraining durch Ferienarbeitsgruppen
4
Zugelassene Hilfsmittel in der Klausur:
• Taschenrechner (nicht programmierbar)
• Formelsammlung ”Definitionen, Formeln und Tabellen zur
Statistik” von Bomsdorf/Gröhn/Mosler/Schmid, 6. (aktuelle
und frühere) Auflage(n)
Akzeptierte äußere Form für die Klausur:
– Zulässig sind nur Unter- bzw. Überstreichungen, Verweise
auf Seiten bzw. Nummern
– Nicht zulässig sind somit z.B. verbale Erläuterungen, mathematische Umformungen,
grafische Darstellungen
u.ä., die als Lösungshilfen für Klausuraufgaben angesehen werden können
5
Ansprechpartner:
• Frau Heike Bornewasser-Hermes
(Koordinatorin der Tutorien)
• Tutorinnen und Tutoren
(Adressen und Nummern: siehe Tutorien)
6
1.2 Was ist ’Schließende Statistik’ ?
Stoff der VL ’Statistik I’:
• Deskriptive Statistik
Ziel:
Beschreibung erhobener Daten x1, . . . , xn
Problem:
• Erhobene Daten x1, . . . , xn sind i.d.R. nur ’Stichprobe’
(keine Vollerhebung)
7
Deshalb Frage:
• Wie können (deskriptive) Ergebnisse für die Stichprobe zur
Beurteilung der (unbekannten) Grundgesamtheit genutzt werden?
Antwort:
• Mit Methoden der ’Schließenden Statistik’
Synonyme Bezeichnungen:
• Induktive Statistik
• Statistische Inferenz
8
Wesenszüge der schließenden Statistik:
• Schlussfolgerung von Stichprobe auf Grundgesamtheit
• Statistische Schlüsse sind nicht sicher, sondern gelten nur
mit ’bestimmter Wahrscheinlichkeit’
−→ Unbedingtes Erfordernis:
Beschäftigung mit Wahrscheinlichkeitsrechnung
9
Zwischenfazit:
• Schließende Statistik
überträgt Stichprobenergebnisse auf GG
basiert auf Wahrscheinlichkeitsrechnung
Man beachte: Wahrscheinlichkeitsrechnung
• ist mehr als Grundlage der schließeden Statistik
• hat enorme eigenständige ökonomische Bedeutung z.B. in
Mikroökonomik
Investition und Finanzierung
Portfoliotheorie
10
Praktische Anwendungen der schließenden Statistik
Beispiel 1: (Qualitätskontrolle):
• Unternehmen produziert 5000 Glühbirnen pro Tag
• Frage:
Wie hoch ist der Anteil p defekter Glühbirnen in der Tagesproduktion?
• Statistisches Problem:
Schätzen des Anteils p aufgrund einer Stichprobe
11
Beispiel 2: (Ausgabenplanung des Staates):
• Wichtigste Einnahmequelle des Staates: Steuern
• Problem:
Für Ausgabenplanung sind Steuereinnahmen zu schätzen
(Steuereinnahmen sind aufgrund von Erhebungsproblemen
lange Zeit unbekannt)
• Statistisches Problem:
Angabe eines (möglichst engen) Intervalls, das den tatsächlichen unbekannten Wert der Steuereinnahmen mit
’hoher’ Wahrscheinlichkeit überdeckt
12
Beispiel 3: (Effizienz von Werbung) [I]
• Einfluss von Werbemaßnahmen auf den Absatz von 84 USUnternehmen
(vgl. Statistik I)
• Statistisches Modell (Y = Absatz, X = Werbeausgaben)
yi = α + β · xi + ui
(α, β unbekannte Parameter, ui Fehler)
13
Stichprobenergebnisse für 84 Unternehmen
Schätzung: Absatz = 502.92 + 0.218 * Werbeausgaben
Absatz in Mill. US-$
560
540
520
500
480
0
20
40
60
80
100
Werbeausgaben in Mill. US-$
14
Beispiel 3: (Effizienz von Werbung) [II]
• Eine mögliche Schätzung von α, β über KQ-Methode:
a = 502.9174,
b = 0.2183
• Statistische Fragen:
Sind die KQ-Werte a, b ’zuverlässige’ Schätzwerte für die
(unbekannten) tatsächlichen Parameter α, β?
Ist der wahre unbekannte Steigungsparameter β wirklich
von Null verschieden, d.h. gilt
β=0
oder
β 6= 0?
(Im Falle von β = 0 hätten Werbeausgaben keinen Einfluss auf den Absatz)
15
Fazit:
• Grundlegende Aufgaben der schließenden Statistik:
Punktschätzungen von unbekannten Parametern
Intervallschätzungen von unbekannten Parametern
Testen von Hypothesen über unbekannte Parameter
16
2. Zufallsvorgänge und Wahrscheinlichkeiten
Ziel des Kapitels:
• Einführung elementarer Begriffe der Wahrscheinlichkeitsrechnung (definitorisch)
Ziel der Wahrscheinlichkeitsrechnung:
• Modellierung von zufälligen Vorgängen, wie z.B.
(zukünftiger) Umsatz eines Unternehmens
(zukünftige) Rendite einer Kapitalanlage
(zukünftige) Wachstumsraten einer VW
(zukünftige) Arbeitslosenquote
17
Zu präzisierende Begriffe:
• Zufallsvorgang, Zufallsexperiment
• (Zufalls)Ereignis, Wahrscheinlichkeit
Mathematische Hilfsmittel:
• Mengenlehre, Kombinatorik
• Analysis (Differential-, Integralrechnung)
18
2.1 Zufallsvorgänge und Ereignisse
Definition 2.1: (Zufallsvorgang, Zufallsexperiment)
Unter einem Zufallsvorgang verstehen wir einen Vorgang, bei
dem
(a) im Voraus feststeht, welche möglichen Ausgänge dieser theoretisch haben kann,
(b) der sich einstellende, tatsächliche Ausgang im Voraus jedoch
unbekannt ist.
Zufallsvorgänge, die geplant sind und kontrolliert ablaufen, heißen
Zufallsexperimente.
19
Beispiele für Zufallsexperimente:
• Ziehung der Lottozahlen
• Roulette, Münzwurf, Würfelwurf
• ’Technische Versuche’
(Härtetest von Stahlproben etc.)
In der VWL:
• Oft keine Zufallsexperimente
(historische Daten, Bedingungen nicht kontrollierbar)
• Moderne VWL-Disziplin: ’Experimentelle Ökonomik’
20
Definition 2.2: (Ergebnis, Ergebnismenge)
Die Menge aller möglichen Ausgänge eines Zufallsvorgangs heißt
Ergebnismenge und wird mit Ω bezeichnet. Ein einzelnes Element ω ∈ Ω heißt Ergebnis. Wir notieren die Anzahl aller Elemente von Ω (d.h. die Anzahl aller Ergebnisse) mit |Ω|.
Beispiele: [I]
• Zufallsvorgang ’Werfen eines Würfels’:
Ω = {1, 2, 3, 4, 5, 6}
• Zufallsvorgang ’Werfen einer Münze solange, bis Kopf erscheint’:
Ω = {K, ZK, ZZK, ZZZK, ZZZZK, . . .}
21
Beispiele: [II]
• Zufallsvorgang ’Bestimmung des morgigen Wechselkurses
zwischen Euro und US-$’:
Ω = [0, ∞)
Offensichtlich:
• Die Anzahl der Elemente von Ω kann endlich, abzählbar unendlich oder nicht abzählbar unendlich sein
Jetzt:
• Mengentheoretische Definition des Begriffes ’Ereignis’
22
Definition 2.3: (Ereignis)
Unter einem Ereignis verstehen wir eine Zusammenfassung von
Ergebnissen eines Zufallsvorgangs, d.h. ein Ereignis ist eine Teilmenge der Ergebnismenge Ω. Man sagt ’Das Ereignis A tritt
ein’, wenn der Zufallsvorgang ein ω ∈ A als Ergebnis hat.
Bemerkungen: [I]
• Notation von Ereignissen: A, B, C, . . . oder A1, A2, . . .
• A = Ω heißt das sichere Ereignis
(denn für jedes Ergebnis ω gilt: ω ∈ A)
23
Bemerkungen: [II]
• A = ∅ (leere Menge) heißt das unmögliche Ereignis
(denn für jedes ω gilt: ω ∈
/ A)
• Falls das Ereignis A eine Teilmenge des Ereignisses B ist
(A ⊂ B), so sagt man: ’Das Eintreten von A impliziert das
Eintreten von B’
(denn für jedes ω ∈ A folgt ω ∈ B)
Offensichtlich:
• Ereignisse sind Mengen
−→ Anwendung von Mengenoperationen auf Ereignisse ist sinnvoll
24
Ereignisverknüpfungen (Mengenoperationen): [I]
• Durchschnittsereignis (-menge):
C = A ∩ B tritt ein, wenn A und B eintreten
• Vereinigungsereignis (-menge):
C = A ∪ B tritt ein, wenn A oder B eintritt
• Differenzereignis (-menge):
C = A\B tritt ein, wenn A eintritt, aber B nicht
25
Ereignisverknüpfungen (Mengenoperationen): [II]
• Komplementärereignis:
C = Ω\A ≡ A tritt ein, wenn A nicht eintritt
• Die Ereignisse A und B heißen unvereinbar oder disjunkt,
wenn A ∩ B = ∅
(beide Ereignisse können nicht gleichzeitig eintreten)
Jetzt:
• Übertragung der Konzepte von 2 auf n Mengen A1, . . . , An
26
Ereignisverknüpfungen: [I]
• Durchschnittsereignis:
n
T
i=1
Ai tritt ein, wenn alle Ai eintreten
• Vereinigungsereignis:
n
S
i=1
Ai tritt ein, wenn mindestens ein Ai eintritt
27
Ereignisverknüpfungen: [II]
• Die Mengen A1, . . . , An heißen Partition (oder vollständige
Zerlegung) von Ω, falls gilt:
n
[
Ai = Ω
i=1
Ai ∩ Aj = ∅
Ai =
6
∅
6 j
für alle i =
für alle i
28
Wichtige Rechenregeln für Mengen (Ereignisse):
• Kommutativ-, Assoziativ-, Distributivgesetze
• De Morgansche Regeln:
A∪B =A∩B
A∩B =A∪B
29
2.2 Wahrscheinlichkeiten
Ziel:
• Jedem Ereignis A soll eine Zahl P (A) zugeordnet werden,
welche die Wahrscheinlichkeit für das Eintreten von A repräsentiert
• Formal:
P : A −→ P (A)
Frage:
• Welche Eigenschaften sollte die Zuordnung (Mengenfunktion) P besitzen?
30
Definition 2.4: (Kolmogorov’sche Axiome)
Die folgenden 3 Mindestanforderungen an P werden als Kolmogorov’sche Axiome bezeichnet:
• Nichtnegativität: Für alle A soll gelten: P (A) ≥ 0
• Normierung: P (Ω) = 1
• Additivität: Für zwei disjunkte Ereignisse A und B (d.h. für
A ∩ B = ∅) soll gelten:
P (A ∪ B) = P (A) + P (B)
31
Es ist leicht zu zeigen:
• Die 3 Kolmogorov’schen Axiome implizieren bestimmte Eigenschaften und Rechenregeln für Wahrscheinlichkeiten von
Ereignissen
32
Satz 2.5: (Eigenschaften von Wahrscheinlichkeiten)
Aus den Kolmogorov’schen Axiomen ergeben sich folgende Eigenschaften für die Wahrscheinlichkeit beliebiger Ereignisse:
• Wahrscheinlichkeit des Komplimentärereignisses:
P (A) = 1 − P (A)
• Wahrscheinlichkeit des unmöglichen Ereignissses:
P (∅) = 0
• Wertebereich der Wahrscheinlichkeit:
0 ≤ P (A) ≤ 1
33
Satz 2.6: (Rechenregeln für Wahrscheinlichkeiten) [I]
Aus den Kolmogorov’schen Axiomen ergeben sich die folgenden
Rechenregeln für die Wahrscheinlichkeit von beliebigen Ereignissen A, B, C:
• Additionssatz für Wahrscheinlichkeiten:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
(Wahrscheinlichkeit, dass A oder B eintritt)
• Additionssatz für 3 Ereignisse:
P (A ∪ B ∪ C) = P (A) + P (B) + P (C)
−P (A ∩ B) − P (B ∩ C)
−P (A ∩ C) + P (A ∩ B ∩ C)
(Wahrscheinlichkeit, dass A oder B oder C eintritt)
34
Satz 2.6: (Rechenregeln für Wahrscheinlichkeiten) [II]
• Wahrscheinlichkeit des Differenzereignisses:
P (A\B) = P (A ∩ B)
= P (A) − P (A ∩ B)
Man beachte:
• Wenn das Ereignis B das Ereignis A impliziert (d.h.
wenn B ⊂ A gilt), dann folgt
P (A\B) = P (A) − P (B)
35
Beispiel: [I]
• In einer Stadt erscheinen 2 Lokalzeitungen, die Morgenpost
und der Stadtspiegel. Die Wahrscheinlichkeit, dass ein Bewohner der Stadt
die Morgenpost liest (Ereignis A) sei 0.6,
den Stadtspiegel liest (Ereignis B) sei 0.5,
die Morgenpost oder den Stadtspiegel liest sei 0.9
36
Beispiel: [II]
• Die Wskt., dass jemand beide Blätter liest, beträgt
P (A ∩ B) = P (A) + P (B) − P (A ∪ B)
= 0.6 + 0.5 − 0.9 = 0.2
• Die Wskt., dass jemand kein Blatt liest, beträgt
P (A ∪ B) = 1 − P (A ∪ B)
= 1 − 0.9 = 0.1
• Die Wskt., dass jemand genau eines der beiden Blätter liest,
beträgt
P ((A ∪ B)\(A ∩ B)) = P (A ∪ B) − P (A ∩ B)
= 0.9 − 0.2 = 0.7
37
Bisher:
• Formale Anforderungen an Wahrscheinlichkeiten
−→ Eigenschaften und grundlegende Rechenregeln
Noch ungeklärt:
• Wie wird eine explizite Wskt. für ein bestimmtes Ereignis A
überhaupt festgelegt?
Verschiedene Wahrscheinlichkeitsbegriffe:
• Klassische Wahrscheinlichkeit (Laplace-Experiment)
• Statistische Wahrscheinlichkeit (Häufigkeitstheorie)
• Subjektive Wahrscheinlichkeit (durch Experimente)
38
Zentraler Begriff der VL:
• Der Laplace-sche Wahrscheinlichkeitsbegriff:
Pierre-Simon Marquis de Laplace, 1812:
Wenn ein Experiment eine Anzahl verschiedener und
gleich möglicher Ausgänge hervorbringen kann und einige
davon als günstig anzusehen sind, dann ist die Wahrscheinlichkeit eines günstigen Ausgangs gleich dem Verhältnis der Anzahl der günstigen zur Anzahl der möglichen
Ausgänge.
39
Offensichtlich:
• Dem Laplace-schen Wahrscheinlichkeitsbegriff liegt die Vorstellung eines Zufallsexperimentes zugrunde, bei dem die Ergebnismenge Ω aus n Ergebnissen ω1, . . . , ωn besteht, die alle
die gleiche Eintrittswahrscheinlichkeit 1/n aufweisen
Jetzt:
• Formale Definition
40
Definition 2.7: (Laplace-Experiment, -Wahrscheinlichkeit)
Ein Zufallsexperiment heißt Laplace-Experiment, wenn die Ergebnismenge Ω aus n Ergebnissen besteht (d.h. Ω = {ω1, . . . , ωn})
und jedes Ergebnis ωi die gleiche Wahrscheinlichkeit 1/n besitzt,
d.h.
1
P ({ωi}) =
für alle i = 1, . . . , n.
n
Die Laplace-Wahrscheinlichkeit eines Ereignisses A ⊂ Ω ist dann
definiert als
Anzahl der Elemente von A
|A|
|A|
P (A) =
=
=
.
Anzahl der Elemente von Ω
|Ω|
n
41
Offensichtlich:
• Laplace-Wahrscheinlichkeit erfüllt die Kolmogorov’schen Axiome (Definition 2.4), denn
P (A) ≥ 0
P (Ω) = n
n=1
Für die Ereignisse A, B mit A ∩ B = ∅ gilt:
|A| + |B|
|A|
|B|
=
+
= P (A) + P (B)
P (A ∪ B) =
n
n
n
42
’Fairer’ Würfelwurf als Beispiel für Laplace-Experiment:
• Es ist:
Es gilt:
Ω = {ω1, ω2, ω3, ω4, ω5, ω6} = {1, 2, 3, 4, 5, 6}
1
P ({ωi}) =
6
für alle i = 1, . . . , 6
• Laplace-Wahrscheinlichkeit für das Ereignis A = ’Würfeln
einer geraden Zahl’
Es ist:
A = {2, 4, 6}
−→ Laplace-Wahrscheinlichkeit:
P (A) = |A|/|Ω| = 3/6 = 0.5
43
Offensichtlich:
• Laplace-Wahrscheinlichkeit erfordert Berechnung von Anzahlen
Mathematische Technik hierfür:
• Kombinatorik
Einige grundsätzliche Fragen der Kombinatorik:
• Wie Möglichkeiten gibt es, bestimmte Objekte anzuordnen?
• Wie viele Möglichkeiten gibt es, bestimmte Objekte aus einer
Menge auszuwählen?
44
Mathematische Werkzeuge der Kombinatorik:
• Fakultät
• Binomialkoeffizient
Zunächst:
• Definitionen von Fakultät und Binomialkoeffizient
45
Definition 2.8: (Fakultät)
Es sei n ∈ N eine natürliche Zahl. Unter der Fakultät von n,
in Zeichen n!, versteht man das Produkt der natürlichen Zahlen
von 1 bis n, d.h.
n! = 1 · 2 · . . . · n.
Für n = 0 wird die Fakultät definitorisch festgelegt als
0! = 1.
Beispiele:
• 2! = 1 · 2 = 2
• 5! = 1 · 2 · . . . · 5 = 120
• 10! = 1 · 2 · . . . · 10 = 3628800
46
Offensichtlich:
• Fakultäten wachsen sehr schnell an
Definition 2.9: (Binomialkoeffizient)
Es seien n, k ∈ N zwei natürliche Zahlen mit n > 0, k ≥ 0 und
n ≥ k. Unter dem Binomialkoeffizienten, gesprochen als ’n über
k’, versteht man den Ausdruck
n‘
n!
=
k
k! · (n − k)!
47
Beispiele:
• ’Einfaches Rechenbeispiel’:
3‘
2
=
3!
6
=
=3
2! · (3 − 2)!
2·1
• ’Komplizierteres Rechenbeispiel’:
9‘
9!
1·2·3·4·5·6·7·8·9
6·7·8·9
=
=
=
= 126
4
4! · 5!
1·2·3·4·1·2·3·4·5
1·2·3·4
• ’Formales Beispiel’:
n‘
 n ‘
n!
n!
=
=
=
k
k! · (n − k)!
(n − k)! · (n − (n − k))!
n−k
48
Jetzt:
• Inhaltliche (kombinatorische) Bedeutung von Fakultät und
Binomialkoeffizient für die Bestimmung der Anzahl von Anordnungs- bzw. Auswahlmöglichkeiten
−→ Bestimmung von Laplace-Wahrscheinlichkeiten
Zunächst Fundamentalprinzip der Kombinatorik:
• Wenn ein erster Sachverhalt auf n1 Arten erfüllt werden kann
und ein zweiter Sachverhalt unabhängig davon auf n2 Arten,
so ist die Gesamtzahl der Möglichkeiten, gleichzeitig beide
Sachverhalte zu erfüllen, gerade gleich dem Produkt n1 · n2
49
Beispiel:
• Ein Fußballtrainer hat für den Posten des Torwarts 3 Kandidaten und für die Besetzung des Mittelstürmers 4 (andere) Kandidaten zur Auswahl. Insgesamt kann er also das
Mannschaftsgespann (Torwart, Mittelstürmer) auf 3 · 4 = 12
Arten besetzen
Verallgemeinerung:
• Gegeben seien k Sachverhalte, die unabhängig voneinander
auf jeweils n1, n2, . . . , nk Arten erfüllt werden können
−→ Anzahl der Möglichkeiten, die k Sachverhalte gleichzeitig
zu erfüllen, beträgt
n1 · n2 . . . · nk
50
Spezialfall:
• n1 = n2 = . . . = nk ≡ n
−→ Anzahl der Möglichkeiten, die k Sachverhalte gleichzeitig
zu erfüllen, beträgt
k
=
n
·
n1 · n2 . . . · nk = n
·
n
·
.
.
.
n
{z
}
|
k mal
Beispiel:
• Wie viele Autokennzeichen kann die Stadt Münster vergeben,
wenn nach dem Stadtkürzel ’MS’ 1 oder 2 Buchstaben und
eine 1 bis 3 stellige Zahl vergeben wird?
Lösung:
27 · 26 · 10 · 10 · 10 = 702000
51
Zwischenfazit:
• Die Bestimmung von Laplace-Wahrscheinlichkeiten erfordert
die Bestimmung von Anzahlen. Die Kombinatorik liefert
Methoden zur Berechnung
der Anzahlen möglicher Anordnungen von Objekten (Permutationen)
der Möglichkeiten, Objekte aus einer vorgegebenen Menge
auszuwählen (Variationen, Kombinationen)
52
Definition 2.10: (Permutation)
Gegeben sei eine Menge mit n Elementen. Jede Anordnung all
dieser Elemente in irgendeiner Reihenfolge heißt eine Permutation dieser n Elemente.
Beispiel:
• Aus der Menge {a, b, c} lassen sich die folgenden 6 Permutationen bilden:
abc
bac
cab
acb
bca
cba
Allgemein gilt:
• Die Anzahl aller Permutationen von n verschiedenen Objekten beträgt
n · (n − 1) · (n − 2) · . . . · 1 = n!
53
Jetzt:
• Von den n Objekten sollen nicht alle verschieden sein. Vielmehr sollen sich die n Objekte in J Kategorien aufteilen mit
den Kategorienanzahlen n1 (z.B. Anzahl weiße Kugeln), n2
(Anzahl rote Kugeln) bis nJ (Anzahl schwarze Kugeln)
Es gilt:
• n = n1 + n2 + . . . + nJ
• Die Anzahl aller Permutationen der n Objekte ist gegeben
durch
n!
n1! · n2! · . . . · nJ !
54
Bemerkungen:
• Die Anordnungen, bei denen Objekte der gleichen Art permutiert werden, sind nicht unterscheidbar
• Sind alle n Objekte verschieden, so ist die Anzahl aller möglichen Permutationen gleich n! (vgl. Folie 54)
Beispiel:
• Die Anzahl der Permutationen der n = 9 Buchstaben des
Wortes STATISTIK beträgt
9!
= 15120
2! · 3! · 1! · 2! · 1!
55
Jetzt:
• Auswahl von Objekten aus einer vorgegebenen Menge
Definition 2.11: (Kombination)
Gegeben sei eine Menge mit n unterscheidbaren Elementen (z.B.
Kugeln mit den Nummern 1, 2, . . . , n). Jede Zusammenstellung
(bzw. Auswahl) von k Elementen aus dieser Menge heißt Kombination der Ordnung k.
56
Unterscheidungsmerkmale von Kombinationen:
• Berücksichtigung der Auswahl-Reihenfolge
Ja −→ Kombination wird Variation genannt
Nein −→ Keine besond. Bezeichnung (Kombination)
• Auswahl mit oder ohne Zurücklegen
Insgesamt also 4 alternative Fälle:
• Variationen mit Zurücklegen
• Variationen ohne Zurücklegen
• Kombinationen ohne Zurücklegen
• Kombinationen mit Zurücklegen
57
1. Fall: Variationen mit Zurücklegen
Beim Ziehen mit Zurücklegen unter Berücksichtigung der Reihenfolge gibt es nach dem Fundamentalprinzip der Kombinatorik
k
|n · n ·{z. . . · n} = n
k Faktoren
verschiedene Möglichkeiten
Beispiel:
• Ein ’fairer’ Würfel werde 4 mal hintereinander geworfen und
das Ergebnis in einer 4-Sequenz notiert (z.B. 1, 5, 1, 2). Die
Anzahl aller möglichen Ergebnissequenzen beträgt
· 6 · 6} = 64 = 1296
|6 · 6{z
4 Würfe
58
2. Fall: Variationen ohne Zurücklegen
Beim Ziehen ohne Zurücklegen unter Berücksichtigung der Reihenfolge gibt es nach dem Fundamentalprinzip der Kombinatorik
n!
· . . . · (n − k + 1)} =
n · (n − 1) · (n − 2)
|
{z
(n − k)!
k Faktoren
verschiedene Möglichkeiten (k ≤ n)
Beispiel:
• Im olympischen Finale eines 100-Meter-Laufes starten 8 Teilnehmer. Die Anzahl der verschiedenen Kombinationen für
Gold, Silber und Bronze beträgt
8!
= 8 · 7 · 6 = 336
(8 − 3)!
59
3. Fall: Kombinationen ohne Zurücklegen
Beim Ziehen ohne Zurücklegen ohne Berücksichtigung der Reihenfolge ist die Anzahl der verschiedenen Kombinationen gleich
der Anzahl der Möglichkeiten, aus einer Menge vom Umfang n
eine Teilmenge vom Umfang k (k ≤ n) zu entnehmen. Die Anzahl dieser Möglichkeiten beträgt
n‘
n!
=
k
k! · (n − k)!
(Binomialkoeffizient, vgl. Definition 2.9, Folie 47)
60
Begründung:
• Betrachte die Formel für Variationen ohne Zurücklegen aus
Fall 2. Die dort bestimmte Anzahl n!/(n − k)! muss nun
noch durch k! dividiert werden, da es in jeder Menge mit k
Elementen auf die Reihenfolge der Elemente nicht ankommt
Beispiel:
• Ziehung der Lotto-Zahlen ’6 aus 49’. Anzahl der möglichen
Kombinationen beträgt:
49‘
6
= 13983816
61
4. Fall: Kombinationen mit Zurücklegen
Beim Ziehen mit Zurücklegen ohne Berücksichtigung der Reihenfolge beträgt die Anzahl der verschiedenen Kombinationen
n + k − 1‘
n + k − 1‘
(n + k − 1)!
=
=
n−1
(n − 1)! · k!
k
(Binomialkoeffizient, vgl. Definition 2.9, Folie 47)
Begründung:
• Etwas technisch, vgl. eines der angegebenen Standardlehrbücher, z.B. Mosler / Schmid (2008)
62
Beispiel: (Häufungswahl)
• Bei einer Wahl stehen 10 Kandidaten zur Auswahl. Ein
Wähler hat 3 Stimmen und das Recht, bei einem Kandidaten
mehr als 1 Kreuz zu machen. Die Anzahl der Möglichkeiten
Kreuze zu setzen beträgt somit
10 + 3 − 1‘
3
=
12‘
3
= 220
63
Überblick Kombinationen
Anzahl der Möglichkeiten,
aus n verschiedenen Objekten k auszuwählen
ohne
Berücksichtigung
der Reihenfolge
(Kombinationen)
mit
Berücksichtigung
der Reihenfolge
(Variationen)
ohne Zurücklegen
n‘
k
n!
(n − k)!
mit Zurücklegen
n + k − 1‘
nk
k
64
Beispiel für die Berechnung einer Laplace-Wskt: [I]
• Wskt. für ’4 Richtige im Lotto’
• Zunächst: Anzahl aller möglichen Kombinationen beträgt
49‘
6
= 13983816
• Jetzt gesucht: Anzahl von Kombinationen, die einen Vierer
darstellen
• Für einen Vierer müssen 4 von den 6 Richtigen und gleichzeitig 2 von den 43 Falschen zusammenkommen
65
Beispiel für die Berechnung einer Laplace-Wskt: [II]
• Nach dem Fundamentalprinzip der Kombinatorik ergeben sich
6‘ 43‘
= 15 · 903 = 13545
·
4
2
verschiedene Viererkombinationen
−→ Hieraus folgt für die Laplace-Wahrscheinlichkeit:
13545
P (’4 Richtige im Lotto’) =
= 0.0009686
13983816
66
2.3 Bedingte Wahrscheinlichkeiten und Unabhängigkeit
Jetzt:
• Berechnung von Wahrscheinlichkeiten unter Zusatzinformationen
Genauer:
• Berechnung der Wahrscheinlichkeit des Ereignisses A, wenn
bekannt ist, dass ein anderes Ereignis B bereits eingetreten
ist
67
Beispiel:
• Betrachte ’fairen Würfelwurf’
• Ereignis A: Würfeln der ’6’. Es gilt zunächst
P (A) = 1/6
• Ereignis B: ’Würfeln einer geraden Zahl’ soll bereits eingetreten sein (Vorinformation)
−→ Wskt. von A unter der Bedingung B ist
P (A|B) = 1/3
• Grund:
Müssen zur Berechnung der Wskt. von A nur noch die Ergebnisse {2}, {4}, {6} aus B betrachten
68
Andererseits:
• Betrachte Ereignis C: Würfeln der ’3’
• Offensichtlich gilt:
P (C|B) = 0
• Grund: Ereignisse B und C können nicht gemeinsam eintreten, d.h. P (B ∩ C) = 0
Frage:
• Wie kommt man mathematisch zur bedingten Wskt.
P (A|B) = 1/3
69
Antwort:
• Indem man die Wskt. des gemeinsamen Eintretens von A
und B (d.h. von A ∩ B) zur Wskt. des Eintretens von B in
Beziehung setzt
Definition 2.12: (Bedingte Wahrscheinlichkeit)
Es seien A und B zwei Ereignisse, wobei P (B) > 0 gelten soll. Die
Wahrscheinlichkeit für das Eintreten von A unter der Bedingung,
dass B bereits eingetreten ist, kurz: die bedingte Wahrscheinlichkeit von A unter der Bedingung B, ist definiert als
P (A|B) =
P (A ∩ B)
.
P (B)
70
Beispiel 1 (Fairer Würfelwurf):
• A: Würfeln der ’6’, d.h. A = {6}
• B: Würfeln einer geraden Zahl, d.h. B = {2, 4, 6}
−→ A ∩ B = {6}
−→ P (A|B) =
P ({6})
1/6
P (A ∩ B)
1
=
=
=
P (B)
P ({2, 4, 6})
3/6
3
71
Beispiel 2 (2-facher fairer Würfelwurf): [I]
• Ein Würfel werde zweimal geworfen und das Ergebnis in einer
2-Sequenz notiert. Wie groß ist die Laplace-Wahrscheinlichkeit, dass in einer der beiden Würfe eine 6 fällt unter der
Bedingung, dass die Augensumme der beiden Würfe größer
als 9 ist?
• Mögliche Ergebnisse des Experimentes:
(1, 1)
(2, 1)
(3, 1)
(4, 1)
(5, 1)
(6, 1)
(1, 2)
(2, 2)
(3, 2)
(4, 2)
(5, 2)
(6, 2)
(1, 3)
(2, 3)
(3, 3)
(4, 3)
(5, 3)
(6, 3)
(1, 4)
(2, 4)
(3, 4)
(4, 4)
(5, 4)
(6, 4)
(1, 5)
(2, 5)
(3, 5)
(4, 5)
(5, 5)
(6, 5)
(1, 6)
(2, 6)
(3, 6)
(4, 6)
(5, 6)
(6, 6)
72
Beispiel 2 (2-facher fairer Würfelwurf): [II]
• A = ’mindestens eine 6’, d.h.
A = {(6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6),
(1, 6), (2, 6), (3, 6), (4, 6), (5, 6)}
• B = ’Augensumme > 9’, d.h.
B = {(6, 4), (6, 5), (6, 6), (5, 5), (5, 6), (4, 6)}
• Somit gilt
6
1
P (B) =
=
36
6
73
Beispiel 2 (2-facher fairer Würfelwurf): [III]
• Der Schnitt ergibt sich zu
A ∩ B = {(6, 4), (6, 5), (6, 6), (5, 6), (4, 6)}
• Somit gilt
P (A ∩ B) =
5
36
• Für die bedingte Wahrscheinlichkeit ergibt sich:
P (A|B) =
5
5/36
P (A ∩ B)
=
=
P (B)
6/36
6
74
Jetzt verallgemeinerte Sichtweise:
• Betrachte die bedingte Wskt. P (A|B) für beliebige Ereignisse
A ⊂ Ω (in Zeichen: P (·|B))
Es gilt:
• Die bedingte Wskt. P (·|B) erfüllt die Kolmogorov’schen Axiome (vgl. Definition 2.4, Folie 31)
Beweis: [I]
• Für jedes A gilt:
P (A ∩ B)
P (A|B) =
≥0
P (B)
75
Beweis: [II]
• Für das sichere Ereignis Ω gilt:
P (Ω|B) =
P (Ω ∩ B)
P (B)
=
=1
P (B)
P (B)
• Für A1 ∩ A2 = ∅ gilt:
P ((A1 ∪ A2) ∩ B)
P (A1 ∪ A2|B) =
P (B)
P ((A1 ∩ B) ∪ (A2 ∩ B))
=
P (B)
P (A2 ∩ B)
P (A1 ∩ B)
=
+
P (B)
P (B)
= P (A1|B) + P (A2|B)
76
Konsequenz:
• Die aus den Kolmogorov’schen Axiomen folgenden Rechenreglen für Wahrscheinlichkeiten gelten weiter, z.B.
P (A|B) = 1 − P (A|B)
P (∅|B) = 0
0 ≤ P (A|B) ≤ 1
P (A1 ∪ A2|B) = P (A1|B) + P (A2|B) − P (A1 ∩ A2|B)
...
77
Aus Definition 2.12 folgt unmittelbar:
P (A ∩ B) = P (A|B) · P (B)
Ebenso gilt:
P (A ∩ B) = P (B ∩ A) = P (B|A) · P (A)
Fazit:
• Die Wskt. für das gleichzeitige Eintreten zweier Ereignisse
A und B (d.h. für A ∩ B) ist jeweils das Produkt einer bedingten Wskt. mit der unbedingten Wskt. des bedingenden
Ereignisses
• Die beiden obigen Formeln heißen Multiplikationssatz für zwei
Ereignisse
78
Natürliche Erweiterung:
• Multiplikationssatz für n Ereignisse A1, . . . , An
(d.h. Formel für Wskt. des gleichzeitigen Eintretens)
• nicht hier, siehe z.B. Mosler / Schmid (2008)
Hier:
• Multiplikationssatz für 3 Ereignisse A, B, C:
P (A ∩ B ∩ C) = P (A|B ∩ C) · P (B ∩ C)
= P (A|B ∩ C) · P (B|C) · P (C)
79
Beispiel (Bestehen der Statistik-II-Klausur): [I]
• Für den Erwerb des Statistik-II-Scheines hat man 3 Versuche. Für die 3 Ereignisse Ai: ’StudentIN besteht beim
i-ten Versuch’, (i = 1, . . . , 3), seien folgende Wahrscheinlichkeiten bekannt:
P (A1) = 0.6
P (A2|A1) = 0.5
P (A3|A1 ∩ A2) = 0.4
• Frage:
Wie hoch ist die Wskt., den Schein zu erwerben?
80
Beispiel (Bestehen der Statistik-II-Klausur): [II]
• Die gesuchte Wskt. ergibt sich zu:
P (A1 ∪ A2 ∪ A3) = 1 − P (A1 ∪ A2 ∪ A3)
= 1 − P (A1 ∩ A2 ∩ A3)
= 1 − P (A3 ∩ A2 ∩ A1)
= 1 − P (A3|A1 ∩ A2) · P (A2|A1) · P (A1)
= 1 − (1 − 0.4) · (1 − 0.5) · (1 − 0.6)
= 0.88
81
Betrachte nun den folgenden Fall:
• Das Eintreten des Ereignisses A hat keinerlei Einfluss auf das
Eintreten des Ereignisses B (und umgekehrt)
−→ Begriff der stochastischen Unabhängigkeit
Definition 2.13: (Stochastische Unabhängigkeit)
Zwei Ereignisse A und B heißen stochastisch unabhängig (oder
kurz: unabhängig), falls
P (A ∩ B) = P (A) · P (B)
gilt. A und B heißen abhängig, falls die Ereignisse nicht unabhängig sind.
82
Bemerkungen: [I]
• In Definition 2.13 sind die Rollen von A und B vertauschbar
• Unter der Annahme P (B) > 0 gilt:
A und B sind unabhängig ⇐⇒ P (A|B) = P (A)
Unter der Annahme P (A) > 0 gilt:
A und B sind unabhängig ⇐⇒ P (B|A) = P (B)
(Bei Unabhängigkeit hängen die bedingten Wskt.’en nicht
von den jeweils bedingenden Ereignissen ab)
83
Bemerkungen: [II]
• Mit A und B sind auch die folgenden Ereignisse jeweils unabhängig:
A und B,
A und B,
A und B
• Ist A ein Ereignis mit P (A) = 0 oder P (A) = 1, so ist A von
jedem beliebigen Ereignis B unabhängig
• Wenn A und B disjunkt (d.h. A ∩ B = ∅) und die Wskt.’en
P (A), P (B) > 0 sind, können A und B nicht unabhängig sein
84
Beispiel: [I]
• Betrachte zweimaligen Münzwurf (Z=Zahl, K=Kopf). Ergebnisse des Laplace-Experimentes werden als 2-Sequenzen
notiert. Es ist
Ω = {(Z, Z), (Z, K), (K, Z), (K, K)}
• Betrachte die Ereignisse
A:
Zahl beim ersten Wurf
B:
Kopf beim zweiten Wurf
C:
Kopf bei beiden Würfen
85
Beispiel: [II]
• Für die Ereignisse A und B gilt:
P (A ∩ B) = P ({(Z, K)}) = 1/4
sowie
P (A) · P (B) = P ({(Z, Z), (Z, K)}) · P ({(Z, K), (K, K)})
= 1/2 · 1/2 = 1/4
= P (A ∩ B)
=⇒ A und B sind stochastisch unabhängig
86
Beispiel: [III]
• Für die Ereignisse B und C gilt:
P (B ∩ C) = P ({(K, K)}) = 1/4
sowie
P (B) = P ({(Z, K), (K, K)}) = 1/2
P (C) = P ({(K, K)}) = 1/4
=⇒ P (B) · P (C) = 1/2 · 1/4 = 1/8 6= 1/4 = P (B ∩ C)
=⇒ B und C sind stochastisch abhängig
87
Jetzt:
• Verallgemeinerung des Unabhängigkeitsbegriffes von 2 auf n
Ereignisse
Definition 2.14: (Unabhängigkeit von n Ereignissen)
Die n Ereignisse A1, A2, . . . , An heißen paarweise unabhängig, falls
für alle i, j = 1, . . . , n mit i =
6 j gilt
P (Ai ∩ Aj ) = P (Ai) · P (Aj ).
Die n Ereignisse A1, A2, . . . , An heißen vollständig unabhängig,
falls für jede Auswahl von m Indizes,
gilt
i1, i2, . . . , im ∈ {1, 2, . . . , n}, 2 ≤ m ≤ n,
P (Ai1 ∩ Ai2 ∩ . . . ∩ Aim ) = P (Ai1 ) · P (Ai2 ) · . . . · P (Aim ).
88
Bemerkungen:
• Für den Fall n = 3 ist die paarweise Unabhängigkeit gegeben,
falls gilt
P (A1 ∩ A2) = P (A1) · P (A2)
P (A1 ∩ A3) = P (A1) · P (A3)
P (A2 ∩ A3) = P (A2) · P (A3)
Die 3 Ereignisse sind vollständig unabhängig, falls gilt
P (A1 ∩ A2 ∩ A3) = P (A1) · P (A2) · P (A3)
• Vorsicht: vollständige und paarweise Unabhängigkeit sind
nicht das gleiche. Das Konzept der vollständigen Unabhängigkeit ist strenger
89
Beispiel: [I]
• Betrachte das Laplace-Experiment des zweifachen Würfelwurfes mit den Ereignissen
A1:
A2:
A3:
Augenzahl beim 1. Wurf ist ungerade
Augenzahl beim 2. Wurf ist ungerade
Augensumme ungerade
• Es gilt zunächst:
P (A1 ∩ A2) = 1/4 = 1/2 · 1/2 = P (A1) · P (A2)
P (A1 ∩ A3) = 1/4 = 1/2 · 1/2 = P (A1) · P (A3)
P (A2 ∩ A3) = 1/4 = 1/2 · 1/2 = P (A2) · P (A3)
=⇒ A1, A2, A3 sind paarweise unabhängig
90
Beispiel: [II]
• Es gilt weiterhin:
P (A1 ∩ A2 ∩ A3) = 0 6= 1/8
= 1/2 · 1/2 · 1/2
= P (A1) · P (A2) · P (A3)
=⇒ A1, A2, A3 sind nicht vollständig unabhängig
91
2.4 Totale Wahrscheinlichkeit und das BayesTheorem
Idee des Konzeptes der totalen Wahrscheinlichkeit:
• Man kann die (unbedingte) Wskt. des Ereignisses A ausrechnen, wenn man bestimmte bedingte Wskt.’en von A und die
zugehörigen Wskt.’en der Bedingungen kennt
Satz 2.15: (Satz von der totalen Wahrscheinlichkeit)
Es seien A1, . . . , An eine Partition der Ergebnismenge Ω und B ein
beliebiges Ereignis. Dann gilt für die (unbedingte) Wahrscheinlichkeit von B:
P (B) =
n
X
i=1
P (B|Ai) · P (Ai).
92
Herleitung: [I]
• Da A1, . . . , An eine vollständige Zerlegung von Ω darstellt,
folgt
B = (B ∩ A1) ∪ (B ∩ A2) ∪ . . . ∪ (B ∩ An)
• Man beachte, dass die Mengen
(B ∩ A1), (B ∩ A2), . . . , (B ∩ An)
paarweise disjunkt sind
93
Herleitung: [II]
• Aus der paarweisen Disjunktheit, dem 3. Kolmogorov’schen
Axiom (vgl. Folie 31) sowie der Definition der bedingten
Wahrscheinlichkeit folgt:

P (B) = P 
n
[
i=1
=
n
X
i=1

(B ∩ Ai) =
n
X
i=1
P (B ∩ Ai)
P (B|Ai) · P (Ai)
Fazit:
• Die (unbedingte) Wskt. von B ergibt sich aus gewichteten
bedingten Wskt.’en von B
94
Beispiel: [I]
• Ein und derselbe Massenartikel werde auf zwei Maschinen
gefertigt. Die schnellere Maschine M 1 hinterläßt 10% Ausschuss, produziert aber doppelt soviel wie die langsamere Maschine M 2, die aber nur einen Ausschuss von 7% aufweist.
Wie groß ist die Wskt., dass ein zufällig aus der Gesamtproduktion gezogenes Einzelstück defekt ist?
• Definition der Ereignisse:
B:
Stück ist defekt
A1 :
Stück auf M 1 produziert
A2:
Stück auf M 2 produziert
95
Beispiel: [I]
• Folgende Wskt.’en sind gegeben:
P (B|A1)
P (B|A2)
P (A1)
P (A2)
• Daraus folgt:
P (B) =
2
X
i=1
=
=
=
=
0.1
0.07
2/3
1/3
P (B|Ai) · P (Ai)
= 0.1 · 2/3 + 0.07 · 1/3
= 0.09
96
Jetzt:
• Verbindung zwischen bedingten Wahrscheinlichkeiten, bei denen die Rollen zwischen bedingtem und bedingendem Ereignis vertauscht sind
(etwa Zusammenhang zwischen P (A|B) und P (B|A))
−→ Bayes-Theorem
97
Herleitung des Bayes-Theorems: [I]
• Betrachte den Multiplikationssatz für zwei Ereignisse
(vgl. Folie 78)
P (A ∩ B) = P (A|B) · P (B) = P (B|A) · P (A)
• Daraus folgt:
P (A|B) =
P (A) · P (B|A)
P (B)
• Diese Beziehung gilt für zwei beliebige Ereignisse und deshalb
auch für jedes Ai, i = 1, . . . , n, einer beliebigen Partition der
Grundmenge Ω:
P (Ai|B) =
P (Ai) · P (B|Ai)
P (B)
98
Herleitung des Bayes-Theorems: [II]
• Ersetzt man P (B) durch den Ausdruck aus dem Satz 2.15
der totalen Wahrscheinlichkeit (vgl. Folie 92), so erhält man
das Bayes-Theorem
Satz 2.16: (Bayes-Theorem)
Es seien A1, . . . , An eine Partition der Ergebnismenge Ω und B
ein beliebiges Ereignis mit P (B) > 0. Dann gilt für jedes Ai:
P (B|Ai) · P (Ai)
P (Ai|B) = n
.
X
P (B|Ai) · P (Ai)
i=1
99
Beispiel: [I]
• An Patienten einer bestimmten Population wird durch einen
Labortest untersucht, ob eine bestimmte Krankheit vorliegt
oder nicht. Der Anteil der Kranken in der Population ist
bekannt und wird mit π bezeichnet. Falls ein konkret untersuchter Patient krank ist, zeigt der Test die Krankheit mit
einer Wskt. von 99% an (Ergebnis ’positiv’). Falls er nicht
krank ist, zeigt der Test die Krankheit (fälschlicherweise) mit
einer Wskt. von 2% an.
• Wie groß ist die Wskt., dass die Krankheit vorliegt unter der
Bedingung, dass der Test positiv ausfällt?
100
Beispiel: [II]
• Definition der Ereignisse:
A1 :
A2 = A1:
B:
Krankheit liegt vor
Krankheit liegt nicht vor
Test zeigt Krankheit an
• Folgende Wskt.’en sind gegeben:
P (B|A1) = 0.99
P (B|A2) = 0.02
P (A1) = π
• Gesucht: P (A1|B)
101
Beispiel: [III]
• Mit dem Bayes-Theorem gilt:
P (B|A1) · P (A1)
P (A1|B) =
P (B|A1) · P (A1) + P (B|A2) · P (A2)
=
0.99 · π
0.99 · π + 0.02 · (1 − π)
• Offensichtlich:
Krankenanteil π hat starken Einfluss auf die gesuchte Wahrscheinlichkeit
102
Beispiel: [III]
• Beispielswerte:
P (A1|B) = 0.846
(π = 0.1)
P (A1|B) = 0.333
(π = 0.01)
P (A1|B) = 0.005
(π = 0.0001)
P (A1|B) = 0.047
(π = 0.001)
103
3. Zufallsvariable und Verteilungen
Häufige Situation in der Praxis:
• Es interessiert nicht so sehr das konkrete Ergebnis ω ∈ Ω
eines Zufallsexperimentes, sondern eine Zahl, die von ω abhängt
Beispiele:
• Gewinn in Euro im Roulette
• Gewinn einer Aktie an der Börse
• Monatsgehalt einer zufällig ausgewählten Person
104
Intuitive Bedeutung einer Zufallsvariablen:
• Vorschrift, die das ’abstrakte’ ω in eine Zahl übersetzt
Begrifflichkeiten:
Deskriptive Statistik
Grundgesamtheit
Merkmal
Messwert
Wskt.-Rechnung
←→
Ergebnismenge
←→
Realisation
←→
Zufallsvariable
105
3.1 Grundbegriffe und Definitionen
Definition 3.1: (Zufallsvariable [kurz: ZV])
Unter einer Zufallsvariablen versteht man formal eine (mathematische) Funktion
X : Ω −→ R
ω −→ X(ω).
Bemerkungen:
• Eine Zufallsvariable ordnet jedem Ergebnis ω ∈ Ω eine reelle
Zahl zu
106
Zufallsvariable als Abbildung der Ergebnismenge auf die reelle Zahlenachse
(vgl. Schira, 2009, S. 258)
107
Bemerkungen: [I]
• Intuition:
Eine Zufallsvariable X charakterisiert eine Zahl, deren Wert
man noch nicht kennt
• Nach der Durchführung des Zufallsexperimentes realisiert sich
die Zufallsvariable X im Wert x
• x heißt die Realisation oder Realisierung der ZV X nach
Durchführung des zugehörigen Zufallsexperimentes
• In dieser VL:
Zufallsvariablen werden immer mit Großbuchstaben, Realisationen immer mit Kleinbuchstaben bezeichnet
108
Bemerkungen: [II]
• Die Zufallsvariable X beschreibt die Situation ex ante, d.h.
vor der tatsächlichen Durchführung des Zufallsexperimentes
• Die Realisation x beschreibt die Situation ex post, d.h. nach
der Durchführung des Zufallsexperimentes
• Wahrscheinlichkeitsaussagen kann man nur über die Zufallsvariable X treffen
• Für den Rest der VL sind Zufallsvariablen von zentraler Bedeutung
109
Beispiel 1:
• Betrachte den 1-maligen Münzwurf (Z=Zahl, K=Kopf). Die
ZV X bezeichne die ’Anzahl der Köpfe’ bei diesem Zufallsexperiment
• Es gilt:
Ω = {K, Z}
• Die ZV X kann 2 Werte annehmen:
X(Z) = 0,
X(K) = 1
110
Beispiel 2:
• Betrachte den 3-maligen Münzwurf. Die ZV X bezeichne
erneut die ’Anzahl der Köpfe’
• Es gilt:
K,
Z)}, . . . , (Z,
Z,
Z)}}
Ω = {(K,
K,
K)}, (K,
{z
|
{z
|
{z
|
=ω1
=ω2
=ω8
• Die Zufallsvariable X ist definiert durch
X(ω) = Anzahl der K in ω
• Offensichtlich:
X ordnet verschiedenen ω dieselbe Zahl zu, z.B.
X((K, K, Z)) = X((K, Z, K)) = X((Z, K, K)) = 2
111
Beispiel 3:
• Aus einer Personengruppe werde zufällig 1 Person ausgewählt.
Die ZV X soll den Erwerbsstatus der ausgewählten Person
bezeichnen
• Es gilt:
Ω = {’erwerbstätig’
|
{z
}, |’nicht erwerbstätig’
{z
}}
=ω1
=ω2
• Die ZV X kann definiert werden durch
X(ω1) = 1,
X(ω2) = 0
(Codierung)
112
Beispiel 4:
• Das Zufallsexperiment bestehe in der Messung des morgigen
Kurses einer bestimmten Aktie. Die ZV X bezeichne diesen
Aktienkurs
• Es gilt:
Ω = [0, ∞)
• X ist definiert durch
X(ω) = ω
113
Zwischenfazit:
• Die ZV X kann verschiedene Werte annehmen und zwar mit
bestimmten Wskt’en
Vereinfachende Schreibweise: (a, b, x ∈ R)
• P (X = a) ≡ P ({ω|X(ω) = a})
• P (a < X < b) ≡ P ({ω|a < X(ω) < b})
• P (X ≤ x) ≡ P ({ω|X(ω) ≤ x})
114
Frage:
• Wie kann man diese Wskt’en bestimmen und mit diesen rechnen?
Lösung:
• Die Berechnung solcher Wskt’en kann über die sogenannte
Verteilungsfunktion der ZV’en X erfolgen
Intuition:
• Die Verteilungsfunktion der ZV’en X charakterisiert die
Wahrscheinlichkeiten, mit denen sich die potenziellen Realisationen x auf der reellen Zahlenachse verteilen
(die sogenannte Verteilung der ZV’en X)
115
Definition 3.2: (Verteilungsfunktion [kurz: VF])
Gegeben sei die Zufallsvariable X. Unter der Verteilungsfunktion der ZV’en X (in Zeichen: FX ) versteht man die folgende
Abbildung:
FX : R −→ [0, 1]
x −→ FX (x) = P ({ω|X(ω) ≤ x}) = P (X ≤ x).
116
Beispiel: [I]
• Betrachte das Laplace-Experiment des 3-fachen Münzwurfes.
Die ZV X messe die ’Anzahl Kopf’.
• Zunächst gilt:
Ω = {(K,
K,
K)}, (K,
K,
Z)}, . . . , (Z,
Z,
Z)}}
{z
{z
{z
|
|
|
= ω1
= ω2
= ω8
• Für die Wskt’en der ZV X errechnet sich:
P (X
P (X
P (X
P (X
= 0)
= 1)
= 2)
= 3)
=
=
=
=
P ({(Z, Z, Z)}) = 1/8
P ({(Z, Z, K), (Z, K, Z), (K, Z, Z)}) = 3/8
P ({(Z, K, K), (K, Z, K), (K, K, Z)}) = 3/8
P ({(K, K, K)}) = 1/8
117
Beispiel: [II]
• Daraus ergibt sich die VF:
FX (x) =


 0.000




 0.125
0.5


 0.875




1
für x < 0
für 0 ≤ x < 1
für 1 ≤ x < 2
für 2 ≤ x < 3
für x ≥ 3
Graph der Verteilungsfunktion
118
Bemerkungen:
• Es genügt (fast immer), lediglich die VF FX der ZV X zu
kennen
• Oft ist es in praxi gar nicht möglich, den Grundraum Ω oder
die explizite Abbildung X : Ω −→ R anzugeben
(jedoch kann man meistens die VF FX aus sachlogischen
Überlegungen heraus angeben)
119
Allgemeingültige Eigenschaften von FX :
• FX (x) ist monoton wachsend
• Es gilt stets:
lim FX (x) = 0
x→−∞
und
lim FX (x) = 1
x→+∞
• FX ist rechtsseitig stetig, d.h.
F (z) = FX (x)
lim
z→x X
z>x
(vgl. Eigenschaften der empirischen Verteilungsfunktion aus
der VL Statistik I)
120
Fazit:
• VF FX (x) der ZV’en X gibt Antwort auf die Frage
’Wie hoch ist die Wahrscheinlichkeit, dass X höchstens den
Wert x annimmt?’
Jetzt:
• Antwort auf die Frage
’Welchen Wert wird die ZV’e X mit einer vorgegebenen
Wahrscheinlichkeit p ∈ (0, 1) nicht überschreiten?’
−→ Quantilfunktion der ZV’en X
121
Definition 3.3: (Quantilfunktion)
Gegeben sei die ZV X mit VF FX . Für jeden reellen Wert p ∈
(0, 1) versteht man unter der Quantilfunktion von X (in Zeichen:
QX (p)) die folgende Abbildung:
QX : (0, 1) −→ R
p
−→ QX (p) = min{x|FX (x) ≥ p}.
Der Wert der Quantilfunktion xp = QX (p) heißt p − Quantil der
ZV’en X.
122
Bemerkungen:
• Das p-Quantil xp ist die kleinste Zahl x ∈ R mit der Eigenschaft, dass FX (x) den Wert p erreicht oder überschreitet.
• Interpretiert man p ∈ (0, 1) als eine Wahrscheinlichkeit, so ist
das p-Quantil xp die kleinste Realisation der ZV’en X, die X
mit Wskt. p nicht überschreitet.
Spezielle Quantile:
• Median: p = 0.5
• Quartile: p = 0.25, 0.5, 0.75
• Quintile: p = 0.2, 0.4, 0.6, 0.8
• Dezile: p = 0.1, 0.2, . . . , 0.9
123
Frage:
• Warum diese ’scheinbar komplizierte’ Definition?
Betrachte 3 Fälle:
• Stetige, streng monoton wachsende VF FX
• Stetige, teilweise konstante VF FX
• Rechtsseitig stetige Treppen-VF FX
124
Stetige, streng monoton wachsende Verteilungsfunktion
125
Stetige, teilweise konstante Verteilungsfunktion
126
Rechtsseitig stetige Treppen-Verteilungsfunktion
127
Jetzt:
• Typisierung von ZV’en
(diskrete vs. stetige ZV’en)
Grund:
• Unterschiedliche mathematische Methoden zur Behandlung
von ZV’en
• Bei diskreten ZV’en:
Endliche und unendliche Summen
• Bei stetigen ZV’en:
Differential- und Integralrechnung
128
Definition 3.4: (Diskrete Zufallsvariable)
Die ZV X heißt diskret, wenn sie entweder
1. nur endlich viele Realisationen x1, x2, . . . , xJ oder
2. abzählbar unendlich viele Realisationen x1, x2, . . .
mit streng positiver Wahrscheinlichkeit annehmen kann, d.h. falls
für alle j = 1, . . . , J, . . . gilt
P (X = xj ) > 0
und
J,...
X
P (X = xj ) = 1.
j=1
129
Typische diskrete Merkmale sind:
• Zählmerkmale (’X = Anzahl von . . .’)
• Codierte qualitative Merkmale
Definition 3.5: (Träger einer diskreten Zufallsvariablen)
Die Menge aller Realisationen, die eine diskrete ZV X mit streng
positiver Wskt. annehmen kann, heißt Träger von X (in Zeichen:
TX ):
TX = {x1, . . . , xJ }
bzw.
TX = {x1, x2, . . .}.
130
Definition 3.6: (Wahrscheinlichkeitsfunktion)
Für eine diskrete ZV X heißt die Funktion
fX (x) = P (X = x)
die Wahrscheinlichkeitsfunktion von X.
Bemerkungen: [I]
• Die Wahrscheinlichkeitsfunktion fX der ZV X nimmt nur für
die Elemente des Träger TX positive Werte an. Für Werte
außerhalb des Trägers, d.h. für x ∈
/ TX , gilt fX (x) = 0:
fX (x) =
(
P (X = xj ) > 0
0
für x = xj ∈ TX
/ TX
für x ∈
131
Bemerkungen: [II]
• Die Wahrscheinlichkeitsfkt. fX hat die Eigenschaften
fX (x) ≥ 0 für alle x
X
fX (xj ) = 1
xj ∈TX
• Für eine beliebige Menge B ⊂ R berechnet sich die Wskt. des
Ereignisses {ω|X(ω) ∈ B} = {X ∈ B} durch
P (X ∈ B) =
X
fX (xj )
xj ∈B
132
Beispiel: [I]
• Betrachte 3-fachen Münzwurf und X = ’Anzahl Kopf’
• Offensichtlich: X ist diskret mit dem Träger
TX = {0, 1, 2, 3}
• Die Wahrscheinlichkeitsfunktion ist gegeben durch
fX (x) =

 P (X = 0) = 0.125





 P (X = 1) = 0.375
P (X = 2) = 0.375

 P (X = 3) = 0.125





0
für x = 0
für x = 1
für x = 2
für x = 3
/ TX
für x ∈
133
Beispiel: [II]
• Die Verteilungsfunktion ist gegeben durch (vgl. Folie 118)
FX (x) =

 0.000





 0.125
0.5



 0.875



1
für x < 0
für 0 ≤ x < 1
für 1 ≤ x < 2
für 2 ≤ x < 3
für x ≥ 3
134
Wahrscheinlichkeits- und Verteilungsfunktion
135
Offensichtlich:
• Für die Verteilungsfunktion gilt
FX (x) = P (X ≤ x) =
X
{xj ∈TX |xj ≤x}
=P (X=xj )
z }| {
fX (xj )
Fazit:
• Die VF einer diskreten ZV’en X ist eine Treppenfunktion
mit Sprüngen an den Stellen xj ∈ TX . Die Sprunghöhe an
der Stelle xj beträgt
lim F (x) = P (X = xj ) = fX (xj ),
FX (xj ) − x→x
j
x<xj
d.h. die Sprunghöhe ist der Wert der Wskt.-Funktion
(Beziehung: Verteilungs- und Wahrscheinlichkeitsfunktion)
136
Jetzt:
• Definition von stetigen Zufallsvariablen
Intuition:
• Im Gegensatz zu diskreten ZV’en (vgl. Definition 3.4, Folie
129) sind stetige ZV’e solche, die überabzählbar viele Realisationen (z.B. jede reelle Zahl in einem Intervall) annehmen
können
Tatsächlich:
• Definition stetiger ZV’en komplizierter (technischer)
137
Definition 3.7: (Stetige ZV, Dichtefunktion)
Eine ZV X heißt stetig, wenn sich ihre Verteilungsfunktion FX
als Integral einer Funktion fX : R −→ [0, ∞) schreiben lässt:
FX (x) =
Z x
−∞
fX (t)dt
für alle x ∈ R.
Die Funktion fX (x) heißt Dichtefunktion [kurz: Dichte] von X.
Bemerkungen:
• Die VF FX einer stetigen ZV’en X ist (eine) Stammfunktion
der Dichtefunktion fX
• FX (x) = P (X ≤ x) ist gleich dem Flächeninhalt unter der
Dichtefunktion fX von −∞ bis zur Stelle x
138
Verteilungsfunktion FX und Dichte fX
fX(t)
P(X ≤ x) = FX(x)
x
t
139
Eigenschaften der Dichtefunktion fX :
1. Die Dichte fX ist niemals negativ, d.h.
fX (x) ≥ 0
für alle x ∈ R
2. Die Fläche unter der Dichte ist gleich 1, d.h.
Z +∞
−∞
fX (x)dx = 1
3. Wenn FX (x) differenzierbar ist, gilt
0 (x)
fX (x) = FX
140
Beispiel: (Gleichverteilung über [0, 10]) [I]
• Gegeben sei die ZV X mit Dichtefunktion
fX (x) =
(
0
0.1
, für x ∈
/ [0, 10]
, für x ∈ [0, 10]
• Berechnung der VF FX : [I]
Für x < 0 gilt:
FX (x) =
Z x
−∞
fX (t) dt =
Z x
−∞
0 dt = 0
141
Beispiel: (Gleichverteilung über [0, 10]) [II]
• Berechnung der VF FX : [II]
Für x ∈ [0, 10] gilt:
FX (x) =
Z x
=
Z 0
−∞
fX (t) dt
0 dt +
{z
| −∞
=0
}
Z x
0
0.1 dt
= [0.1 · t]x0
= 0.1 · x − 0.1 · 0
= 0.1 · x
142
Beispiel: (Gleichverteilung über [0, 10]) [III]
• Berechnung der VF FX : [III]
Für x > 10 gilt:
FX (x) =
Z x
=
Z 0
−∞
fX (t) dt
0 dt +
{z
| −∞
=0
= 1
}
Z 10
|0
0.1 dt +
{z
=1
}
Z ∞
0 dt
| 10{z }
=0
143
Verteilungsfunktion und Dichte der Gleichverteilung über [0, 10]
144
Jetzt:
• Wskt.’en für Intervalle, d.h. (für a, b ∈ R, a < b)
P (X ∈ (a, b]) = P (a < X ≤ b)
• Es gilt:
P (a < X ≤ b) = P ({ω|a < X(ω) ≤ b})
= P ({ω|X(ω) > a} ∩ {ω|X(ω) ≤ b})
= 1 − P ({ω|X(ω) > a} ∩ {ω|X(ω) ≤ b})
= 1 − P ({ω|X(ω) > a} ∪ {ω|X(ω) ≤ b})
= 1 − P ({ω|X(ω) ≤ a} ∪ {ω|X(ω) > b})
145
= 1 − [P (X ≤ a) + P (X > b)]
= 1 − [FX (a) + (1 − P (X ≤ b))]
= 1 − [FX (a) + 1 − FX (b)]
= FX (b) − FX (a)
=
Z b
=
Z b
−∞
a
fX (t) dt −
Z a
−∞
fX (t) dt
fX (t) dt
146
Intervall-Wahrscheinlichkeit mit den Grenzen a und b
fX(x)
P(a < X ≤ b)
a
b
x
147
Wichtiges Ergebnis für stetige ZV X:
P (X = a) = 0
für alle a ∈ R
Begründung:
P (X = a) = lim P (a < X ≤ b) = lim
b→a
=
Z a
a
Z b
b→a a
fX (x) dx
fX (x)dx = 0
Fazit:
• Die Wskt., dass eine stetige ZV X einen einzelnen Wert annimmt, ist immer Null!!
148
Punkt-Wahrscheinlichkeit bei stetiger ZV
fX(x)
a
b3
b2
b1
x
149
Vorsicht:
• Das bedeutet nicht, dass dieses Ereignis unmöglich ist
Konsequenz:
• Da bei stetigen ZV’en für alle a ∈ R stets P (X = a) = 0 gilt,
folgt für stetige ZV stets
P (a < X < b) = P (a ≤ X < b) = P (a ≤ X ≤ b)
= P (a < X ≤ b) = FX (b) − FX (a)
(Ob Intervalle offen oder geschlossen sind, spielt für die
Wskt.-Bestimmung bei stetigen ZV keine Rolle)
150
3.2 Erwartungswert und Varianz einer Zufallsvariablen
Jetzt:
• Beschreibung der Wskt.-Verteilung der ZV’en X durch bestimmte Kenngrößen
• In dieser VL lediglich Betrachtung von
Erwartungswert
Varianz
151
Zunächst:
• Der Erwartungswert einer ZV’en X ist eine Maßzahl für die
Lage der Verteilung
• Der Erwartungswert einer ZV’en X ähnelt in seiner Bedeutung dem arithmetischen Mittel einer Datenreihe
(vgl. deskriptive Statistik, VL Statistik I)
152
Wiederholung:
• Für eine gegebene Datenreihe x1, . . . , xn ist das arithmetische
Mittel definiert als
’
n
n
X
1
1 X
xi =
xi ·
x=
n i=1
n
i=1
“
• Jeder Summand xi · 1/n entspricht einem Datenpunkt × relativer Häufigkeit
Jetzt:
• Übertragung dieses Prinzips auf die ZV X
153
Definition 3.8: (Erwartungswert)
Der Erwartungswert der ZV’en X (in Zeichen: E(X)) ist definiert
als
E(X) =

X

xj · P (X = xj )




 {xj ∈TX }






Z +∞
−∞
x · fX (x) dx
, falls X diskret ist
.
, falls X stetig ist
Bemerkungen: [I]
• Der Erwartungswert der ZV’en X entspricht also (in etwa)
der Summe aller möglichen Realisationen jeweils gewichtet
mit der Wskt. ihres Eintretens
154
Bemerkungen: [II]
• Anstelle von E(X) schreibt man häufig µX
• Anstelle der Formulierung ’Erwartungswert der ZV’en X’
sagt man häufig ’Erwartungswert der Verteilung von X’
• Es gibt ZV’en, die keinen Erwartungswert besitzen
(kein Gegenstand dieser VL)
155
Beispiel 1: (Diskrete ZV) [I]
• Man betrachte den 2-maligen Würfelwurf. Die ZV X stehe
für die (betragliche) Differenz der Augenzahlen. Man berechne
den Erwartungswert von X
• Zunächst ergibt sich als Träger der Zufallsvariablen
TX = {0, 1, 2, 3, 4, 5}
• Die Wahrscheinlichkeitsfunktion ist gegeben durch
fX (x) =


P (X = 0) = 6/36



 P (X = 1) = 10/36





 P (X = 2) = 8/36
P (X = 3) = 6/36

 P (X = 4) = 4/36





 P (X = 5) = 2/36



0
für x = 0
für x = 1
für x = 2
für x = 3
für x = 4
für x = 5
/ TX
für x ∈
156
Beispiel 1: (Diskrete ZV) [II]
• Als Erwartungswert ergibt sich
E(X) = 0 ·
6
10
8
6
4
2
+1·
+2·
+3·
+4·
+5·
36
36
36
36
36
36
70
=
= 1.9444
36
• Achtung:
In diesem Beispiel ist E(X) eine Zahl, die die ZV X selbst
gar nicht annehmen kann
157
Beispiel 2: (Stetige ZV)
• Es sei X eine stetige ZV mit der Dichte

 x
, für 1 ≤ x ≤ 3
fX (x) =
4
 0
, sonst
• Zur Berechnung des Erwartungswertes spaltet man das Integral auf:
E(X) =
Z +∞
=
Z 3 2
x
Z 1
Z 3
Z
+∞
x
x · fX (x) dx =
0 dx
0 dx +
x · dx +
4
−∞
3
−∞
1
”
•
1 1 3 3
dx = ·
·x
4 3
1 4
1
’
“
1
27 1
26
=
·
−
=
= 2.1667
4
3
3
12
158
Häufige Situation:
• Kenne ZV X mit Wskt.- oder Dichtefunktion fX
• Suche den Erwartungswert der transformierten ZV
Y = g(X)
159
Satz 3.9: (Erwartungswert einer Transformierten)
Gegeben sei die ZV X mit Wskt.- oder Dichtefunktion fX . Für
eine beliebige (Baire)Funktion g : R −→ R berechnet sich der
Erwartungswert der transformierten ZV Y = g(X) als
E(Y ) = E(g(X))
=

X

g(xj ) · P (X = xj )



 {x ∈T }

j
X






Z +∞
−∞
g(x) · fX (x) dx
, falls X diskret ist
.
, falls X stetig ist
160
Bemerkungen:
• Alle Funktionen, die im VWL- und/oder BWL-Studium auftauchen, sind Baire-Funktionen
• Für den Spezialfall g(x) = x (die Identitätsfunktion) fällt der
Satz 3.9 mit der Definition 3.8 zusammen
161
Rechnen mit Erwartungswerten (Teil 1):
• Betrachte die (lineare) Transformation
Y = g(X) = a + b · X
mit a, b ∈ R
• Ist X stetig mit Dichtefunktion fX , so gilt:
E(Y ) = E(a + b · X) =
=
Z +∞
−∞
= a·
Z +∞
−∞
(a + b · x) · fX (x) dx
[a · fX (x) + b · x · fX (x)] dx
Z +∞
| −∞
fX (x) dx +b ·
{z
=1
= a + b · E(X)
}
Z +∞
| −∞
x · fX (x) dx
{z
=E(X)
}
162
Bemerkung:
• Der Erwartungswert ist ein linearer Operator, d.h.
E(a + b · X) = a + b · E(X)
für reelle Zahlen a, b ∈ R
(Spezialfälle: a = 0, b 6= 0 bzw. a 6= 0, b = 0)
163
Rechnen mit Erwartungswerten (Teil 2):
• Betrachte die aufgespaltene Funktion
Y = g(X) = g1(X) + g2(X)
• Ist X stetig mit Dichtefunktion fX , so gilt:
E(Y ) = E[g1(X) + g2(X)]
=
Z +∞
=
Z +∞
−∞
| −∞
[g1(x) + g2(x)] · fX (x) dx
g1(x) · fX (x) dx +
{z
=E[g1 (X)]
}
Z +∞
| −∞
g2(x) · fX (x) dx
{z
=E[g2(X)]
}
= E[g1(X)] + E[g2(X)]
164
Bemerkung:
• Für diskrete ZV’en sind die Herleitungen analog
Satz 3.10: (Zusammenfassung)
Es seien X eine beliebige ZV (stetig oder diskret), a, b ∈ R reelle
Zahlen und g1, g2 : R −→ R (Baire)Funktionen. Dann gelten die
folgenden Rechenregeln:
1. E(a + b · X) = a + b · E(X).
2. E[g1(X) + g2(X)] = E[g1(X)] + E[g2(X)].
165
Jetzt:
• Beschreibung des Streuungsverhaltens einer ZV X
Wiederholung aus deskriptiver Statistik:
• Für eine gegebene Datenreihe x1, . . . , xn ist die empirische
Varianz definiert durch
”
n
n
X
X
1
1
2
2
2
s =
(xi − x) =
(xi − x) ·
n i=1
n
i=1
•
• Jeder Summand entspricht der quadratischen Abweichung
des Datenpunktes xi vom arithmetischen Mittel x gewichtet
mit seiner relativen Häufigkeit
166
Definition 3.11: (Varianz, Standardabweichung)
Für eine beliebige stetige oder diskrete ZV X ist die Varianz
von X [in Zeichen: V (X)] definiert als die erwartete quadrierte
Abweichung der ZV von ihrem Erwartungswert E(X), d.h.
V (X) = E[(X − E(X))2].
Unter der Standardabweichung von X [in Zeichen: σ(X)] versteht man die (positive) Wurzel aus der Varianz, d.h.
q
σ(X) = + V (X).
167
Bemerkungen:
• Offensichtlich ist die Varianz von X ein Erwartungswert. Mit
g(X) = [X − E(X)]2 und Satz 3.9 (Folie 160) gilt für die
Varianz von X:
V (X) = E[g(X)]
=

X
2 · P (X = x )


[x
−
E(X)]
j
j



 {xj ∈TX }






Z +∞
−∞
[x − E(X)]2 · fX (x) dx
, für diskretes X
, für stetiges X
• Es gibt ZV’en, die keine endliche Varianz besitzen
(nicht Gegenstand dieser VL)
168
Beispiel: (Diskrete ZV)
• Betrachte erneut den 2-maligen Münzwurf mit der ZV X
als (betraglicher) Differenz der Augenzahlen (vgl. Beispiel 1,
Folie 156). Für die Varianz gilt:
V (X) = (0 − 70/36)2 · 6/36 + (1 − 70/36)2 · 10/36
= (2 − 70/36)2 · 8/36 + (3 − 70/36)2 · 6/36
= (4 − 70/36)2 · 4/36 + (5 − 70/36)2 · 2/36
= 2.05247
169
Jetzt:
• Rechenregeln für Varianzen
Man beachte:
• Varianz ist per definitionem ein Erwartungswert
−→ Rechenregeln für Erwartungswerte anwendbar
Rechenregel 1: [I]
• Betrachte die (lineare) Transformation
Y = g(X) = a + b · X
mit a, b ∈ R
170
Rechenregel 1: [II]
• Es gilt
V (Y ) = V [g(X)]
= E[[g(X) − E(g(X))]2]
= E[[a + b · X − a − b · E(X)]2]
= E[b2 · [X − E(X)]2]
= b2 · E[[X − E(X)]2]
= b2 · V (X)
−→ Spezialfall: b = 0, a ∈ R (Varianz einer Konstanten)
V (a) = 0
171
Rechenregel 2:
• Vereinfachte Varianzberechnung:
V (X) = E[(X − E(X))2]
= E[X 2 − 2 · E(X) · X + [E(X)]2]
= E(X 2) − 2 · E(X) · E(X) + [E(X)]2
= E(X 2) − [E(X)]2
172
Übungsaufgabe:
• Berechnen Sie anhand dieser Formel die Varianz der stetigen
ZV’en X mit Dichte

 x
, für 1 ≤ x ≤ 3
fX (x) =
4
 0
, sonst
Satz 3.12: (Zusammenfassung)
Es seien X eine beliebige ZV (stetig oder diskret) sowie a, b ∈ R
reelle Zahlen. Es gelten die folgenden Rechenregeln:
1. V (X) = E(X 2) − [E(X)]2.
2. V (a + b · X) = b2 · V (X).
173
3.3 Spezielle diskrete Verteilungen
Jetzt:
• Einige wichtige diskrete Verteilungen:
Bernoulli-Verteilung
Binomial-Verteilung
Geometrische Verteilung
Poisson-Verteilung
174
1. Die Bernoulli-Verteilung
Ausgangssituation:
• Ein Zufallsexp. habe nur 2 interessierende Ausgänge:
Ω=A∪A
• Oft bezeichnet man das Ereignis A als Erfolg und A als Misserfolg oder Niete
Definition 3.13: (Bernoulli-Experiment)
Ein Zufallsexperiment, bei dem man sich nur dafür interessiert,
ob ein Ereignis A eintritt oder nicht, nennt man ein BernoulliExperiment.
175
Jetzt:
• Definiere die codierte ZV X als
X=
(
1
0
, falls A eintritt (Erfolg)
, falls A eintritt (Misserfolg)
Beispiele: [I]
• Das Geschlecht einer zufällig ausgewählten Person aus einer
Population:
X=
(
1
0
, falls die Person weiblich ist
, falls die Person männlich ist
176
Beispiele: [II]
• Eine Urne enthält insgesamt N Kugeln, von denen M rot und
N − M weiß sind. Betrachte das Experiment des 1-maligen
Ziehens einer Kugel:
X=
(
1
0
, falls die Kugel rot ist
, falls die Kugel weiß ist
Offensichtlich:
P (X = 1) =
M
≡p
N
P (X = 0) =
M
N −M
=1−
=1−p≡q
N
N
177
Definition 3.14: (Bernoulli-Verteilung)
Die ZV X repräsentiere ein Bernoulli-Experiment und für ein
festes p ∈ [0, 1] gelte
P (X = 1) = P (A) = p,
P (X = 0) = P (A) = 1 − p ≡ q.
Dann heißt die ZV X Bernoulli-verteilt mit Parameter (Erfolgswskt.) p und man schreibt X ∼ Be(p).
Berechnung des E-Wertes bzw. der Varianz:
• E(X) = 0 · (1 − p) + 1 · p = p
• V (X) = (0 − p)2 · (1 − p) + (1 − p)2 · p = p · (1 − p) = p · q
178
Wahrscheinlichkeits- und Verteilungsfunktion der Bernoulli-Verteilung
179
2. Die Binomial-Verteilung
Jetzt:
• Betrachte n gleichartige und unabhängig voneinander
durchgeführte Bernoulli-Experimente
(alle mit derselben Erfolgswahrscheinlichkeit p)
• Die ZV X bezeichne die Anzahl der Erfolge, d.h. der Träger
von X ist
TX = {0, 1, . . . , n}
Gesucht:
• Wskt. genau x Erfolge zu erzielen, d.h. P (X = x)
180
Herleitung:
• Bei
 ‘ n unabhängigen Bernoulli-Experimenten gibt es genau
n
x Versuchsreihen, die exakt x Erfolge und gleichzeitig n − x
Misserfolge aufweisen
• Wegen der Unabhängigkeit der
 ‘ Bernoulli-Experimente ist die
x · (1 − p)n−x
Wskt. jeder einzelnen dieser n
Versuchsreihen
p
x
 ‘
• Wegen der Disjunktheit der n
x Versuchsreihen folgt für die
gesuchte Wskt.
P (X = x) =
n‘
x
· px · (1 − p)n−x
181
Definition 3.15: (Binomial-Verteilung)
Eine diskrete ZV X mit Träger TX = {0, 1, . . . , n} und Wahrscheinlichkeitsfunktion
n‘
P (X = x) =
· px · (1 − p)n−x für x = 0, 1, . . . , n,
x
heißt binomialverteilt mit den Parametern n und p [in Zeichen:
X ∼ B(n, p)].
Bemerkung:
• Die Bernoulli-Verteilung aus Definition 3.14 (Folie 178) ist
ein Spezialfall der Binomialverteilung, denn es gilt
X ∼ Be(p)
ist das gleiche wie
X ∼ B(1, p)
182
Beispiel: [I]
• Eine Urne enthält 10 Kugeln, davon 3 rote und 7 weiße. Es
werden 2 Kugeln mit Zurücklegen gezogen. Gesucht sind die
Wskt’en dafür, genau 0, 1 bzw. 2 rote Kugeln zu ziehen
• Es bezeichne X die Anzahl der gezogenen roten Kugeln.
Die Wskt. bei genau einem Zug eine rote Kugel zu ziehen,
beträgt p = 3/10 = 0.3
−→ X ∼ B(n = 2, p = 0.3)
183
Beispiel: [II]
• Berechung der Wskt. Funktion:
P (X = 0) =
P (X = 1) =
P (X = 2) =
2‘
0
2‘
1
2‘
2
· 0.30 · (1 − 0.3)2−0 = 0.49
· 0.31 · (1 − 0.3)2−1 = 0.42
· 0.32 · (1 − 0.3)2−2 = 0.09
E-Wert und Varianz einer Bernoulli-Verteilung:
• E(X) = n · p
• V (X) = n · p · (1 − p)
(Beweise: später mit Ergebnissen aus Kapitel 4)
184
Wahrscheinlichkeits- und Verteilungsfunktion der Binomial-Verteilung
185
3. Die Geometrische Verteilung
Ausgangssituation:
• Bernoulli-Experiment (Ausgänge A bzw. A, P (A) = p) kann
prinzipiell beliebig oft wiederholt werden
(gleichartige unabhängige Experimente)
Von Interesse:
• Zeitpunkt des 1. Erfolges, d.h. ZV
X = Anzahl der Experimente bis zum 1. Ausgang A
186
Offensichtlich:
• Träger von X ist TX = {1, 2, . . .} = N
Berechnung der Wskt.-Funktion:
P (X = 1) = p
P (X = 2) = (1 − p) · p = p · (1 − p)
P (X = 3) = (1 − p) · (1 − p) · p = p · (1 − p)2
...
Allgemein gilt:
x−1
=
p
·
−
p)
·p
(1
P (X = x) = (1
·
−
p)
.
.
.
·
(1
−
p)
{z
}
|
x−1 mal
187
Definition 3.16: (Geometrische Verteilung)
Eine diskrete ZV X mit Träger TX = N und der Wahrscheinlichkeitsfunktion
P (X = x) = p · (1 − p)x−1
für x ∈ N
heißt geometrisch verteilt mit Parameter p ∈ (0, 1) [in Zeichen:
X ∼ G(p)].
Bemerkung:
• Bei der Berechnung diverser Verteilungseigenschaften spielt
die unendliche geometrische Reihe eine Rolle, z.B.
∞
X
x=1
P (X = x) =
∞
X
x=1
p · (1 − p)x−1 = p ·
1
=1
1 − (1 − p)
188
Satz 3.17: (Kenngrößen der geometrischen Verteilung)
Die diskrete ZV X sei geometrisch verteilt mit Parameter p,
d.h. X ∼ G(p). Dann sind der Erwartungswert bzw. die Varianz
von X gegeben durch
E(X) =
∞
X
1
x−1
=
x · p · (1 − p)
∞
X
1−p
x−1
=
.
(x − 1/p) · p · (1 − p)
2
p
x=1
V (X) =
x=1
p
2
189
Beispiel: [I]
• Aus einer Urne mit 10 Kugeln (4 rote, 6 weiße) wird mit
Zurücklegen gezogen. Gesucht werden
1. die Wskt., dass bei der 3. Ziehung erstmalig eine rote
Kugel gezogen wird,
2. die Wskt., dass frühestens bei der 3. Ziehung erstmalig
eine rote Kugel gezogen wird,
3. der Erwartungswert für das erstmalige Ziehen einer roten
Kugel,
4. die Varianz für das erstmalige Ziehen einer roten Kugel.
190
Beispiel: [II]
• Betrachte ZV
X = Nummer der Ziehung, bei der erstmalig eine rote
Kugel gezogen wird
• Offensichtlich: X ∼ G(0.4). Damit gilt:
1. P (X = 3) = 0.4 · 0.62 = 0.144
2.
∞
X
x=3
P (X = x) = 1 − P (X = 1) − P (X = 2) = 0.36
3. E(X) = 1/0.4 = 2.5
4. V (X) = (1 − 0.4)/(0.42) = 3.75
191
3. Die Poisson-Verteilung
Häufiges Anwendungsgebiet:
• Warteschlangenmodelle, z.B. zur Modellierung von
Schlangen vor einem Bankschalter
Auftragsschlangen bei einem Internet-Server
In dieser VL:
• Keine sachlogische Herleitung, sondern nur
formale Definition
Angabe von Erwartungswert und Varianz
192
Definition 3.18: (Poisson-Verteilung)
Die diskrete ZV X mit dem Träger TX = {0, 1, . . .} = N ∪ {0} und
der Wahrscheinlichkeitsfunktion
µx
−µ
P (X = x) = e ·
für x = 0, 1, 2, . . .
x!
heißt Poisson-verteilt mit Parameter µ > 0 [in Zeichen: X ∼
P o(µ)].
Bemerkung:
• e bezeichnet die Eulersche Zahl und die Funktion ex die
natürliche Exponentialfunktion
(vgl. Abschnitt 2.2, VL Statistik I)
193
Satz 3.19: (Kenngrößen der Poisson-Verteilung)
Die diskrete ZV X sei Poisson-verteilt mit Parameter µ, d.h. X ∼
P o(µ). Dann sind der Erwartungswert bzw. die Varianz von X
gegeben durch
E(X) = µ
sowie
V (X) = µ.
194
Herleitungen: [I]
• Für den Erwartungswert gilt:
∞
X
∞
x
x
X
µ
µ
E(X) =
x · e−µ ·
= e−µ
x·
x!
x!
x=0
x=1
∞
X
x−1
µ
= e−µ
µ·
(x − 1)!
x=1
∞
x
X
µ
= µ · e−µ
x=0 x!
= µ · e−µ · eµ
= µ
195
Herleitungen: [II]
• Zur Bestimmung der Varianz berechnet man zunächst
E(X 2) =
∞
X
x=0
µx
2
−µ
x ·e ·
x!
= ...
= µ2 + µ
• Nach Satz 3.12(a) (vgl. Folie 173) folgt damit für die Varianz:
V (X) = E(X 2) − [E(X)]2 = µ2 + µ − µ2 = µ
196
3.4 Spezielle stetige Verteilungen
Jetzt:
• Drei bekannte stetige Verteilungen
Gleichverteilung
Exponentialverteilung
Normalverteilung
197
1. Die Gleichverteilung
Definition 3.20: (Gleichverteilung)
Die stetige ZV X heißt gleichverteilt über dem Intervall [a, b], a <
b, [in Zeichen: X ∼ U (a, b)], falls X die folgende Dichtefunktion
besitzt:

1


, falls a ≤ x ≤ b
fX (x) =
.
b−a


0
, sonst
198
Bemerkungen:
• Die ZV X auf Folie 141 ist gleichverteilt über dem Intervall
[0, 10], d.h. X ∼ U (0, 10)
• Die Gleichverteilung U (a, b) sinnvoll, falls X keinerlei Werte
zwischen a und b ’bevorzugt’ annimmt
• Die Verteilungsfunktion berechnet sich zu


0


Z x
 x−a
fX (t) dt =
FX (x) =
 b−a
−∞



1
, falls x < a
, falls a ≤ x ≤ b
, falls x > b
199
Dichte- und Verteilungsfunktion der Gleichverteilung über [a, b]
200
Satz 3.21: (E-Wert, Varianz)
Für die stetige, gleichverteilte ZV X ∼ U (a, b) sind Erwartungswert
und Varianz gegeben durch
E(X) =
Z +∞
V (X) =
Z +∞
−∞
x · fX (x) dx =
a+b
,
2
(b − a)2
.
[x − E(X)] · fX (x) dx =
12
−∞
2
201
2. Die Exponentialverteilung
Definition 3.22: (Exponentialverteilung)
Die stetige ZV X heißt exponentialverteilt mit Parameter λ > 0
[in Zeichen: X ∼ Exp(λ)], falls X die folgende Dichtefunktion
besitzt:
fX (x) =
(
0
λ · e−λ·x
, falls x < 0
.
, falls x ≥ 0
Bemerkung:
• Die Verteilungsfunktion berechnet sich zu
FX (x) =
Z x
−∞
fX (t) dt =
(
0
1 − e−λ·x
, falls x < 0
, falls x ≥ 0
202
Dichtefunktionen der Exponentialverteilung
fX(x)
4
3
λ=3
2
λ=2
1
λ=1
0
0.0
x
0.5
1.0
1.5
2.0
2.5
3.0
3.5
203
Verteilungsfunktionen der Exponentialverteilung
FX(x)
1.0
λ=1
0.8
λ=2
0.6
λ=3
0.4
0.2
0.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
x
204
Satz 3.23: (E-Wert, Varianz)
Für die stetige, exponentialverteilte ZV X ∼ Exp(λ) sind Erwartungswert und Varianz gegeben durch
E(X) =
Z +∞
V (X) =
Z +∞
−∞
x · fX (x) dx =
1
,
λ
1
[x − E(X)]2 · fX (x) dx = 2 .
λ
−∞
205
3. Die Normalverteilung
Einführende Bemerkungen: [I]
• Normalverteilung (auch Gaußverteilung) ist die wichtigste
Verteilung überhaupt
Praxis:
−→ Relevanz resultiert aus zentralem Grenzwertsatz
(vgl. Kapitel 4)
Theorie:
−→ Relevant für Entwicklung von Schätz- und Testverfahren
(vgl. Kapitel 5-7)
206
Einführende Bemerkungen: [II]
• Viele Phänomene lassen sich gut durch eine Normalverteilung
approximieren, z.B.
Biometrische Größen
(Körpergrößen, Gewicht etc.)
Ökonomische Größen
(Veränderungsraten)
Zufällige Fehler
(Messfehler, Produktionsfehler)
207
Definition 3.24: (Normalverteilung)
Die stetige ZV X heißt normalverteilt mit Parametern µ ∈ R
und σ 2 > 0 [in Zeichen: X ∼ N (µ, σ 2)], falls X die folgende
Dichtefunktion besitzt:
fX (x) = √

‘
x−µ 2
1
−2 σ
1
·e
2π · σ
,
x ∈ R.
Bemerkungen:
• Die Parameter µ und σ 2 geben der Dichtefunktion ihre spezielle
Gestalt
• Die Normalverteilung N (0, 1) heißt Standardnormalverteilung.
Ihre Dichte wird oft mit ϕ(x) bezeichnet
208
Dichtefunktionen der Normalverteilung
fX(x)
N(5,1)
N(0,1)
N(5,3)
N(5,5)
0
5
x
209
Satz 3.25: (Eigenschaften der Normalverteilung) [I]
Es sei X ∼ N (µ, σ 2). Dann gilt:
1. Die Dichte fX (x) hat ihr einzige lokales Maximum an der
Stelle x = µ.
2. Die Dichte fX (x) ist symmetrisch um µ.
3. Die Dichte fX (x) besitzt Wendepunkte an den Stellen x =
µ + σ und x = µ − σ.
210
Satz 3.25: (Eigenschaften der Normalverteilung) [II]
4. Für Erwartungswert und Varianz von X gilt:
E(X) = µ
und
V (X) = σ 2.
5. Auch die linear transformierte ZV Y = a + b · X mit a, b ∈ R
ist normalverteilt mit Erwartungswert E(Y ) = a + b · µ und
Varianz V (Y ) = b2 · σ 2, d.h.
Y ∼ N (a + b · µ, b2 · σ 2).
211
Jetzt:
• Bestimmung der Verteilungsfunktion FX :
FX (x) = P (X ≤ x) =
Z x
=
Z x
−∞
fX (t) dt

‘
t−µ 2
1
−2 σ
1
√
·e
−∞ 2π · σ
dt
Problem:
• Keine mathematisch geschlossene Lösung des Integrals
• VF’en können nur approximativ berechnet werden
(durch numerische Verfahren)
212
(Approximative) Verteilungsfunktionen der Normalverteilung
FX(x)
1
N(0,1)
N(5,5)
0.5
N(5,3)
N(5,1)
0
5
x
213
Bezeichnung:
• Die
Verteilungsfunktion
der
Standardnormalverteilung
wird oft mit Φ(x) bezeichnet, also
Φ(x) ≡ FX (x) = P (X ≤ x)
für X ∼ N (0, 1)
Zentrales Ergebnis:
• Für jede beliebige normalverteilte ZV X ∼ N (µ, σ 2) kann
die VF FX (x) = P (X ≤ x) auf die VF der Standardnormalverteilung zurückgeführt werden
214
Herleitung: [I]
• Für die VF von X ∼ N (µ, σ 2) gilt




FX (x) = P (X ≤ x) = P (X − µ)/σ ≤ (x − µ)/σ 
|
{z
}
≡Y
• Nach Satz 3.25(e) folgt
1
X −µ
µ
=
Y =
·X −
σ
σ
σ
|{z}
|{z}
≡a
≡b
ist normalverteilt, und zwar




1
1

 µ
2
2
2
Y ∼ N (a + b · µ, b · σ ) = N − + · µ, 2 · σ  = N (0, 1)

 σ
|
{z σ } |σ {z }
=0
=1
215
Herleitung: [II]
• Insgesamt gilt also für die ZV X ∼ N (µ, σ 2):


x − µ

FX (x) = P (X ≤ x) = P  |{z}
Y
≤
=Φ
σ
∼N (0,1)
’
x−µ
σ
“
Beispiel: [I]
• Überdeckungswahrscheinlichkeiten bei der Normalverteilung
• Es seien X ∼ N (µ, σ 2) und k ∈ R eine reelle Zahl
• Gesucht: Wahrscheinlichkeit dafür, dass sich X im Intervall
[µ − k · σ, µ + k · σ] realisiert
216
Beispiel: [II]
• Es gilt:
P (µ − k · σ ≤ X ≤ µ + k · σ) = FX (µ + k · σ) − FX (µ − k · σ)
’
µ+k·σ−µ
= Φ
σ
’
“
µ−k·σ−µ
−Φ
σ
“
= Φ(k) − Φ(−k)
• Die VF Φ(x) der Standardnormalverteilung ist in allen StatistikLehrbüchern ausreichend tabelliert
(z.B. in Mosler/Schmid, 2008)
217
Beispiel: [III]
• Außerdem:
Φ(x) kann in allen statistischen Programmpaketen berechnet
werden
(z.B. in Excel, EViews, SPSS)
• Für k = 1, 2, 3 gilt:
k = 1 : Φ(1) − Φ(−1) = 0.6827
k = 2 : Φ(2) − Φ(−2) = 0.9545
k = 3 : Φ(3) − Φ(−3) = 0.9973
218
Überdeckungswahrscheinlichkeiten der Normalverteilung
F lä c h e n in h a lte :
1
1+2+4
1+2+3+4+5
1
5
µ−3σ
4
µ−2σ
3
2
µ−σ
µ
µ+σ
: 0 .6 8 2 7
: 0 .9 5 4 5
: 0 .9 9 7 3
µ+2σ
µ+3σ
219
4. Gemeinsame Verteilung und Grenzwertsätze
Häufig in der Praxis:
• Man muss mehrere (n) ZV’en gleichzeitig betrachten
(vgl. Statistik I, Kapitel 6)
Zunächst Vereinfachung:
• Betrachte n = 2 Zufallsvariablen (X und Y )
220
Beispiele:
• Zufällig ausgewählter Haushalt:
X = Haushaltsgröße
Y = Anzahl Autos
• Tagesrenditen zweier Aktien:
X = Rendite der VW-Aktie
Y = Rendite der BASF-Aktie
• 2-facher Würfelwurf:
X = Minimum der Augenzahlen
Y = Maximum der Augenzahlen
221
4.1 Gemeinsame Verteilung von Zufallsvariablen
Situation:
• Betrachte zwei ZV’en X und Y zu ein und demselben Zufallsexperiment, d.h.
X : Ω −→ R
Y
: Ω −→ R
222
Definition 4.1: (Gemeinsame Verteilungsfunktion)
Für die beiden ZV’en X und Y heißt die Funktion
FX,Y : R2 −→ [0, 1]
mit
FX,Y (x, y) = P ({ω|X(ω) ≤ x und Y (ω) ≤ y})
= P (X ≤ x, Y ≤ y)
die gemeinsame Verteilungsfunktion von X und Y .
223
Bemerkung:
• Die gemeinsame VF von X und Y ist die Wskt. dafür, dass
sich gleichzeitig
1. X kleiner oder gleich dem Wert x und
2. Y kleiner oder gleich dem Wert y realisieren
Einige Eigenschaften der gemeinsamen Verteilungsfunktion:
• FX,Y (x, y) ist monoton steigend in x und y
• limx→+∞,y→+∞ FX,Y (x, y) = 1
224
Jetzt:
• Unterscheidung zwischen
1. diskreten gemeinsamen Verteilungen
2. stetigen gemeinsamen Verteilungen
225
Definition 4.2: (Gemeinsam diskrete Zufallsvariablen)
Die beiden ZV’en X und Y heißen gemeinsam diskret verteilt,
falls es endlich viele oder abzählbar unendlich viele Realisationen
x1, x2, . . . und y1, y2, . . . gibt, so dass
pjk ≡ P (X = xj , Y = yk ) > 0
mit
...
... X
X
j=1 k=1
pjk =
...
... X
X
P (X = xj , Y = yk ) = 1
j=1 k=1
gilt. Für die gemeinsam diskret verteilten ZV’en X und Y heißt
die Funktion
fX,Y (x, y) =
(
pjk = P (X = xj , Y = yk )
0
, für x = xj und y = yk
, sonst
die gemeinsame Wahrscheinlichkeitsfunktion der diskreten ZV’en
X und Y .
226
Bemerkung:
• Die gemeinsame Wahrscheinlichkeitsfunktion kann in einer
Wahrscheinlichkeitstabelle dargestellt werden:
X/Y
x1
x2
...
y1
p11
p21
...
y2
p12
p22
...
y3
p13
p23
...
...
...
...
...
227
Beispiel: [I]
• X = Haushaltsgröße, Y = Anzahl Autos
• Wahrscheinlichkeitstabelle
X/Y
1
2
3
4
5
0
0.10
0.05
0.02
0.02
0.01
1
0.14
0.15
0.10
0.06
0.05
2
0.01
0.10
0.08
0.07
0.04
228
Beispiel: [II]
• Berechnung der gemeinsamen Verteilungsfunktion:
FX,Y (x, y) =
X
X
pjk
{j|xj ≤x} {k|yk ≤y}
• Z.B. gilt
FX,Y (3, 1) = P (X ≤ 3, Y ≤ 1)
= 0.10 + 0.14 + 0.05 + 0.15 + 0.02 + 0.10
= 0.56
oder
FX,Y (1.5, 3.2) = P (X ≤ 1.5, Y ≤ 3.2)
= 0.10 + 0.14 + 0.01
= 0.25
229
Jetzt:
• X = und Y seien beides stetige Zufallsvariablen
Definition 4.3: (Gemeinsam stetige Zufallsvariablen)
Die beiden ZV’en X und Y heißen gemeinsam stetig verteilt, falls
sich ihre gemeinsame Verteilungsfunktion FX,Y als Doppelintegral einer Funktion fX,Y : R2 −→ [0, ∞) schreiben lässt, d.h. wenn
gilt
FX,Y (x, y) = P (X ≤ x, Y ≤ y)
=
Z y
Z x
−∞ −∞
fX,Y (u, v) du dv
für alle (x, y) ∈ R2.
Die Funktion fX,Y (x, y) heißt gemeinsame Dichtefunktion von X
und Y .
230
Gemeinsame Dichtefunktion der Zufallsvariablen X und Y
231
Bemerkungen: [I]
• Rechnen mit gemeinsamen stetigen Verteilungen erfordert
Differential- und Integralrechnung mit Funktionen mehrerer
Veränderlicher
(partielles Differenzieren, Doppelintegrale)
• Bei partieller Differenzierbarkeit gilt
∂2
fX,Y (x, y) =
FX,Y (x, y)
∂x∂y
(Zusammenhang: gemeinsame Dichte- und gemeinsame VF)
232
Bemerkungen: [II]
• Für alle (x, y) ∈ R2 gilt fX,Y (x, y) ≥ 0
(gemeinsame Dichte ist überall positiv)
• Das Volumen unter der Dichte ist 1, d.h.
Z +∞ Z +∞
−∞
−∞
fX,Y (x, y) dx dy = 1
• Durch Doppelintegration der Dichte erhält man Intervallwahrscheinlichkeiten, z.B.
P (x1 ≤ X ≤ x2, y1 ≤ Y ≤ y2) =
Z y Z x
2
2
y1
x1
fX,Y (x, y) dx dy
(vgl. eindimensionalen stetigen Fall auf Folien 145, 146)
233
Gemeinsame Dichte- und Verteilungsfunktion der ZV’en X = ’Rendite
VW-Aktie’ und Y = ’Rendite BASF-Aktie’
234
Jetzt folgende Ausgangssituation:
• X und Y seien (diskret oder stetig) gemeinsam verteilt mit
der gemeinsamen Verteilungsfunktion FX,Y (x, y)
Gesucht:
• Verteilung von X bzw. von Y , wenn man die jeweils andere
Verteilung ignoriert
(die sogenannten Randverteilungen)
235
Es gilt: [I]
1. Randverteilungsfunktionen FX bzw. FY
FX (x) =
FY (y) =
lim FX,Y (x, y) = P (X ≤ x, Y ∈ R)
y→+∞
lim FX,Y (x, y) = P (X ∈ R, Y ≤ y)
x→+∞
2. Randwahrscheinlichkeiten gemeinsam diskreter ZV’en
pj,· ≡ P (X = xj ) =
p·,k ≡ P (Y = yk ) =
...
X
pjk
k=1
...
X
k=1
...
X
...
X
pjk
j=1
P (X = xj , Y = yk ) =
P (X = xj , Y = yk ) =
j=1
236
Es gilt: [II]
3. Randdichten gemeinsam stetiger ZV’en
fX (x) =
Z +∞
fX,Y (x, y) dy
fY (y) =
Z +∞
fX,Y (x, y) dx
−∞
−∞
Wichtig:
• Die Randverteilungen ergeben sich eindeutig aus der gemeinsamen Verteilung von X und Y
• ABER:
Die gemeinsame Verteilung ist nicht eindeutig durch die Randverteilungen bestimmt
237
Relevanz der Randverteilungen:
• Mit den Randverteilungen einer gemeinsamen Verteilung definiert man den Begriff der ’Stochastischen Unabhängigkeit’
von Zufallsvariablen
(vgl. Definition 2.13, Folie 82)
Definition 4.4: (Unabhängigkeit von Zufallsvariablen)
Die ZV’en X und Y heißen (stochastisch) unabhängig, falls ihre
gemeinsame Wahrscheinlichkeitsfunktion (diskreter Fall) bzw. ihre
gemeinsame Dichtefunktion (stetiger Fall) dem Produkt der Randverteilungen entspricht, d.h. falls
fX,Y (x, y) = fX (x) · fY (y)
für alle x, y ∈ R.
238
Bemerkungen:
• Für gemeinsam diskret verteilte ZV’en X und Y bedeutet die
Definition 4.4: X und Y sind stochastisch unabhängig, wenn
für alle j = 1, 2, . . . und k = 1, 2, . . . gilt:
P (X = xj , Y = yk ) = P (X = xj ) · P (Y = yk )
• Alternativ drückt man die stochastische Unabhängigkeit über
die gemeinsame Verteilungsfunktion aus:
Satz 4.5: (Stochastische Unabhängigkeit)
Die ZV’en X und Y sind genau dann stochastisch unabhängig,
falls sich ihre gemeinsame Verteilungsfunktion als Produkt der
Randverteilungsfunktionen darstellen lässt, d.h. falls
FX,Y (x, y) = FX (x) · FY (y)
für alle x, y ∈ R.
239
Beispiel 1: (Diskreter Fall) [I]
• Es bezeichnen
X die Haushaltsgröße
Y die Anzahl Autos pro Haushalt
240
Beispiel 1: (Diskreter Fall) [II]
• Wahrscheinlichkeitstabelle:
X/Y
x1 = 1
x2 = 2
x3 = 3
x4 = 4
x5 = 5
p·k = P (Y = yk )
y1 = 0
0.10
0.05
0.02
0.02
0.01
0.20
y2 = 1
0.14
0.15
0.10
0.06
0.05
0.50
y3 = 2
0.01
0.10
0.08
0.07
0.04
0.30
pj· = P (X = xj )
0.25
0.30
0.20
0.15
0.10
1.00
241
Beispiel 1: (Diskreter Fall) [III]
• X und Y sind stochastisch abhängig, denn
P (X = 1, Y = 0) = 0.10
aber
P (X = 1) · P (Y = 0) = 0.25 · 0.20 = 0.05
d.h.
P (X = 1, Y = 0) = 0.10 6= 0.05 = P (X = 1) · P (Y = 0)
242
Beispiel 2: (Stetiger Fall) [I]
• Es seien X und Y stetig verteilt mit gemeinsamer Dichtefunktion
fX,Y (x, y) =
(
x+y
0
, für 0 ≤ x ≤ 1, 0 ≤ y ≤ 1
, sonst
243
Beispiel 2: (Stetiger Fall) [II]
• Die Randdichte von X ergibt sich als
fX (x) =
Z +∞
−∞
( R
1(x + y) dy
0
fX,Y (x, y) dy =
0
=
 h

=
(
2 − (x · 0 + 1 · 02)
x·1+1
·
1
2
2
0
=
(
1
x+2
0

i1
1
2
x·y+2·y
0
0
, für 0 ≤ x ≤ 1
, sonst
, für 0 ≤ x ≤ 1
, sonst
, für 0 ≤ x ≤ 1
, sonst
, für 0 ≤ x ≤ 1
, sonst
244
Beispiel 2: (Stetiger Fall) [III]
• Auf analoge Art errechnet sich die Randdichte von Y :
fY (y) =
Z +∞
−∞
fX,Y (x, y) dx =
(
1
y+2
0
, für 0 ≤ y ≤ 1
, sonst
• X und Y sind stochastisch abhängig, denn
fX (0.2) · fY (0.2) = (0.2 + 0.5) · (0.2 + 0.5) = 0.49
aber
fX,Y (0.2, 0.2) = 0.2 + 0.2 = 0.4
d.h.
fX,Y (0.2, 0.2) = 0.4 6= 0.49 = fX (x) · fY (y)
245
Weiteres wichtiges Konzept:
• Bedingte Verteilung
(vgl. Abschnitt 2.3, Folie 67 ff.)
Grundlegende Frage:
• Wie ist die ZV X verteilt, wenn der Wert der ZV’en Y
bekannt ist
Hier:
• Beschränkung auf diskrete ZV’en
246
Definition 4.6: (Bedingte Wahrscheinlichkeit)
Es seien X und Y zwei gemeinsam diskret verteilte ZV’en mit
der gemeinsamen Wahrscheinlichkeitsfunktion
fX,Y (x, y) =
(
pjk = P (X = xj , Y = yk )
0
, für x = xj und y = yk
.
, sonst
Dann ist die bedingte Wahrscheinlichkeit für X = xj unter der
Bedingung Y = yk definiert durch
P (X = xj , Y = yk )
P (X = xj |Y = yk ) =
P (Y = yk )
für alle Realisationen x1, x2, . . . der ZV’en X.
247
Bemerkungen: [I]
• Die Definition 4.6 entspricht exakt der Definition 2.12 auf
Folie 70 für die Ereignisse (Mengen) A und B
• Wenn die ZV’en X und Y stochastisch unabhängig im Sinne
der Definition 4.4 von Folie 238 sind, so gilt:
P (X = xj , Y = yk )
P (X = xj |Y = yk ) =
P (Y = yk )
=
P (X = xj ) · P (Y = yk )
= P (X = xj )
P (Y = yk )
−→ Bei stochastischer Unabhängigkeit sind die bedingten
Wahrscheinlichkeiten von X unter Y = yk gleich den
unbedingten Wahrscheinlichkeiten von X
248
Bemerkungen: [III]
• Mit der bedingten Wahrscheinlichkeitsfunktion aus Definition
4.6 definiert man
die bedingte Verteilungsfunktion
FX|Y =yk =
X
{j|xj ≤x}
P (X = xj |Y = yk )
den bedingten Erwartungswert
E(X|Y = yk ) =
X
{xj ∈TX }
xj · P (X = xj |Y = yk )
249
Beispiel: [I]
• X = Haushaltsgröße, Y = Anzahl Autos pro Haushalt
• Wahrscheinlichkeitstabelle:
X/Y
x1 = 1
x2 = 2
x3 = 3
x4 = 4
x5 = 5
p·k = P (Y = yk )
y1 = 0
0.10
0.05
0.02
0.02
0.01
0.20
y2 = 1
0.14
0.15
0.10
0.06
0.05
0.50
y3 = 2
0.01
0.10
0.08
0.07
0.04
0.30
pj· = P (X = xj )
0.25
0.30
0.20
0.15
0.10
1.00
250
Beispiel: [II]
• Bedingte Verteilung von Y unter der Bedingung X = 2:
yk
0
1
2
P (Y = yk |X
0.05/0.30 =
0.15/0.30 =
0.10/0.30 =
= 2)
0.1667
0.5000
0.3333
• Bedingter Erwartungswert von Y unter der Bedingung X = 2:
E(Y |X = 2) = 0 · 0.1667 + 1 · 0.5 + 2 · 0.3333
= 1.1667
251
Jetzt:
• Definition des Erwartungswertes einer Funktion
g : R2 −→ R
(x, y) 7−→ g(x, y)
zweier gemeinsam verteilter Zufallsvariablen X und Y
(d.h. E[g(X, Y )])
Bedeutung:
• Gewinnung diverser praktischer Ergebnisse und hilfreicher
Rechenregeln
252
Definition 4.7: (E-Wert einer Funktion)
Es seien X und Y zwei gemeinsam (diskret oder stetig) verteilte
ZV’en mit Wahrscheinlichkeits- bzw. Dichtefunktion fX,Y (x, y)
und g(x, y) eine Funktion. Dann ist der Erwartungswert der
Funktion definiert als
E[g(X, Y )] =
X
X
{xj ∈TX } {yk ∈TY }
g(xj , yk ) · P (X = xj , Y = yk ),
falls X und Y gemeinsam diskret bzw.
E[g(X, Y )] =
Z +∞ Z +∞
−∞
−∞
g(x, y) · fX,Y (x, y) dx dy,
falls X und Y gemeinsam stetig verteilt sind.
253
Beispiel 1: [I]
• Es seien X und Y gemeinsam stetig verteilte ZV’en mit
Dichtefunktion fX,Y (x, y)
• Für g(x, y) = y gilt:
E[g(X, Y )] =
Z +∞ Z +∞
g(x, y) · fX,Y (x, y) dx dy
=
Z +∞ Z +∞
y · fX,Y (x, y) dx dy
=
Z +∞
−∞
−∞
−∞
−∞
−∞
Z
y·
|
+∞
−∞
!
fX,Y (x, y) dx
{z
dy
}
= fY (y) (Randdichte)
254
Beispiel 1: [II]
und somit
E[g(X, Y )] =
Z +∞
−∞
y · fY (y) dy
= E(Y )
• Ebenso erhält man für g(x, y) = x:
E[g(X, Y )] = E(X)
• Analoges Ergebnis für diskrete ZV’en X und Y
255
Beispiel 2: [I]
• Für g(x, y) = x + y gilt:
E[g(X, Y )] = E(X + Y ) =
=
=
−∞
Z +∞ Z +∞ h
−∞
−∞
Z +∞ Z +∞
−∞
+
=
Z +∞ Z +∞
−∞
Z +∞
−∞
i
x · fX,Y (x, y) + y · fX,Y (x, y) dx dy
x · fX,Y (x, y) dx dy
Z +∞ Z +∞
−∞
−∞
(x + y) · fX,Y (x, y) dx dy
−∞
y · fX,Y (x, y) dx dy
x · fX (x) dx +
Z +∞
−∞
y · fY (y) dy
= E(X) + E(Y )
256
Bemerkung:
• Unter bestimmten (hier erfüllten) Voraussetzungen kann die
Integrationsreihenfolge vertauscht werden
Jetzt:
• Maßzahl zur Messung des Zusammenhangs zwischen zwei
ZV’en X und Y
Konzept: [I]
• Betrachte Abweichung einer jeden ZV’en vom jeweiligen Erwartungswert, d.h.
X − E(X)
sowie
Y − E(Y )
257
Konzept: [II]
• Das Produkt der Abweichungen,
[X − E(X)] · [Y − E(Y )]
ist eine ZV und gibt Auskunft darüber, ob die beiden ZV’en
X und Y tendenziell in die gleiche oder in unterschiedliche
Richtungen von ihren jeweiligen Erwartungswerten abweichen
• Der Erwartungswert dieser ZV’en, d.h.
E[(X − E(X)) · (Y − E(Y ))]
ist ein plausibles Maß für den Zusammenhang zwischen X
und Y
258
Definition 4.8: (Kovarianz)
Es seien X und Y zwei ZV’en mit den jeweiligen Erwartungswerten
E(X) und E(Y ). Dann heißt die Größe
Cov(X, Y ) ≡ E[(X − E(X)) · (Y − E(Y ))]
die Kovarianz zwischen X und Y .
Bemerkungen: [I]
• Die Kovarianz ist der Erwartungswert der Funktion
g(X, Y ) = (X − E(X)) · (Y − E(Y )).
259
Bemerkungen: [II]
• Gemäß Definition 4.7 (Folie 253) berechnet sich dieser Erwartungswert als
Cov(X, Y ) =
X
X
{xj ∈TX } {yk ∈TY }

‘
xj − E(X) · (yk − E(Y )) · pjk
mit pjk = P (X = xj , Y = yk ) falls X und Y gemeinsam diskret
bzw.
Cov(X, Y ) =
Z +∞ Z +∞
−∞
−∞
(x − E(X))·(y − E(Y ))·fX,Y (x, y) dx dy,
falls X und Y gemeinsam stetig verteilt sind
• Nützliche Umformung:
Cov(X, Y ) = E(X · Y ) − E(X) · E(Y )
260
Zentrales Resultat:
• Zusammenhang zwischen stochastischer Unabhängigkeit der
ZV’en X und Y und deren Kovarianz
Satz 4.9: (Unabhängigkeit und Kovarianz)
Es seien X und Y zwei ZV’en mit den jeweiligen Erwartungswerten
E(X) und E(Y ). Sind X und Y stochastisch unabhängig, so folgt
Cov(X, Y ) = 0.
261
Beweis: (für stetige ZV’en) [I]
• Zunächst gilt:
E(X · Y ) =
Z +∞ Z +∞
x · y · fX,Y (x, y) dx dy
=
Z +∞ Z +∞
x · y · fX (x) · fY (y) dx dy
=
Z +∞
−∞
−∞
−∞
−∞
| −∞
y · fY (y) dy ·
{z
=E(Y )
Z +∞
} | −∞
x · fX (x) dx
{z
=E(X)
}
= E(X) · E(Y )
262
Beweis: (für stetige ZV’en) [II]
• Damit gilt:
Cov(X, Y ) = E(X · Y ) − E(X) · E(Y )
= E(X) · E(Y ) − E(X) · E(Y )
= 0
Vorsicht:
• Die Umkehrung gilt nicht, d.h. aus
Cov(X, Y ) = 0
folgt nicht die Unabhängigkeit von X und Y
263
Aber:
• Aus
Cov(X, Y ) 6= 0
folgt, dass X und Y stochastisch abhängig sind
Nachteil der Kovarianz:
• Cov(X, Y ) ist nicht normiert
−→ Normierung der Kovarianz führt zum Korrelationskoeffizienten
264
Definition 4.10: (Korrelationkoeffizient)
Es seien X und Y zwei ZV’en mit den Erwartungswerten E(X), E(Y )
und den Varianzen V (X), V (Y ). Dann ist der Korrelationskoeffizient zwischen X und Y definiert durch
Cov(X, Y )
q
Corr(X, Y ) = q
.
V (X) · V (Y )
Eigenschaften des Korrelationskoeffizienten: [I]
• Corr(X, Y ) ist dimensionslos
• Corr(X, Y ) ist symmetrisch, d.h.
Corr(X, Y ) = Corr(Y, X)
265
Eigenschaften des Korrelationskoeffizienten: [II]
• Sind X und X stochastisch unabhängig, so gilt
Corr(X, Y ) = 0
(Vorsicht: Die Umkehrung gilt nicht)
• Der Korrelationskoeffizient ist normiert, d.h. es gilt stets
−1 ≤ Corr(X, Y ) ≤ 1
• Der Korrelationskoeffizient misst die Stärke des linearen Zusammenhangs zwischen den ZV’en X und Y
266
Bisher gezeigt:
• Sind X und Y zwei (diskrete oder stetige) ZV, so gilt:
E(X + Y ) = E(X) + E(Y )
(vgl. Folie 256)
E(X · Y ) = E(X) · E(Y ) + Cov(X, Y )
(vgl. Folie 260)
Jetzt:
• Varianz einer Summe von ZV’en
267
Varianz einer Summe von ZV’en:
n
V (X + Y ) = E [X + Y − E (X + Y )]
n
2
o
= E [(X − E(X)) + (Y − E(Y ))]
2
o
2
2
+
−
E
Y
E(Y
)
X
E(X)
= E
−
[
]
[
]
{z
}
|
{z
}
|
=V (X)
=V (Y )
+2 · E {[X − E(X)] · [Y − E(Y )]}
{z
}
|
=Cov(X,Y )
= V (X) + V (Y ) + 2 · Cov(X, Y )
268
Satz 4.11: (Rechenregeln)
Sind X und Y (diskrete oder stetige) ZV’en mit Erwartungswerten
E(X), E(Y ) und Varianzen V (X), V (Y ), so gilt:
1. E(X + Y ) = E(X) + E(Y ),
2. E(X · Y ) = E(X) · E(Y ) + Cov(X, Y ),
3. V (X + Y ) = V (X) + V (Y ) + 2 · Cov(X, Y ).
Sind X und Y zusätzlich stochastisch unabhängig, so folgt wegen
Cov(X, Y ) = 0:
E(X · Y ) = E(X) · E(Y )
V (X + Y ) = V (X) + V (Y ).
269
Bemerkung:
• Es seien X und Y (diskrete oder stetige) ZV’en und a, b ∈ R
reelle Zahlen
−→ a · X + b · Y ist ebenfalls eine ZV und es gilt:
E (a · X + b · Y ) = a · E(X) + b · E(Y )
V (a · X + b · Y ) = a2 · V (X) + b2 · V (Y )
+ 2 · a · b · Cov(X, Y )
270
Beispiel: [I]
• In einem Portfolio befinden sich 2 Aktien
X : Jahresrendite der Aktie A (in %)
Y : Jahresrendite der Aktie B (in %)
• Bekannt seien
E(X) = 7
σ(X) =
E(Y ) = 15
Corr(X, Y ) = −0.4
σ(Y ) =
q
q
V (X) = 25
V (Y ) = 45
• a = 70% des Vermögens wurden in Aktie A investiert
• b = 30% des Vermögens wurden in Aktie B investiert
271
Beispiel: [II]
• Die Jahresrendite des Portfolios ist
Z =a·X +b·Y
• Für die erwartete Rendite des Portfolios folgt:
E(Z) = E(a · X + b · Y )
= a · E(X) + b · E(Y )
= 0.7 · 7 + 0.3 · 15
= 9.4
272
Beispiel: [III]
• Für die Varianz des Portfolios gilt:
V (Z) = V (a · X + b · Y )
= a2 · V (X) + b2 · V (Y ) + 2 · a · b · Cov(X, Y )
= a2 · V (X) + b2 · V (Y )
+ 2 · a · b · σ(X) · σ(Y ) · Corr(X, Y )
= 0.72 · 252 + 0.32 · 452 + 2 · 0.7 · 0.3 · 25 · 45 · (−0.4)
= 299.5
• Für die Standardabweichung folgt:
q
√
σ(Z) = V (Z) = 299.5 = 17.31
273
Offensichtlich:
• Durch Diversifikation erreicht man
σ(Z) = 17.31 < 25 = σ(X) < 45 = σ(Y ),
(Standardabweichung des Portfolios ist geringer als die Standardabweichungen der Einzelaktien)
−→ Nobelpreise für
H. Markowitz (1990)
J. Tobin (1981)
274
Jetzt:
• Erweiterung der Rechenregeln auf n ZV’en
Beachte zunächst:
• Es seien X1, X2, . . . , Xn ZV’en und a1, . . . , an ∈ R
Es folgt:
Z=
n
X
i=1
ai · Xi = a1 · X1 + . . . + a · Xn
ist ebenfalls eine Zufallsvariable
275
Satz 4.12: (Rechenregeln für gewichtete Summen)
Es seien X1, . . . , Xn (diskrete oder stetige) Zufallsvariablen und
a1, . . . , an ∈ R reelle Zahlen. Dann gelten für den Erwartungswert
bzw. die Varianz der gewichteten Summe:

E

V 
n
X
i=1
n
X
i=1

ai · Xi =

ai · Xi =
n
X
ai · E(Xi)
n
X
a2
i · V (Xi)
i=1
i=1
+
n X
n
X
i=1 j=1
ai · aj · Cov(Xi, Xj ).
j6=i
276
Bemerkungen: [I]
• Für n = 2 gilt:
V (X1 + X2) =
2
X
i=1
ai2 · V (Xi) +
2
2 X
X
i=1 j=1
ai · aj · Cov(Xi, Xj )
j6=i
2
= a2
1 · V (X1 ) + a2 · V (X2)
+a1 · a2 · Cov(X1, X2) + a2 · a1 · Cov(X2, X1)
2 · V (X )
= a2
·
(X
)
+
V
a
2
1
2
1
+ 2 · a1 · a2 · Cov(X1, X2)
277
Bemerkungen: [I]
• Sind X1, . . . , Xn paarweise stochastisch unabhängig, so folgt
Cov(Xi, Xj ) = 0
für alle i 6= j,
und damit

V 
n
X
i=1

ai · Xi =
n
X
i=1
a2
i · V (Xi)
278
4.2 Grenzwertsätze
Situation:
• Gegeben sei eine unendliche Folge von ZV’en
X1 , X 2 , X 3 , . . . ,
die alle die gleiche Verteilung besitzen und alle paarweise
stochastisch unabhängig sind
(d.h. Cov(Xi, Xj ) = 0 für alle i 6= j)
• Betrachte für gegebenes n das arithmetische Mittel sowie die
Variablensumme
n
1 X
Xn = ·
Xi
n i=1
Sn =
n
X
Xi
i=1
279
Man beachte:
• X n und Sn sind selbst ZV’en
Inhalt von Grenzwertsätzen:
• Was passiert mit der Verteilung von X n und Sn für n → ∞?
Wichtige Grenzwertsätze:
• Schwaches bzw. starkes Gesetz der großen Zahlen
• Glivenko-Cantelli-Grenzwertsätze
Hier nur:
• Zentraler Grenzwertsatz
280
Satz 4.13: (E-Werte und Varianzen von X n und Sn)
Angenommen, jede ZV der unendlichen Folge X1, X2, . . . (alle
paarweise unabhängig) hat die gleiche Verteilung wie die ZV X,
wobei E(X) = µ und V (X) = σ 2. Dann gilt:

E(Sn) = E 
n
X

Xi  =
n
X
E(Xi) = n · µ,
i=1
i=1


n
n
X
X
V (Sn) = V 
V (Xi) = n · σ 2,
Xi  =
i=1
i=1


n
n
X
X
1
1
E(X n) = E  ·
Xi  = ·
E(Xi) = µ,
n i=1
n i=1


n
n
2
X
X
σ
1
1
V (Xi) =
Xi  = 2 ·
.
V (X n) = V  ·
n i=1
n i=1
n
281
Jetzt:
• Essenz des zentralen Grenzwertsatzes
• Begründung für die Wichtigkeit der Normalverteilung
Dazu:
• Betrachte Folge von ZV’en X1, X2, . . . , Xn mit folgenden Eigenschaften:
X1, X2, . . . , Xn sind paarweise stochastisch unabhängig
6 j)
(d.h. Cov(Xi, Xj ) = 0 für alle i =
Jede der ZV’en Xi hat eine beliebige Verteilung mit Erwartungswert E(Xi) und Varianz V (Xi)
282
Bemerkung:
• Dieses Szenario ist allgemeiner als die dargestellte Situation
auf Folie 279
• Dort hatten alle Xi die gleiche Verteilung und damit alle den
gleichen Erwartungswert und alle die gleiche Varianz
283
Beispiel: (Vier unabhängige Gleichverteilungen)
• Betrachte die 4 ZV’en
X1 ∼ U (0, 1)
X2 ∼ U (0, 2)
X3 ∼ U (0, 3)
X4 ∼ U (0, 4)
• Erzeuge je 1000 Realisationen der ZV’en durch einen Zufallszahlengenerator (z.B. in Excel)
• Darstellung der Realisationen in Histogrammen
284
Histogramme der 4000 Realisationen
40
40
Series: R1
Sample 1 1000
Observations 1000
30
Series: R2
Sample 1 1000
Observations 1000
30
Mean
0.510861
Median
0.524379
Maximum 0.999096
Minimum 0.000637
Std. Dev. 0.284659
Skewness-0.090152
Kurtosis 1.864680
20
10
Mean
1.009103
Median
1.018621
Maximum 1.998551
Minimum 0.001670
Std. Dev. 0.575747
Skewness-0.055004
Kurtosis 1.845855
20
10
Jarque-Bera
55.06086
Probability 0.000000
0
0.000 0.125 0.250 0.375 0.500 0.625 0.750 0.875 1.000
Jarque-Bera
56.00637
Probability 0.000000
0
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0
50
40
Series: R3
Sample 1 1000
Observations 1000
40
Series: R4
Sample 1 1000
Observations 1000
30
Mean
1.485121
Median
1.472444
Maximum 2.998413
Minimum 0.006841
Std. Dev. 0.864029
Skewness 0.038569
Kurtosis 1.803775
30
20
10
Mean
2.018453
Median
2.077359
Maximum 3.998845
Minimum 0.004209
Std. Dev. 1.146674
Skewness-0.048100
Kurtosis 1.809096
20
10
Jarque-Bera
59.87098
Probability 0.000000
Jarque-Bera
59.47948
Probability 0.000000
0
0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
285
Offensichtlich:
• Histogramme ”ähneln” den Dichtefunktionen
Frage:
• Was passiert, wenn die ZV’en sukzessive aufsummiert werden?
Betrachte dazu
S 1 = X1 ,
S2 =
2
X
i=1
Xi
S3 =
3
X
i=1
Xi
S4 =
4
X
Xi
i=1
286
Histogramme der Summenrealisationen der ZV’en S1, S2, S3, S4
40
40
Series: R1
Sample 1 1000
Observations 1000
30
Series: R2
Sample 1 1000
Observations 1000
30
Mean
0.510861
Median
0.524379
Maximum 0.999096
Minimum 0.000637
Std. Dev. 0.284659
Skewness-0.090152
Kurtosis 1.864680
20
10
Mean
1.009103
Median
1.018621
Maximum 1.998551
Minimum 0.001670
Std. Dev. 0.575747
Skewness-0.055004
Kurtosis 1.845855
20
10
Jarque-Bera
55.06086
Probability 0.000000
0
0.000 0.125 0.250 0.375 0.500 0.625 0.750 0.875 1.000
Jarque-Bera
56.00637
Probability 0.000000
0
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0
50
40
Series: R3
Sample 1 1000
Observations 1000
40
Series: R4
Sample 1 1000
Observations 1000
30
Mean
1.485121
Median
1.472444
Maximum 2.998413
Minimum 0.006841
Std. Dev. 0.864029
Skewness 0.038569
Kurtosis 1.803775
30
20
10
Mean
2.018453
Median
2.077359
Maximum 3.998845
Minimum 0.004209
Std. Dev. 1.146674
Skewness-0.048100
Kurtosis 1.809096
20
10
Jarque-Bera
59.87098
Probability 0.000000
Jarque-Bera
59.47948
Probability 0.000000
0
0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
287
Offensichtlich:
• Histogramme der Summenrealisationen ”ähneln” dem Histogramm einer Normalverteilung
Erwartungswert der Summenverteilung S4:
E(S4) = E(X1 + . . . + X4) =
4
X
E(Xi)
i=1
= 0.5 + 1.0 + 1.5 + 2.0
= 5.0
288
Varianz der Summenverteilung S4:
V (S4)
=
Unabh.
=
V (X1 + . . . + X4)
4
X
V (Xi)
i=1
=
1
4
9
16
5
+
+
+
=
12
12
12
12
2
=
2.5
Daraus ergibt sich die Standardabweichung
√
σ(S4) = 2.5 = 1.5811
289
Ergebnis:
• Wird die Summe Sn ”sehr groß” (d.h. n → ∞), so ist diese
annähernd normalverteilt
−→ Dies ist die Essenz des zentralen Grenzwertsatzes
Fazit:
• Setzt sich ein Zufallsvorgang additiv aus vielen kleinen unabhängigen Einflüssen zusammen, so ist der Zufallsvorgang
annähernd normalverteilt
• Aus diesem Grund spielt die Normalverteilung in der Praxis
eine entscheidende Rolle
290
5. Stichproben und Statistiken
Problem:
• Es sei X eine ZV, die einen interessierenden Zufallsvorgang
repräsentiere
• Man möchte die tatsächliche Verteilung von X kennenlernen
(z.B. mittels der VF FX (x) = P (X ≤ x))
291
Man beachte:
• In praxi ist die Verteilung X zunächst unbekannt
Deshalb:
• Sammle Informationen über die unbekannte Verteilung des
Zufallsvorgangs, indem man diesen (und damit die ZV’e X)
mehrfach beobachtet
−→ Zufallsstichprobe
292
5.1 Zufallsstichprobe
Situation:
• Es sei X die ZV, die den interessierenden Zufallsvorgang
repräsentiere
• Man beabsichtigt, den Zufallsvorgang (d.h. X) insgesamt nmal beoachten
• Vor den Realisierungen kann man die n potenziellen Beobachtungen als ZV’en X1, . . . , Xn auffassen
293
Definition 5.1: (Zufallsstichprobe)
Die ZV’en X1, . . . , Xn heißen einfache Zufallsstichprobe aus X,
wenn
1. jedes Xi wie X verteilt ist,
2. X1, X2, . . . , Xn stochastisch unabhängig sind.
Die Anzahl n heißt Stichprobenumfang.
Bemerkung:
• Man geht davon aus, dass der interessierende Zufallsvorgang
prinzipiell beliebig oft wiederholt werden kann
294
Modell der einfachen Zufallsstichprobe
Zufallsvorgang X
X1 (ZV)
X2 (ZV)
...
Xn (ZV)
x1 (Realisation 1. Exp.)
x2 (Realisation 2. Exp.)
...
xn (Realisation n. Exp.)
Mögliche
Realisationen
295
Achtung:
• Die Definition 5.1 stimmt nicht mit der umgangssprachlichen
Verwendung des Wortes Stichprobe überein
• Eine Stichprobe in unserem Sinne besteht nicht aus den
tatsächlich beobachteten Daten
• Die tatsächlich beobachteten Daten seien x1, . . . , xn
• Man bezeichnet x1, . . . , xn als den Wert oder die Realisierung
der Stichprobe X1, . . . , Xn
(oder auch als die konkrete Stichprobe)
296
Beispiel 1:
• X sei der Lohn eines Arbeiters der Metallindustrie
• Wir interessieren uns für E(X) (den erwarteten Lohn)
• Es sollen n = 100 Arbeiter befragt werden
• Jeder Arbeiter habe die gleiche Auswahlwahrscheinlichkeit
• Xi sei das Einkommen des i-ten befragten Arbeiters
• Die X1, . . . , Xn sollen unabhängig sein
• Die tatsächlich beobachteten Daten sind x1, . . . , xn
297
Beispiel 2:
• X sei die Lebensdauer eines Fernsehers (in Jahren)
• Der Produzent gibt eine 2-Jahres-Garantie
• Wir interessieren uns für P (X < 2)
• Wir untersuchen die Lebensdauern von n = 25 zufällig aus
der Produktion ausgewählten Fernsehern
• Xi sei die Lebensdauer des i-ten Fernsehers
• Die X1, . . . , Xn sollen unabhängig sein
• Die tatsächlich erhobenen Daten sind x1, . . . , xn
298
Beispiel 3:
• Wir interessieren uns für den Anteil der FDP-Wähler in NRW
• Die ZV
X=
(
0
1
, befragte Person wählt nicht FDP
, befragte Person wählt FDP
ist Bernoulli verteilt (vgl. Definition 3.14, Folie 178)
• Wir suchen den Wert des Parameters p
• Es sollen n = 1000 Personen befragt werden
• Xi sei die Wahlabsicht der befragten Person
299
5.2 Statistiken
Definition 5.2: (Statistik, Stichprobenfunktion)
Es seien X1, . . . , Xn eine einfache Stichprobe aus X sowie g :
Rn −→ R eine reellwertige Funktion mit n Argumenten. Dann
nennt man die ZV
T = g(X1, . . . , Xn)
eine Statistik oder Stichprobenfunktion.
Beispiele: [I]
• Stichprobenmittel:
n
1 X
X = g(X1, . . . , Xn) = ·
Xi
n i=1
300
Beispiele: [II]
• Stichprobenvarianz:
n 
‘2
1 X
2
S = g(X1, . . . , Xn) = ·
Xi − X
n i=1
• Stichprobenstandardabweichung:
v
u
n 
‘2
u1 X
Xi − X
S = g(X1, . . . , Xn) = t ·
n i=1
Bemerkung:
• Die Statistik T = g(X1, . . . , Xn) ist eine Funktion von ZV’en
und damit selbst eine ZV
−→ Eine Statistik hat eine Verteilung
(d.h. auch einen Erwartungswert und eine Varianz)
301
Wofür braucht man Statistiken?
• Liefern Informationen über die Verteilung von X
(also über den interessierenden Zufallsvorgang)
Sinn von Statistiken
Stichprobe
( X1, . . ., Xn)
g( X1, . . ., Xn)
Statistik
Messung
Stichprobenrealisation
( x1, . . ., xn)
g( x1, . . ., xn)
Realisation der Statistik
302
Statistiken sind Grundbausteine beim
• Schätzen von Parametern
• Testen von Hypothesen über Parameter
(Statistische Inferenz, Statistisches Schließen)
303
5.3 Exkurs: χ2- und t-Verteilung
Bisherige Erkenntnis:
• Eine Statistik T = g(X1, . . . , Xn) ist eine ZV
−→ Statistik T hat
eine Verteilung
einen Erwartungswert
eine Varianz
304
Jetzt:
• Betrachte eine einfache Zufallsstichprobe X1, . . . , Xn aus einer
Normalverteilung, d.h.
X1, . . . , Xn ∼ N (µ, σ 2)
und X1, . . . , Xn sind stochastisch unabhängig
• Bestimmte Statistiken g(X1, . . . , Xn) aus einer Normalverteilung haben spezielle, wohlbekannte Verteilungen
• Zwei solcher Verteilungen sind die
χ2-Verteilung
t-Verteilung
305
Bemerkungen:
• χ2- und t-Verteilung sind spezielle stetige Verteilungen
• Sie werden definiert über ihre Dichtefunktionen
(vgl. Abschnitt 3.4)
Definition 5.3: (χ2-Verteilung)
Die stetige ZV Q heißt χ2-verteilt mit Parameter n > 0, [in
Zeichen: Q ∼ χ2(n)], falls Q die folgende Dichtefunktion besitzt:
1
fQ(x) = n/2
· xn/2−1 · e−x/2.
· Γ(n/2)
2
306
Bemerkungen:
• Die Funktion Γ(·) heißt vollständige Gammafunktion und ist
in der Literatur hinreichend tabelliert
• Der Parameter n der χ2-Verteilung wird als Freiheitsgrad
bezeichnet
• E-Wert und Varianz der χ2-Verteilung lauten:
E(Q) = n
V (Q) = 2n
307
Definition 5.4: (t-Verteilung)
Die stetige ZV W heißt t-verteilt mit Parameter n > 0, [in Zeichen: W ∼ t(n)], falls W die folgende Dichtefunktion besitzt:
fW (x) =
Γ[(n + 1)/2]
(n · π)1/2 · Γ(n/2)
h
i−(n+1)/2
2
· 1 + (x /n)
.
Bemerkungen:
• Der Parameter n der t-Verteilung wird als Freiheitsgrad bezeichnet
• E-Wert und Varianz der t-Verteilung lauten:
E(Q) = 0,
n
V (Q) =
,
n−2
falls n ≥ 2
falls n ≥ 3
308
5.4 Statistiken bei normalverteilter Stichprobe
Ausgangssituation:
• X1, . . . , Xn sei eine Stichprobe aus X ∼ N (µ, σ 2), d.h.
X1, . . . , Xn ∼ N (µ, σ 2)
mit X1, . . . , Xn sind paarweise stochastisch unabhängig
• Bezeichnungen für das arithmetische Stichprobenmittel sowie
die Stichprobenvarianz:
n
1 X
X=
Xi
n i=1
sowie
n 
‘2
1 X
2
S =
Xi − X
n i=1
309
Gesucht:
• Verteilung bestimmter Statistiken g(X1, . . . , Xn)
Satz 5.5: (Statistiken aus einer Normalverteilung) [I]
Es sei X ∼ N (µ, σ 2) und X1, . . . , Xn eine einfache Stichprobe aus
X. Dann gilt für die Verteilung
(a) des Stichprobenmittels
X ∼ N µ,
σ2
n
!
,
(b) des (parameter-)standardisierten Stichprobenmittels
√ X −µ
n·
∼ N (0, 1),
σ
310
Satz 5.5: (Statistiken aus einer Normalverteilung) [II]
(c) des standardisierten Stichprobenmittels
√
X −µ
n−1·
∼ t(n − 1),
S
(d) der Statistik
“
n ’
X
Xi − µ 2
i=1
σ
∼ χ2(n),
(e) der Statistik
n · S2
σ2
=
!2
n X
Xi − X
i=1
σ
∼ χ2(n − 1).
311
Offensichtlich:
• Verteilung vieler Statistiken mit X und S 2 sind bekannt, wenn
die Parameter µ und σ 2 bekannt sind
−→ Diese Erkenntnisse werden später ausgenutzt
Zunächst aber:
• Wie kann man Informationen über die unbekannten Parameter µ und σ 2 bekommen
−→ Schätzverfahren für unbekannte Parameter
312
6. Schätzverfahren für Parameter
Ausgangssituation:
• Ein interessierender Zufallsvorgang werde durch die ZV X
repräsentiert
• X habe eine unbekannte Verteilungsfunktion FX (x)
• Wir interessieren uns für einen (oder mehrere) Parameter der
Verteilung von X
313
Wichtige Parameter sind:
• Der Erwartungswert von X
• Die Varianz von X
• Werte der VF FX (x)
• Quantile der VF FX (x) (vgl. Definition 3.3, Folie 122)
314
Ansatz zur Informationsbeschaffung:
• Betrachte eine einfache Zufallsstichprobe X1, . . . , Xn aus X
• Schätze den unbekannten Parameter von X anhand einer
geeigneten Statistik
T = g(X1, . . . , Xn)
der Zufallsstichprobe
(vgl. Definition 5.2, Folie 300)
315
6.1 Punktschätzung
Bezeichnungen:
• Der unbekannte Parameter von X sei θ
(z.B. θ = E(X))
• Die Statistik der einfachen Zufallsstichprobe X1, . . . , Xn aus
X zur Schätzung des unbekannten Parameters θ wird häufig
mit θ̂(X1, . . . , Xn) bezeichnet
(memotechnisch sinnvoll)
316
Definition 6.1: (Schätzer, Schätzwert)
Die Statistik θ̂(X1, . . . , Xn) heißt Schätzer (auch Schätzfunktion)
für den Parameter θ. Hat sich die Zufallsstichprobe X1, . . . , Xn in
den Werten x1, . . . , xn realisiert, so bezeichnet man die damit verbundene Realisierung des Schätzers θ̂(x1, . . . , xn) als Schätzwert.
Bemerkungen:
• Der Schätzer θ̂(X1, . . . , Xn) ist eine Zufallsvariable
−→ Schätzer hat Vtlg., E-Wert und Varianz
• Der Schätzwert θ̂(x1, . . . , xn) ist dagegen eine Zahl
(vgl. Abbildungen auf den Folien 295 + 302)
317
Frage:
• Wozu braucht man das scheinbar komplizierte theoretische
Konzept des Schätzers als Zufallsvariable?
Antwort:
• Um alternative Schätzer für ein und denselben Parameter θ
im Hinblick auf ihre jeweilige ’Genauigkeit’ miteinander vergleichen zu können
318
Beispiel:
• Es sei θ = V (X) die Varianz von X
• Zwei alternative Schätzer für θ sind
n 
‘2
X
1
2
θ̂1(X1, . . . , Xn) = S =
Xi − X
n i=1
θ̂2(X1, . . . , Xn) = S
∗2
n 
‘2
1 X
Xi − X
=
n − 1 i=1
Frage:
• Welcher Schätzer ist ’besser’ und warum?
−→ Eigenschaften von Punktschätzern
319
6.2 Eigenschaften von Punktschätzern
Ziel:
• Formulierung von Qualitätskriterien zur Beurteilung der Eigenschaften eines Schätzers θ̂(X1, . . . , Xn) für θ
Hier 3 Kriterien:
• Erwartungstreue
• Mittlerer quadratischer Fehler
• (schwache) Konsistenz
320
Definition 6.2: (Erwartungstreue)
Der Schätzer θ̂(X1, . . . , Xn) für den unbekannten Parameter θ
heißt erwartungstreu, falls sein Erwartungswert mit dem zu schätzenden Parameter θ übereinstimmt, d.h. falls
h
i
E θ̂(X1, . . . , Xn) = θ.
Bemerkung:
• Anschaulich bedeutet Erwartungstreue, dass der Schätzer
θ̂(X1, . . . , Xn) nicht ’systematisch daneben’ schätzt, wenn
man den Schätzer nicht nur für eine, sondern für ’viele’ Stichproben auswertet
(Gedankenexperiment: Wiederholte Stichprobe)
321
Beispiel 1: [I]
• Es sei θ = E(X)
• Betrachte den Schätzer
n
1 X
Xi
θ̂(X1, . . . , Xn) = X =
n i=1
(arithmetisches Stichprobenmittel)
322
Beispiel 1: [II]
• Es gilt:
h
E θ̂(X1, . . . , Xn)
i

= E
n
1 X
n i=1

Xi 
n
n
1 X
1 X
E(Xi) =
E(X)
=
n i=1
n i=1
n
1 X
1
=
θ = ·n·θ =θ
n i=1
n
−→ θ̂(X1, . . . , Xn) = X ist erwartungstreu für θ = E(X)
(vgl. Satz 4.13, Folie 281)
323
Beispiel 2: [I]
• Es sei θ = V (X) die Varianz von X
• Betrachte den Schätzer
n 
‘2
X
1
2
θ̂1(X1, . . . , Xn) = S =
Xi − X
n i=1
(Stichprobenvarianz)
• Hier gilt
h
i
n−1
·θ
n
−→ S 2 ist nicht erwartungstreu für θ = V (X)
E θ̂1(X1, . . . , Xn) = E(S 2) =
324
Beispiel 2: [II]
• Betrachte korrigierte Stichprobenvarianz
θ̂2(X1, . . . , Xn) = S
• Hier gilt:
h
E θ̂2(X1, . . . , Xn)
∗2
i
n 
‘2
1 X
n
=
· S2
Xi − X =
n − 1 i=1
n−1
’
“
n
= E(S ∗2) = E
· S2
n−1
n
n−1
n
·θ
=
E(S 2) =
·
n−1
n−1
n
= θ = V (X)
−→ S ∗2 ist erwartungstreu für θ = V (X)
325
Satz 6.3: (E-treue Schätzer für E(X) und V (X))
Es sei X1, . . . , Xn eine Stichprobe aus X und X sei beliebig verteilt
mit unbekanntem Erwartungswert µ = E(X) sowie unbekannter
Varianz σ 2 = V (X). Dann sind die beiden Schätzer
n
1 X
Xi
µ̂(X1, . . . , Xn) = X = ·
n i=1
bzw.
σˆ2(X1, . . . , Xn) = S ∗2 =
n 
‘2
X
1
·
Xi − X
n − 1 i=1
stets erwartungstreu für die Parameter µ = E(X) und σ 2 =
V (X).
326
Vorsicht:
• Erwartungstreue pflanzt sich bei Parametertransformationen
nicht beliebig fort
Beispiel:
• Zwar ist S ∗2 erwartungstreu für σ 2 = V (X)
• Jedoch ist S ∗ nicht erwartungstreu für σ =
q
V (X)
Bemerkung:
• Im übrigen ist auch S nicht E-treu für σ =
q
V (X)
327
Übersicht:
• Weitere Parameter von X und zugehörige potenzielle Schätzer,
wie sie aus der deskriptiven Statistik (Statistik I) bekannt sind
Parameter
Wahrscheinlichkeit
Verteilungsfunktion
Quantil
Standardabweichung
Gemeinsame Wskt.
Kovarianz
Korrelationskoeffizient
Potenzieller Schätzer
relative Häufigkeit
emp. Verteilungsfunktion
Quantil
emp. Standardabweichung
gem. relative Häufigkeit
emp. Kovarianz
emp. Korrelationskoeffizient
Vorsicht:
• Die potenziellen Schätzer sind oft, aber nicht immer erwartungstreu für die zu schätzenden Parameter
328
Jetzt:
• Strengeres Qualitätskriterium für Schätzer
Dichtefunktionen zweier erwartungstreuer Schätzer für den Parameter θ
∧
Dichte von θ 1 ( X1, K , X n )
∧
Dichte von θ 2 ( X1, K , X n )
θ
329
Intuition:
• Ist ein Schätzer erwartungstreu, so ist es günstig, wenn er
eine kleine Varianz aufweist
−→ Optimal: Erwartungstreuer Schätzer mit minimaler Varianz
Problem:
• Solche Schätzer sind oft schwer oder gar nicht auffindbar
Ausweg:
• Kennzahlen zum Vergleich zweier alternativer Schätzer
Bekannteste Kennzahl:
• Mittlerer quadratischer Fehler
330
Definition 6.4: (Mittlerer quadratischer Fehler)
Es sei θ̂(X1, . . . , Xn) einer Schätzer für den unbekannten Parameter θ. Dann heißt die Kennzahl
MSE(θ̂) = E[(θ̂ − θ)2]
der mittlere quadratische Fehler (englisch: mean squared error)
des Schätzers θ̂.
Bemerkung:
• Der mittlere quadratische Fehler lässt sich auch schreiben als
h
MSE(θ̂) = V (θ̂) + E(θ̂) − θ
|
{z
i2
}
Verzerrung
−→ Bei erwartungstreuen Schätzern ist der MSE gleich der
Varianz des Schätzers
331
Weiteres Gütekriterium für einen Schätzer:
• Konsistenz eines Schätzers
Intuition:
• Ein Schätzer θ̂(X1, . . . , Xn) für den unbekannten Parameter θ
heißt konsistent, falls die Schätzung bei zunehmenden Stichprobenumfang immer genauer wird
(Konzept wird hier nicht genauer behandelt)
332
Weitere zentrale Fragestellung:
• Wie findet man geeignete Schätzer
Es gibt allgemeine Konstruktionsprinzipien, z.B. die:
• Methode der Kleinsten-Quadrate
• Momenten-Methode
• Maximum-Likelihood-Methode
(Gegenstand der Ökonometrie-VL im Hauptstudium)
333
6.3 Intervallschätzung
Bisher:
• Schätzung des Parameters θ auf der Basis einer Stichprobe
durch Punktschätzung θ̂(X1, . . . , Xn)
Problem:
• Punktschätzung trifft in der Regel den exakten Wert des
unbekannten Parameters θ nicht
• Bei Stichproben aus stetigen Verteilungen gilt sogar

‘
P θ̂(X1, . . . , Xn) = θ = 0
bzw.

‘
P θ̂(X1, . . . , Xn) 6= θ = 1
334
Alternativer Ansatz:
• Konstruktion eines zufälligen Intervalls anhand einer
Stichprobe X1, . . . , Xn, das den Parameter θ mit einer vorgebenen Wskt. überdeckt
Vorteil:
• Genauigkeit der Schätzung wird ’quantifiziert’
Ansatz:
• Wähle 2 Statistiken θ̂u(X1, . . . , Xn) und θ̂o(X1, . . . , Xn), derart dass das zufällige Intervall
h
i
I = θ̂u(X1, . . . , Xn), θ̂o(X1, . . . , Xn)
θ mit einer vorgegebenen Wahrscheinlichkeit überdeckt
335
Definition 6.5: (Konfidenzintervall)
Es sei X1, . . . , Xn eine Zufallsstichprobe aus X, θ ein unbekannter
Parameter und α ∈ [0, 1] eine reelle Zahl. Dann bezeichnet man
das zufällige Intervall
h
θ̂u(X1, . . . , Xn), θ̂o(X1, . . . , Xn)
mit der Eigenschaft

i
‘
P θ̂u(X1, . . . , Xn) ≤ θ ≤ θ̂o(X1, . . . , Xn) = 1 − α
als Konfidenzintervall für θ zum Konfidenzniveau 1 − α. Die Zahl
α ∈ [0, 1] heißt Irrtumswahrscheinlichkeit.
336
Bemerkungen:
• Die Grenzen des Intervalls sind ZV’en
• Nach Realisation der Stichprobe heißt das Intervall
h
θ̂u(x1, . . . , xn), θ̂o(x1, . . . , xn)
konkretes Konfidenzintervall
i
337
Konfidenzintervall 1: [I]
• Der interessierende Zufallsvorgang repräsentiert durch die ZV
X sei normalverteilt, d.h.
X ∼ N (µ, σ 2),
wobei µ unbekannt und σ 2 bekannt sein sollen
• Gesucht wird (1 − α)-Konfidenzintervall für µ
• Betrachte Stichprobe X1, . . . , Xn aus X
• Wissen aufgrund von Satz 5.5(b), Folie 310:
√ X −µ
n·
∼ N (0, 1)
σ
338
N (0, 1)-Dichtefunktion der Statistik
Dichte von
n⋅
√
n·
X −µ
σ
~ N (0,1)
α/2
α/2
−c
X−µ
σ
0
c
Konfidenzintervall 1: [II]
• c ist das (1 − α/2)-Quantil der N (0, 1)-Verteilung
339
Konfidenzintervall 1: [III]
• Das p-Quantil der Standardnormalverteilung wird im Lehrbuch
Mosler/Schmid mit up bezeichnet, d.h. c = u1−α/2
• Es gilt also:
⇐⇒
√
−µ ≤c
P −c ≤ n · X σ
’
P −u1−α/2 ≤
’
“
’
√
−µ ≤u
n·Xσ
1−α/2
⇐⇒ P X − u1−α/2 · √σ ≤ µ ≤ X + u1−α/2 · √σ
n
n
“
“
= 1−α
= 1−α
= 1−α
340
Konfidenzintervall 1: [IV]
• Ein Konfidenzintervall für µ zum Niveau 1 − α ist also
"
σ
σ
X − u1−α/2 · √ , X + u1−α/2 · √
n
n
#
• Z.B. gilt für 1 − α = 0.95:
1−α = 0.95
=⇒
α = 0.05
=⇒
u1−α/2 = u0.975 = 1.96
(vgl.Formelsammlung Bomsdorf/Gröhn/Mosler/Schmid)
341
Konkretes Beispiel: [I]
• Es sei X das tatsächliche Gewicht (in Gramm) einer 200gTafel Schokolade
• Angenommen, X ∼ N (µ, 4) mit unbek. Erwartungswert µ
• Eine einfache Stichprobe vom Umfang n = 8 liefert
x1
201.15
x2
197.57
x3
201.38
x4
203.15
x5
199.92
x6
198.99
x7
203.44
342
x8
200.50
Konkretes Beispiel: [II]
• Ein Punktschätzwert für µ ist x = 200.7625
• Ein konkretes 0.95-Konfidenzintervall für µ ist
"
2
2
x − 1.96 · √ , x + 1.96 · √
8
8
#
= [199.3766 , 202.1484]
343
Konfidenzintervall 2: [I]
• Der interessierende Zufallsvorgang repräsentiert durch die ZV
X sei normalverteilt, d.h.
X ∼ N (µ, σ 2),
wobei sowohl µ als auch σ 2 unbekannt sein sollen
• Gesucht wird (1 − α)-Konfidenzintervall für µ
• Betrachte Stichprobe X1, . . . , Xn aus X
• Wissen aufgrund von Satz 5.5(c), Folie 311:
√
X −µ
n−1·
∼ t(n − 1)
S
344
Dichtefunktion der t(n)-Verteilung
0.4
n = 10
Dichtefunktion
0.3
0.2
n=1
0.1
0.0
-2
-1
0
1
2
x
Konfidenzintervall 2: [II]
• c ist das (1 − α/2)-Quantil der t(n)-Verteilung
345
Konfidenzintervall 2: [III]
• Das p-Quantil der t(ν)-Verteilung wird in Mosler/Schmid mit
tν,p bezeichnet, d.h. c = tn−1,1−α/2
• Es gilt also:
’
’
“
√
X
−
µ
P −c ≤ n − 1 · S
≤c = 1−α
≤µ≤X +c·√ S
⇐⇒ P X − c · √ S
n−1
n−1
“
= 1−α
346
Konfidenzintervall 2: [IV]
• Ein Konfidenzintervall für µ zum Niveau 1 − α ist somit
"
S
S
X − tn−1,1−α/2 · √
, X + tn−1,1−α/2 · √
n−1
n−1
#
• Z.B. gilt für 1 − α = 0.95:
1−α = 0.95 =⇒ α = 0.05 =⇒ tn−1,1−α/2 = t7,0.975 = 2.3646
(vgl. Formelsammlung Bomsdorf/Gröhn/Mosler/Schmid)
347
Konkretes Beispiel: [I]
• Es sei X das tatsächliche Gewicht (in Gramm) einer 200gTafel Schokolade
• Angenommen, X ∼ N (µ, σ 2) mit unbekanntem Erwartungswert
µ und unbekannter Varianz σ 2
• Eine einfache Stichprobe vom Umfang n = 8 war
x1
201.15
x2
197.57
x3
201.38
x4
203.15
x5
199.92
x6
198.99
x7
203.44
348
x8
200.50
Konkretes Beispiel: [II]
• Ein Punktschätzwert für µ ist x = 200.7625
• Ein Punktschätzwert für σ ist s = 1.8545
• Ein konkretes 0.95-Konfidenzintervall für µ ist
"
x − 2.3646 ·
1.8545
1.8545
√
, x + 2.3646 · √
7
7
#
= [199.1051 , 202.4199]
• KI ist breiter als das KI auf Folie 343, weil Schätzung der
unbekannten Varianz σ 2 durch S 2 zusätzliche Unsicherheit
birgt
349
7. Hypothesentests
Ausgangssituation erneut:
• ZV X repräsentiere einen Zufallsvorgang
• X habe die unbekannte VF FX (x)
• Interessieren uns für einen unbekannten Parameter θ der Verteilung von X
350
Bisher:
• Versuch, unbekannten Parameter θ mit einer Stichprobe
X1, . . . , Xn zu schätzen
(Punktschätzung, Intervallschätzung)
Jetzt:
• Testen von Hypothesen über unbekanntes θ anhand einer
Stichprobe X1, . . . , Xn
Man beachte:
• Testprobleme spielen in der empirischen Wirtschaftsforschung
eine zentrale Rolle
351
Beispiel 1:
• In einer Studentenkneipe sollen geeichte Biergläser im Ausschank 0.4 Liter Bier enthalten. Wir haben die Vermutung,
dass der Wirt häufig ’zu wenig’ ausschenkt.
• X repräsentiere den Zufallsvorgang ’Füllen eines 0.4-Liter
Bierglases durch den Wirt’
• Es bezeichne θ = E(X) die erwartete Füllmenge eines Glases
• Durch eine Stichprobe X1, . . . , Xn soll getestet werden
θ = 0.4
gegen
θ < 0.4
352
Beispiel 2:
• Wir wissen aus der Vergangenheit, dass das Risiko einer Aktie
(die Standardabweichung der Aktienrenditen) bei 25 % lag.
Im Unternehmen wird nun das Management ausgetauscht.
Verändert sich dadurch das Risiko der Aktie?
• X sei die Aktienrendite
• θ = σ(X) sei die Standardabweichung der Renditen
• Durch eine Stichprobe X1, . . . , Xn soll getestet werden
θ = 0.25
gegen
θ 6= 0.25
353
7.1 Grundbegriffe des Testens
Definition 7.1: (Parametertest)
Es sei X eine Zufallsvariable und θ ein unbekannter Parameter
der Verteilung von X. Ein Parametertest ist ein statistisches
Verfahren, mit dem eine Hypothese über den unbekannten Parameter θ anhand einer einfachen Zufallsstichprobe X1, . . . , Xn
aus X überprüft wird.
Formulierung eines statistischen Testproblems: [I]
• Es sei Θ die Menge aller möglichen Parameterwerte
(d.h. θ ∈ Θ)
• Es sei Θ0 ⊂ Θ eine Teilmenge der Parametermenge
354
Formulierung eines statistischen Testproblems: [II]
• Betrachte folgende Aussagen:
H0 : θ ∈ Θ0
gegen
H1 : θ ∈ Θ/Θ0 = Θ1
• H0 heißt Nullhypothese, H1 Gegenhypothese oder Alternative
Wichtig:
• Bei der Formulierung eines Testproblems müssen sich Nullhypothese und Alternative gegenseitig ausschließen
355
Arten von Hypothesen:
• Sind |Θ0| = 1 (d.h. Θ0 = {θ0}) und H0 : θ = θ0, so nennt
man H0 einfach
• Andernfalls bezeichnet man H0 als zusammengesetzt
• Analoge Bezeichnungen gelten für H1
356
Arten von Testproblemen:
• Es sei θ0 ∈ Θ eine feste reelle Zahl. Dann heißt
H0 : θ = θ 0
gegen
H1 : θ =
6 θ0
H0 : θ ≤ θ 0
gegen
H1 : θ > θ0
H0 : θ ≥ θ 0
gegen
H1 : θ < θ0
zweiseitiges Testproblem
• Die Testprobleme
bzw.
heißen einseitig (rechts- bzw. linksseitig)
357
Jetzt:
• Betrachte das allgemeine Testproblem
H 0 : θ ∈ Θ0
gegen
H1 : θ ∈ Θ1 = Θ/Θ0
Allgemeine Vorgehensweise:
• Entscheide anhand einer Stichprobe X1, . . . , Xn aus X, ob H0
zugunsten von H1 abgelehnt wird oder nicht
358
Explizites Vorgehen:
• Wähle ’geeignete’ Teststatistik T (X1, . . . , Xn) und bestimme
einen ’geeigneten’ kritischen Bereich K ⊂ R
• Testentscheidung:
T (X1, . . . , Xn) ∈ K =⇒ H0 wird abgelehnt
/ K =⇒ H0 wird nicht abgelehnt
T (X1, . . . , Xn) ∈
Man beachte:
• T (X1, . . . , Xn) ist eine ZV (Stichprobenfunktion)
−→ Die Testentscheidung ist zufällig
−→ Fehlentscheidungen sind möglich
359
Mögliche Fehlentscheidungen:
Realität
H0 richtig
H0 falsch
Testergebnis
H0 ablehnen H0 nicht ablehnen
Fehler 1. Art
kein Fehler
Fehler 2. Art
kein Fehler
Fazit:
• Fehler 1. Art: Test lehnt H0 ab, obwohl H0 richtig
• Fehler 2. Art: Test lehnt H0 nicht ab, obwohl H0 falsch
360
Wann treten die Fehlentscheidungen auf?
• Der Fehler 1. Art tritt auf, falls
T (X1, . . . , Xn) ∈ K,
obwohl für den wahren Parameter gilt θ ∈ Θ0
• Der Fehler 2. Art tritt auf, falls
/ K,
T (X1, . . . , Xn) ∈
obwohl für den wahren Parameter gilt θ ∈ Θ1
361
Frage:
• Wann besitzt ein statistischer Test für das Problem
H0 : θ ∈ Θ 0
’gute’ Eigenschaften?
gegen
H1 : θ ∈ Θ1 = Θ/Θ0
Intuitive Vorstellung:
• Test ist ’gut’, wenn er möglichst geringe Wahrscheinlichkeiten
für die Fehler 1. und 2. Art aufweist
Jetzt:
• Formales Instrument zur Messung der Fehlerwahrscheinlichkeiten 1. und 2. Art
362
Definition 7.2: (Gütefunktion eines Tests)
Man betrachte einen statistischen Test für das obige Testproblem mit der Teststatistik T (X1, . . . , Xn) und einem ’geeignet gewählten’ kritischen Bereich K. Unter der Gütefunktion des Tests
versteht man die Funktion G, die, in Abhängigkeit des wahren
Parameters θ ∈ Θ, die Wahrscheinlichkeit dafür angibt, dass der
Test H0 ablehnt:
G : Θ −→ [0, 1]
mit
G(θ) = P (T (X1, . . . , Xn) ∈ K).
363
Bemerkung:
• Mit der Gütefunktion sind die Wahrscheinlichkeiten für den
Fehler 1. Art gegeben durch
G(θ)
für alle θ ∈ Θ0
sowie für den Fehler 2. Art durch
1 − G(θ)
für alle θ ∈ Θ1
Intuitive Vorstellung eines idealen Tests:
• Ein Test ist ideal, wenn die Fehlerwahrscheinlichkeiten 1. und
2. Art stets (konstant) gleich Null sind
−→ Test trifft mit Wskt. 1 die richtige Entscheidung
364
Beispiel:
• Es sei θ0 ∈ Θ. Betrachte das Testproblem
H 0 : θ ≤ θ0
gegen
H1 : θ > θ 0
Gütefunktion eines idealen Tests
365
Leider:
• Es kann mathematisch gezeigt werden, dass ein solcher idealer Test im allgemeinen nicht existiert
Praktische Vorgehnsweise: [I]
• Betrachte für eine geeignete Teststatistik T (X1, . . . , Xn) die
maximale Fehlerwahrscheinlichkeit 1. Art
α = max {P (T (X1, . . . , Xn) ∈ K)} = max {G(θ)}
θ∈Θ0
θ∈Θ0
• Lege den kritischen Bereich K dann so fest, dass α einen
vorgegebenen kleinen Wert animmt
366
Praktische Vorgehnsweise: [II]
−→ Alle Fehlerwahrscheinlichkeiten 1. Art sind dann durch α begrenzt (d.h. kleiner oder gleich α)
• Häufig benutzte α-Werte sind α = 0.01, α = 0.05, α = 0.1
Definition 7.3: (Signifikanzniveau eines Tests)
Man betrachte einen statistischen Test für das Testproblem auf
Folie 358 mit der Teststatistik T (X1, . . . , Xn) und einem geeignet
gewählten kritischen Bereich K. Dann bezeichnet man die maximale Fehlerwahrscheinlichkeit 1. Art
α = max {P (T (X1, . . . , Xn) ∈ K)} = max {G(θ)}
θ∈Θ0
θ∈Θ0
als das Signifikanzniveau des Tests.
367
Konsequenzen dieser Testkonstruktion: [I]
• Die Wskt., H0 aufgrund des Tests abzulehmen, obwohl H0
richtig ist (d.h. die Wskt. für den Fehler 1. Art) ist höchstens
α (mit α = 0.01, 0.05, 0.1)
−→ Wird H0 aufgrund einer Testrealisation abgelehnt, so kann
man ziemlich sicher davon ausgehen, dass H0 tatsächlich
falsch ist
(Man sagt auch: H1 ist statistisch gesichert)
368
Konsequenzen dieser Testkonstruktion: [II]
• Die Wskt. für den Fehler 2. Art (d.h. H0 nicht abzulehnen,
obwohl H0 falsch ist), kann man dagegen nicht kontrollieren
−→ Wird H0 aufgrund einer Testrealisation nicht abgelehnt,
so hat man keinerlei Wahrscheinlichkeitsaussage über eine
mögliche Fehlentscheidung
(Nichtablehung von H0 heißt nur: Die Daten sind nicht
unvereinbar mit H0)
Wichtig deshalb:
• Es ist entscheidend, wie man H0 und H1 formuliert
• Das, was man zu zeigen hofft, formuliert man in H1
(in der Hoffnung, H0 anhand des konkreten Tests ablehnen
zu können)
369
Beispiel:
• Betrachte Beispiel 1 auf Folie 352
• Kann man anhand eines konkreten Tests H0 verwerfen, so
kann man ziemlich sicher sein, dass der Wirt in der Regel zu
wenig ausschenkt
• Kann man H0 nicht verwerfen, so kann man nichts explizites
über die Ausschankgewohnheiten des Wirtes sagen.
(Die Daten stehen lediglich nicht im Widerspruch zu H0)
370
7.2 Tests für Erwartungswerte
Situation:
• Der interessierende Zufallsvorgang X sei normalverteilt, d.h.
X ∼ N (µ, σ 2),
wobei µ unbekannt und σ 2 bekannt sein sollen
(vgl. Konfindenzintervall 1, Folie 338)
• Betrachte für gegebenes µ0 ∈ R das Testproblem:
H0 : µ = µ0
gegen
H1 : µ 6= µ0
371
Testkonstruktion:
• Suche eine geeignete Teststatistik T (X1, . . . , Xn)
• Lege den kritischen Bereich K fest
Geeignete Teststatistik lautet:
T (X1, . . . , Xn) =
√
X − µ0
n·
σ
Begründungen:
• T (X1, . . . , Xn) misst im wesentlichen den Abstand zwischen
dem unbekannten Parameter µ und dem Vergleichswert µ0
• Wenn H0 gültig ist (d.h. falls µ = µ0), dann gilt
T (X1, . . . , Xn) ∼ N (0, 1)
(vgl. Satz 5.5(b), Folie 310)
372
N (0, 1)-Dichte der Teststatistik T (X1 , . . . , Xn ) im Falle der Gültigkeit von H0
N(0,1)-Dichte von T unter H0
α/2
α/2
uα / 2
(= − u1−α / 2)
0
u1−α / 2
373
Explizite Testregel:
• Lege das Signifikanzniveau α fest
• Wähle den kritischen Bereich als
K = (−∞, −u1−α/2) ∪ (u1−α/2, +∞) = {t ∈ R : |t| > u1−α/2}
d.h.
Lehne H0 ab, falls T (X1, . . . , Xn) ∈ K
/K
Lehne H0 nicht ab, falls T (X1, . . . , Xn) ∈
374
Beispiel: [I]
• Es sei X ∼ N (µ, 4) das tatsächliche Gewicht (in Gramm)
einer 200g-Tafel Schokolade
(vgl. Beispiel auf Folie 342)
• Statistisches Testproblem
H0 : µ = 200
gegen
H1 : µ =
6 200
• Wert der Teststatistik:
√ 200.7625 − 200
√ x − µ0
= 8·
= 1.078
T (x1, . . . , xn) = n ·
σ
2
375
Beispiel: [II]
• Für das Signifikanzniveau α = 0.05 gilt:
u1−α/2 = u0.975 = 1.96
• Offensichtlich ist
T (x1, . . . , xn) = 1.078 ∈
/ (−∞, −1.96) ∪ (1.96, +∞) = K
−→ Für α = 0.05 wird H0 nicht abgelehnt
(Daten sind nicht unvereinbar mit H0)
376
Gütefunktion des Tests zum Signifikanzniveau α = 0.05
1.0
n = 1000
0.8
n = 20
0.6
G(µ)
0.4
0.2
0.0
198
n=8
199
200
201
202
µ
Bemerkungen:
• Test wird mit zunehmendem n immer trennschärfer
• Der vorgestellte Test heißt zweiseitiger Gaußtest
377
Jetzt:
• 2 zweiseitige Tests für den Erwartungswert in der Situation
X ∼ N (µ, σ 2), bei bekannter Varianz σ 2
(ohne Herleitung)
1. Rechtsseitiger Gaußtest: [I] (µ0 ∈ R fest gegeben)
H0 : µ ≤ µ0
gegen
H1 : µ > µ 0
• Teststatistik ist erneut
√ X − µ0
T (X1, . . . , Xn) = n ·
σ
378
1. Rechtsseitiger Gaußtest: [II]
• Kritischer Bereich zum Signifikanzniveau α ist
K = (u1−α, +∞)
(u1−α ist (1 − α)-Quantil der N (0, 1)-Verteilung)
−→ Lehne H0 zum Signifikanzniveau α ab, falls
T (X1, . . . , Xn) > u1−α
379
2. Linksseitiger Gaußtest: (µ0 ∈ R fest gegeben)
H0 : µ ≥ µ0
gegen
H1 : µ < µ0
• Teststatistik ist wiederum
√ X − µ0
T (X1, . . . , Xn) = n ·
σ
• Kritischer Bereich zum Signifikanzniveau α ist
K = (−∞, −u1−α)
(−u1−α = uα ist α-Quantil der N (0, 1)-Verteilung)
−→ Lehne H0 zum Signifikanzniveau α ab, falls
T (X1, . . . , Xn) < −u1−α = uα
380
Beispiel: [I]
• Es sei X ∼ N (µ, 4) das tatsächliche Gewicht (in Gramm)
einer 200g-Tafel Schokolade mit der konkreten Stichprobe
von Folie 342
• Statistisches Testproblem:
H0 : µ ≤ 198
gegen
H1 : µ > 198
• Für die konkrete Stichprobe gilt
√ 200.7625 − 198
√ x − µ0
T (x1, . . . , xn) = n ·
= 8·
= 3.9068
σ
2
381
Beispiel: [II]
• Zum Signifikanzniveau α = 0.05 ergibt sich der kritische
Bereich als
K = (u0.95, +∞) = (1.6449, +∞)
• Also folgt
T (x1, . . . , xn) = 3.9068 > 1.6449 = u0.95
−→ Lehne H0 zum Signifikanzniveau α = 0.05 ab
382
Jetzt:
• Tests für den Erwartungswert einer Normalverteilung bei unbekannter Varianz, d.h.
X ∼ N (µ, σ 2)
mit unbekannten µ und σ 2
• Betrachte für µ0 ∈ R zunächst den 2-seitgen Test
H 0 : µ = µ0
gegen
H1 : µ 6= µ0
383
Geeignete Teststatistik:
T (X1, . . . , Xn) =
√
X − µ0
n−1·
S
Begründungen:
• T (X1, . . . , Xn) schätzt im wesentlichen den Abstand zwischen
unbekanntem µ und dem Vergleichswert µ0
• Wenn H0 richtig ist (d.h. falls µ = µ0), dann gilt
T (X1, . . . , Xn) ∼ t(n − 1)
(vgl. Satz 5.5(c), Folie 311)
384
Herleitung des kritischen Bereiches:
• Analoges Vorgehen wie beim zweiseitigen Gaußtest, nur mit
t(n − 1)- anstatt mit der N (0, 1)-Verteilung
• Kritischer Bereich ist
K = (−∞, −tn−1,1−α/2) ∪ (tn−1,1−α/2, +∞)
= {t ∈ R : |t| > tn−1,1−α/2}
d.h.
Lehne H0 ab, falls T (X1, . . . , Xn) ∈ K
Lehne H0 nicht ab, falls T (X1, . . . , Xn) ∈
/K
385
Bemerkungen: [I]
• Dieser Test heißt zweiseitiger t-Test
• Für den rechtsseitigen t-Test
H0 : µ ≤ µ0
gegen
H1 : µ > µ 0
ergibt sich bei Benutzung der Teststatistik
√
X − µ0
T (X1, . . . , Xn) = n − 1 ·
S
zum Signifikanzniveau α der kritische Bereich
K = (tn−1,1−α, +∞)
386
Bemerkungen: [II]
• Für den linksseitigen t-Test
H0 : µ ≥ µ 0
gegen
H1 : µ < µ 0
ergibt sich bei Benutzung der Teststatistik
√
X − µ0
T (X1, . . . , Xn) = n − 1 ·
S
zum Signifikanzniveau α der kritische Bereich
K = (−∞, −tn−1,1−α)
387
Beispiel:
• Es sei X ∼ N (µ, σ 2) mit unbekannten µ und σ 2
• Betrachte zweiseitigen t-Test zum Niveau α = 0.05
• Einfache Stichprobe mit n = 8 Werten ergibt:
1.6611
3.6215
4.5674
7.6635
1.2770
2.6660
5.3406
3.8029
• Wert der Teststatistik:
√ 3.8250 − 6
√
x − µ0
= −2.9633
= 7·
t= n−1·
s
1.9411
• Es gilt: |t| = 2.9633 > 2.3646 = t7,0.975
−→ Ablehnung von H0
388
7.3 Tests für Varianzen
Situation:
• Der interessierende Zufallsvorgang sei normalverteilt, d.h.
X ∼ N (µ, σ 2),
wobei sowohl µ als auch σ 2 unbekannt sein sollen
• Betrachte für geg. σ02 ∈ R das zweiseitige Testproblem
H0 : σ 2 = σ02
gegen
H1 : σ 2 6= σ02
389
Geeignete Teststatistik lautet:
T (X1, . . . , Xn) =
n · S2
σ02
=
!2
n X
Xi − X
i=1
σ0
Begründungen:
• T (X1, . . . , Xn) schätzt im wesentlichen das Verhältnis zwischen unbekannter Varianz σ 2 und dem Vergleichswert σ02
• Wenn H0 gültig ist (d.h. falls σ 2 = σ02), dann gilt:
T (X1, . . . , Xn) ∼ χ2(n − 1)
(vgl. Satz 5.5(e), Folie 311)
390
χ2(3)-Dichte von T (X1, . . . , Xn) bei Gültigkeit von H0
0.25
0.20
χ2-Dichte von T unter H0
0.15
0.10
0.05
0.00
0
2
4
6
8
10
12
14
391
Bezeichnung:
• Das p-Quantil der χ2(ν)-Verteilung wird in Mosler / Schmid
mit χ2
ν,p bezeichnet
• Kritischer Bereich ist
2
K = (−∞, χ2
∪
)
(χ
n−1,α/2
n−1,1−α/2, +∞)
d.h.
2
Lehne H0 ab, falls T < χ2
oder
T
>
χ
n−1,α/2
n−1,1−α/2
2
Lehne H0 nicht ab, falls T ∈ [χ2
,
χ
n−1,α/2 n−1,1−α/2 ]
392
Bemerkungen: [I]
• Die Dichte der χ2(ν)-Verteilung ist nicht symmetrisch, d.h.
2
χ2
ν,p 6= −χν,1−p
• Für den rechtsseitigen Varianztest
H0 : σ 2 ≤ σ02
gegen
H1 : σ 2 > σ02
ergibt sich bei Benutzung der Teststatistik
T (X1, . . . , Xn) =
n · S2
σ02
=
!2
n X
Xi − X
i=1
σ0
zum Signifikanzniveau α der kritische Bereich
2
, +∞)
K = (χn−1,1−α
(d.h. verwerfe H0, falls T > χ2
n−1,1−α)
393
Bemerkungen: [II]
• Für den linksseitigen Varianztest
H0 : σ 2 ≥ σ02
H1 : σ 2 < σ02
gegen
ergibt sich bei Benutzung der Teststatistik
T (X1, . . . , Xn) =
n · S2
σ02
=
!2
n X
Xi − X
i=1
σ0
zum Signifikanzniveau α der kritische Bereich
2
K = (−∞, χn−1,α
)
2
)
(d.h. verwerfe H0, falls T < χn−1,α
394
Bemerkungen: [III]
• Falls der E-Wert µ der Normalverteilung bekannt ist, verwende die Teststatistik
T (X1, . . . , Xn) =
!2
n
X Xi − µ
i=1
σ0
und die Quantile der χ2(n)-Verteilung
(vgl. Satz 5.5(d), Folie 311)
395
Beispiel: [I]
• Gegeben seien folgende Messungen aus einer Normalverteilung
(µ, σ 2 unbekannt):
1001, 1003, 1035, 998, 1010, 1007, 1012
• Man betrachte den folgenden Test z.N. α = 0.05:
H0 : σ 2 ≤ 100
• Es gilt:
gegen
H1 : σ 2 > 100
n · S2
7 · 129.96
T (x1, . . . , xn) =
=
= 9.0972
2
100
σ0
396
Beispiel: [II]
• Für α = 0.05 findet man das Quantil χ2
6,0.95 = 12.592
• Es folgt:
T (x1, . . . , xn) = 9.0972 < 12.592 = χ2
6,0.95
−→ H0 kann nicht verworfen werden
397
Herunterladen