Skript2016 - TU Freiberg

Werbung
Material der Folien zur Vorlesung
„Statistik für Ingenieure“
Wintersemester 2016/2017
Prof. Dr. Hans-Jörg Starkloff
TU Bergakademie Freiberg (Sachsen), Institut für Stochastik
10. Februar 2017
(Hinweise und Bemerkungen bitte an: [email protected])
Inhaltsverzeichnis
1 Einführung
2
2 Grundlagen der Wahrscheinlichkeitsrechnung
2.1 Zufällige Ereignisse und Wahrscheinlichkeiten . . . . . . .
2.2 Klassische Wahrscheinlichkeitsdefinition (Laplace-Modell)
2.3 Stochastische Unabhängigkeit . . . . . . . . . . . . . . . .
2.4 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
6
7
8
3 Zufallsgrößen
3.1 Zufallsgrößen und ihre Verteilung . . . . . . . . .
3.2 Charakteristische Größen von Verteilungen . . . .
3.3 Wichtige diskrete Wahrscheinlichkeitsverteilungen
3.3.1 Diskrete Gleichverteilung . . . . . . . . . .
3.3.2 Bernoulli-Verteilung . . . . . . . . . . . .
3.3.3 Binomialverteilung . . . . . . . . . . . . .
3.3.4 Hypergeometrische Verteilung . . . . . . .
3.3.5 Geometrische Verteilung . . . . . . . . . .
3.3.6 Poissonverteilung . . . . . . . . . . . . . .
3.4 Wichtige stetige Verteilungen . . . . . . . . . . .
3.4.1 Exponentialverteilung . . . . . . . . . . .
3.4.2 Normalverteilung (Gauß-Verteilung) . . . .
3.4.3 Stetige Gleichverteilung . . . . . . . . . .
3.4.4 Gammaverteilung . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
11
16
20
20
21
21
23
25
26
28
28
30
35
36
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3.5
3.6
3.4.5 Weibullverteilung . . . . . . . . .
3.4.6 Logarithmische Normalverteilung
3.4.7 Weitere stetige Verteilungen . . .
Transformation von Zufallsgrößen . . . .
Zufallsvektoren . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
37
38
39
39
41
4 Deskriptive Statistik
46
4.1 Grundbegriffe der Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2 Grafiken und statistische Maßzahlen (Kenngrößen, Parameter) für Daten 56
4.2.1 Grafiken für univariate stetige Daten
(a) Punktdiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2.2 Grafiken für univariate diskrete Daten
(a) Balkendiagramm . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2.3 Kenngrößen und Parameter zur Beschreibung univariater Daten . 66
4.2.4 Weitere Grafiken für univariate stetige Daten . . . . . . . . . . . 77
4.2.5 Kenngrößen für kategorielle Daten . . . . . . . . . . . . . . . . . . 88
4.2.6 Grafiken, Kenngrößen für multivariate stetige Daten . . . . . . . . 88
4.2.7 Grafiken für multivariate diskrete Daten . . . . . . . . . . . . . . 95
4.2.8 Graphiken für gemischte multivariate Daten . . . . . . . . . . . . 98
5 Schließende Statistik
5.1 Statistische Tests (Signifikanztests) . . . . . . . . . . . . . . . . . . . .
5.1.1 Tests für eine Stichprobe mit stetiger Skala . . . . . . . . . . . .
5.1.2 Tests für eine gepaarte (verbundene) Stichprobe (stetige Skala) .
5.1.3 Tests für zwei oder mehr (unabhängige) Stichproben
(stetige Skala) . . . . . . . . . . . . . . . . . . . . . . . .
5.1.4 Weitere ausgewählte statistische Tests . . . . . . . . . . . . . .
5.1.5 b) Korrelations- und Abhängigkeitstests . . . . . . . . . . . . .
5.1.6 c) Pearson-Korrelationstest . . . . . . . . . . . . . . . . . . .
5.1.7 Bsp- Pearson-Korrelationstest . . . . . . . . . . . . . . . . .
5.1.8 Weitere Bemerkungen zu Tests . . . . . . . . . . . . . . . . . .
2
101
. 101
. 105
. 117
.
.
.
.
.
.
122
135
136
136
137
141
1
Einführung
• Situationen, Beobachtungen, Messungen, Experimente, . . . , bei denen Ergebnisse nicht genau vorhergesagt werden können, aber diese Unsicherheit auch nicht
vernachlässigt werden kann.
• Beispiele:
– Glücksspiele;
– Messung physikalischer Größen (zufällige Messungenauigkeiten);
– Vorhersage der Lebensdauer von Bauteilen, Geräten;
– Vorhersage von Wetter- oder Klimadaten;
– Vorhersage von Aktienkursen;
– Vorhersage von auszuzahlenden Beträgen bei Versicherungen.
• Kleinere oder größere Datenmengen, die sinnvoll ausgewertet werden sollten und
auf deren Basis dann begründete Entscheidungen gefällt werden müssen.
Beispiel: Zeiten der störungsfreien Arbeit in Stunden zwischen aufeinanderfolgenden
Ausfällen der Klimaanlagen in Flugzeugen (Boing 720).
Quelle: Cox & Snell: Applied Statistics, Principles and Examples; entnommen aus
Proschan (1963).
1: 413; 14; 58; 37; 100; 65; 9; 169; 447; 184; 36; 201; 118; 34; 31; 18; 18; 67; 57; 62; 7;
22; 34
2: 90; 10; 60; 186; 61; 49; 14; 24; 56; 20; 79; 84; 44; 59; 29; 118; 25; 156; 310; 76; 26;
44; 23; 62; 130; 208; 70; 101; 208
3: 74; 57; 48; 29; 502; 12; 70; 21; 29; 386; 59; 27; 153; 26; 326
..
.
8: 359; 9; 12; 270; 603; 3; 104; 2; 438
9: 487; 18; 100; 7; 98; 5; 85; 91; 43; 230; 3; 130
10: 102; 209; 14; 57; 54; 32; 67; 59; 134; 152; 27; 14; 230; 66; 61; 34
• Eine Möglichkeit (und gängige Praxis): Quantifizierung der Unsicherheiten mit
stochastischen bzw. statistischen mathematischen Modellen und statistischen Berechnungen.
• Mathematische Disziplin: „Stochastik“ (von griech. στ oχαστ ικóζ „jemand, der
im Vermuten geschickt ist“).
• In dieser Vorlesung:
3
– Elemente der Wahrscheinlichkeitsrechnung (zufällige Ereignisse, Wahrscheinlichkeiten, Zufallsgrößen, . . . );
– Elemente der Statistik (Datenanalyse, statistische Tests, . . . ).
• Wichtig: Regelmäßige aktive Teilnahme an Vorlesungen und Übungen und selbstständiges Lernen und Üben!
(Modulbeschreibung: 45 h Präsenzzeit und 60 h Selbststudium.)
Organisatorisches
• Informationen zum Modul:
http://www.mathe.tu-freiberg.de/stat-ing
2
Grundlagen der Wahrscheinlichkeitsrechnung
2.1
Zufällige Ereignisse und Wahrscheinlichkeiten
• Zufälliger Versuch (Zufallsexperiment, Zufallssituation): Vorgang unter genau
festgelegten Bedingungen, der (zumindest gedanklich) beliebig oft wiederholbar
ist und dessen Ausgang oder Ergebnis (innerhalb einer Menge möglicher Ergebnisse) ungewiß ist.
• Zufälliges Ereignis (kurz Ereignis): Teilmenge möglicher Ausgänge, nach Realisierung des zufälligen Versuches muss man entscheiden können, ob ein zufälliges
Ereignis eingetreten ist oder nicht.
• Bsp.:
Versuch
Ereignis
Werfen eines Spielwürfels
Werfen einer „6“
Kontrolle einer Warenlieferung
3 Ausschussteile
auszuzahlende Versicherungsbeträge
≤ 10 000 e
• Bezeichnung der Ereignisse: A, B, A1 , A2 , Bi , . . ..
(Wichtig: Bei Lösung von Aufgaben bzw. Modellierung genaue Definitionen der
betrachteten zufälligen Ereignisse !)
Operationen mit Ereignissen, besondere Ereignisse
Geg.: zufällige Ereignisse A, B, C, A1 , A2 , . . . zu einem Zufallsversuch.
• Zu A komplementäres (entgegengesetztes) Ereignis Ac = ¬A = A : tritt genau
dann ein, wenn A nicht eintritt.
• Vereinigung A ∪ B : A oder B (oder beide) treten ein;
analog: A1 ∪ A2 ∪ A3 ∪ . . . : mindestens eines der Ereignisse A1 , A2 , A3 , . . . tritt
ein.
4
• Durchschnitt A ∩ B : A und B treten (gemeinsam) ein;
analog: A1 ∩ A2 ∩ A3 ∩ . . . : die Ereignisse A1 , A2 , A3 , . . . treten gemeinsam (bei
einer Realisierung des Zufallsversuchs) ein.
• Sicheres Ereignis Ω : tritt immer ein (auch Ergebnisraum genannt).
• Unmögliches Ereignis ∅ : tritt niemals ein.
• A und B sind unvereinbar (sind disjunkt, schließen einander aus) :
sie können nicht gemeinsam eintreten, d.h. A ∩ B = ∅ .
• Das Ereignis A zieht das Ereignis B nach sich, A ⊆ B :
wenn A eintritt, dann tritt auch B ein.
Einige Rechenregeln für Ereignisse
• Das sichere Ereignis Ω kann als Menge der möglichen Versuchsergebnisse aufgefasst werden, die einelementigen Teilmengen sind dann die Elementarereignisse
{ω1 }, {ω2 }, . . . .
• Rechenregeln wie in der Mengenlehre, Skizzen können helfen.
• Für alle Ereignisse A zu einem zufälligen Versuch gilt: A ⊆ Ω.
• A ∪ B = B ∪ A , A ∩ B = B ∩ A (Kommutativität).
• A ∪ (B ∪ C) = (A ∪ B) ∪ C , A ∩ (B ∩ C) = (A ∩ B) ∩ C (Assoziativität).
• A∪(B ∩C) = (A∩B)∪(A∩C) , A∩(B ∪C) = (A∪B)∩(A∪C) (Distributivität).
• A ∪ Ac = Ω, A ∩ Ac = ∅.
• Regeln von de Morgan: (analog auch für größere Anzahl)
(A ∩ B)c = Ac ∪ B c , (A ∪ B)c = Ac ∩ B c .
Zerlegung (vollständiges Ereignissystem)
• Die zufälligen Ereignisse A1 , A2 , . . . , An bilden eine Zerlegung von Ω (bilden
ein vollständiges Ereignissystem), wenn bei jeder Realisierung des Zufallsversuches
genau eines der Ereignisse A1 , A2 , . . . , An eintritt, d.h. die Ereignisse Ai sind
paarweise unvereinbar (Ai ∩ Aj = ∅, falls i 6= j) und es gilt
n
[
A1 ∪ A2 ∪ . . . ∪ An =
Ai = Ω (Fallunterscheidung).
i=1
• Einfachster Fall: Ω = A ∪ Ac für ein zufälliges Ereignis A .
5
Übungsaufgabe
Die Arbeit eines Kraftwerkes werde durch drei unabhängig voneinander arbeitende Kontrollsysteme (kurz „System“) überwacht, die jedoch auch einer gewissen Störanfälligkeit
unterliegen. Es bezeichne Si das Ereignis, dass das i-te System störungsfrei arbeitet
(i = 1, 2, 3).
Drücken Sie folgende Ereignisse mit Hilfe der Ereignisse S1 , S2 und S3 aus:
• A ={„Alle Systeme arbeiten störungsfrei.“}
• B ={„Kein System arbeitet störungsfrei.“}
• C ={„Mindestens ein System arbeitet störungsfrei.“}
• D ={„Genau ein System arbeitet störungsfrei.“}
• E ={„Höchstens zwei Systeme sind gestört.“}
Wahrscheinlichkeiten
• In einem stochastischen Modell wird jedem zufälligen Ereignis zu einem Zufallsversuch eine Zahl zwischen 0 und 1 zugewiesen, die sogenannte Wahrscheinlichkeit
(für das Eintreten des Ereignisses).
• Hintergrund: Eigenschaften der relativen Häufigkeiten
hn (A) =
Hn (A)
,
n
mit Hn (A) als absolute Häufigkeit des Eintretens des zufälligen Ereignisses A
in n unabhängigen Versuchswiederholungen.
• Für A ⊆ B ⊆ Ω gilt 0 ≤ hn (A) ≤ hn (B) ≤ hn (Ω) = 1 .
• Für A ∩ B = ∅ gilt hn (A ∪ B) = hn (A) + hn (B) .
• Erfahrungstatsache:
Für n → ∞ „konvergiert“ hn (A) oft gegen eine feste reelle Zahl (Stabilisierung
der relativen Häufigkeiten).
Axiome von Kolmogorow
• Axiomatische Definition von Kolmogorow 1933.
• Bezeichnung:
P(A) Wahrscheinlichkeit des Ereignisses A .
• Axiome:
1. 0 ≤ P(A) ≤ 1 ;
2. P(Ω) = 1 ;
6
3. P(A1 ∪ A2 ∪ . . .) = P(A1 ) + P(A2 ) + . . . , falls die Ereignisse Ai paarweise
unvereinbar sind, d.h. Ai ∩ Aj = ∅ (i 6= j).
• Bemerkung: Jede Zuweisung der Wahrscheinlichkeitswerte zu den zufälligen
Ereignissen zu einem Zufallsversuch, die diese Axiome erfüllt, ist aus mathematischer Sicht korrekt (unabhängig davon, ob sie die Realität gut beschreibt).
• Folgerungen:
P(A ∪ B) = P(A) + P(B), falls A ∩ B = ∅ (Additionssatz);
P(A ∪ B) = P(A) + P(B) − P(A ∩ B) ;
P(Ac ) = 1 − P(A) ;
A ⊆ B ⇒ P(A) ≤ P(B) .
Beispielaufgabe
Für die Ereignisse A und B seien folgende Wahrscheinlichkeiten bekannt:
P(A) = 0.25 , P(B) = 0.45 , P(A ∪ B) = 0.5 .
Berechnen Sie P (A ∩ B c ) , P (Ac ∩ B c ) und P ((A ∩ B c ) ∪ (Ac ∩ B)) !
2.2
Klassische Wahrscheinlichkeitsdefinition (Laplace-Modell)
• Gilt für Zufallsversuche mit
– endlich vielen möglichen Versuchsergebnissen (n elementare Versuchsausgänge oder Elementarereignisse),
– die alle gleichwahrscheinlich sind (keines wird bevorzugt, alle haben dieselbe
Chance einzutreten).
• Beispiele:
– Würfeln mit einem fairen oder gerechten Würfel,
n = 6, Elementarereignisse sind {1}, {2}, {3}, {4}, {5}, {6} .
– Zahlenlotto „6 aus 49 “ ,
n = Anzahl der möglichen Tipps mit 6 aus 49 Zahlen.
• Aus den Axiomen für Wahrscheinlichkeiten folgt dann die einzige mögliche Definition von Wahrscheinlichkeiten in dieser Situation
(die sogenannte klassische Wahrscheinlichkeitsdefinition).
Klassische Wahrscheinlichkeitsdefinition
• Für jedes der n Elementarereignisse gilt unter obigen Bedingungen:
P(Elementarereignis) =
7
1
.
n
• Für ein beliebiges Ereignis A gilt unter obigen Bedingungen:
Anzahl der Elementarereignisse in A
P(A) =
bzw.
n
Anzahl der für A günstigen Fälle
P(A) =
.
Anzahl aller möglichen gleichwahrscheinlichen Fälle
• Beispiel: Zweimaliges Würfeln mit einem fairen Würfel,
A = {„Augensumme mindestens 10 “} .
• Bei Wahrscheinlichkeitsberechnungen im Zusammenhang mit der klassischen
Wahrscheinlichkeitsdefinition werden oft kombinatorische Formeln genutzt.
2.3
Stochastische Unabhängigkeit
Definition:
• Zwei zufällige Ereignisse A und B zu einem Zufallsversuch heißen (stochastisch)
unabhängig, wenn gilt
P(A ∩ B) = P(A) · P(B) .
• Zufällige Ereignisse A1 , . . . , An zu einem Zufallsversuch heißen paarweise unabhängig, falls alle Paare von ausgewählten Ereignissen unabhängig sind, d.h.
P(Ai ∩ Aj ) = P(Ai ) · P(Aj ) für alle i 6= j .
• Diese Ereignisse heißen in Gesamtheit oder total oder vollständig (stochastisch)
unabhängig, falls eine entsprechende Formel für alle möglichen Auswahlen (nicht
nur von Paaren) gilt, d.h. für alle
2 ≤ k ≤ n, 1 ≤ i1 < . . . < ik ≤ n gilt
P(Ai1 ∩ . . . ∩ Aik ) = P(Ai1 ) · . . . · P(Aik ) .
Beispiel und Eigenschaften unabhängiger Ereignisse
• Beispiel: Zweifacher Münzwurf mit symmetrischer Münze
A = {„1. Wurf Zahl“}, B = {„2. Wurf Zahl“},
1
1
1 1
1
P(A) = , P(B) = , P(A ∩ B) = = · .
2
2
4
2 2
• Satz A und B seien unabhängige Ereignisse zu einem Zufallsversuch. Dann
sind auch die zufälligen Ereignisse A und das Komplement von B, also B c ,
stochastisch unabhängig. Ebenso sind in diesem Fall Ac und B sowie auch Ac
und B c jeweils stochastisch unabhängige Ereignisse.
• Aus der paarweisen Unabhängigkeit der Ereignisse A1 , . . . , An folgt im Allgemeinen nicht deren totale Unabhängigkeit.
• Die Unabhängigkeit von Ereignissen (im Allg. die totale) wird der Einfachheit
halber häufig vorausgesetzt, gezwungenermaßen oft auch dann, wenn sie sachlich
schwer begründbar ist.
8
Anwendung in Zuverlässigkeitstheorie
Betrachten Serien- (Reihen-) und Parallelsysteme von Elementen (Bauteilen, Teilsystemen etc.), die vollständig unabhängig voneinander funktionstüchtig sind oder ausfallen.
• 2 Elemente E1 , E2 , Fi = {„Element Ei funktioniert“} ,
P(Fi ) = pi , Fi stochastisch unabhängig (i = 1, 2) .
• Das Seriensystem funktioniert, wenn sowohl E1 als auch E2 funktionieren,
d.h. der Ausfall bereits eines Elements zum Systemausfall führt:
P(F1 ∩ F2 ) = P(F1 ) · P(F2 ) = p1 · p2 .
• Das Parallelsystem funktioniert, wenn E1 oder E2 oder beide Elemente funktionieren (mindestens ein Element funktioniert):
P(F1 ∪ F2 ) = 1 − P (F1 c ∩ F2 c )
= 1 − (1 − p1 ) · (1 − p2 ) = p1 + p2 − p1 · p2 .
Redundante Systeme
• Seriensysteme aus vielen Elementen erfordern oft eine sehr hohe Funktionswahrscheinlichkeit der Arbeitselemente, die meist nicht realisierbar ist. Deshalb werden
Reserveelemente eingebaut.
• Das entstehende System ist dann kein Seriensystem mehr und ist strukturell redundant (lateinisch: redundantia = Überfülle).
• Es gibt 3 Arten der strukturellen Redundanz:
– Kalte Redundanz (unbelastete Redundanz oder Reserve):
Im Reservezustand sind die Elemente keinerlei Beanspruchungen ausgesetzt,
können also nicht ausfallen.
– Warme Redundanz (erleichterte Redundanz oder Reserve):
Die Reserveelemente sind geringeren Beanspruchungen ausgesetzt, die Ausfallwahrscheinlichkeit ist geringer als die der Arbeitselemente.
– Heiße Redundanz (belastete Redundanz oder Reserve):
Die Reserveelemente sind den gleichen Beanspruchungen ausgesetzt wie die
Arbeitselemente, besitzen also auch entsprechende Ausfallwahrscheinlichkeiten.
2.4
Bedingte Wahrscheinlichkeiten
• Häufig ist es nützlich, Bedingungen zu berücksichtigen, welche die Zufälligkeit
einschränken.
• Beispiel:
Zufälliges Ziehen einer Kugel aus einer Urne
9
– Insgesamt 11 weiße und 6 schwarze Kugeln;
– von den 17 Kugeln sind 8 Kugeln (6 weiße und 2 schwarze) markiert;
– die restlichen 9 Kugeln (5 weiße und 4 schwarze) sind unmarkiert.
– Ereignis
S = {„gezogene Kugel ist schwarz“} ;
– Ereignis
M = {„gezogene Kugel ist markiert“} ;
– Ereignis
U = {„gezogene Kugel ist unmarkiert“} .
• Ohne Bedingung: P(S) =
6
17
, P(S ∩ M ) =
2
17
, P(S ∩ U ) =
4
17
.
• Einschränkung auf markierte Kugeln:
P(S|M ) = 82 , P(M ) =
8
17
, d.h.
P(S|M ) =
P(S∩M )
P(M )
.
• Einschränkung auf unmarkierte Kugeln:
P(S|U ) = 49 , P(U ) =
9
17
, d.h.
P(S|U ) =
P(S∩U )
P(U )
.
Allgemeine Definition bedingter Wahrscheinlichkeiten
• Bedingte Wahrscheinlichkeit von A unter der Bedingung B:
P(A|B) =
P(A ∩ B)
,
P(B)
falls P(B) 6= 0 .
• Wichtig: Im Allgemeinen gilt P(A|B) 6= P(B|A) !
• Bei fester Bedingung B kann man wie mit (unbedingten) Wahrscheinlichkeiten
rechnen, z.B. P(Ac |B) = 1 − P(A|B) .
• Sind zwei zufällige Ereignisse A und B stochastisch unabhängig, dann gelten (falls
P(B) > 0 bzw. P(A) > 0)
P(A|B) = P(A) bzw. P(B|A) = P(B) ,
d.h. die bedingten Wahrscheinlichkeiten sind gleich den unbedingten Wahrscheinlichkeiten der beiden Ereignisse. Entsprechende Formeln gelten auch für mehr als
2 in Gesamtheit unabhängige Ereignisse.
Multiplikationsregeln
• Multiplikationsregel: P(A ∩ B) = P(A|B) · P(B) .
• Erweiterte Multiplikationsregel: Sind A1 , . . . , An zufällige Ereignisse mit
P(A1 ∩ . . . ∩ An−1 ) > 0 , dann gilt
P(A1 ∩ A2 ∩ . . . ∩ An ) = P(A1 ) · P(A2 |A1 ) · P(A3 |A1 ∩ A2 )·
. . . · P(An |A1 ∩ A2 ∩ . . . ∩ An−1 ) .
10
• Übungsbeispiel: In einer Urne befinden sich 7 rote und 3 schwarze Kugeln. Es
werden nacheinander 4 Kugeln zufällig ohne Zurücklegen entnommen.
Wie groß ist die Wahrscheinlichkeit für das Ereignis A , dass alle 4 gezogenen
Kugeln rot sind?
Formel der totalen Wahrscheinlichkeit
• Berechnung der totalen (unbedingten) Wahrscheinlichkeit aus den bedingten Wahrscheinlichkeiten als gewichtetes Mittel !
• Sei B1 , . . . , Bn eine Zerlegung von Ω mit P(Bi ) 6= 0, i = 1, . . . , n . Dann gilt
die Formel der totalen Wahrscheinlichkeit: für ein beliebiges zufälliges Ereignis
A ⊆ Ω ist
n
X
P(A) =
P(A|Bi )P(Bi ) .
i=1
c
• Bei Zerlegung Ω = B ∪ B :
P(A) = P(A|B)P(B) + P(A|B c )P(B c ) .
• Im Beispiel mit dem Ziehen einer Kugel :
P(S) = P(S|M ) · P(M ) + P(S|U ) · P(U ) ,
2 8
4 9
6
= ·
+ ·
.
17
8 17 9 17
Übungsaufgabe
Drei Zulieferer liefern eine Komponente zur Produktion eines Erzeugnisses im Anzahlverhältnis 5 : 3 : 2.
Die Fehlerquote betrage bei Komponenten der 1. Zulieferfirma 7%, bei Komponenten
der 2. Zulieferfirma 4% und bei Komponenten der 3. Zulieferfirma 2%.
Wie groß ist die Wahrscheinlichkeit dafür, dass eine aus der Gesamtliefermenge rein
zufällig ausgewählte Komponente fehlerhaft ist ?
Formel von Bayes
• Unter den Bedingungen des Satzes der totalen Wahrscheinlichkeit und unter der
Voraussetzung P(A) > 0 gilt die Formel von Bayes
P(Bi |A) =
P(A|Bi )P(Bi )
P(A|Bi )P(Bi )
= P
.
n
P(A)
P(A|Bj )P(Bj )
j=1
• P(Bi ) heißen auch a-priori-Wahrscheinlichkeiten.
• P(Bi |A) heißen auch a-posteriori-Wahrscheinlichkeiten,
sie liefern eine Korrektur der ursprünglichen Wahrscheinlichkeiten, wenn bekannt
ist, dass das zufällige Ereignis A eingetreten ist oder dies angenommen wird.
11
Übungsaufgabe
Für die Situation der obigen Übungsaufgabe mit den 3 Zulieferbetrieben wurde eine
Komponente aus der Gesamtzuliefermenge rein zufällig ausgewählt und überprüft.
Dabei wurde festgestellt, dass die Komponente defekt ist.
Mit welcher Wahrscheinlichkeit stammte diese Komponente von der 1. Zulieferfirma ?
Beispiel Diagnoseverfahren
• Diagnoseverfahren liefern im Allg. nicht 100%ig richtige Ergebnisse:
• Ein Fehler wird nicht erkannt.
• Ein Fehler wird fälschlicherweise angezeigt.
• Resultierende Frage:
Wie groß ist die Wahrscheinlichkeit, dass ein zufällig ausgewählter und als fehlerhaft angezeigter Gegenstand tatsächlich fehlerhaft ist ?
• Beispiel:
F = {„Gegenstand ist tatsächlich fehlerhaft“}, P(F ) = 0.001 .
A = {„Gegenstand wird als fehlerhaft angezeigt“}.
Wahrscheinlichkeit für eine Fehlererkennung: P(A|F ) = 0.9 .
Wahrscheinlichkeit für die Identifizierung eines einwandfreien Gegenstandes: P(Ac |F c ) =
0.99 .
Ges.: P(F |A) .
3
Zufallsgrößen
3.1
Zufallsgrößen und ihre Verteilung
• Häufig sind Zahlenwerte Ergebnisse von Zufallsversuchen.
• Oft ist es auch in anderen Fällen für eine mathematische Behandlung günstig, den
Versuchsergebnissen Zahlen zuzuordnen (etwa 1 für „Erfolg“ und 0 für „Misserfolg“).
⇒ Beschreibung von Ergebnissen eines Zufallsversuches durch eine Zufallsgröße X
(oder mehrere Zufallsgrößen X1 , X2 , . . . , Xn ) .
• Beispiele:
– Zufällige Zeit X (Lebensdauer, Ausfallzeiten,. . . )
mit möglichen Werten {x ∈ R : x ≥ 0} .
– Messergebnis X (Länge, Kraft, Temperatur, . . . ) mit entsprechenden Zahlenwerten (ohne Maßeinheit) als möglichen Werten.
12
– Zufällige Anzahl X (von Schäden, Konkursen,. . . )
mit möglichen Werten {0, 1, 2, . . .}.
– Augenzahl X beim Würfeln mit möglichen Werten {1, 2, 3, 4, 5, 6} .
Mathematische Definition einer Zufallsgröße
• Mathematische Definition einer Zufallsgröße:
Eine Abbildung (Funktion) X : Ω → R heißt Zufallsgröße (reelle Zufallsvariable),
falls für jedes Intervall (a, b) ⊂ R, a < b, die Menge {ω ∈ Ω : a < X(ω) <
b} ein zufälliges Ereignis ist („Messbarkeitsbedingung“; dabei wird ein System
von zufälligen Ereignissen mit bestimmten natürlichen Eigenschaften als gegeben
vorausgesetzt).
• Es gilt:
Sind X, Y Zufallsgrößen zu einem Zufallsversuch, dann sind auch X + Y , X − Y ,
X · Y , X/Y , falls Y 6= 0, a · X mit a ∈ R und ähnliche durch mathematische Operationen gebildete Größen Zufallsgrößen (d.h. die Messbarkeitsbedingung bleibt
erhalten).
Grundtypen von Zufallsgrößen
• Für Zufallsgrößen interessieren vor allem Wahrscheinlichkeiten der Art P(X ≤ b),
P(a < X < b), P(a ≤ X ≤ b) oder ähnliche.
• Diese bilden die Verteilung oder Wahrscheinlichkeitsverteilung der Zufallsgröße.
• Abgeleitete Kenngrößen, wie zum Beispiel Erwartungswert oder Varianz liefern
ebenfalls wichtige Informationen.
• Zwei wichtige Grundtypen von Zufallsgrößen (mit zum Teil unterschiedlichen mathematischen Hilfsmitteln bei Berechnungen oder Untersuchungen) sind:
– Zufallsgrößen mit diskreter Verteilung
(diskrete Zufallsgrößen) und
– Zufallsgrößen mit (absolut) stetiger Verteilung
(stetige Zufallsgrößen) .
Zufallsgrößen mit diskreter Verteilung
• Definition: Eine Zufallsgröße X heißt diskret, wenn sie nur endlich viele oder
abzählbar unendlich viele mögliche Werte x1 , x2 , . . . annehmen kann.
• Die Zuordnung pi := P(X = xi ), i = 1, 2, . . ., heißt Wahrscheinlichkeitsfunktion
der diskreten Zufallsgröße.
• Sie wird meistens durch eine Verteilungstabelle gegeben:
13
Werte
xi
Wahrscheinlichkeiten pi
x1
p1
x2
p2
x3
p3
...
...
• Die Bestimmung der Wahrscheinlichkeiten pi erfolgt durch Berechnung aus Grundannahmen (typische Verteilungen) oder experimentell mittels statistischer Methoden.
Wahrscheinlichkeiten bei diskreten Verteilungen
• Beispiel:
Gerechtes Würfeln, Zufallsgröße X : Augenzahl.
xi
pi
1
2
3
4
5
6
1
6
1
6
1
6
1
6
1
6
1
6
• Für die Wahrscheinlichkeiten pi gelten :
– 0 ≤ pi ≤ 1 ;
X
–
pi = 1 .
i
• Für beliebige Mengen I ⊆ R gilt
P(X ∈ I) =
X
pi ,
xi ∈I
z.B. für reelle Zahlen a < b
P(a < X < b) =
X
pi .
a<xi <b
• Beispiel: Zweifacher Würfelwurf, Zufallsgröße X : Augensumme,
Ges.: P(X ≤ 4) .
Zufallsgrößen mit stetiger Verteilung
• Definition: Eine Zufallsgröße X heißt stetig, wenn es eine integrierbare reelle
Funktion fX : R → R gibt, so dass
Z b
P(a ≤ X ≤ b) =
fX (x) dx
a
für beliebige reelle Zahlen a ≤ b gilt.
• Die Funktion fX heißt Dichtefunktion (oder Verteilungsdichte) der Zufallsgröße
X und besitzt die Eigenschaften:
1. fX (x) ≥ 0 für alle x ∈ R ;
Z ∞
2.
fX (x) dx = 1 .
−∞
• Bemerkung:
sein !
Eine Dichtefunktion muss nicht unbedingt stetig oder beschränkt
• Eine Dichtefunktion gibt die Verteilung der „Wahrscheinlichkeitsmasse“ auf der
reellen Achse an.
14
Beispiel Zufallsgröße mit stetiger Verteilung
• Beispiel: Rein zufällige Auswahl eines Punktes (Wertes) X aus dem Intervall
[0, 1] (auf dem Intervall [0, 1] gleichverteilte oder gleichmäßig verteilte Zufallsgröße).
• Für 0 ≤ a < b ≤ 1 gilt P(a ≤ X ≤ b) = b − a .
1, 0 ≤ x ≤ 1,
• Die Dichtefunktion ist fX (x) =
0 , sonst.
Verteilungsfunktion einer Zufallsgröße
• Die Verteilungen von beliebigen Zufallsgrößen können vollständig durch die Verteilungsfunktion der jeweiligen Zufallsgröße beschrieben werden.
• Definition: Die Funktion FX einer reellen Variablen mit reellen Funktionswerten, die durch
FX (x) = P(X < x) = P(−∞ < X < x) ,
x ∈ R,
definiert wird, heißt Verteilungsfunktion der Zufallsgröße X .
• Der Funktionswert ist für jede reelle Zahl x die Wahrscheinlichkeit dafür, dass
die Zufallsgröße X einen Wert annimmt, der kleiner als x ist.
• Bemerkung: Mitunter wird die Verteilungsfunktion einer Zufallsgröße X auch
durch FeX (x) = P(X ≤ x) , x ∈ R , definiert, insbesondere in der Zuverlässigkeitstheorie.
Verteilungsfunktion einer diskreten Zufallsgröße
• Für übliche diskrete Zufallsgrößen ist die Verteilungsfunktion eine Treppenfunktion mit Sprüngen der Höhe pi an den Werten xi .
15
• Beispiel: Verteilungsfunktion FX der Zufallsgröße X : Augenzahl beim Würfeln mit einem gerechten Würfel .
Verteilungsfunktion einer stetigen Zufallsgröße
• Für stetige Zufallsgrößen ist die Verteilungsfunktion eine in allen Punkten stetige
Funktion.
• Beispiel: Verteilungsfunktion FX einer Zufallsgröße X , die auf [0, 1] gleichverteilt ist.
Allgemeine Eigenschaften von Verteilungsfunktionen
• Eine Verteilungsfunktion FX ist monoton nicht fallend.
• Es gilt
lim FX (x) = 0 .
x→−∞
16
• Es gilt
lim FX (x) = 1 .
x→+∞
• Es gilt für beliebige reelle Zahlen a < b :
P(a ≤ X < b) = FX (b) − FX (a) .
• Für stetige Zufallsgrößen gelten
P(a ≤ X < b) = P(a < X < b) = P(a < X ≤ b) = P(a ≤ X ≤ b) .
• Außerdem gelten für stetige Verteilungen
Z x
FX (x) =
fX (t) dt, x ∈ R und fX (x) = FX0 (x)
−∞
an den Stellen x ∈ R, in denen die Ableitung existiert.
3.2
Charakteristische Größen von Verteilungen
• Die Gesamtinformation, die mit einer Wahrscheinlichkeitsverteilung gegeben wird
(oder gegeben werden muss) ist häufig zu umfangreich.
• Deshalb nutzt man Kenngrößen, die in praktischen Situationen gut zu nutzen sind.
• Die beiden wichtigsten Gruppen von Kenngrößen sind die der Lageparameter und
der Streuungsparameter.
• Die am häufigsten genutzte Kenngröße ist der Erwartungswert EX einer Zufallsgröße X (auch Mittelwert der Zufallsgröße genannt).
• Der Erwartungswert ist ein Lageparameter, eine (nichtzufällige) reelle Zahl und
beschreibt die Lage des Schwerpunkts der Wahrscheinlichkeitsmasse.
Definition Erwartungswert einer Zufallsgröße
• Definition: Für eine diskrete Zufallsgröße X mit möglichen Werten x1 , x2 , . . .
und zugehörigen Wahrscheinlichkeiten p1 = P(X = x1 ), p2 = P(X = x2 ), . . . wird
der Erwartungswert definiert durch
X
EX =
xi p i .
i
Für eine stetige Zufallsgröße X mit der Dichtefunktion fX wird der Erwartungswert definiert durch
Z ∞
EX =
x · fX (x) dx .
−∞
• Beispiele:
Zufallsgrößen
– X1 Augenzahl beim Würfeln mit einem gerechten Würfel.
– X2 gleichmäßig verteilt auf dem Intervall [0, 1].
17
Beispiele: Erwartungswert einer Zufallsgröße
X1 Augenzahl beim Würfeln
Einzelwahrscheinlichkeiten
und Erwartungswert
X2 gleichverteilt auf [0, 1]
Dichtefunktion
und Erwartungswert
Eigenschaften von Erwartungswerten
• Nicht jede Zufallsgröße besitzt einen Erwartungswert.
• Linearitätseigenschaft von Erwartungswerten:
für Zufallsgrößen X, Y und reelle Zahlen a, b gelten
E(a + bX) = a + bEX ;
E(X + Y ) = EX + EY .
• Ist g : R → R eine (z.B. stetige) Funktion und X eine Zufallsgröße, dann kann
man den Erwartungswert der Zufallsgröße Y = g(X) wie folgt berechnen, ohne
erst die Verteilung von Y zu bestimmen:
X
EY = Eg(X) =
g(xi )pi
für diskrete ZG X ;
Zi ∞
EY = Eg(X) =
g(x)fX (x) dx
für stetige ZG X .
−∞
Varianz und Standardabweichung einer Zufallsgröße (ZG)
• Die wichtigste Kenngröße für die Variabilität von Zufallsgrößen ist die Varianz
(auch Streuung oder Dispersion) der Zufallsgröße.
• Definition:
Zahl
Die Varianz VarX der Zufallsgröße X ist die nichtnegative reelle
VarX = E (X − EX)2
 P
(xi − EX)2 pi ,


i
=
R∞

(x − EX)2 fX (x) dx ,

−∞
18
diskrete ZG ;
stetige ZG .
• Die Varianz, falls sie existiert, gibt die erwartete quadratische Abweichung der
Zufallsgröße von ihrem Erwartungswert an.
• Definition: Die Standardabweichung σX der Zufallsgröße X ist die positive
Quadratwurzel aus der Varianz der Zufallsgröße:
√
σX = VarX .
Eigenschaften von Varianzen und Standardabweichungen
• Varianz und Standardabweichung sind Streuungsparameter.
• Die Varianz lässt sich meistens bequemer mit Hilfe der Formel
VarX = E X 2 − (EX)2
berechnen.
• Ist a eine reelle Zahl und X eine Zufallsgröße, dann gelten
– Var(aX) = a2 VarX,
– Var(a + X) = VarX,
– σ(aX) = |a|σX ,
– σ(a+X) = σX .
• Es gilt genau dann VarX = σX = 0, wenn es eine reelle Zahl x0 gibt, so dass
P(X = x0 ) = 1 gilt.
Die Zufallsgröße X heißt dann einpunktverteilt.
Beispielberechnung Varianzen
• ZG X1 : Augenzahl beim Würfeln mit einem gerechten Würfel.
12 22 32 42 52 62
91
+
+
+
+
+
=
6
6
6
6
6
6
6
2
91
7
35
VarX =
−
=
= 2.917 .
6
2
12
EX 2 =
• ZG X2 : gleichmäßig verteilt auf dem Intervall [0, 1] .
Z 1
1
2
EX =
x2 · 1 dx =
3
0
2
1
1
1
=
= 0.0833 .
VarX = −
3
2
12
19
Variationskoeffizient
• Definition: Für eine Zufallsgröße X mit EX > 0 wird der Variationskoeffizient VX definiert durch
VX =
σX
.
EX
• Mit dem Variationskoeffizienten wird die Streuung der möglichen Werte zum mittleren Wert (Erwartungswert) in Beziehung gesetzt.
• Der Variationskoeffizient ist einheitenunabhängig und hilft er beim Vergleich der
Stärke der zufälligen Schwankungen der Werte von unterschiedlichen Zufallsvariablen, insbesondere wenn diese in unterschiedlichen Einheiten gemessen wurden.
• Der Variationskoeffizient kann für solche Zufallsgrößen verwendet werden, bei denen die Quotientenbildung der möglichen Werte auch inhaltlich sinnvoll ist.
Quantile einer stetigen Zufallsgröße
• Für 0 < q < 1 heißt die reelle Zahl xq ein q−Quantil der stetigen Zufallsgröße
X, wenn X Werte links von xq mit einer Wahrscheinlichkeit q annimmt, d.h.
xq ist eine Lösung der Gleichung
Z xq
fX (x) dx = q
bzw.
FX (xq ) = q .
−∞
• q−Quantile können auch für diskrete und andere Zufallsgrößen betrachtet werden.
• Wichtige Quantile sind:
– das 0.5–Quantil, es heißt Median von X ;
– das 0.25– bzw. 0.75–Quantil, dies sind die sogenannten Viertelquantile oder
Quartile von X (das untere bzw. das obere) ;
– die α− bzw. (1 − α)−Quantile für kleine Werte α , sie spielen bei statistischen Fragen eine große Rolle.
Beispiel Exponentialverteilung
Eine Zufallsgröße X heißt exponentialverteilt mit Parameter λ > 0 , falls für die
Verteilungsfunktion FX bzw. die Verteilungsdichte fX gilt:
0,
x ≤ 0,
0,
x ≤ 0,
FX (x) =
fX (x) =
1 − exp(−λx) , x > 0 ,
λ exp(−λx) , x > 0 .
20
Verteilungsfunktion (λ = 2)
Dichtefunktion (λ = 2)
Quantile für Exponentialverteilung
• Es sei X exponentialverteilt mit Parameter λ = 2, d.h.
0,
x ≤ 0,
FX (x) = P(X < x) =
1 − exp(−2x) , x > 0 .
• Dann gilt für das q−Quantil xq (mit 0 < q < 1) :
FX (xq ) = 1 − exp(−2xq ) = q ,
1
also xq = − ln (1 − q) .
2
Verteilungsfunktion
q
0.25
• 0.5
0.75
0.95
3.3
3.3.1
Dichtefunktion
xq
0.144
0.347
0.693
1.498
Wichtige diskrete Wahrscheinlichkeitsverteilungen
Diskrete Gleichverteilung
• Zufallsgröße X mit endlich vielen möglichen Werten x1 , x2 , . . . , xn (xi 6= xj , i 6=
j) .
• Wahrscheinlichkeitsfunktion:
1
pi = P(X = xi ) = , i = 1, 2, . . . , n .
n
• Im Spezialfall x1 = 1 , x2 = 2 , . . . , xn = n gelten
EX =
n+1
2
und VarX =
21
n2 − 1
.
12
• Anwendung: Laplace-Experiment.
• Bezeichnung: X ∼ U({x1 , x2 , . . . , xn }) .
3.3.2
Bernoulli-Verteilung
• Parameter: p ∈ [0, 1] .
• Zufallsgröße X mit 2 möglichen Werten x1 = 1 , x2 = 0 .
• Wahrscheinlichkeitsfunktion: P(X = 1) = p ,
• Kenngrößen: EX = p
und
P(X = 0) = 1 − p .
VarX = p(1 − p) .
• Bezeichnung: X ∼ B(p) .
• Anwendung: Bernoulli-Experiment:
– Experiment mit zwei möglichen Versuchsausgängen, die durch die Ereignisse
A bzw. Ac beschrieben werden.
– Das Ereignis A tritt mit einer Wahrscheinlichkeit p = P(A) ein.
(
1 , wenn ω ∈ A ;
– Die Zufallsgröße X wird dann wie folgt definiert X(ω) =
0 , wenn ω ∈
6 A.
3.3.3
Binomialverteilung
• Parameter:
n ∈ N, 0 ≤ p ≤ 1.
• Zufallsgröße X mit möglichen Werten x0 = 0, x1 = 1, . . . , xn = n .
• Wahrscheinlichkeitsfunktion:
n i
pi = P(X = i) =
p (1 − p)n−i ,
i
• Kenngrößen: EX = np
und
i = 0, 1, . . . , n .
VarX = np(1 − p) .
• Bezeichnung: X ∼ Bin(n, p) .
• Eigenschaften:
– Bin(1, p) = B(p) ;
– X1 ∼ Bin(n1 , p) , X2 ∼ Bin(n2 , p) , unabhängig
⇒ X1 + X2 ∼ Bin(n1 + n2 , p) ;
– Insbesondere X1 ∼ B(p) , . . . , Xn ∼ B(p) , unabhängig
⇒ X1 + . . . + Xn ∼ Bin(n, p) .
22
Wahrscheinlichkeitsfunktionen von Binomialverteilungen
Typische Situation für Binomialverteilung
• Typische Situation:
– Der Zufallsversuch besteht aus n unabhängigen und gleichartigen Teilversuchen.
– Bei jedem Teilversuch kann ein bestimmtes Ereignis mit einer Wahrscheinlichkeit p eintreten oder (mit Wahrscheinlichkeit 1 − p) nicht.
– Mit der Zufallsgröße X zählt man die Anzahl der Teilversuche, bei denen
das interessierende Ereignis eingetreten ist.
– X ist also die zufällige Anzahl der eingetretenen Ereignisse unter obigen
Bedingungen.
• Typische Anwendung:
Stichprobenentnahme mit Zurücklegen in der Qualitätskontrolle
(X = Anzahl von Ausschussteilen in einer Stichprobe).
Beispielaufgabe Binomialverteilung
• Ein idealer Würfel wird 20 mal geworfen. Wie groß ist die Wahrscheinlichkeit
dafür, dass mindestens zwei mal eine Sechs geworfen wird ?
• Zufallsgröße X = „Anzahl der geworfenen Sechsen bei 20 Würfen dieses Würfels“.
23
• Die Zufallsgröße X ist binomialverteilt.
• Die Wahrscheinlichkeit für das Werfen einer Sechs bei einem Würfelwurf beträgt
1/6 , dies ist der Parameter p .
• Der Parameter n beschreibt die Anzahl der Wiederholungen des Einzelversuchs,
hier also n = 20 .
• Gesucht ist P(X ≥ 2) .
3.3.4
Hypergeometrische Verteilung
• Parameter:
N, M, n ∈ N , M ≤ N , n ≤ N .
• Zufallsgröße X mit möglichen Werten xk = k ∈ N0 , mit max{0, n−(N −M )} ≤
k ≤ min{M, n} .
• Wahrscheinlichkeitsfunktion:
N −M M
· n−k
k
,
pk = P(X = k) =
N
n
max{0, n − (N − M )} ≤ k ≤ min{M, n} .
• Kenngrößen:
EX = n ·
• Bezeichnung:
M
;
N
VarX = n ·
M N −M N −n
·
·
.
N
N
N −1
X ∼ Hyp(N, M, n) .
Wahrscheinlichkeitsfunktionen hypergeom. Verteilungen
24
Typische Situation für die hypergeometrische Verteilung
• Typische Situation:
– Unter N Dingen befinden sich M ausgezeichnete;
– von den N Dingen werden n zufällig ausgewählt (ohne Zurücklegen);
– die Zufallsgröße X repräsentiert die zufällige Anzahl der ausgezeichneten
Dinge unter den n ausgewählten.
• Anwendungsbeispiele:
– Stichprobennahme ohne Zurücklegen, z.B. bei der Qualitätskontrolle;
– Anzahl der richtigen Zahlen bei einem Tipp im Lottospiel;
• Ist das Verhältnis
n
sehr klein (< 0.05) , so gilt
N
M
Hyp(N, M, n) ≈ Bin n,
.
N
Beispielaufgabe hypergeometrische Verteilung
• Ein Kunde übernimmt alle 50 gelieferten Schaltkreise, wenn in einer Stichprobe
von 10 Schaltkreisen höchstens ein nicht voll funktionsfähiger Schaltkreis enthalten
ist. Ansonsten wird die gesamte Lieferung verworfen.
• Man berechne die Wahrscheinlichkeit dafür, dass die 50 Schaltkreise
a) abgenommen werden, obwohl diese 12 nicht voll funktionsfähige Schaltkreise
enthalten,
b) zurückgewiesen werden, obwohl nur 3 nicht voll funktionsfähige Schaltkreise
enthalten sind !
• Zufallsgröße X. . . „Anzahl der nicht voll funktionsfähigen Schaltkreise in der Stichprobe“.
25
• Die Zufallsgröße X ist hypergeometrisch verteilt.
• N = 50 , n = 10 , M = 12 bzw. M = 3 .
• Ges. P(X ≤ 1) bzw. P(X > 1) .
3.3.5
Geometrische Verteilung
• Parameter:
0 < p < 1.
• Zufallsgröße X mit möglichen Werten k = 1, 2, 3, . . . .
• Wahrscheinlichkeitsfunktion:
pk = P(X = k) = p(1 − p)k−1 ,
• Kenngrößen: EX =
• Bezeichnung:
1
p
und
VarX =
1−p
p2
k = 1, 2, 3, . . . .
.
X ∼ Geo(p) .
• Anwendung:
– Gleichartige unabhängige Teilversuche, bei denen jeweils „Erfolg“ mit Wahrscheinlichkeit p oder „Misserfolg“ mit Wahrscheinlichkeit 1 − p eintreten
können, werden so lange durchgeführt, bis zum ersten Mal „Erfolg“ eingetreten ist.
– Der Wert von X ist gleich der Anzahl der durchgeführten Teilversuche.
Geometrische Verteilungen, Beispielaufgabe
Beispielaufgabe:
• Ein Relais falle mit einer Wahrscheinlichkeit von 0.0001 bei einem Schaltvorgang
zufällig aus, wobei diese Ausfälle unabhängig voneiander eintreten sollen.
• Wie groß ist die Wahrscheinlichkeit dafür, dass der erste Ausfall nicht vor dem
tausendsten Schaltvorgang passiert ?
26
Verallgemeinerungen: negative Binomialverteilung
• Werden in derselben Situation die Teilversuche solange wiederholt, bis der r−te
„Erfolg“ eingetreten ist (r ∈ N), besitzt die zufällige Anzahl X der durchgeführten Teilversuche eine negative Binomialverteilung mit den Parametern r und p.
Dann gelten
k−1 r
P(X = k) =
p (1 − p)k−r , k = r, r + 1, . . . ,
r−1
r(1 − p)
r
und VarX =
.
EX =
p
p2
• Bei anderen Varianten der geometrischen und der negativen Binomialverteilung
wird die Anzahl der Misserfolge (Fehlversuche) und nicht die Anzahl der Teilversuche als Zufallgröße betrachtet. Darauf sollte man bei Formeln aus der Literatur
bzw. bei Nutzung von Statistikprogrammen achten.
3.3.6
Poissonverteilung
• Parameter:
λ > 0 (die „Intensität“ der Poissonverteilung).
• Zufallsgröße X mit möglichen Werten k = 0, 1, 2, . . . .
• Wahrscheinlichkeitsfunktion:
λk −λ
pk = P(X = k) = e ,
k!
• Kenngrößen: EX = λ
• Bezeichnung:
und
k = 0, 1, 2, . . . .
VarX = λ .
X ∼ Poi(λ) .
• Eigenschaft: X1 ∼ Poi(λ1 ) , X2 ∼ Poi(λ2 ) , unabhängig
⇒ X1 + X2 ∼ Poi(λ1 + λ2 ) .
Wahrscheinlichkeitsfunktionen von Poissonverteilungen
27
Anwendungen der Poissonverteilung
• Typische Anwendung: Poissonverteilte Zufallsgrößen beschreiben häufig die Anzahl von bestimmten Ereignissen („Poissonereignisse“, z.B. Schadensfälle) in festen
Zeitintervallen, wenn die Ereignisse zu zufälligen Zeitpunkten eintreten (auch analog an zufälligen Orten oder ähnliches) und folgendes gilt:
– Die Wahrscheinlichkeit für das Eintreten einer bestimmten Anzahl dieser
Poissonereignisse hängt nur von der Länge des betrachteten Zeitintervalls
ab, nicht wann dieses beginnt oder endet (Stationarität).
– Die zufälligen Anzahlen der eintretenden Poissonereignisse sind für sich nicht
überschneidende Zeitintervalle stochastisch unabhängig (Nachwirkungsfreiheit).
– Die betrachteten Poissonereignisse treten einzeln ein, nicht gleichzeitig, die
zufälligen Anzahlen ändern sich somit von Moment zu Moment höchstens um
den Wert 1 (Ordinarität).
• Beispiele: Anzahl von Telefonanrufen, Anzahl von emittierten Teilchen in Physik
(radioaktiver Zerfall), Anzahl von Unfällen, Anzahl von Schadensfällen, Anzahl
von Niveauüberschreitungen.
Poissonverteilung und Binomialverteilung
• Ist eine zufällige Zählgröße X binomialverteilt, der Parameter n aber groß und
der Parameter p klein (Faustregel: n ≥ 30, p ≤ 0.05 und gleichzeitig np ≤ 10 ,
sogenannte „seltene Ereignisse“), dann kann man die Wahrscheinlichkeiten näherungsweise mit Hilfe einer Poissonverteilung mit Parameter λ = np berechnen,
d.h.
n k
λk −λ
e
P(X = k) =
p (1 − p)n−k ≈
k!
k
(dies folgt aus dem Grenzwertsatz von Poisson).
28
Übungsaufgaben Poissonverteilung
• An einer Tankstelle kommen werktags zwischen 16:00 und 18:00 Uhr durchschnittlich 4 Fahrzeuge pro Minute an.
Wie groß ist die Wahrscheinlichkeit dafür, dass während einer Minute im betrachteten Zeitbereich mindestens 3 Fahrzeuge ankommen, wenn man davon ausgeht,
dass die zufällige Anzahl der ankommenden Fahrzeuge poissonverteilt ist ?
• Es werden 50 Erzeugnisse aus einer Lieferung mit einer Ausschusswahrscheinlichkeit von 0.01 untersucht. Wie groß ist die Wahrscheinlichkeit dafür, dass sich höchstens ein fehlerhaftes Erzeugnis unter den 50 Erzeugnissen befindet ?
Zusatz zur Poissonverteilung
Ergebnisse der berühmten Rutherfordschen und Geigerschen Versuche: Anzahlen der
α−Teilchen, die von radioaktiven Substanzen in n = 2608 Zeitabschnitten von 7.5 Sekunden emittiert wurden
i
ni
npi
0 57 54.399 Durchschnittliche Anzahl:
X ni · i
1 203 210.523
λ
=
= 3.87 ;
2 383 407.361
n
3 525 525.496
λi
4 532 508.418 pi = e−λ .
i!
5 408 393.515
6 273 253.817
7 139 140.325 Quelle: Fisz, Wahrscheinlichkeitsrech8 45 67.882 nung und mathematische Statistik,
9 27 29.189 Berlin 1973
10 16 11.296
3.4
3.4.1
Wichtige stetige Verteilungen
Exponentialverteilung
• Parameter: λ > 0 .
29
• Zufallsgröße X mit Dichtefunktion fX bzw. Verteilungsfunktion FX
0,
x < 0,
0,
x < 0,
fX (x) =
FX (x) =
λe−λx , x ≥ 0 ;
1 − e−λx , x ≥ 0 .
• Beispiele: λ = 0.5 (blau), λ = 1 (rot), λ = 5 (grün) .
• Kenngrößen:
EX =
1
,
λ
VarX =
1
λ2
und x0.5 =
ln 2
0.693
≈
.
λ
λ
• Bezeichnung: X ∼ Exp(λ) .
• Exponentialverteilte Zufallsgrößen nehmen nur nichtnegative Werte an, daher sind
sie prinzipiell zur Modellierung von zufälligen Lebensdauern oder Wartezeiten geeignet.
• Beispielaufgabe: Die zufällige Lebensdauer eines Bauteils sei exponentialverteilt, dabei betrage die erwartete Lebensdauer 3 Jahre.
Wie groß ist die Wahrscheinlichkeit, dass das Bauteil länger als 6 Jahre funktioniert ?
Exponentialverteilung als Lebensdauerverteilung
• Wird die zufällige Lebensdauer eines Bauteils durch eine Exponentialverteilung
modelliert, dann werden Alterungseffekte nicht mit berücksichtigt (sogenannte Gedächtnislosigkeit der Exponentialverteilung).
• Angenommen, das Bauteil hat schon das Alter x0 > 0 erreicht. Dann gilt für die
Restlebensdauer Xx0 und x > 0
P(Xx0 ≥ x) = P (X ≥ x0 + x|X ≥ x0 ) =
=
P(X ≥ x0 + x)
P(X ≥ x0 )
e−λ(x0 +x)
= e−λx = P(X > x).
−λx
0
e
30
• Damit kann die Exponentialverteilung als Lebensdauerverteilung nur dann ein
gutes Modell sein, wenn äußere Ereignisse das Leben beenden und keine Alterung
vorliegt.
Zusammenhang von Exponential- und Poissonverteilung
• Es werden bestimmte Ereignisse betrachtet, die zu zufälligen Zeitpunkten T1 , T2 , . . .
mit einer Intensität λ > 0 (mittlere Anzahl der Ereignisse pro Zeiteinheit) eintreten.
• Bezeichnet man mit Nt die zufällige Anzahl der eingetretenen Ereignisse im Zeitintervall [0, t], dann sind die Zufallsgrößen Nt für verschiedene Zeitpunkte t
genau dann Poisson-verteilt mit Parameter µ = λt, falls die zufälligen Zeitabstände zwischen zwei aufeinanderfolgenden Ereignissen stochastisch unabhängig
und exponentialverteilt mit dem Parameter λ sind.
• Die zufälligen Zeitmomente T1 , T2 , T3 , . . . bilden dann einen sogenannten Poissonschen Ereignisstrom.
• Die Zufallsgrößen (Nt , t ≥ 0) definieren dann einen sogenannten Poissonprozess.
3.4.2
Normalverteilung (Gauß-Verteilung)
• Parameter: µ ∈ R , σ 2 > 0 .
• Zufallsgröße X mit Dichtefunktion fX bzw. Verteilungsfunktion FX
(x−µ)2
1
1
e− 2σ2 , FX (x) = √
fX (x) = √
2πσ
2πσ
• Kenngrößen: EX = µ
und
Zx
e−
(t−µ)2
2σ 2
dt, x ∈ R .
−∞
VarX = σ 2 .
• Bezeichnung: X ∼ N(µ, σ 2 ) .
• Eigenschaft: X1 ∼ N(µ1 , σ12 ) , X2 ∼ N(µ2 , σ22 ) , unabhängig, a1 , a2 ∈ R ⇒
a1 X1 + a2 X2 ∼ N(a1 µ1 + a2 µ2 , a21 σ12 + a22 σ22 ) (Additionssatz).
• Die Dichtefunktion ist symmetrisch bezüglich der Geraden x = µ , deshalb gilt
für den Median auch x0.5 = µ .
Dichte- und Verteilungsfunktionen Normalverteilung
links: µ = 0, σ = 0.5 (blau), σ = 1 (rot), σ = 2 (grün) ;
rechts: µ = −2, σ = 0.5 (blau), µ = 0, σ = 1 (rot), µ = 1, σ = 2 (grün) .
31
Standardnormalverteilung
• Die Zufallsgröße X ist standardnormalverteilt, falls X normalverteilt ist und µ =
EX = 0 sowie σ 2 = VarX = 1 gelten, d.h. X ∼ N(0, 1) .
• Die Dichte-bzw. Verteilungsfunktion sind dann
x2
1
φ(x) = √ e− 2
2π
1
bzw. Φ(x) = √
2π
Z
x
t2
e− 2 dt,
x ∈ R.
−∞
• Ist die Zufallsgröße X normalverteilt mit Erwartungswert µ und Varianz σ 2 ,
dann ist die standardisierte Zufallsgröße
Z :=
X −µ
σ
standardnormalverteilt, d.h. normalverteilt mit Erwartungswert 0 und Varianz 1.
Berechnung von Wahrscheinlichkeiten
• Geg.:
X ∼ N(µ, σ 2 ) , a < b .
• Ges.:
P(a ≤ X ≤ b) .
32
• Wegen Z =
X −µ
∼ N(0, 1) gilt
σ
a−µ
X −µ
b−µ
P(a ≤ X ≤ b) = P
≤
≤
σ
σ
σ
b−µ
a−µ
≤Z≤
=P
σ
σ
b−µ
a−µ
=Φ
−Φ
.
σ
σ
• Die Funktionswerte von Φ können aus einer Tabelle abgelesen werden oder mit
einem Taschenrechner o.ä. berechnet werden.
• Es gilt Φ(−x) = 1 − Φ(x) für beliebige reelle Zahlen x .
Rechenbeispiel Normalverteilung
• Geg.: X ∼ N(30, 25) .
• Ges.: P(28 ≤ X ≤ 35) .
k · σ−Regeln für Normalverteilung
• Frage: Wie groß ist die Wahrscheinlichkeit dafür, dass der Wert einer Zufallsgröße
X ∼ N(µ, σ 2 ) um mehr als 3 · σ vom Erwartungswert („Sollwert“) µ abweicht ?
• Antwort:
|X − µ|
P(|X − µ| > 3σ) = P
> 3 = P(|Z| > 3)
σ
= 2 P(Z > 3) = 2 (1 − Φ(3)) = 2 (1 − 0.9987) = 0.0026 .
• Folglich und
3 σ−Regel:
2 σ−Regel:
1 σ−Regel:
analog gilt:
Innerhalb von µ ± 3σ liegen ca. 99.74% der Messwerte.
Innerhalb von µ ± 2σ liegen ca. 95.5% der Messwerte.
Innerhalb von µ ± σ liegen ca. 68.3% der Messwerte.
Umgekehrte Fragestellung
• Frage: In welchem Intervall I = [µ − c; µ + c] liegen im Mittel (z.B.) 90% der
Messwerte für X ∼ N(µ, σ 2 ) ?
• Ges.: c , so dass P(|X − µ| ≤ c) = 0.9 .
33
• Lsg:
⇒
|X − µ|
c
0.9 = P(|X − µ| ≤ c) = P
≤
σ
σ
c
c
c
c
= P |Z| ≤
=P − ≤Z≤
= 2Φ
−1
σ
σ
σ
σ
c 0.9 + 1
=
= 0.95
Φ
σ
2
c
= z0.95 = 1.645 (0.95-Quantil)
σ
c = 1.645 · σ .
• D.h., zwischen µ − 1.645σ und µ + 1.645σ liegen im Mittel 90% der Messwerte.
Unabhängigkeit von Zufallsgrößen
• Die Zufallsgrößen X1 , . . . , Xn heißen (stochastisch) unabhängig, wenn für beliebige reelle Zahlen a1 < b1 , . . . , an < bn gilt
P(a1 ≤ X1 < b1 , . . . , an ≤ Xn < bn )
= P(a1 ≤ X1 < b1 ) · . . . · P(an ≤ Xn < bn ) .
• Zufallsgrößen, die z.B. zu unterschiedlichen, sich nicht beeinflussenden Teilversuchen gehören, können als unabhängig angesehen werden. Oft wird die Unabhängigkeit von Zufallsgrößen aber auch angenommen, um überhaupt etwas berechnen
zu können.
• Sind zwei Zufallsgrößen X und Y stochastisch unabhängig, dann gilt E(X ·Y ) =
EX · EY .
• Satz: Sind zwei Zufallsgrößen X und Y stochastisch unabhängig, dann gilt für
deren Summe Var(X + Y ) = VarX + VarY .
• Diese Eigenschaft gilt aber im Allgemeinen nicht für abhängige Zufallsgrößen!
Summen von unabhängigen normalverteilten Zufallsgrößen
• Eigenschaft: X1 ∼ N(µ1 , σ12 ) , X2 ∼ N(µ2 , σ22 ) , unabhängig, a1 , a2 ∈ R ⇒
a1 X1 + a2 X2 ∼ N(a1 µ1 + a2 µ2 , a21 σ12 + a22 σ22 ) (Additionssatz).
• Die Summe Sn =
n
P
Xi von n unabhängigen N(µ, σ 2 )-verteilten Zufallsgrößen
i=1
X1 , . . . , Xn ist normalverteilt mit Erwartungswert nµ und Varianz nσ 2 .
• Näherungsweise gilt eine ähnliche Aussage auch für Zufallsgrößen mit anderen
Verteilungen.
34
Zentraler Grenzwertsatz
• Häufig ergeben sich Zufallsgrößen (z.B. Messfehler) durch (additive) Überlagerung
vieler kleiner stochastischer Einflüsse. Der zentrale Grenzwertsatz bewirkt dann,
dass man diese Größen (näherungsweise) als normalverteilt ansehen kann.
• Für unabhängige, identisch verteilte Zufallsgrößen X1 , X2 , . . . mit EXi = µ ,
VarXi = σ 2 > 0 konvergiert die Verteilung der standardisierten Summe gegen
die Standardnormalverteilung, d.h. es gilt für z ∈ R
Sn − nµ
Sn − ESn
√
<z =P
P √
< z −−−→ Φ(z) ,
n→∞
VarSn
nσ 2
x − nµ
bzw. für große n gilt: P (Sn < x) ≈ Φ √
.
nσ 2
Spezialfall: Satz von Moivre-Laplace
• Sind X1 , ... , Xn identisch Bernoulli-verteilt, d.h. Xi ∼ Bin(1, p) , so gilt für die
Summe Sn ∼ Bin(n, p) und nach dem zentralen Grenzwertsatz gilt für z ∈ R :
!
Sn − np
< z −−−→ Φ(z) ,
P p
n→∞
np(1 − p)
bzw. für große n n >
9
p(1−p)
gilt
P (Sn < x) ≈ Φ
x − np
!
p
np(1 − p)
(Satz von Moivre-Laplace).
Beispiel Zentraler Grenzwertsatz
• Eine Weinkellerei lädt 200 Kunden zur Weinverkostung ein. Es kommt erfahrungsgemäß mit 60% der Kunden zu einem Verkaufsabschluss. Wie groß sind die Wahrscheinlichkeiten, dass genau 130 bzw. mehr als 130 Kunden abschließen ?
• ZG X = Anzahl der Abschlüsse ∼ Bin(200, 0.6)
E(X) = 120 , Var(X) = 48 .
· 0.6130 · 0.470 = 0.0205 ,
• P(X = 130) = 200
130
P(X > 130) = 0.0639 .
35
• Approximation mittels Normalverteilung
P(X = 130) = P(129.5 < X < 130.5)
130.5 − 120
129.5 − 120
√
√
≈Φ
−Φ
≈ 0.0204
48
48
130.5 − 120
√
P(X > 130) = 1 − P(X < 130.5) ≈ 1 − Φ
≈ 0.0649 .
48
3.4.3
Stetige Gleichverteilung
• Parameter:
Intervall [a, b] ⊂ R .
• Zufallsgröße X mit Dichtefunktion fX bzw. Verteilungsfunktion FX

1
 0, x < a;
, a ≤ x ≤ b;
b−a
x−a
fX (x) =
FX (x) =
, a ≤ x ≤ b;
 b−a
0 , sonst ,
1, x > b.
• Beispiel:
a = 0,b = 1.
Charakteristiken der stetigen Gleichverteilung
• Kenngrößen:
a+b
EX =
= x0.5
2
• Bezeichnung:
und
(b − a)2
VarX =
.
12
X ∼ U[a, b] .
• Für Teilintervalle [c, d] ⊆ [a, b] gilt
P(c ≤ X ≤ d) =
d−c
Länge von [c, d]
=
b−a
Länge von [a, b]
(wird genutzt bei der geometrischen Wahrscheinlichkeitsdefinition).
• Stetige Verteilung über dem Intervall [a, b] , wobei kein Teilintervall einer bestimmten Länge vor anderen Teilintervallen derselben Länge bevorzugt wird.
36
Pseudozufallszahlen
• Um zufällige Modelle am Computer zu realisieren, erzeugen Rechnerprogramme
Pseudozufallszahlen (auch kurz Zufallszahlen genannt), die sich wie Realisierungen
von unabhängigen, auf dem Intervall [0, 1] gleichverteilten Zufallsgrößen verhalten
⇒ werden bei Monte-Carlo-Simulationen verwendet.
• Daraus lassen sich mit Hilfe der folgenden Eigenschaft Realisierungen von Zufallsgrößen mit anderen Verteilungen erzeugen.
Satz: Sind u1 , u2 , . . . gleichverteilte Zufallszahlen auf [0, 1] und ist FX die
Verteilungsfunktion einer reellen Zufallsgröße X mit der Umkehrfunktion FX−1 ,
dann sind xi = FX−1 (ui ) , i = 1, 2, . . . nach FX verteilte Zufallszahlen (Inversionsmethode).
• Es existieren noch weitere Transformationsmethoden, um für häufig gebrauchte
Verteilungen, wie z.B. die Normalverteilung, entsprechende Zufallszahlen zu generieren.
3.4.4
Gammaverteilung
• Parameter:
λ > 0 (Skalenparameter), p > 0 (Formparameter).
0,
x < 0;
• Dichtefunktion: fX (x) =
λp p−1 −λx
x e
, x ≥ 0.
Γ(p)
• Gammafunktion:
Γ(1) = 1 , Γ(p) = (p − 1)Γ(p − 1) ⇒ Γ(n) = (n − 1)! für n ∈ N .
Z ∞
e−t tp−1 dt (p > 0).
Allgemeine Definition: Γ(p) =
0
• Kenngrößen: EX =
• Bezeichnug:
p
λ
VarX =
und
p
.
λ2
X ∼ Gam(p, λ) .
• Anwendung: Lebensdauerverteilung, flexibler als Exponentialvert. (Exponentialverteilung ergibt sich als Spezialfall für p = 1) .
Spezielle Gammaverteilungen
• Beispiel: links p = 2 , λ = 1 (rot), λ = 0.5 (blau), λ = 5 (grün);
rechts λ = 1 , p = 2 (rot), p = 0.9 (blau), p = 5 (grün).
37
• Xi ∼ Gam(pi , λ) , i = 1, 2 , unabh. ⇒ X1 + X2 ∼ Gam(p1 + p2 , λ) .
P
• Xi ∼ Exp(λ), i = 1, ..., n, unabhängig ⇒
Xi ∼ Gam(n, λ)
• Spezialfall p = n ∈ N ⇒ Erlangverteilung
Die Wartezeit bis zum Eintreten des n−ten Poissonereignisses kann z.B. durch
eine erlangverteilte Zufallsgröße beschrieben werden (Parameter: n , λ).
3.4.5
Weibullverteilung
• Parameter:
β > 0 (Skalenparam.), m > 0 (Formparam.), α ∈ R .
(
0,
x ≤ α;
m−1
x−α m
• Dichtefunktion: fX (x) =
m x−α
e−( β ) , x > α .
β
β
(
• Verteilungsfunktion:
FX (x) =
0,
x < α;
−( x−α
β )
m
1−e
, x ≥ α.
1
• Erwartungswert: EX = α + β · Γ 1 +
.
m
1
2
2
2
• Varianz: VarX = β Γ 1 +
−Γ 1+
.
m
m
• Median:
x0.5 = α + β (ln 2)1/m .
• Spezialfälle:
α=0
sogenannte zweiparametrische Weibullverteilung
α = 0, m = 1,β =
1
λ
Exponentialverteilung Exp(λ) .
• Beispiele: α = 0,
links: m = 1.5, β = 1 (rot), β = 0.5 (blau), β = 5 (grün);
rechts: β = 1, m = 1 (rot), m = 0.9 (blau), m = 5 (grün).
38
• Die Weibullverteilung ist durch die 3 Parameter anpassungsfähig.
• Eine Weibullverteilung kann als Grenzverteilung für das Minimum einer großen
Zahl von unabhängigen Zufallsgrößen auftreten (Verteilung des schwächsten Kettengliedes), deshalb sind Lebensdauern von Systemen oft weibullverteilt. Für
m < 1 bzw. m > 1 werden Früh- bzw. Verschleißausfälle besonders gewichtet.
Historische Bemerkung
• In der mechanischen Verfahrenstechnik findet die Weibull-Verteilung Anwendung
als eine spezielle Partikelgrößenverteilung. Hier wird sie RRSB-Verteilung (nach
Rosin, Rammler, Sperling und Bennet) bezeichnet.
• Siehe dazu z.B.:
Paul Otto Rosin-Gedenkschrift anlässlich des Jubiläums 80 Jahre RRSB-Verteilung
2013, Schriften des IEC, Heft 6, September 2015, TU Bergakademie Freiberg, Insitut für Energieverfahrenstechnik und Chemieingenieurwesen.
3.4.6
Logarithmische Normalverteilung
• Die Zufallsgröße X unterliegt einer logarithmischen Normalverteilung (ist lognormalverteilt) falls ln X ∼ N(µ, σ 2 ) gilt.
(
0,
x ≤ 0;
(ln x−µ)2
• Dichtefunktion: fX (x) =
√ 1
e− 2σ2 , x > 0 .
2πσx
σ2
• Varianz:
EX = eµ+ 2 .
2
2
VarX = e2µ+σ eσ − 1 .
• Median:
x0.5 = eµ .
• Erwartungswert:
• Bezeichnung:
X ∼ LogN(µ, σ 2 ) .
39
• Beispiele: µ = 0, σ = 1 (rot), µ = −2, σ = 0.5 (blau),
µ = 1, σ = 2 (grün).
• Typische Anwendungen:
– bei Zeitstudien und Lebensdaueranalysen in ökonomischen, technischen und
biologischen Vorgängen;
– bei Untersuchungen in der analytischen Chemie, wie Konzentrations- und
Reinheitsprüfungen;
– für zufällige nichtnegative Materialparameter, z.B. Permeabilitäten;
– als Grenzverteilung für Produkte unabhängiger positiver Zufallsgrößen (unter
bestimmten Bedingungen).
3.4.7
Weitere stetige Verteilungen
• Statistische Prüfverteilungen, u.a.
– χ2 -Verteilung (Chi-Quadrat-Verteilung);
– t-Verteilung (Student-Verteilung);
– F -Verteilung (Fisher-Verteilung).
• Logistische Verteilung (dient u.a. zur Beschreibung von Wachstumsprozessen mit
einer Sättigungstendenz).
• Betaverteilungen 1. und 2. Art.
• Extremwertverteilungen.
• ...
3.5
Transformation von Zufallsgrößen
• Häufig müssen bei der Untersuchung stochastischer Modelle Zufallsgrößen transformiert werden.
• Wichtige Transformationen sind die Bildung von Summe, Minimum oder Maximum von mehreren Zufallsgrößen.
40
• Ist X eine Zufallsgröße mit Verteilungsfunktion FX und g : R → R eine stetige,
streng monoton wachsende Funktion (z.B. g(x) = ex ), dann ist Y := g(X) eine
Zufallsgröße mit Verteilungsfunktion
FY (y) = P(Y < y) = P(g(X) < y) = P(X < g −1 (y))
= FX (g −1 (y))
(g −1 ist die Umkehrfunktion (inverse Funktion) von g).
• Die Dichtefunktion (falls sie existiert) kann z.B. durch Differentiation bestimmt
werden.
Summe unabhängiger Zufallsgrößen, Faltung
• Oft müssen unabhängige Zufallsgrößen addiert werden und folglich muss die Verteilung einer Summe von unabhängigen Zufallsgrößen bestimmt werden.
• Die zugehörige Operation für die Verteilungen (Verteilungsdichten, Verteilungsfunktionen) nennt man Faltung.
• Sind X und Y unabhängige stetige Zufallsgrößen mit Verteilungsdichten fX
bzw. fY , dann gilt für die Verteilungsdichte fS der Summe S = X + Y :
Z ∞
Z ∞
fY (z − x)fX (x) dx .
fX (z − y)fY (y) dy =
fS (z) =
−∞
−∞
• In wichtigen Fällen ergeben sich wieder spezielle Verteilungen.
Maximum unabhängiger Zufallsgrößen
• Auch bei der Bildung des Minimums oder Maximums von Zufallsgrößen kann
für die Berechnung der entsprechenden Verteilungsfunktion die Unabhängigkeit
ausgenutzt werden.
• Sind Xi unabhängige Zufallsgrößen mit Verteilungsfunktionen FXi , i = 1, . . . n ,
dann gilt für das Maximum X(n)
!
n
\
FX(n) (x) = P(X(n) < x) = P
{Xi < x}
i=1
=
n
Y
P(Xi < x) =
i=1
n
Y
FXi (x) ,
x∈R
i=1
• Sind die Zufallsgrößen Xi , i = 1, . . . , n , unabhängig und identisch verteilt (i.i.d.)
mit Verteilungsfunktion FX , dann gilt
FX(n) (x) = FXn (x) ,
41
x ∈ R.
Minimum unabhängiger Zufallsgrößen
• Analog gilt für das Minimum X(1) unter obigen Bedingungen
!
n
\
1 − FX(1) (x) = P(X(1) ≥ x) = P
{Xi ≥ x}
=
n
Y
P(Xi ≥ x) =
i=1
i=1
n
Y
(1 − FXi (x)) ,
x ∈ R.
i=1
• Sind die Zufallsgrößen Xi , i = 1, . . . , n , unabhängig und identisch verteilt (i.i.d.)
mit Verteilungsfunktion FX , dann gilt
FX(1) (x) = 1 − (1 − FX (x))n ,
x ∈ R.
• Beispiele für solche zufälligen Extremwerte sind
– Höchstwasserstände (wichtig für Dämme);
– minimale Festigkeiten (der einzelnen Kettenglieder einer Kette).
3.6
Zufallsvektoren
• Bei den meisten stochastischen Modellen ist nicht nur eine Zufallsgröße von Interesse, sondern eine endliche oder sogar unendliche Anzahl unterschiedlicher Zufallsgrößen.
• n Zufallsgrößen X1 , . . . , Xn kann man zum (n−dimensionalen) Zufallsvektor
(X1 , . . . , Xn ) zusammenfassen.
• Viele Eigenschaften kann man an zweidimensionalen Zufallsvektoren (X, Y ) sehen
bzw. untersuchen, so dass wir diesen Fall hier näher betrachten. Jede Realisierung
des Zufallsvektors ist dann ein Punkt (x, y) im zweidimensionalen Euklidischen
Raum R2 .
• Die in einer konkreten Zufallssituation auftretende Realisierung kann man im Allgemeinen nicht vorausberechnen, man kann nur Wahrscheinlichkeiten dafür angeben, dass Realisierungen des Zufallsvektors in interssierenden Mengen liegen, diese
bilden die Wahrscheinlichkeitsverteilung oder kurz Verteilung des Zufallsvektors.
Verteilungsfunktion eines Zufallsvektors
• Die Verteilung des Zufallsvektors (X, Y ) kann durch die gemeinsame (oder
Verbund-)Verteilungsfunktion beschrieben werden: Für x, y ∈ R gilt
F(X,Y ) (x, y) = P({X < x} ∩ {Y < y}) = P(X < x, Y < y) .
• Diese Verbundverteilungsfunktionen haben ähnliche Eigenschaften wie die Verteilungsfunktionen reeller Zufallsgrößen, unter anderem
42
– 0 ≤ F(X,Y ) (x, y) ≤ 1 ,
(x, y) ∈ R2 ;
– lim F(X,Y ) (x, y) = lim F(X,Y ) (x, y) = 0 ;
x→−∞
–
y→−∞
lim F(X,Y ) (x, y) = 1 ;
x,y→∞
– die Funktion F(X,Y ) (x, y) ist bezüglich jeder Variable monoton nicht fallend.
Verteilungsdichte eines stetigen Zufallsvektors
• Für stetige Zufallsvektoren (Zufallsvektoren mit absolut stetiger Verteilung) kann
die Verteilung auch durch die Verteilungsdichte f(X,Y ) (s, t), (s, t) ∈ R2 , bestimmt
werden:
Z x Z y
f(X,Y ) (s, t) dtds .
F(X,Y ) (x, y) =
−∞
−∞
• Dann gilt für geeignete Teilmengen B ⊂ R2 :
Z Z
P((X, Y ) ∈ B) =
f(X,Y ) (s, t) dtds .
B
• Für Verteilungsdichten von stetigen Zufallsvektoren gilt:
– f(X,Y ) (s, t) ≥ 0,
(s, t) ∈ R2 ;
Z ∞Z ∞
–
f(X,Y ) (s, t) dtds = 1 .
−∞
−∞
Beispiel: versteckter Schatz
• Ein Schatz wurde in einem Quadrat der Kantenlänge 1 km an einem zufälligen
Ort versteckt. Die zufälligen Koordinaten (X, Y ) wurden von einem Computerprogramm mit Hilfe von Pseudozufallszahlen so bestimmt, dass für die zugehörige
Verteilungsdichte mit einer Konstanten c > 0 gilt:
c · (1 + s · t), (s, t) ∈ [0, 1] × [0, 1],
f(X,Y ) (s, t) =
0,
sonst .
• Berechnen Sie
– den Wert der Konstanten c ;
– die Verteilungsfunktion des Zufallsvektors (X, Y ) für Argumente (x, y) mit
0 ≤ x ≤ 1, 0 ≤ y ≤ 1 ;
– die Wahrscheinlichkeit, dass das Versteck im oberen rechten Teilquadrat 0.5 ≤
x ≤ 1 , 0.5 ≤ y ≤ 1 zu finden ist !
43
Dichtefunktion (links) und Verteilungsfunktion (rechts) des Zufallsvektors (X, Y ).
Verbundverteilung und Randverteilungen
• Die gemeinsame Verteilung des Zufallsvektors (X, Y ) , gegeben z.B. durch die
Verbundverteilungsfunktion oder die gemeinsame Verteilungsdichte, bestimmt eindeutig die Verteilungen der Komponenten X und Y (die Randverteilungen),
wenn diese als einzelne Zufallsgrößen betrachtet werden.
• So gelten:
– FX (x) = P(X < x) = lim F(X,Y ) (x, y),
x ∈ R;
– FY (y) = P(Y < y) = lim F(X,Y ) (x, y),
y ∈ R;
y→∞
x→∞
– falls die Verteilungsdichte für den Zufallsvektor (X, Y ) existiert, existieren
auch die Dichtefunktionen für X und Y und es gelten
Z ∞
f(X,Y ) (s, t) dt, s ∈ R ,
sowie
fX (s) =
−∞
Z ∞
fY (t) =
f(X,Y ) (s, t) ds, t ∈ R .
−∞
Momente von Zufallsvektoren
• Wichtige von der Verteilung eines Zufallsvektors abgeleitete Kenngrößen sind die
Momente des Zufallsvektors.
• Für den stetigen Zufallsvektor (X, Y ) und nichtnegative ganze Zahlen k, l ist
Z ∞Z ∞
k l
E X Y =
sk tl f(X,Y ) (s, t) dsdt
−∞
−∞
ein (im Allgemeinen gemischtes) Moment der Ordnung k + l (falls es existiert) .
44
• Momente erster Ordnung sind (falls sie existieren)
Z ∞Z ∞
Z
EX =
sf(X,Y ) (s, t) dsdt =
−∞
Z
∞
−∞
Z
∞
sfX (s) ds ;
−∞
∞
Z
∞
tf(X,Y ) (s, t) dsdt =
EY =
−∞
−∞
tfY (t) dt .
−∞
Zweite Momente von Zufallsvektoren
• Neben den zweiten Momenten E[X 2 ] und E[Y 2 ] für X bzw. Y und den
Varianzen VarX und VarY (als „zentralen zweiten Momenten“) können noch
das zweite gemischte Moment
Z ∞Z ∞
E[XY ] =
stf(X,Y ) (s, t) dsdt
−∞
−∞
und das entsprechende zentrale zweite gemischte Moment, welches Kovarianz genannt wird, definiert werden,
Cov (X, Y ) = E[(X − EX)(Y − EY )]
Z ∞Z ∞
=
(s − EX)(t − EY )f(X,Y ) (s, t) dsdt
−∞
−∞
= E[XY ] − EX · EY .
Korrelationskoeffizient und Unkorreliertheit von ZG
• Gilt für ZG X und Y jeweils 0 < VarX < ∞ , 0 < VarY < ∞ , dann definiert
man den Korrelationskoeffizient von X und Y als
ρX,Y = Corr (X, Y ) = √
Cov (X, Y )
√
.
VarX VarY
• Es gilt immer −1 ≤ ρX,Y ≤ 1 .
• Der Korrelationskoeffizient ist ein Maß für die Stärke eines linearen Zusammenhangs zwischen X und Y :
ρX,Y = 1 ⇒ perfekter positiver linearer Zusammenhang zwischen X und Y ,
d.h. Y = a + bX mit b > 0 ;
ρX,Y = −1 ⇒ perfekter negativer linearer Zusammenhang zwischen X und
Y , d.h. Y = a + bX mit b < 0 .
• Die Zufallsgrößen X und Y heißen unkorreliert, falls Cov (X, Y ) = 0 gilt
(dann gilt auch ρX,Y = 0) , andernfalls nennt man sie korreliert.
45
Eigenschaften der Kovarianz
• Sind zwei Zufallsgrößen X und Y stochastisch unabhängig, dann gilt E(X ·Y ) =
EX · EY ; damit sind X und Y auch unkorreliert.
• Die Umkehrung gilt im Allgemeinen nicht.
• Die Kovarianz ist symmetrisch, d.h. Cov (X, Y ) = Cov (Y, X) .
• Die Kovarianz ist linear in beiden Komponenten, d.h.
Cov (X + Y, Z) = Cov (X, Z) + Cov (Y, Z) .
• Es gilt VarX = Cov (X, X) .
• Es gilt
Var(X + Y ) = VarX + VarY + 2Cov (X, Y ) .
• Sind zwei Zufallsgrößen X und Y unkorreliert (insbesondere wenn sie stochastisch unabhängig sind), dann gilt für deren Summe
Var[X + Y ] = VarX + VarY .
Beispiel: zweidimensionale Normalverteilung
• Ein stetiger Zufallsvektor (X, Y ) besitzt eine zweidimensionale Normalverteilung,
wenn seine Dichtefunktion lautet
f(X,Y ) (s, t) = c · e
mit
c=
−
1
2(1−ρ2 )
(s−µX )(t−µY )
(s−µX )2
(t−µY )2
−2ρ
+
σX σY
σ2
σ2
X
Y
1
p
.
2πσX σY 1 − ρ2
2
• Dann gelten: EX = µX , EY = µY , VarX = σX
, VarY = σY2 , Corr (X, Y ) =
ρX,Y = ρ ∈ (−1, 1) .
• Die einzelnen Komponenten X und Y des Zufallsvektors sind normalverteilte
Zufallsgrößen mit den oben angegebenen Parametern.
• In diesem Fall sind X und Y genau dann unabhängig, wenn sie unkorreliert
sind, d.h. wenn Corr (X, Y ) = ρ = 0 gilt.
46
Dichtefunktionsgrafiken Normalverteilungen in R2
Dichtefunktionen von normalverteilten Zufallsvektoren (X, Y ) mit EX = EY = 0,
VarX = VarY = 1 sowie
ρ = 0 (links), ρ = −0.5 (mitte) und ρ = −0.9 (rechts).
4
Deskriptive Statistik
4.1
Grundbegriffe der Statistik
• Der Begriff Statistik wurde Ende des 17. Jahrhunderts geprägt für die verbale
oder numerische Beschreibung eines bestimmten Staates oder den Inbegriff der
„Staatsmerkwürdigkeiten“ eines Landes oder Volkes (er hat dieselbe Wortwurzel
wie „Staat“ oder „Staatsmann“).
• Heute hat dieser Begriff viele verschiedene Bedeutungen, z.B. für
– eine tabellarische oder grafische Darstellung von erhobenen Daten;
– einen Fachausdruck für eine Stichprobenfunktion;
– eine „methodische Hilfswissenschaft zur quantitativen Untersuchung von Massenerscheinungen“.
• Hier soll mit dem Begriff „Statistik“ eine Zusammenfassung von Methoden verstanden werden, die zur zahlenmäßigen oder grafischen Analyse von Daten dienen soll,
insbesondere im Zusammenhang mit Massenerscheinungen und zufallsbehafteten
Vorgängen.
Teilgebiete der Statistik
• Die beschreibende oder deskriptive Statistik behandelt zum Beispiel beschreibende
Aussagen über statistische Daten, deren Veranschaulichung oder Möglichkeiten der
Datenreduktion.
• Eng damit verwandt ist die explorative Datenanalyse, bei der zum Beispiel Daten
auf Unstimmigkeiten hin untersucht werden oder Modellvorstellungen über die den
Daten zugrundeliegenden Gesetzmäßigkeiten entwickelt werden.
47
• Die Methoden der schließenden oder beurteilenden Statistik dienen zum Beispiel
zur Ableitung von statistisch gesicherten Aussagen über die den Daten zugrunde
liegenden Sachverhalte, etwa die Schätzung von Kenngrößen oder die Durchführung von statistischen Tests.
• Insbesondere in der schließenden Statistik werden Methoden verwendet, deren
(Weiter-)Entwicklung und Begründung durch die mathematische Statistik erfolgt.
Insgesamt bestehen enge Beziehungen zwischen Statistik und Wahrscheinlichkeitstheorie.
Vorgehen bei statistischen Untersuchungen
• Studienplanung (Vorbereitung und Planung): u.a. mit
– der exakten Formulierung des Untersuchungsziels;
– der Festlegung der Art der Untersuchung, der Bestimmung der Stichprobengröße;
– der Klärung organisatorischer und technischer Fragen (z.B. über die Verwendung welcher Tests, Ein- bzw. Ausschlusskriterien);
– der Berücksichtigung der entstehenden Kosten.
• Durchführung (Erhebung, Datenerfassung): Man unterscheidet
– Primärdaten (die Daten werden eigens für den Untersuchungszweck erhoben
– mittels Vollerhebungen oder Teilerhebungen) bzw.
– Sekundärdaten (vorhandenes Datenmaterial wird genutzt).
Erhebungsarten bei primärstatistischen Untersuchungen sind z.B.
–
–
–
–
die schriftliche bzw. mündliche Befragung;
die Beobachtung;
das Experiment;
die automatische Erfassung.
• Datenmanagement (Datenkontrolle und -aufbereitung):
Hier können z.B. die Verkodierung, die Vorgehensweise mit Ausreißern oder Prüfungen zur sachlichen Richtigkeit (Plausibilität), Vollzähligkeit oder Vollständigkeit eine Rolle spielen.
• Analyse (Datenauswertung und-analyse): z.B.
– Beschreibung der Stichprobe (deskriptive Statistik);
– Schluss auf die Grundgesamtheit (schließende, induktive, analytische, beurteilende Statistik).
• Präsentation, Interpretation und Diskussion der Ergebnisse: z.B. zur Ableitung von Kernaussagen aus der Analyse der Daten.
48
Untersuchungseinheiten, Grundgesamtheit und Stichprobe
• Daten werden an gewissen Objekten
schen Einheiten) beobachtet, z.B.
die Wirksamkeit eines Medikaments
Lebensdauern
Ankunftsraten
(den Untersuchungseinheiten oder statistian Patienten;
an elektronischen Geräten;
an Bahnkunden.
• Eine Untersuchungseinheit ist ein Einzelobjekt einer statistischen Untersuchung.
• Eine Grundgesamtheit ist eine Menge von Untersuchungseinheiten, für die vom
Untersuchungsziel her eine Frage geklärt werden soll.
Sie muss durch übereinstimmende Identifikationskriterien der betrachteten Untersuchungseinheiten zeitlich, räumlich und sachlich eindeutig abgegrenzt werden.
• Eine Stichprobe ist die Teilmenge der Grundgesamtheit, die bei einer statistischen
Untersuchung (Teilerhebung) erfasst wird.
Merkmale und Merkmalsausprägungen
• Eigentlich interessieren nicht die Untersuchungseinheiten selbst, sondern bestimmte Eigenschaften der Untersuchungseinheiten (sogenannte Merkmale).
• Z.B. interessiert nicht der Patient selbst, sondern ob oder wie das Medikament bei
ihm wirkt; bei Umfragen interessiert nicht der Passant, sondern seine Meinung.
• Ein Merkmal ist eine Größe oder Eigenschaft einer Untersuchungseinheit, die auf
Grund der interessierenden Fragestellung erhoben bzw. gemessen wird.
• Eine Merkmalsausprägung ist ein möglicher Wert, den ein Merkmal annehmen
kann.
• Eine Untersuchungseinheit wird auch Merkmalsträger genannt.
Beispiel Mietspiegel
• Nettomiete abhängig von Merkmalen wie
Art:
Lage:
Größe:
Baujahr:
| {z }
Merkmale
Altbau, Neubau, . . . ;
Innenstadt, Stadtrand,. . . ;
40m2 , 95m2 , . . . ;
1932, 1965, 1983, 1995, . . . .
|
{z
}
Ausprägungen
• In der Regel werden mehrere Merkmale an einem Merkmalsträger beobachtet; z.B.
– Merkmalsträger: Wetter zu einem bestimmten Zeitpunkt an einem bestimmten Ort;
49
– Merkmale: Temperatur, Niederschlagsmenge, Luftdruck, Bewölkung, Luftfeuchtigkeit, Sicht, . . . .
• Merkmalsausprägungen müssen keine Zahlen sein, z.B.
– Bewölkung: wolkenlos, heiter, leicht bewölkt, wolkig, bedeckt, . . . ;
– Autofarbe: rot, grün, schwarz, . . . .
Bezeichnungen und Klassifikationen von Merkmalen
• Bezeichnungen:
– Grundgesamtheit: Ω .
– Untersuchungseinheit: ω oder i .
– Merkmale: X , Y , Z oder auch X1 , X2 , X3 , . . . .
– Menge der Merkmalsausprägungen: S .
– Merkmalsausprägungen oder -werte: x = X(ω) oder xi = X(i) .
– Mathematisch betrachtet ist ein Merkmal eine Funktion X : Ω → S, die
jeder Untersuchungseinheit die zugehörige Merkmalsausprägung zuordnet.
• Klassifikationen von Merkmalen: zum Beispiel
– qualitative Merkmale, Rangmerkmale und quantitative Merkmale;
– diskrete, stetige und spezielle Merkmale.
Merkmalstypen
• Qualitatives Merkmal: es gibt weder eine natürliche Ordnung der Ausprägungen,
noch ist es sinnvoll, Abstände oder Verhältnisse der Ausprägungen zu betrachten;
Ausprägungen werden meist verbal beschrieben.
• Rangmerkmal: es gibt eine natürliche Ordnung der Ausprägungen, aber es ist nicht
sinnvoll, Abstände oder Verhältnisse zu betrachten; Ausprägungen werden verbal
oder durch ganze Zahlen beschrieben.
• Quantitatives Merkmal: Ausprägungen sind Zahlen, es gibt eine natürliche Ordnung, Abstände oder Verhältnisse sind interpretierbar.
• Diskretes Merkmal: Ausprägungen sind isolierte Zustände, die Menge der möglichen Ausprägungen ist höchstens abzählbar.
• Stetiges Merkmal: Ausprägungen (Werte) sind Zahlen, sie liegen dicht, zwischen
je zwei Ausprägungen ist stets eine weitere möglich.
• Beachte: Jede praktische Messung bei stetigen Merkmalen ist – durch die jeweilige
Grenze der Messgenauigkeit bedingt – diskret.
50
Merkmalstypen (Beispiele)
Merkmal
Geschlecht
Automarke
Prüfungsnote
Beliebtheit von
Politikern
Anzahl Kinder
in einer Familie
Regenmenge
an einem Tag
Ausprägungen
m/w
keine Ordnung
Fiat, Toyota, ... keine Ordnung
1, 2, 3, 4, 5
Ordnung,
Abst. nicht interpr.
sehr, mäßig, nicht Ordnung,
Abst. nicht interpr.
0, 1, 2, 3, ...
Ordnung,
Abst. interpr.,
keine Auspr. zw.
2 anderen mögl.
20mm, 50mm, ... Ordnung,
Abst. interpr.,
Verhältn. interpr.,
zwischen 2 Auspr.
immer weitere mögl.
Art
qualitativ
qualitativ
Rangmerkmal
Rangmerkmal
quantitativ,
diskret
quantitativ,
stetig
Skalenniveaus
• Je nach Art des Merkmals werden die Merkmalsausprägungen anhand verschiedener Skalen gemessen:
– Nominalskala (lat. nomen = Name);
– Ordinalskala (lat. ordinare = ordnen, auch Rangskala);
– Intervallskala;
– Verhältnisskala (auch Ratioskala, Rationalskala, Proportionalskala);
– Absolutskala.
• Intervall-, Verhältnis- und Absolutskala werden auch in dem Oberbegriff metrische
Skala (oder Kardinalskala; griech. metron = Maß) zusammengefasst.
• Auch feinere oder andere Unterteilungen und spezielle Skalen werden genutzt.
Nominalskala
• Die Merkmalsausprägungen entsprechen begrifflichen Kategorien.
• Es gibt keine natürliche Ordnungsrelation.
• Sind nur zwei Ausprägungen vorhanden, spricht man auch von dichotomen Merkmalen, z.B.
– Geschlecht („männlich“, „weiblich“);
– Zustimmung („Ja“, „Nein“).
51
• Gibt es eine vor der Datenerhebung feststehende Einteilung der Grundgesamtheit
in endlich viele disjunkte Klassen und wird jede Untersuchungseinheit eindeutig
in eine der Klassen eingeordnet, spricht man auch von einer kategoriellen Skala.
Die Ausprägungen heißen dann auch Kategorien oder Stufen des Merkmals.
• Beispiele sind
– Familienstand („ledig“, „verheiratet“, „geschieden“, „verwitwet“);
– Status („Eigentümer“, „Hauptmieter“, „Untermieter“);
– Status („Azubi“, „Geselle“, „Meister“);
– Behandlung („Placebo“, „altes Medikament“, „neues Medikament“).
Ordinalskala
• Zwischen den Merkmalsausprägungen besteht eine natürliche Reihenfolge (Ordnungsrelation, Anordnung).
• Abstände zwischen zwei Ausprägungen (oder Quotienten) haben keine inhaltliche
Bedeutung.
• Beispiele sind
– Höchster Schulabschluss („Keiner“, „Hauptschule“, „Mittlere Reife“, „Hochschulreife“);
– Status („Eigentümer“, „Hauptmieter“, „Untermieter“);
– Status („Azubi“, „Geselle“, „Meister“);
– Bewertung („gut“, „mittel“, „schlecht“).
• Eine Ordinalskala mit ganzzahligen Ordungsziffern (Rängen, Rangziffern), die mit
1 beginnend in ununterbrochener Reihenfolge hintereinander stehen, heißt auch
Rangskala, z.B. Rangplätze in der Bundesliga.
Intervallskala
• Merkmalsausprägungen (Merkmalswerte) sind reelle Zahlen.
• Neben der Ordnungsrelation zwischen den Merkmalsausprägungen lassen sich auch
deren Abstände interpretieren. Es existiert allerdings ein willkürlich gesetzter Nullpunkt.
• Beispiel: Temperatur in ◦ C .
• Quotienten dürfen nicht gebildet werden, so ist z.B. die Aussage „20◦ C ist doppelt
so warm wie 10◦ C“ sinnlos.
• Eine Intervallskala wird auch reelle Skala genannt.
52
Verhältnisskala
• Bei einer Verhältnisskala (auch ratio, positiv reell, relativen Skala) können nur
positive Zahlen beobachtet werden.
• Zusätzlich zu den Eigenschaften der Intervallskala gibt es einen natürlichen Nullpunkt.
• Multiplikation und Division sind inhaltlich sinnvolle Operationen, der Quotient
von zwei Werten ist inhaltlich sinnvoll (4 ist doppelt so groß wie 2).
• Beispiele: Gewichte, Längen.
• Bei stetigen Merkmalen in der relativen Skala kann man überlegen (und eventuell
versuchen), durch Logarithmieren der Daten zu einer reellen Skala zu gelangen.
Oft kann man dann zugrundeliegende Gesetzmäßigkeiten viel besser erkennen.
Absolutskala
• Zusätzlich zu den Forderungen der Verhältnisskala ist neben dem natürlichen Nullpunkt hier auch eine natürliche Einheit zwingend vorgeschrieben.
• Dies ist zum Beispiel bei Merkmalen der Fall, wenn die Merkmalsausprägungen
Anzahlen sind.
• Beispiel Anzahl von Kindern in einem Haushalt.
Bemerkung
• Auch andere bzw. weitere Einteilungen und spezielle Skalen werden genutzt, z.B.
die Anteilskala.
• Bei einer Variable in der Anteilskala (auch Wahrscheinlichkeitsskala) können nur
Werte zwischen 0 und 1 beobachtet werden. Die Werte sind als Anteile interpretierbar.
• Durch die natürliche Beschränkung auf das Intervall [0, 1] können die Werte nicht
beliebig addiert werden und der „Rest“ bis zur 1 spielt immer eine Rolle.
• Sind nur kleine Anteile von Interesse, kann oft mit einer Ratio-Skala gearbeitet
werden, sind auch größere Anteile wichtig, sollte man mit der Anteilskala rechnen.
Das Problem der Repräsentativität
Die Repräsentativität spielt für statistische Auswertungen und Aussagen eine sehr große
Rolle. Dabei können unter anderem zwei Probleme bei Teilerhebungen von Bedeutung
sein.
• Das Auswahlverfahren der Individuen aus der Grundgesamtheit (das Ziehen der
Stichprobe). Dieses sollte so organisiert sein, dass
53
– jedes Individuum die gleiche Chance hat, ausgewählt zu werden und
– dass die Individuen unabhängig voneinander ausgewählt werden.
Zu beachten ist, dass zu jedem Individuum auch mehrere Merkmale beobachtet
werden können.
• Die Erhebung einer Stichprobe aus Zufallsexperimenten. Dabei sollte gewährleistet
sein, dass
– die Versuche unter gleichbleibenden Versuchsbedingungen durchgeführt werden und dass
– die Zufallsexperimente unabhängig voneinander durchgeführt werden.
Auch in diesem Fall können mehrere Merkmale von Interesse sein.
Verbundene Stichproben
• Liegen zwei oder mehr Stichproben vor, deren Werte einander paarweise zugeordnet sind, spricht man von einer gepaarten Stichprobe bzw. von verbundenen
Stichproben.
• Diese entstehen zum Beispiel dann, wenn man zwei oder mehr Merkmale an einund demselben statistischen Objekt beobachtet.
• Beispiele:
– Messwerte für die Wirkungen jeweils zweier Medikamente für ein- und dieselben Patienten;
– Anzahl von Bestellungen einer Kundengruppe vor (1. Stichprobe) und nach
(2. Stichprobe) einer Werbeaktion.
• Verbundene (mathematische) Stichproben werden durch unabhängige Zufallsvektoren (X1 , Y1 ) , . . . , (Xn , Yn ) modelliert.
Erste Analyseschritte für einen neuen Datensatz
Eine Datenauswertung beginnt mit folgenden Analyseschritten:
• Wie liegen die Daten vor ?
Datenmatrix, Datentafel, unvorbereitet, . . . .
• Welche Variablen gibt es und was bedeuten sie ?
Dazugehörige Beschreibung beachten .
• Welche Skala haben die einzelnen Variablen ?
diskret: nominal, kategoriell, ordinal, Intervall, Anzahl;
stetig: reell, ratio, Anteil, (Anzahlverstetigung, z.B. Preise);
speziell: irgendwie anders .
54
• Ein-, Zwei-, oder Mehrstichprobensituation, verbundene (gepaarte) oder
gepoolte Größen in der Stichprobe ?
Eine Grundgesamtheit, zwei oder mehrere bzw. ein Zufallsexperiment, zwei oder
mehrere ?
• Was sind die Grundgesamtheiten ?
Welche wünschen wir uns ?
Für welche sind die Daten wohl repräsentativ ?
• Sind die Daten für die Grundgesamtheit repräsentativ ?
Wie sind die Daten zustandegekommen, gab es eine unabhängige und gleichwahrscheinliche Auswahl der statistischen Individuen und/oder unabhängige Zufallsexperimente unter gleichbleibenden Bedingungen, so dass die Variablen als unabhängig und identisch verteilt angesehen werden können ?
Nutzung von Statistik-Computerprogrammen
• Statistische Untersuchungen werden heutzutage im Allgemeinen unter Verwendung von Statistik-Computerprogrammen durchgeführt.
• Im Rahmen dieser Vorlesung werden entsprechende Vorgehensweisen mit Hilfe des
Programmpakets „R“ illustriert.
• Es können natürlich nicht alle Details im Zusammenhang mit diesem Programmpaket in den Übungen geübt werden, deshalb sind hier selbstständige Bemühungen
wünschenswert.
• Die Interpretation der Ausgabeinformationen der Computerprogramme und die
prinzipielle Vorgehensweise (die Schritte, die nacheinander und in Abhängigkeit
von bereits erzielten Ergebnissen durchzuführen sind) sind jedoch Bestandteil der
Vorlesung und auch der Übung und gehören zum Prüfungsstoff.
Das Programmpaket „R“
• „R“ ist ein freies Statistik-Softwarepaket.
• Es kann unter http://www.cran.r-project.org/ kostenlos heruntergeladen
werden.
• R ist ein kommandozeilenorientiertes Programm. Man gibt Befehle ein, die sofort
ausgeführt werden und oft Ausgabeinformationen erzeugen.
• Mit Hilfe von Skripten können aufeinanderfolgende Befehlsketten zur Verarbeitungen vorbereitet und dann jedes Mal bei Bedarf ausgeführt werden.
• Durch die Mitarbeit vieler Personen wächst der Umfang der Programme und damit
der Umfang der mit R bearbeitbaren Probleme ständig.
55
Beispieldatensatz „Iris“
• Der Datensatz enthält Werte von jeweils 50 Blumen von 3 Blumenarten „Iris setosa“ (Borsten-Schwertlilie), „Iris versicolor“ (Schwertlilie) und „Iris virginica“ (Virginische oder Blaue Sumpfschwertlilie).
• Zu jeder Blume wurden jeweils die folgenden Informationen erhoben:
– die Länge des Kelchblattes in cm („Sepal.Length“);
– die Breite des Kelchblattes in cm („Sepal.Width“);
– die Länge des Blütenblattes in cm („Petal.Length“);
– die Breite des Blütenblattes in cm („Petal.Width“);
– die Blumenart („Species“).
• Die Daten können in R wie folgt geladen werden:
> data(iris).
• Informationen zum Datensatz erhält man in R durch
> help(iris).
Datenmatrix als Darstellungsform für statistische Daten
• Eine Darstellung der von den Untersuchungseinheiten erhobenen gleichartigen Daten in einer Tabelle mit Zeilen und Spalten ist eine Datenmatrix . Von jeder Untersuchungseinheit werden die gleichen Merkmale erhoben.
• Die Informationen zu einer Untersuchungseinheit werden in einer Zeile dargestellt.
Die zu den einzelnen Zeilen gehörenden Individuen bezeichnet man auch als Fälle
und die zugehörigen Daten (individuelle) Datensätze.
• Die zu einem Merkmal gehörende Information wird jeweils in einer Spalte dargestellt. Die Spalten bezeichnet man auch als Variable und die Spaltenüberschrift
als den Namen der Variable.
• Am Schnittpunkt der i−ten Zeile mit der j−ten Spalte ist also der Beobachtungswert xij für die j−te Variable beim i−ten Individuum eingetragen. Zur modellbasierten Analyse werden die Werte xij als Realisierungen von Zufallsgrößen Xij
angesehen.
Datenliste
• Gibt es nur Beobachtungen zu einem Merkmal, können die Beobachtungswerte in
einer Datenliste angegeben werden.
• Beispiel: R-Datensatz „morley“ (Lichtgeschwindigkeitsmessungen)
> data(morley)
> help(morley)
56
> morley
> lightspeeds=morley$Speed + 299000
> lightspeeds[1:20]
[1] 299850 299740 299900 300070 299930 299850 299950
[8] 299980 299980 299880 300000 299980 299930 299650
[15] 299760 299810 300000 300000 299960 299960
Datentafel
• Die Datentafel ist eine alternative Darstellung der Daten zur Datenmatrix, wenn
nur diskrete Merkmale auftreten und die statistische Information durch Anzahlen
von Untersuchungseinheiten angegeben werden kann.
• Eine Datentafel enthält die Anzahl der Untersuchungseinheiten mit der gegebenen
Faktorkombination in der jeweiligen Zelle.
Beispiel Datentafel für Datensatz „Titanic“
Ein Beispieldatensatz in R ist der Datensatz „Titanic“:
> data(Titanic)
> help(Titanic)
> Titanic
> ftable(Titanic,col.vars=c("Class","Survived"))
Class
1st
2nd
3rd
Crew
Survived No Yes No Yes No Yes No Yes
Sex
Age
Male
Child
0
5
0 11 35 13
0
0
Adult
118 57 154 14 387 75 670 192
Female Child
0
1
0 13 17 14
0
0
Adult
4 140 13 80 89 76
3 20
4.2
Grafiken und statistische Maßzahlen (Kenngrößen, Parameter) für Daten
• Grafiken und statistische Maßzahlen dienen dazu, einen Überblick über die vorliegenden Daten zu erhalten, Vorstellungen über mögliche zugrundeliegende Verteilungen, Eigenschaften oder Besonderheiten zu entwickeln oder einfache Beschreibungen der Daten mit wenigen, möglichst aussagekräftigen Kenngrößen zu ermöglichen.
• In Abhängigkeit von den Skalenniveaus und anderen Eigenschaften der Daten (wie
z.B. univariate, bivariate oder multivariate Datensätze) können unterschiedliche
Grafiken und Kenngrößen genutzt werden.
57
• Im Rahmen dieser Vorlesung werden nicht alle Möglichkeiten vorgestellt, sondern
nur eine Auswahl von häufiger verwendeten bzw. aussagekräftigen Grafiken und
Maßzahlen.
Fragestellungen im Zusammenhang mit den Grafiken
• Für welche Daten eignet sich die Grafik ?
• Wie ist die Grafik aufgebaut ?
• Wie interpretiert man die Grafik ?
• Welche Informationen kann die Grafik liefern und warum ?
• Welche Informationen kann die Grafik nicht liefern und warum ?
• Versucht man mit einer vorliegenden Grafik zu täuschen, etwas bestimmtes zu
suggerieren ?
(Zitat, zu finden z.B. in Benesch, Schlüsselkonzepte zur Statistik, Springer, 2013,
S.2: „Die Statistik ist dem Politiker, was die Laterne dem Betrunkenen ist: Sie dient
zum Festhalten, nicht der Erleuchtung.“;
siehe dazu zum Beispiel auch die „Unstatistiken des Monats“ unter
http://www.rwi-essen.de/unstatistik/.)
4.2.1
Grafiken für univariate stetige Daten
(a) Punktdiagramm
• Ein Punktdiagramm kann für ein stetiges Merkmal erstellt werden. Dabei werden
die Beobachtungswerte durch Punkte auf einem geeigneten Abschnitt der reellen
Zahlengeraden markiert.
• Man erhält einen Überblick über den Bereich, in dem Beobachtungswerte liegen
und wie stark sie streuen.
• Teilweise kann man Teilbereiche erkennen, in denen sich die Beobachtungswerte
häufen oder seltener vorkommen.
• Ebenfalls kann man sehr große oder sehr kleine Beobachtungswerte, die von der
„Masse“ der Werte relativ weit entfernt sind und eventuell als Ausreißer zu behandeln sind, erkennen.
• Die Zusatzinformationen zum Datensatz muss ggf. mit genutzt werden (falls Daten
transformiert sind etc.).
58
Punktdiagramm für Datensatz „morley“
> data(morley)
> lightspeeds=morley$Speed+299000
> stripchart(lightspeeds, main="Punktdiagramm Lichtgeschwindigkeitsmessungen")
Punktdiagramm Lichtgeschwindigkeitsmessungen
299700
299800
299900
300000
Probleme mit Punktdiagrammen
• Zusammenfallende oder sehr nah beieinander liegende Beobachtungswerte sind
im Diagramm nicht mehr unterscheidbar, so dass Punkte durch „Überdeckung“
verloren gehen können.
• Dieses Problem kann man beheben, indem man die Punktpositionen in die ungenutzte Richtung (vertikal bei horizontalen Punktdiagrammen) durch systematisches Stapeln (gestapeltes Punktdiagramm) oder durch zufälliges Verzittern (verzittertes Punktdiagramm) verschiebt.
• Ein verzittertes Punktdiagramm sieht nach jedem Neuzeichnen anders aus.
• Beim gestapelten Punktdiagramm können Muster vorgegaukelt werden, die aber
nur sehr zufällig und damit wenig aussagekräftig sind. Die Verteilung der Punkte
kann nicht immer gut erfasst werden.
Gestapeltes Punktdiagramm für Beispiel
> stripchart(lightspeeds,method="stack", main="Gestapeltes Punktdiagramm Lichtgeschwi
59
Gestapeltes Punktdiagramm Lichtgeschwindigkeitsmessungen
299700
299800
299900
300000
Verzittertes Punktdiagramm für Beispiel
> stripchart(lightspeeds,method="jitter", main="Verzittertes Punktdiagramm
Lichtgeschwindigkeitsmessungen")
Verzittertes Punktdiagramm Lichtgeschwindigkeitsmessungen
299700
299800
60
299900
300000
(b) Histogramm
• Ausgangspunkt ist eine Klasseneinteilung der Beobachtungswerte.
• Dazu wird ein Intervall, in dem alle Beobachtungswerte liegen, in eine endliche Anzahl disjunkter Teilintervalle, die sogenannten Klassen oder Gruppen zerlegt. Jede
Klasse ist dann eindeutig durch die Klassenmitte und die Klassenbreite bzw. durch
die untere und obere Klassengrenze bestimmt.
• Die Anzahl der Klassen sollte nicht zu klein und nicht zu groß sein.
• Die Klassenbreiten sollten übereinstimmen (ggf. mit Ausnahme der Randklassen).
• Nach Festlegung einer Klasseneinteilung werden die absoluten Klassenhäufigkeiten
bestimmt, d.h. für jede Klasse wird die Anzahl der Beobachtungswerte in der
Klasse gezählt.
• Dann werden in einem Koordinatensystem aneinanderstoßende Rechtecke mit
Flächeninhalten proportional zur Klassenhäufigkeit und Klassenintervallen
als Basis gezeichnet.
Histogramm für Beispiel Lichtgeschwindigkeiten
> hist(lightspeeds)
15
10
5
0
Frequency
20
25
30
Histogram of lightspeeds
299600
299700
299800
299900
lightspeeds
61
300000
300100
Histogramm und gestapeltes Punktdiagramm für Beispiel
> hist(lightspeeds)
> stripchart(lightspeeds,method="stack",add=T,col=2)
15
0
5
10
Frequency
20
25
30
Histogram of lightspeeds
299600
299700
299800
299900
300000
300100
lightspeeds
Histogramm mit 3 Klassen und Beispielpunktdiagramm
> b=c(299600,299800,300000,300200)
> hist(lightspeeds,breaks=b)
> stripchart(lightspeeds,method="stack",add=T,col=2)
62
40
0
20
Frequency
60
Histogram of lightspeeds
299600
299700
299800
299900
300000
300100
300200
lightspeeds
Histogramm mit 50 Klassen und Beispielpunktdiagramm
> b=c(seq(299600,300100,by=10))
> hist(lightspeeds,breaks=b)
> stripchart(lightspeeds,method="stack",add=T,col=2)
0
2
4
Frequency
6
8
10
Histogram of lightspeeds
299600
299700
299800
299900
lightspeeds
63
300000
300100
Bemerkungen zu Histogrammen
• Die Gestalt eines Histogramms hängt stark von der gewählten Klasseneinteilung
(und auch des gewählten Gesamtintervalls) ab, deshalb sollte man ggf. etwas experimentieren, um ein möglichst aussagekräftiges Histogramm zu erzeugen.
• Durch die Klasseneinteilung geht Information verloren.
• Man kann ggf. Ausreißer am linken oder rechten Rand erkennen.
• Man kann eventuell Verteilungseigenschaften, wie Symmetrie oder Schiefe, erkennen (oder erahnen).
• Bei übereinstimmenden Klassenbreiten sind die Höhen der Rechtecke proportional
zu den Häufigkeiten.
• Statt der absoluten Häufigkeiten können die Höhen der Rechtecke auch so normiert
werden, dass der Gesamtflächeninhalt unter allen Rechtecken gleich 1 ist. Dann ist
ein (meist nicht sehr belastbarer) Vergleich mit einer Verteilungsdichte möglich.
Beispielhistogramm mit Normalverteilungsdichteschätzung
> hist(lightspeeds,freq=F)
> curve(dnorm(x,mean(lightspeeds),sd(lightspeeds)),add=T,col=2)
0.003
0.002
0.001
0.000
Density
0.004
0.005
0.006
Histogram of lightspeeds
299600
299700
299800
299900
lightspeeds
64
300000
300100
4.2.2
Grafiken für univariate diskrete Daten
(a) Balkendiagramm
• Bei Balkendiagrammen werden die Anzahlen der Beobachtungswerte in den einzelnen Kategorien (Klassen) durch gleich breite Balken flächen- und auch höhenproportional dargestellt.
• Im Unterschied zum Histogramm für stetige Daten haben die Balken beim Balkendiagramm einen Abstand, um den diskreten Charakter der Daten zu unterstreichen.
• Sowohl beim Histogramm als auch beim Balkendiagramm werden aber Häufigkeiten oder Anteile flächenproportional dargestellt.
• Bei der Anzeige ordinaler Daten sollte die Reihenfolge der Balken der natürlichen
Ordnung der Merkmalsausprägungen entsprechen.
Beispiel Datensatz „Titanic“ R–Befehle
Funktion zur Gewinnung von Summenanzahlen z.B.
> margin=function(x, ...) apply(x,pmatch(c(...),names(dimnames(x))), sum)
> margin(Titanic,"Survived")
No Yes
1490 711
Erzeugung der Balkendiagramme
>
>
>
>
>
opar=par(mfrow=c(1,3))
barplot(margin(Titanic,"Survived"),main="Survived")
barplot(margin(Titanic,"Sex"),main="Sex")
barplot(margin(Titanic,"Class"),main="Class")
par(opar)
65
Balkendiagramme im Beispiel „Titanic“
Sex
Class
No
Yes
0
0
0
200
200
400
500
600
400
800
1000
1000
600
1200
1500
800
1400
Survived
Male
Female
1st
2nd
3rd
Crew
(b) Kreisdiagramm
Die Anzahlen (oder Anteile) der Beobachtungswerte in den einzelnen Kategorien (Klassen) können ggf. auch durch ein Kreisdiagramm (Tortendiagramm, Kuchendiagramm)
flächenproportional (hier auch winkelproportional) dargestellt werden.
R–Befehle zur Erzeugung der Kreisdiagramme im Beispiel:
>
>
>
>
>
opar=par(mfrow=c(1,3))
pie(margin(Titanic,"Survived"),main="Survived")
pie(margin(Titanic,"Sex"),main="Sex")
pie(margin(Titanic,"Class"),main="Class")
par(opar)
66
Beispielkreisdiagramme
Survived
Sex
Class
2nd
No
Male
1st
3rd
Female
Yes
4.2.3
Crew
Kenngrößen und Parameter zur Beschreibung univariater Daten
• Lageparameter
– Mittelwerte (arithmetisch, geometrisch, harmonisch)
– empirischer Median
– empirische Quantile (Quartile, Dezentile, . . . )
• Variabililitätsparameter (Streuparameter)
– empirische Varianz
– empirische Standardabweichung
– Spannweite
– empirischer (Inter-)Quartilsabstand IQR
– empirischer Variationskoeffizient
– empirische geometrische Standardabweichung
67
• Formparameter
– empirische Schiefe
– empirische Wölbung
(a) Arithmetischer Mittelwert
• Für reelle Beobachtungswerte x1 , x2 , . . . , xn ist der arithmetische Mittelwert definiert durch
n
1X
1
x=
xi = (x1 + x2 + . . . + xn ) .
n i=1
n
• In der Statistik wird er als Realisierung des Stichprobenmittelwerts (eine spezielle
Stichproben- oder Schätzfunktion)
n
1X
1
X=
Xi = (X1 + X2 + . . . + Xn )
n i=1
n
einer mathematischen Stichprobe (X1 , X2 , . . . , Xn ) (unabhängige und identisch
verteilte Zufallsgrößen) betrachtet. Unter geeigneten Voraussetzungen liefert er
eine erwartungstreue und konsistente Schätzfunktion für den Erwartungswert der
d =X.
Xi : EX
Unterschied zwischen konkreter und mathematischer Stichprobe
• Liegen n beobachtete Werte x1 , . . . , xn eines Merkmals X vor, so bilden diese
eine konkrete Stichprobe vom Umfang n .
• Man betrachtet jeden beobachteten Wert xi als Realisierung einer Zufallsgröße
Xi , wobei die Xi (i = 1, ..., n) alle unabhängig und identisch verteilt (engl.: i.i.d.)
mit FXi = FX seien.
• Die Zufallsgröße Xi beschreibt also das zufällige Ergebnis der i-ten Messung,
des i-ten Zufallsexperiments oder der i-ten Auswahl eines Merkmalsträgers, je
nachdem wie die konkrete Stichprobe zustande gekommen ist.
• Die Zufallsgrößen X1 , . . . , Xn bilden die mathematische Stichprobe.
Arithmetischer Mittelwert in R
Der Befehl in R zur Berechnung des (arithmetischen) Mittelwertes ist ”mean()”.
> mean(lightspeeds)
[1] 299852.4
68
Frequency
15
10
0
5
Ein Histogramm mit Mittelwertslinie kann dann z.B.
so erzeugt werden:
> hist(lightspeeds)
> abline(v=mean(lightspeeds),col=2)
20
25
30
Histogram of lightspeeds
299600
299700
299800
299900
300000
300100
lightspeeds
(b) Geometrischer Mittelwert
• Für nichtnegative reelle Beobachtungswerte (einer ratio-Skala) x1 , x2 , . . . , xn ist
der geometrische Mittelwert definiert durch
v
u n
uY
1
n
xG = t
xi = (x1 · x2 · . . . · xn ) n .
i=1
• Bemerkung: Es gilt immer xG ≤ x .
• Anwendung findet er zum Beispiel, wenn eine logarithmische Skala (Transformation) sinnvoll ist oder die Merkmalsausprägungen relative Änderungen sind, so bei
der Mittelung von Wachstumsfaktoren.
• In R kann man die Exponentialfunktion zur Berechnung von geometrischen Mittelwerten nutzen:
!
n
1X
xG = exp
ln(xi ) .
n i=1
Beispiel zum geometrischen Mittelwert
• Beispiel:
Zeitpunkt
0
1
2
Zustandswert
100
81
100
Merkmalswert=Wachstumsfaktor
x1 = 0.81 x2 = 1.234
⇒ xG = 1.000
aber x = 1.022 (obwohl insgesamt keine Änderung des Zustandswerts zum
Ausgangszeitpunkt vorliegt).
• In R ergibt zum Beispiel:
> x=c(81/100,100/81)
> exp(mean(log(x)))
69
[1] 1
> mean(x)
[1] 1.022284
• Bemerkung:
des Vektors x .
log(x) berechnet in R den Vektor der natürlichen Logarithmen
(c) Harmonischer Mittelwert
• In manchen Situationen ist für nur positive (oder nur negative) Beobachtungswerte
x1 , x2 , . . . , xn der harmonische Mittelwert
n
xH = P
n
1
i=1
xi
besser geeignet, so z.B. bei Mittelwertbildung von Verhältniszahlen (bei gleichem
Zähler) wie Durchschittsgeschwindigkeiten (gleichlange Teilstrecken) oder Durchschnittspreisen (gleiche Geldbeträge).
• Gilt xi > 0 für alle i = 1, . . . , n , dann gilt immer
xH ≤ xG ≤ x .
Im Fall von x1 = x2 = . . . = xn = x > 0 erhält man
xH = xG = x = x .
Beispiel zum harmonischen Mittelwert
• Beispiel: Konstante Geschwindigkeiten auf jeweiligen Teilstrecken
Teil-/Gesamtstrecke
1
2
Streckenlänge in km
100
100
Zeit in h
2
1
Geschwindigkeit in km/h x1 = 50 x2 = 100
⇒
xH =
1
50
2
1 = 66.66 ,
+ 100
1+2
200
3
200
= 66.6
3
x = 75 und xG = 70.71 .
aber
• In R (ab dem Zeichen # beginnt ein Kommentar):
> x=c(50,100)
> 1/mean(1/x) # Harmonisches Mittel
[1] 66.66667
> mean(x) # Arithmetisches Mittel
[1] 75
> exp(mean(log(x))) # Geometrisches Mittel
[1] 70.71068
70
(d) Empirischer Median
• Der empirische Median oder Zentralwert der Beobachtungsreihe x1 , x2 , . . . , xn
ist dadurch gekennzeichnet, dass jeweils 50 % der Beobachtungswerte einen Wert
größer oder gleich bzw. kleiner oder gleich dem empirischen Median annehmen.
• Sind
x(1) ≤ x(2) ≤ . . . ≤ x(n)
die der Größe nach geordneten Beobachtungswerte, kann der (empirische) Median
x̃ bestimmt werden durch

,
falls n ungerade,
 x( n+1
2 )
x̃ =
 1 x n +x n
2
(2)
( 2 +1) , falls n gerade .
Beispiele zum empirischen Median
• Beobachtungswerte
4, 5, 1, 3, 6, 7, 8 ⇒ n = 7 , x̃ = 5 , x = 4.857 .
• Beobachtungswerte
4, 5, 1, 3, 6, 7 ⇒ n = 6, x̃ = 4.5 , x = 4.33 .
• Beobachtungswerte 4, 5, 1, 3, 6, 7, 800 ⇒ n = 7 , x̃ = 5 , x = 118 .
• Der Median ist weniger empfindlich gegenüber Ausreißern in der Beobachtungsreihe, d.h. Werte, die weit von den übrigen entfernt liegen, beeinflussen den Median
nicht (oder kaum). Dies trifft auf den arithmetischen Mittelwert im Allgemeinen
nicht zu.
• In R:
> median(lightspeeds)
[1] 299850
• Der Median kann sogar für Daten auf einer nur ordinalen Skala genutzt werden
(wenn z.B. die Addition, die zur Bildung des arithmetischen Mittelwerts notwendig
ist, gar keinen Sinn macht).
Histogramm mit Mittelwert (rot) und Median (blau)
> hist(lightspeeds)
> abline(v=mean(lightspeeds),col=2)
> abline(v=median(lightspeeds),col=4)
71
15
0
5
10
Frequency
20
25
30
Histogram of lightspeeds
299600
299700
299800
299900
300000
300100
lightspeeds
(e) Empirische Quantile
• Ein Ordnen der Datenreihe x1 , x2 , . . . , xn der Größe nach ergibt die geordnete
Datenreihe (geordnete Stichprobe, Variationsreihe)
xmin := x(1) ≤ x(2) ≤ . . . ≤ x(n−1) ≤ x(n) =: xmax .
• Andere Bezeichnungen für die Variationsreihe sind x∗1 ≤ x∗2 ≤ . . . ≤ x∗n
x1:n ≤ x2:n ≤ . . . ≤ xn:n .
oder
• Das empirisches p−Quantil mit 0 < p < 1 ist ein Zahlenwert x̂p (oder bezeichnet
mit x̃p ) für den gilt, dass p · 100% der Werte in der Variationsreihe kleiner oder
gleich x̂p und (1 − p) · 100% der Werte größer oder gleich x̂p sind.

falls np keine ganze Zahl ist, k ist

 x(k) ,
dann die auf np folgende ganze Zahl;
x̂p =

 1 x +x
(k)
(k+1) , falls np =: k eine ganze Zahl ist.
2
Beispiel zu empirischen Quantilen
• 10 Beobachtungswerte:
• Variationsreihe:
1, 3, 7, 2, 20, 9, 15, 2, 11, 10 .
1 ≤ 2 ≤ 2 ≤ 3 ≤ 7 ≤ 9 ≤ 10 ≤ 11 ≤ 15 ≤ 20 .
• 0.05−Quantil :
p = 0.05, np = 0.5 ⇒ k = 1 , x̂0.05 = x(1) = 1 .
• 0.10−Quantil :
p = 0.10, np = 1 = k ⇒ x̂0.05 = 12 (x(1) + x(2) ) = 1.5 .
72
• 0.20−Quantil :
p = 0.20, np = 2 = k ⇒ x̂0.20 = 12 (x(2) + x(3) ) = 2 .
• 0.25−Quantil :
p = 0.25, np = 2.5 ⇒ k = 3, x̂0.25 = x(3) = 2 .
• 0.50−Quantil :
p = 0.50, np = 5 = k ⇒ x̂0.50 = 12 (x(5) + x(6) ) = 8 = x̃ .
Spezielle Quantile
• Das 0.5−Quantil ist der Median.
• Das 0.25−Quantil heißt auch unteres oder erstes Quartil (oder auch unterer Viertelwert).
• Das 0.75−Quantil heißt auch oberes oder drittes Quartil (oder auch oberer Viertelwert).
• Das
n
−Quantil
10
mit n ∈ {1, 2, 3, 4, 5, 6, 7, 8, 9} heißt auch n−tes Dezentil .
• Als 0−Quantil kann man das Minumum xmin = x(1) ansehen.
• Als 1−Quantil kann man das Maximum xmax = x(n) ansehen.
Berechnung von Quantilen mit R
• Der Befehl quantile() erzeugt als Ausgabe eine Tabelle mit Werten für das
Minimum, das Maximum, den Median und die Quartile.
• Damit die Quantile nach der oben angegebenen Formel berechnet werden, muss
type=2 angegeben werden.
• Beispiel:
> quantile(lightspeeds,type=2)
0%
25%
50%
75%
100%
299620 299805 299850 299895 300070
> quantile(lightspeeds)
0%
25%
50%
75%
100%
299620.0 299807.5 299850.0 299892.5 300070.0
• Sollen für bestimmte Niveaus p die zugehörigen Quantile berechnet werden,
können diese dem Befehl mit übergeben werden.
73
• Beispiele:
> quantile(lightspeeds,c(0.1,0.2,0.3))
10%
20%
30%
299760 299798 299810
> quantile(lightspeeds,c(0.1,0.2,0.3),type=2)
10%
20%
30%
299760 299795 299810
> quantile(lightspeeds,seq(0.85,0.95,0.05))
85%
90%
95%
299941.5 299960.0 299980.0
> quantile(lightspeeds,seq(0.85,0.95,0.05),type=2)
85%
90%
95%
299945 299960.0 299980.0
(f ) Empirische Varianz
• Für reelle Beobachtungswerte x1 , x2 , . . . , xn ist die empirische Varianz
!
n
n
X
X
1
1
(xi − x)2 =
x2 − nx2 .
s2 =
n − 1 i=1
n − 1 i=1 i
• In der Statistik wird sie als Realisierung des Stichprobenvarianz
n
S2 =
1 X
(Xi − X)2
n − 1 i=1
einer mathematischen Stichprobe (X1 , X2 , . . . , Xn ) betrachtet. Diese liefert unter geeigneten Voraussetzungen durch die Wahl des Nenners n − 1 eine erwartungstreue und konsistente Schätzfunktion für die Varianz der Zufallsgrößen Xi :
\ = S2 .
VarX
Exkurs zur Parameterschätzung
• Es wird eine Annahme über die den Beobachtungen zugrunde liegende Verteilung
getroffen, z.B. X ∼ N(µ, σ 2 ) oder X ∼ B(p) .
• Ein unbekanter Parameter ϑ der Verteilung soll aus den Daten geschätzt werden.
• Als Schätzfunktion verwendet man eine geeignete Funktion der mathematischen
Stichprobe (Stichprobenfunktion)
ϑbn = f (X1 , ..., Xn ) .
74
• Wünschenschenswerte Eigenschaften einer Schätzfunktion sind:
– Erwartungstreue: Eϑbn = ϑ (im Mittel trifft die Schätzung den wahren
Parameter);
– Konsistenz: limn→∞ ϑbn = ϑ (die Schätzung konvergiert gegen den wahren
Parameterwert mit wachsendem Stichprobenumfang).
(g) Empirische Standardabweichung
• So wie die (theoretische) Standardabweichung einer Zufallsgröße als Quadratwurzel aus der Varianz definiert wird, ist die empirische Standardabweichung die Quadratwurzel aus der empirischen Varianz:
v
u
n
√
u 1 X
(xi − x)2 .
s = s2 = t
n − 1 i=1
• Sowohl die empirische Varianz als auch die empirische Standardabweichung sind
empfindlich gegenüber Ausreißern.
• Beide Maßzahlen können nur bei bestimmten Verteilungen, wie z.B. der Normalverteilung, gut interpretiert werden.
• Bei Merkmalswerten mit (physikalischen etc.) Maßeinheiten kommt bei der empirischen Varianz diese Maßeinheit im Quadrat vor, bei der empirischen Standardabweichung die Maßeinheit selber.
(h) Spannweite
• Die Spannweite (oder Variationsbreite) ist die Differenz der extremalen Werte,
∆ = xmax − xmin = x(n) − x(1) .
Sie gibt folglich die Länge des kleinsten Intervalls an, in das alle Beobachtungswerte
fallen.
• Die Spannweite ist empfindlich gegenüber Ausreißern, da sie nur von den extremen
Werten abhängt.
• Berechnung der bisher behandelten drei Streumaße in R:
> var(lightspeeds) # empirische Varianz
[1] 6242.667
> sd(lightspeeds) # empirische Standardabweichung
[1] 79.01055
> max(lightspeeds)-min(lightspeeds) # Spannweite
[1] 450
75
(i) Empirischer Interquartilsabstand
• Der empirische Interquartilsabstand ist die Differenz des oberen und des unteren
Quartils,
d
IQR(x)
= x̂0.75 − x̂0.25 .
• Da die sehr großen und sehr kleinen Beobachtungswerte bei der Berechnung des
Interquartilsabstands keine Rolle spielen, ist er relativ unempfindlich gegenüber
Ausreißern.
• In dem Intervall der Länge des Interquartilabstandes vom unteren zum oberen
Quartil liegt die Hälfte der Beobachtungswerte.
• Beispielberechnung in R:
> IQR(lightspeeds)
[1] 85
> IQR(lightspeeds,type=2)
[1] 90
(j) Empirischer Variationskoeffizient
• Für Merkmalswerte in der Verhältnisskala können Streumaße durch Quotientenbildung in Bezug zu Lagemaßen gebracht werden. Dadurch entstehen einheitenlose
Maßzahlen, die z.B. zum Vergleich unterschiedlicher Daten genutzt werden können.
• Der empirische Variationskoeffizient ist definiert durch
s
v(x) = ,
x
er ist eine Schätzung für den theoretischen Variationskoeffizienten.
• Beispielberechnung in R:
> sd(lightspeeds)/mean(lightspeeds)
[1] 0.0002634981
(k) Geometrische Standardabweichung
• Die (theoretische) geometrische Standardabweichung einer positiven Zufallsgröße
X ist definiert durch
p
Var (ln(X)) ,
exp
den entsprechenden empirischen Wert für eine Datenreihe dazu erhält man, in dem
man die Standardabweichung durch die empirische Standardabweichung ersetzt.
• Beispielberechnung in R:
> exp(sd(log(lightspeeds)))
[1] 1.000264
76
(l) Schiefe (engl. ”skewness”) als Formparameter
• Oft spielt auch die Form z.B. der Verteilungsdichte bei Untersuchungen oder bei
der Modellierung eine Rolle.
• Die Schiefe der Zufallsvariablen X wird definiert als
E(X − EX)3
.
(VarX)3/2
n
1X
• Die empirische Schiefe für eine konkrete Stichprobe x1 , . . . , xn ist
n i=1
xi − x
s
3
• Rechtsschief (oder linkssteil) ist eine Verteilung, wenn die Dichte nach rechts hin
langsamer ausläuft, dann ist der Schiefeparameter positiv. Analog ist der Schiefeparameter bei linksschiefen (bzw. rechtssteilen) Verteilungen negativ.
• Eine Rolle spielt häufig auch, ob eine Dichtefunktion (oder Häufigkeitsverteilung)
ein ausgeprägtes Maximum („eingipflige Verteilung“), oder mehrere derartige Maxima („mehrgipflige Verteilung“) besitzt oder keine dieser Situationen vorliegt.
(m) Wölbung und Exzess als Formparameter
• Die Wölbung oder Kurtosis ist eine Maßzahl für die Steilheit oder „Spitzigkeit“
einer eingipfligen Dichtefunktion. Verteilungen mit geringer Wölbung streuen relativ gleichmäßig; bei Verteilungen mit hoher Wölbung resultiert die Streuung mehr
aus extremen, aber seltenen Ereignissen.
• Die Wölbung der Zufallsgröße X ist
4
n 1 X xi − x
.
n i=1
s
E(X − EX)4
, die empirische Wölbung
(VarX)2
E(X − EX)4
− 3 , so erfolgt ein
(VarX)2
Vergleich mit der Wölbung einer Normalverteilung.
• Der Exzess (auch: Überkurtosis) ist definiert als
• Eingipflige Verteilungen mit einem positiven Exzess haben im Vergleich zur Normalverteilung spitzere Verteilungen („steilgipflig“ im Gegensatz zu „normalgipflig“
bzw. „flachgipflig“).
Grafik einer zweigipfligen Verteilung
Mehrgipflige Verteilungen ergeben sich zum Beispiel oft durch Mischungen mehrerer
eingipfliger Verteilungen. Im Beispiel wurde eine Normalverteilung mit Erwartungswert 5 und Varianz 1 (Dichte f1 ) mit einer solchen mit Erwartungswert 5 (Dichte f2 ) gemischt,
die Dichte der gemischten Zufallsgröße ist hier f = 0.5f1 + 0.5f2 .
77
.
Grafiken zur Schiefe und zum Exzess
links: Dichte ein lognormalverteilten Zufallsgröße exp(X) mit X ∼ N(0, 0.52 ) :
rechtsschiefe Verteilung mit Schiefe ≈ 1.75 ;
rechts: Dichte einer Normalverteilung und einer t−Verteilung mit 5 Freiheitsgraden,
5
, Exzess Normalverteilung: 0 , t−Verteilung : 6 .
Erwartungswerte 0 ; Varianzen
3
4.2.4
Weitere Grafiken für univariate stetige Daten
(a) Box-Plots
• Ein Box-Plot (Box-Whisker-Plot, Kasten-Diagramm) ist eine aussagekräftige grafische Darstellung der Fünfer-Charakteristik, bestehend aus Median x̃ = x̂0.5 , den
empirischen Quartilen (Viertelwerten) x̂0.25 und x̂0.75 und den Ausreißergrenzen
Au , Ao .
• Die Ausreißergrenzen werden dabei definiert durch
d
d
Au = x̂0.25 − 1.5 · IQR(x)
und Ao = x̂0.75 + 1.5 · IQR(x)
.
78
Dies betrifft die sogenannten inneren Zäune ; (”inner fences”) für manche Fragen
verwendet man auch die sogenannten äußere Zäune (”outer fences”), definiert durch
d
±3 · IQR(x)
.
• Die Grenzen für die Box (”hinges”, Tukeys Scharniere (Türangel)) werden durch
das untere und das obere Quartil bestimmt.
• Eine gerade Linie kennzeichnet innerhalb der Box den Median.
• Die untere Begrenzungslinie wird dabei nicht durch die untere Ausreißergrenze
definiert, sondern durch den kleinsten Beobachtungswert, der ≥ Au ist.
• Analog wird die obere Begrenzungslinie definiert durch den größten Beobachtungswert, der ≤ Ao ist.
• Diese Grenzen heißen auch Whisker-Grenzen (”whisker”: Schnurrhaare der Katze).
• Ausreißer (d.h. Datenwerte außerhalb der Ausreißergrenzen) werden extra durch
Punkte angegeben.
Erzeugung von Box-Plots in R
• Beispielhaft in R:
> boxplot(lightspeeds)
erzeugt ein vertikales Box-Plot vom Datensatz lightspeeds, ein horizontales BoxPlot wird erzeugt durch
> boxplot(lightspeeds,horizontal=TRUE)
• Die Kenngrößen in diesem Datensatz waren:
Median x̃ = x̂0.5 = 299850 ;
unteres Quartil x̂0.25 = 299805 ;
oberes Quartil x̂0.75 = 299895 ;
d
Quartilsabstand IQR(x)
= 90 ;
d
untere Ausreißergrenze Au = x̂0.25 − 1.5 · IQR(x)
= 299670 ;
obere Ausreißergrenze
d
Ao = x̂0.75 + 1.5 · IQR(x)
= 300030 .
Vertikales Box-Plot für Beispiel Lichtgeschwindigkeiten
> boxplot(lightspeeds,main="Box-Plot Lichtgeschwindigkeiten")
79
Box−Plot Lichtgeschwindigkeiten
299700
299800
299900
300000
●
●
●
Horizontales Box-Plot für Beispiel Lichtgeschwindigkeiten
> boxplot(lightspeeds,horizontal=T, main="Box-Plot Lichtgeschwindigkeiten")
Box−Plot Lichtgeschwindigkeiten
●
●
●
299700
299800
80
299900
300000
Horizontales Box-Plot mit Punktdiagramm für Beispiel
> boxplot(lightspeeds,horizontal=T, main="Box-Plot Lichtgeschwindigkeiten")
> stripchart(lightspeeds,method="stack",col=2,add=TRUE)
Box−Plot Lichtgeschwindigkeiten
●
●
●
299700
299800
299900
300000
Daten für Box-Plots in R
• Die Zahlenwerte für das Box-Whisker-Plot, aus denen sich die grafische Darstellung
ergibt, können durch den Funktionsaufruf boxplot()$stats abgefragt werden.
• Im Beispiel:
> boxplot(lightspeeds)$stats
[,1]
[1,] 299720
[2,] 299805
[3,] 299850
[4,] 299895
[5,] 300000
Gekerbte Box-Whisker-Plots
• Als zusätzliche Information werden manchmal zusätzlich Kerben (”notches”) zur
Kennzeichnung eines 95%-Konfidenzintervalles für den Median (unter Normalverteilungsannahme berechnet) mit eingezeichnet.
81
• Ein 95%-Konfidenzintervall für den Median ist dabei ein zufälliges Intervall, welches unter der bestimmten Verteilungsannahme den tatsächlichen oder wahren
Median mit einer Wahrscheinlichkeit von 0.95 überdeckt. Für vorliegende Beobachtungswerte kann dann ein konkretes Intervall berechnet werden.
• In R kann ein solches gekerbtes Box-Plot durch den zusätzlichen Parameter notch=TRUE
im Befehl boxplot() erzeugt werden. Die Zahlenwerte dazu können mit boxplot()$conf
abgefragt werden.
Gekerbtes Box-Plot für Beispiel Lichtgeschwindigkeiten
> boxplot(lightspeeds,main="Box-Plot Lichtgeschwindigkeiten", notch=TRUE)
> boxplot(lightspeeds)$conf
[,1]
[1,] 299835.8
[2,] 299864.2
gekerbtes Box−Plot Lichtgeschwindigkeiten
299700
299800
299900
300000
●
●
●
Weitere Bemerkungen zu Box-Plots
• Mit Box-Plots können Informationen gewonnen werden über
– die Lage der Daten (durch den Median);
– die Streuung der Daten (durch den Interquartilsabstand);
– besondere Werte (durch die extra Angabe der Ausreißer);
– den Bereich der Datenwerte (durch die Zäune und die extra Angabe der
Ausreißer);
– ggf. die Symmetrie (Symmetrie in der Box und den Zäunen).
82
• Die folgenden Details können zum Beispiel im Allgemeinen nicht aus einem BoxPlot abgelesen werden:
– die Anzahl der Beobachtungen;
– Bindungen oder Werthäufungen;
– Mittelwert und empirische Varianz;
– die allgemeine Verteilungsform.
• Bei einer kleinen Anzahl von Beobachtungswerten sind Box-Plots nicht sehr aussagekräftig.
(b) Q-Q-Plots
• Ein Q-Q-Plot oder (empirisches) Quantile-Quantile-Plot dient z.B. zum Vergleich
der Beobachtungswerte x1 , . . . , xn mit einer theoretischen Verteilung.
• Dazu werden in ein kartesisches Koordinatensystem in der Ebene Punkte mit
theoretischen Quantilen xp als Abszissenkoordinaten (x-Werte) und empirischen
Quantilen x̂p (oder den Werten der geordneten Stichprobe) als Ordinatenkoordinaten (y-Werte) für bestimmte Niveaus p eingezeichnet.
• Beispielniveaus: pi =
i
n+1
oder pi =
i−0.5
n
, i = 1, . . . , n .
• Sind die Beobachtungswerte x1 , . . . , xn Realisierungen von unabhängigen Zufallsgrößen mit der gewählten theoretischen Verteilung, dann liegen die Punkte etwa
auf einer Geraden mit Anstieg 1 durch den Koordinatenursprung.
• Starke Abweichungen von der Geraden signalisieren ein Nichtzutreffen der Verteilung.
Erstes Beispiel Q-Q-Plot: Gleichverteilung U[0,1]
> xu=c(seq(0.1,0.9,by=0.1))
> xu
[1] 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
> qqplot(qunif(ppoints(9),min=0,max=1),xu, xlab="Theoret. Quantile U[0,1]",
+ main="Q-Q-Plot xu gegen U[0,1]")
83
Q−Q−Plot xu gegen U[0,1]
0.8
●
●
0.6
●
xu
●
0.4
●
●
0.2
●
●
●
0.2
0.4
0.6
0.8
Theoret. Quantile U[0,1]
Q-Q-Plot Lichtgeschwindigkeiten gegen Normalverteilung mit geschätzten
Parametern
>
+
+
>
qqplot(qnorm(ppoints(100),mean=mean(lightspeeds), sd=sd(lightspeeds)),
lightspeeds,xlab="Theoret. Quantile",
main="Q-Q-Plot Lichtgeschw. gegen Normalvert.")
curve(1*x,299600,301000,col=2,add=TRUE)
Q−Q−Plot Lichtgeschw. gegen Normalvert.
● ●
●
299800
299900
●● ●
●
●●●●
●●●
●●●
●●
●
●●
●●
●●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●●
●
●
●
●
●
●
●●●●●
●●●
●●
●
●●●●●
●
●●●
299700
lightspeeds
300000
●
● ●●
●
●
299700
299800
299900
300000
Theoret. Quantile
Q-Q-Plots gegen Normalverteilung
• Bei manchen Verteilungen müssen für Q-Q-Plots nicht alle Parameter der angenommenen theoretischen Verteilung schon aus den Daten bestimmt werden, son84
dern es reicht aus, die Daten mit einer Verteilung vom gegebenen Typ zu vergleichen.
• Dies ist zum Beispiel für die Normalverteilung richtig, hier kann man die empirischen Quantile der Beobachtungswerte z.B. mit den theoretischen Quantilen der
Standardnormalverteilung vergleichen.
• Folgen die Beobachtungswerte einer beliebigen Normalverteilung, liegen die Punkte etwa auf einer Geraden (nicht unbedingt mit Anstieg 1 und durch den Koordinatenursprung).
xp − µ
σ
für Z ∼ N(0, 1) .
• Dies folgt aus der Beziehung zp =
X ∼ N(µ, σ 2 ) und zp
zwischen den Quantilen xp für
• Diese Eigenschaft kann allerdings nicht für jeden Verteilungstyp genutzt werden,
z.B. nicht für die Lognormalverteilung.
Q-Q-Plot Lichtgeschw. gegen Normalverteilung N(0, 1)
> qqnorm(lightspeeds, main="Q-Q-Plot Lichtgeschwindigkeiten gegen N(0,1)")
Q−Q−Plot Lichtgeschwindigkeiten gegen N(0,1)
● ●
●
299800
299900
●● ●
●
●●●●
●●●
●●●
●●
●
●●
●●
●●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●●
●
●
●
●
●
●
●●●●●
●●●
●●
●
●●●●●
●
● ●●
299700
Sample Quantiles
300000
●
● ●●
●
●
−2
−1
0
1
2
Theoretical Quantiles
Q-Q-Plot Lichtgeschw. gegen Lognormalverteilung
Vergleich mit theoretischer Verteilung von exp(X) mit X ∼ N(0, 1) .
> qqplot(qlnorm(ppoints(100),meanlog=0,sdlog=1),
+ lightspeeds,xlab="Theoret. Quantile",
+ main="Q-Q-Plot Lichtgeschw. gegen Lognormalvert.")
85
Q−Q−Plot Lichtgeschw. gegen Lognormalvert.
299900
299800
299700
lightspeeds
300000
●
●
● ●
●
●
●
●
●●● ●
●●●
●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
2
4
6
8
10
12
Theoret. Quantile
Q-Q-Plot Lichtgeschw. gegen Exponentialverteilung mit geschätztem Erwartungswert
> qqplot(qexp(ppoints(100),rate=1/mean(lightspeeds)),
+ lightspeeds,xlab="Theoret. Quantile",
+ main="Q-Q-Plot Lichtgeschw. gegen Exponentialvert.")
Q−Q−Plot Lichtgeschw. gegen Exponentialvert.
300000
●
●
● ●
●
●
●
●
299900
299800
299700
lightspeeds
●● ● ●
●●●
●●●
●●
●
●●
●●
●●●
●
●
●
●
●●●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
500000
1000000
1500000
Theoret. Quantile
Bemerkungen zu Q-Q-Plots
• Ist der Anstieg der Kurve im Q-Q-Plot an einem oder beiden Enden wesentlich
steiler als im Mittelteil, deutet dies auf eine extremere Verteilung der Extremwerte
hin, als dies nach der angenommenen Verteilung erwartet wird. Dann könnten
86
z.B. Verteilungen mit schweren Enden geeignet sein (bei denen eine Annäherung
der Funktionswerte der Verteilungsfunktion an 0 bzw. 1 eher durch eine Potenzstatt eine Exponentialfunktion beschrieben wird).
• Ist jedoch der Anstieg der Kurve im Q-Q-Plot an einem oder beiden Enden wesentlich flacher als im Mittelteil, ist eher eine Verteilung mit einer schnelleren
Konvergenz der Funktionswerte der Verteilungsfunktion an 0 bzw. 1 als bei
der angenommenen Verteilung oder eine Verteilung mit begrenztem Wertebereich
geeignet.
• Ausreißer sind ggf. durch einzelne, weit von der Kurve entfernte Punkte an den
Rändern sichtbar.
Weitere Bemerkungen zu Q-Q-Plots
• Klare Bogenformen weisen bei einer symmetrischen theoretischen Verteilung auf
eine schiefe Verteilung hin.
• Liegen mehrere aufeinanderfolgende Punkte auf einer waagerechten Linie zusammen, entsprechen diese übereinstimmenden Beobachtungswerten. Das Mehrfachauftreten übereinstimmender Beobachtungswerte wird auch als Bindung bezeichnet. Sie können zum Beispiel hindeuten auf
– gerundete Beobachtungswerte;
– eine ungenaue Datenerhebung;
– das Ersetzen von fehlenden Werten durch Standardwerte;
– spezielle Werte mit positiver Wahrscheinlichkeit, wenn also nicht wirklich eine
stetige Verteilung vorliegt.
(c) Empirische Verteilungsfunktion
• Die empirische Verteilungsfunktion F̂ (x) ist eine Schätzung der theoretischen
Verteilungsfunktion FX (x) = P(X < x) (bzw. FX (x) = P(X ≤ x)) aus den
Beobachtungswerten x1 , . . . , xn .
• Es gilt
F̂ (x) =
Anzahl der i mit xi < x (bzw. ≤ x)
,
n
x ∈ R.
• Eine empirische Verteilungsfunktion ist eine stückweise konstante Funktion mit
Sprüngen und den anderen Eigenschaften einer Verteilungsfunktion.
• Bindungen erzeugen höhere Sprünge.
• Man kann Quantile aus der empirischen Verteilungsfunktion ablesen.
87
• Die empirischen Verteilungsfunktionen konvergieren für n → ∞ unter üblichen
Bedingungen gegen die Verteilungsfunktion FX (x) („Hauptsatz der mathematischen Statistik“, „Satz von Gliwenko“).
Empirische Verteilungsfunktion Lichtgeschwindigkeiten
> plot(ecdf(lightspeeds),main="Empir. Verteilungsfkt. Lichtgeschw.")
1.0
Empir. Verteilungsfkt. Lichtgeschw.
●
●
●
●●
●
0.8
●
●
●
●●
●
●
0.6
●
●
Fn(x)
●
0.4
●
●
●
●
0.2
●
●
●●
●
●●
0.0
●
●
299600
●
299700
299800
299900
300000
300100
x
Empirische Verteilungsfunktion Lichtgeschwindigkeiten und Normalverteilung (mit geschätzten Parametern)
> plot(ecdf(lightspeeds),main="Empir. Verteilungsfkt. Lichtgeschw.")
> curve(pnorm(x,mean=mean(lightspeeds), sd=sd(lightspeeds)),add=TRUE,col=2)
88
1.0
Empir. Verteilungsfkt. Lichtgeschw.
●
●
●
●●
●
0.8
●
●
●
●●
●
●
0.6
●
●
Fn(x)
●
0.4
●
●
●
●
0.2
●
●
●●
●
●●
0.0
●
●
299600
●
299700
299800
299900
300000
300100
x
4.2.5
Kenngrößen für kategorielle Daten
• Für eine diskrete Wahrscheinlichkeitsverteilung ist der Modalwert (auch Modus
oder Mode) die Merkmalsausprägung, die mit der größten Wahrscheinlichkeit auftreten kann. Es kann auch mehrere derartige Ausprägungen geben, sie treten dann
alle mit derselben Wahrscheinlichkeit auf.
• Entsprechend ist für einen Datensatz der empirische Modalwert die Merkmalsausprägung (bzw. sind die Merkmalsausprägungen), die am häufigsten vorkommt
(bzw. vorkommen).
• Für diskrete Daten können außerdem die Anteile als Kenngrößen von Interesse
sein, zur Berechnung dieser werden die absoluten Häufigkeiten der Merkmalswerte
pro Merkmalsausprägung durch die Gesamtzahl der Beobachtungen geteilt.
• Im Beispiel:
> margin(Titanic,"Survived")/sum(Titanic)
No
Yes
0.676965 0.323035
4.2.6
Grafiken, Kenngrößen für multivariate stetige Daten
(a) Streudiagramm
• Für bivariate stetige Daten (eine verbundene zweidimensionale Stichprobe) können
die Datenpunkte in einem Streudiagramm dargestellt werden, d.h. als Punkte in
einem kartesischen Koordinatensystem.
• Wie das Punktdiagramm ist auch das Streudiagramm anfällig gegenüber Bindungen, die durch Überlagerung unsichtbar werden.
89
• Kenngrößen kann man aus dem Streudiagramm im Allgemeinen schlecht schätzen.
• Man kann im Allgemeinen schlecht Ausreißer im Streudiagramm identifizieren.
• Die Lage des Nullpunktes und die Achseneinheiten und Grenzen können den Eindruck den ein Streudiagramm macht stark beeinflussen.
Beispiel Streudiagramm im Datensatz „Iris“
> data(iris)
> plot(iris$Sepal.Length,iris$Sepal.Width, xlab="Sepal.Length",
+ ylab="Sepal.Width")
●
●
4.0
●
●
●
●
●
●
● ● ●
●
●
●
● ●
● ●
●
● ●
●
3.0
Sepal.Width
●
● ●
●
●
●
● ● ●
●
● ●
● ● ●
● ●
●
2.5
●
●
●
●
●
● ●
●
● ●
●
● ● ● ● ●
●
● ●
●
●
● ● ● ●
● ● ● ● ●
● ● ●
●
●
●
●
● ●
●
●
● ● ●
●
●
●
●
●
●
●
2.0
● ● ●
●
●
●
●
● ●
● ●
●
●
●
● ● ●
●
●
● ●
● ●
3.5
●
●
●
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
Sepal.Length
Einzelne Punktdiagramme im Beispiel
> stripchart(iris$Sepal.Length,method="stack", xlab="Sepal.Length")
> stripchart(iris$Sepal.Width,method="stack", xlab="Sepal.Width")
90
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
2.0
2.5
3.0
Sepal.Length
3.5
4.0
Sepal.Width
(b) Der empirische (gewöhnliche) Korrelationskoeffizient
• Für eine konkrete Stichprobe (x1 , y1 ) , . . . , , (xn , yn ) definiert man den empirischen
Korrelationskoeffizienten
n
P
rX,Y =
(xi − x) (yi − y)
r ni=1
P
(xi − x)
2
n
P
.
2
(yi − y)
i=1
i=1
• Er ist eine Schätzung des theoretischen Korrelationskoeffizienten und wird auch
gewöhnlicher oder (Bravais-)Pearsonscher Korrelationskoeffizient genannt und es
gilt auch
n
P
rX,Y = s
x i yi − n · x · y
i=1
n
P
x2i − n x2
i=1
n
P
yi2 − n y 2
.
i=1
Eigenschaften des gewöhnlichen Korrelationskoeffizienten
• Es gelten rX,Y = rY,X und −1 ≤ rX,Y ≤ 1 .
• Der gewöhnliche Korrelationskoeffizient rX,Y ist ein Maß für die Stärke und Richtung des linearen Zusammenhanges zwischen den x− und y−Werten der Stichprobenwerte (xi , yi ) , i = 1, . . . , n .
• rX,Y > 0 bedeutet unter anderem, dass großen x−Werten eher große y−Werte
entsprechen und umgekehrt. Man spricht dann von positiver oder gleichsinniger
Korrelation .
91
• rX,Y < 0 bedeutet unter anderem, dass großen x−Werten eher kleine y−Werte
entsprechen und umgekehrt. Man spricht dann von negativer oder ungleichsinniger
Korrelation .
• Für Werte |rX,Y | nahe bei 1 liegt eine stark ausgeprägte lineare Beziehung
zwischen den x− und y−Werten vor.
• Insbesondere im Fall von normalverteilten Zufallsvektoren können die gewöhnlichen Korrelationskoeffizienten gut interpretiert und für statistische Schlüsse genutzt werden.
Streudiagramme für simulierte Werte
Streudiagramme (Scatterplots) von 1000 simulierten Realisierungen
von normalverteilten Zufallsvektoren (X, Y ) mit
EX = EY = 0 , VarX = VarY = 1 sowie
ρ = −1 (links),
ρ = ±0.3 (links),
ρ = 0 (mitte) und
ρ = ±0.5 (mitte),
92
ρ = 1 (rechts).
ρ = ±0.9 (rechts).
(c) Rangkorrelation
• Möchte man statistische Aussagen über den Zusammenhang zweier nichtnormalverteilter Merkmale X und Y treffen (eventuell auch nur ordinal messbar),
(S)
kann man den Rangkorrelationskoeffizienten von Spearman rX,Y
nutzen. Der Zusammenhang bezieht sich dann auf die Ordnungsbeziehung (nicht einen linearen
Zusammenhang).
• Man bestimmt einzeln für die x−Werte und die y−Werte der vektoriellen Stichprobe Ränge R(xi ) bzw. R(yi ) , i = 1, . . . , n .
• Zur Bestimmung der Ränge werden die Werte der Größe nach geordnet, der kleinste erhält Rang 1, der zweitkleinste Rang 2 usw. Treten Bindungen (also übereinstimmende Werte in jeweils einer Datenreihe) auf, wird der arithmetische Mittelwert der zugehörigen Rangzahlen als Rang gewählt.
• Beispiel:
Wert 1 2 2 3.5 10
Rang 1 2.5 2.5 4 5
Spearmanscher Rangkorrelationskoeffizient
• Der Spearmansche Rangkorrelationskoeffizient wird berechnet, indem in der Formel für den gewöhnlichen Korrelationskoeffizienten die Werte der Zufallsgrößen
und Mittelwerte durch die Werte der Ränge und entsprechend der Mittelwerte der
Ränge ersetzt werden, also die Ränge selbst als Merkmalswerte betrachtet werden,
n P
(S)
rX,Y
R(yi ) − R(y)
= r n i=1
2 r P
2 .
n P
R(xi ) − R(x)
R(yi ) − R(y)
R(xi ) − R(x)
i=1
i=1
• Liegen sowohl in der Stichprobe x1 , . . . , xn als auch in der Stichprobe y1 , . . . , yn
keine Bindungen vor, gilt auch
6
(S)
rX,Y
=1−
n
P
(R(xi ) − R(yi ))2
i=1
n(n2 − 1)
.
(S)
Eigenschaften von rX,Y
(S)
• Es gilt |rX,Y
| ≤ 1.
(S)
• rX,Y
ist ein Maß für die Stärke des monotonen Zusammenhangs von X und Y ,
(S)
das Vorzeichen von rX,Y
ist ein Maß für die Richtung des monotonen Zusammenhangs von X und Y .
93
(S)
• Im Fall von |rX,Y
| = 1 besteht eine streng monotone Beziehung zwischen X und
Y.
• Übersteigt der Betrag des Spearmanschen Korrelationskoeffizienten den Betrag
des Pearsonschen Korrelationskoeffizienten deutlich, so liegt vermutlich ein nichtlinearer monotoner (oder antitoner) Zusammenhang vor oder es gibt Ausreißer.
• Übersteigt der Betrag des Pearsonschen Korrelationskoeffizienten den Betrag des
Spearmanschen Korrelationskoeffizienten deutlich, so liegen vermutlich Ausreißer
vor.
Rangverfahren
• Die Nutzung des Spearmanschen Korrelationskoeffizienten gehört zu den Rangverfahren, bei denen die Daten durch ihre Ränge ersetzt werden.
• Dies hat den Vorteil, dass die (meist unbekannte) Verteilung keine große Rolle
mehr spielt.
• Als Nachteile bei einem solchen Vorgehen kann man nennen:
– Man nutzt (viel) weniger Information.
– Die Interpretation von Kenngrößen etc. ist schwieriger.
– Die Bestimmung der Ränge (und dann zu nutzende Formeln, Eigenschaften,
etc.) kann problematischer sein.
• Im Beispiel:
> cor(iris$Sepal.Length,iris$Sepal.Width)
[1] -0.1175698
> cor(iris$Sepal.Length,iris$Sepal.Width, method="spearman")
[1] -0.1667777
(d) Q-Q-Plot zum Vergleich zweier Merkmale
• Einen Q-Q-Plot kann man auch zum Vergleich der beiden empirischen Randverteilungen einer zweidimensionalen Stichprobe (x1 , y1 ), . . . , (xn , yn ) nutzen.
• Dazu berechnet man die empirischen Quantile für beide Komponenten extra (wie
für den Vergleich eines Merkmals mit einer theoretischen Verteilung), bildet entsprechende Wertepaare und zeichnet diese als Punkte in ein kartesisches Koordinatensystem.
• Liegen diese Punkte etwa auf einer Geraden mit Anstieg 1 durch den Koordinatenursprung, stimmen die Verteilungen der beiden Komponenten näherungsweise
überein, liegen sie etwa auf einer anderen Geraden sind die Verteilungen der beiden
Merkmalsgrößen näherungsweise durch eine lineare Transformation (eigentlich: linear affine Transformation) miteinander verbunden.
94
Beispiel Q-Q-Plot zum Vergleich zweier Merkmale
> qqplot(iris$Sepal.Length,iris$Petal.Length, xlab="Sepal.Length",
+ ylab="Petal.Length",main="Q-Q-Plot Vergleich zweier Merkmale")
7
Q−Q−Plot Vergleich zweier Merkmale
●
●
●
●
●
● ●
● ●
●
●
●
●
4
Petal.Length
5
6
●
●
● ●
● ● ●
●
●
●
●
●
●
●
● ●
●
●
● ●
● ●
●
● ●
●
● ● ●
●
● ●
1
2
3
●
●
●
●
●
● ● ●
4.5
● ● ●
● ●
● ●
● ● ●
5.0
5.5
6.0
6.5
7.0
7.5
8.0
Sepal.Length
(e) Streudiagrammmatrix
• Zum Veranschaulichung von mehr als zwei stetigen Merkmalen kann man z.B.
eine Streudiagrammmatrix nutzen. Dazu werden die Streudiagramme für je zwei
unterschiedliche Merkmale erzeugt und in Matrixform angeordnet.
• Für den R-Beispieldatensatz „Iris“ erhält man z.B. mit dem R-Befehl
> pairs(list(iris$Sepal.Length,iris$Sepal.Width,
+ iris$Petal.Length,iris$Petal.Width),
+ labels=list("Sepal.Length","Sepal.Width",
+ "Petal.Length","Petal.Width"))
die auf der nächsten Folie gezeigte Matrix.
95
Beispiel Streudiagrammmatrix
●
●●
●●
●●●
●
●●
●●●●●
●●●●●
●●
●● ●
●●
● ●●
●
●●
●
●
Sepal.Width
●
● ●
● ● ●
●●●
●●
●●
●●●●● ●
●●●
●
●●●●
●●● ●●
●
● ● ●
●
●
●● ● ●
●● ● ●●
●
● ●●●●●●●●●● ●
●
●● ●
5.5
●
● ● ●● ●
● ●
●
●
●●
● ●●●●
● ●
● ●●● ●
●● ●
●●
● ●
● ●●
● ●
●●●
●
●
●
●●●
●
●
●● ●● ●●●
●●● ●
●
●●
●
●
●
●
●
●● ●
● ●
●● ●
●
●
● ●
●●
●
6.5
●
●●●
● ●
● ●
●●
● ●
● ● ●
●●
● ●
● ●
●
●●●●
●
●● ●
●
●●●●●
●●
●●
●
● ●
● ●
●
●●
●●●
●
●
●
●●●●
● ●
●●
●
●●
● ●
●
●
●●●
●●●
●● ●
●
●
●
Petal.Length
●
●
●●● ●
●●
●●
●●●●
●●●●● ●● ●
●●
● ●
● ●●
●
●●
● ●
●
● ●
●●●
●●
●
●●
●
●●● ●
●
●
●●
●●
●●
●
● ●●
● ●
●●●● ●●●
●
●●
●
●●●●● ●
●●●●
●●
●●●
●
●●● ●●●● ●
● ●
●● ● ●
● ●●●●●●
● ●●●●
●
● ●●●●●●●
●●●● ●
●
●●
●●● ●●
●
● ●●●
●
●
●● ●
●●●●
●●●●●●●● ● ●
●●
●
●
7.5
6.5
●
● ●
● ● ●
●
●●● ●
● ●
●
● ●● ●
● ● ● ●
●
● ●●
● ●●●●●●
●
●
● ● ●●
● ● ●●●●●
●●●●●●●
● ● ●●●●
●●● ●
●●
● ●●● ●●
●
●
●
●
●
●
5
● ●
●
● ●
●
●●
●
●
●
●● ● ● ●
●● ● ● ●●
●●●●●●● ●●●●
●●● ●
●●●● ●●●●● ●
● ●●● ● ●●
● ● ●
●
● ● ● ●●●●
●●
● ●
●
●
4
●
●
● ●
●
●
● ●
● ● ●●●
●
●●
●
● ●●● ●
●
●●
●
●●
●
●●
●
●●●●●●● ●
●●
●
●
● ●
●
● ● ●● ●●●● ● ●
●
●
●●● ●
●●● ●●●● ●
● ●● ●
● ●●
●●
● ●● ●
4.5
●
●●●
● ●
●●
●● ●
●●●
● ●
●
●●
●●●
●
●
●
●
●
●
●● ●
● ●●● ●●
● ●●
● ●
●
● ●● ●●
●●●
● ●
●●
●●
●
●
●
● ●●●●●
●
● ● ●● ●
●
●●●● ●●●●●●●
●●
●●
●●● ● ●
●●
● ●●
● ●
●●
●●
●
●
●●
●
0.5 1.0 1.5 2.0 2.5
●●
●
●
●●
●
●●
●●● ●● ●●●
● ●●● ●●
●
●●●●●●●●●● ● ●●● ●
● ●●●●●
● ●
●● ●●●●●● ● ● ●
●●● ●●●
● ● ●
●
●
●
●● ● ●●
●
● ●●
● ● ●
● ● ●
●
●
●●
4.2.7
●
●
●
3
●
●
●●
● ●●
● ●●
●
●●● ●
● ● ●●● ●
● ●●
●●
● ●
● ●● ●
●
●● ●●● ●
● ●●
● ●●
●● ●●● ● ●● ●●● ●●●● ●● ●●
●
●● ●●●●● ●
●
●●● ●●●●● ●
● ●
● ● ● ● ●●
● ●● ●
●
● ● ●●●
● ●
●
●
●
●
●
●
●●
●
●
●
●
● ●
●●●●
●
● ●
●●●●
●●●●●
●●
●●●●
●●
●●●●
●
●
7
●
●
●
●●
●
● ●
●
●●
●●●●
●●● ●
●●
●●●
●
●●
●
●
●
●
● ●●
●
●
●
●
● ●
●
●
●
●
● ●
●
● ●
●● ●● ● ●●●
●●
● ● ● ●
● ● ●● ●●●
● ●● ●●
●●
● ● ●
●
●●●
●
●
●● ●
● ●
● ●
●
●
● ●●
●
●
● ● ●
●
●●●●
●
●
●
●
●
●
2
2.0 2.5 3.0 3.5 4.0
●
●
●●
●
●
5.5
●
●
●
●●●
●
●
●● ● ●
● ● ●
● ● ●● ●●●
●●
● ●● ● ●
●●
●●●
● ●●●● ● ●
●● ● ●
● ●●● ●
● ● ●●●
● ●●
●●●
●
● ●● ● ●
● ●●● ● ●
●●● ●
●
●
●
●●
●
●
6
● ● ●
●
●
●
● ●
●
●
●
●●
● ● ●
●
●● ●
●●
● ● ●
●●● ●●
● ● ●●●
●●
●
●●
●
● ●●●
●
● ●●
●
● ●
●●●
●
●● ●●●
●
●
● ●●●●
●●●●
●
●
●
● ● ●
●
●
●●
●
●
●●● ●●
● ●
● ●●●●●
●●
●●
●
●● ●
●
●● ● ●
●
●● ●
●
1
Sepal.Length
●
7.5
0.5 1.0 1.5 2.0 2.5
●
●
4.5
2.0 2.5 3.0 3.5 4.0
Petal.Width
●
●
●●●●●
●●●●
●●●
●●
●●
●
●●●●
● ●●
1
2
3
4
5
6
7
Grafiken für multivariate diskrete Daten
(a) Gestapelte Balkendiagramme
• Bei gestapelten Balkendiagrammen werden Rechtecke mit Flächeninhalten proportional zu den Anzahlen entsprechend der Ausprägungen einer zweiten Variablen
übereinander abgetragen.
• Damit können sowohl absolute Häufigkeiten als auch die bedingte Verteilung der
zweiten Variable gegeben die erste Variable wahrgenommen werden. Beide können
aber vom Auge nicht direkt quantitativ bewertet werden.
• Die Reihenfolge der Variablen ist für die Darstellung wesentlich.
• Bei ordinalen Daten sollte man die Reihenfolge der Merkmalsausprägungen beachten.
• In den Beispielen wird der Datensatz „Titanic“ genutzt.
> X=apply(Titanic,c(2,3),sum)
> X
96
Age
Sex
Child Adult
Male
64 1667
Female
45
425
Beispiel gestapelte Balkendiagramme
>
#
>
#
barplot(X,main="Passagiere der Titanic (dunkel: männlich, hell: weiblich)")
links
barplot(t(X),main="Passagiere der Titanic (dunkel:Kind, hell:Erwachsener)")
rechts
Passagiere der Titanic (dunkel: Kind, hell: Erwachsener)
0
0
500
500
1000
1000
1500
1500
2000
Passagiere der Titanic (dunkel: männlich, hell: weiblich)
Child
Adult
Male
Female
(b) Parallele Balkendiagramme
• Bei parallelen Balkendiagrammen werden die Rechtecke zu den verschiedenen
Merkmalsausprägungen der zweiten Variablen nebeneinander gezeichnet.
• Damit erlauben sie einen direkten Vergleich der absoluten Häufigkeiten, bedingte
Verteilungen können aber im Allgemeinen nicht so gut wahrgenommen werden.
Beispiel parallele Balkendiagramme
>
+
>
+
barplot(X,main="Passagiere der Titanic (dunkel: männlich, hell: weiblich)")
beside=TRUE) # links
barplot(t(X),main="Passagiere der Titanic (dunkel:Kind, hell:Erwachsener)")
beside=TRUE) # rechts
97
1000
500
0
0
500
1000
1500
Passagiere der Titanic (dunkel: Kind, hell: Erwachsener)
1500
Passagiere der Titanic (dunkel: männlich, hell: weiblich)
Child
Adult
Male
Female
(c) Mosaikplots
• Mosaikplots eignen sich besonders gut zur gleichzeitigen arstellung mehrerer kategorieller Variablen.
• Bedingte Verteilungen sind besser wahrzunehmen.
Beispiel Mosaikplots
> mosaicplot(X,main="Passagiere der Titanic",color=c(2,4)) # links
> mosaicplot(t(X),main="Passagiere der Titanic",color=c(2,4)) # rechts
98
Beispiel Mosaikplot mit mehr als 2 Variablen
> mosaicplot(Titanic,main="Passagiere der Titanic")
Passagiere der Titanic
1st
Adult
2nd
Child Adult
Child
3rd
Adult
Child
Crew
Adult
Female
Yes
No
Sex
Male
Yes
No
Child
Class
4.2.8
Graphiken für gemischte multivariate Daten
(a) Parallele Punktdiagramme
• Bei der Darstellung eines Datensatzes mit einer diskreten und einer stetigen Variablen können zum Beispiel parallele Darstellungen der stetigen Variablen für jede
Merkmalsausprägung der diskreten Variablen genutzt werden.
• Ein Beispiel liefern parallele Punktdiagramme, bei denen Punktdiagramme nebenoder übereinander gezeichnet werden, so dass ein guter anschaulicher Vergleich
möglich ist.
• Im Beispiel nutzen wir den R-Datensatz „Iris“.
Beispiel paralleles Punktdiagramm
> data(iris)
> stripchart(split(iris$Sepal.Length,iris$Species),
+ method="stack",main="Sepal.Length")
99
setosa
versicolor
virginica
Sepal.Length
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
(b) Parallele Box-Plots
• Das Verfahren bei den Punktdiagrammen kann auch für Box-Plots genutzt werden.
• Werden dabei gekerbte Box-Plots genutzt und kann man näherungsweise von normalverteilten Daten ausgehen, kann man mitunter noch aus der Anschauung heraus Aussagen über den Median treffen:
Überlappen sich die Kerben nicht, kann man mit einer geringen Irrtumswahrscheinlichkeit von unterschiedlichen Medianen ausgehen.
• Ein objektiverer Vergleich kann durch statistische Tests erfolgen.
Beispiel paralleles Box-Plot
> data(iris)
> boxplot(split(iris$Sepal.Length,iris$Species), main="Sepal.Length")
100
5.0
5.5
6.0
6.5
7.0
7.5
8.0
Sepal.Length
4.5
●
setosa
versicolor
virginica
Beispiel gekerbtes paralleles Box-Plot
> data(iris)
> boxplot(split(iris$Sepal.Length,iris$Species), main="Sepal.Length",
+ notch=TRUE)
5.0
5.5
6.0
6.5
7.0
7.5
8.0
Sepal.Length
4.5
●
setosa
versicolor
101
virginica
(d) Weitere Möglichkeiten
Farben, Symbole und Beschriftungen eignen sich, um eine oder mehrere kategorielle
Information(en) zusätzlich zu jeder stetigen Graphik, welche die Fälle durch separate
Punkte trennt, hinzuzufügen, zum Beispiel:
> plot(iris$Sepal.Length,iris$Sepal.Width,
+ col=c("red","green","blue")[iris$Species],
+ main="Kelchblatt",xlab="Länge",ylab="Breite")
Kelchblatt
●
●
4.0
●
●
●
●
●
●
●
● ● ●
●
●
●
● ●
Breite
● ●
●
● ●
3.0
●
● ●
●
●
●
●
● ●
●
● ● ●
● ●
●
●
2.5
●
●
●
●
●
●
● ●
●
● ●
●
● ● ● ● ●
● ●
●
●
● ● ● ●
● ● ● ● ●
● ● ●
●
●
●
● ●
●
●
● ● ●
●
●
●
●
●
●
●
2.0
● ● ●
●
● ● ●
●
●
● ●
● ●
●
●
●
● ● ●
●
●
● ●
3.5
●
● ●
●
●
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
Länge
5
Schließende Statistik
5.1
Statistische Tests (Signifikanztests)
• Mit Hilfe von statistischen Tests (Signifikanztests) überprüft man, ob die vorhandenen Daten mit bestimmten Annahmen an die Verteilung der zugehörigen
Zufallsgrößen verträglich sind.
• Dabei muss man berücksichtigen, dass bedingt durch die Zufallssituation und
die zufällige Streuung der Realisierungen der Zufallsgrößen im Allgemeinen keine 100%-ig richtigen Entscheidungen (die Annahmen an die Verteilung stimmen
/ stimmen nicht) getroffen werden können, sondern dass jede Entscheidung auch
fehlerhaft sein kann.
• Deshalb versucht man die Wahrscheinlichkeit dafür, dass die Entscheidung fehlerhaft ist, zu kontrollieren.
Beispielaufgabe: Waschmittelpackungen
• Bei einem Verbrauchertest für Waschmittel werde auch die Abfüllmenge kontrolliert. Dabei ergaben sich bei 10 zufällig ausgewählten 5 kg Packungen einer bestimmten Sorte folgende Abfüllmengen (in kg) :
4.6 , 4.95 , 4.8 , 4.9 , 4.75 , 5.05 , 4.9 , 5.1 , 4.85 , 4.95 .
102
Ist auf der Basis dieser Beobachtungswerte die Auffassung vertretbar, dass die
Packungen im Mittel weniger Waschmittel als angegeben enthalten ?
• Wir modellieren die tatsächliche Abfüllmenge (in kg) einer Waschmittelpackung
als Zufallsgröße X .
• Berechnete Schätzwerte für den Erwartungswert, die Standardabweichung und die
Varianz der Merkmalsgröße sind:
x = 4.885 ,
s = 0.145 ,
s2 = 0.0211 .
Überlegungen zur Beispielaufgabe
• Der Erwartungswert µ ist unbekannt.
• Zu überprüfen ist die Richtigkeit der Vermutung, dass der Erwartungswert µ
kleiner ist als der Sollwert µ0 = 5 .
• Dies kann aber nicht einfach aus der Tatsache
x = 4.885 < 5 = µ0
gefolgert werden.
• Man kann schließlich zufällig eine Stichprobe mit geringen Abfüllmengen erwischt
haben.
Grundlegende Überlegungen zu statistischen Tests
• Aufstellen der Hypothesen:
Man formuliert 2 Hypothesen, die Nullhypothese H0 und die Alternativhypothese
HA (oft auch mit H1 bezeichnet)
z.B.
oder
H0 : µ = µ0
H0 : µ = µ0
und
und
HA : µ 6= µ0
HA : µ < µ0 .
Beachte: Die Hypothese, die statistisch abgesichert werden soll, sollte als Alternativhypothese formuliert werden!
• 2 mögliche Entscheidungen beim Testen:
1. H0 wird verworfen : Es gibt in der erhobenen Stichprobe starke Hinweise
darauf, dass H0 nicht gelten kann, also HA gelten muss. Diese Hinweise
sind so stark, dass man nicht von einem zufälligen Zustandekommen ausgehen
kann.
2. H0 wird nicht verworfen : Man hat keine Hinweise gefunden, die gegen H0
sprechen. Alle aufgetretenen Effekte könnten genausogut zufallsbedingt sein.
• Statistisches Testproblem: Aufgabenstellung zwischen der Gültigkeit von H0
und HA zu unterscheiden.
103
• Statistischer Test: formale Entscheidungsregel für eine der zwei Möglichkeiten.
• Mögliche Fehler beim Testen:
– Fehler 1. Art: man verwirft H0 , obwohl H0 richtig ist.
– Fehler 2. Art: man verwirft H0 nicht, obwohl H0 falsch ist.
⇒ Tests sind so zu konstruieren, dass beide Fehler möglichst klein sind.
• Aber es können nicht beide Fehler gleichzeitig kontrolliert werden.
⇒ Man gibt sich eine (relativ kleine) obere Schranke für die Wahrscheinlichkeit des
Fehlers 1. Art vor, die nicht überschritten werden soll – das sogenannte Signifikanzniveau α.
• Übliche Werte für das Signifikanzniveau α sind 0.05 oder 0.01 .
• In der Regel wird ein statistischer Test so konstruiert, dass er unter allen Tests,
für die die Wahrscheinlichkeit des Fehlers 1. Art das gegebene Signifikanzniveau
nicht überschreitet, den Fehler 2. Art minimiert.
• Wie erhält man eine Entscheidungsregel für ein gegebenes Testproblem?
• Im obigen Beispiel würde man intuitiv so vorgehen:
– Liegt die Schätzung x für µ über oder nur knapp unter µ0 = 5 , so kann
man nicht mit hinreichender Sicherheit schließen, dass H0 : µ ≥ µ0 = 5
nicht gilt.
– Liegt hingegen x unter einem kritischen Wert deutlich unter µ0 = 5 , so
kann man die Nullhypothese verwerfen.
– Wie weit der kritische Wert unter µ0 liegen muss, hängt vom Signifikanzniveau α und dem Stichprobenumfang ab.
Allgemeine Struktur der Entscheidungsregel
• Im Allgemeinen besteht die Entscheidungsregel für ein Testproblem aus einer Testgröße T und einem kritischen Bereich Kα .
• Testgröße T :
– ist eine Stichprobenfunktion (d.h. eine Funktion der mathematischen Stichprobe X1 , ..., Xn ), also eine Zufallsgröße;
– ist bei Parametertests oft eine Schätzfunktion für den zu testenden Parameter
oder davon abgeleitet (im Beispiel X);
– hat eine bekannte Verteilung bei Gültigkeit der Nullhypothese.
104
– Setzt man statt der mathematischen Stichprobe eine konkrete Stichprobe
x1 , ..., xn ein, so erhält man eine reelle Zahl t als Realisierung der Zufallsgröße T .
• Kritischer Bereich (Ablehnungsbereich) Kα :
– ist von α abhängig;
– wird so konstruiert, dass P(T ∈ Kα |H0 ) ≤ α gilt.
– Im Beispiel ist Kα = {t ∈ R : t < tα } , wobei tα der oben erwähnte
kritische Wert ist.
Entscheidung beim Test
• Die Entscheidung lautet dann: ist t ∈ Kα , so wird H0 verworfen, andernfalls
nicht.
• Alternative Entscheidungsregel (zumeist in statistischer Software umgesetzt):
– Berechnung eines p-Werts : p = min{α : t ∈ Kα } ;
– H0 wird verworfen, wenn p ≤ α , bei p > α wird H0 beibehalten.
Allgemeiner Testablauf
• Allgemeiner Ablauf eines statistischen Tests:
1. Aufstellen der Hypothesen
2. Festlegen des Signifikanzniveaus α
3. Bestimmen der Testgröße T
4. Berechnung der Realisierung t der Testgröße T auf der Basis der
konkreten Stichprobe (x1 , . . . , xn )
5. Bestimmen des kritischen Bereichs Kα bzw. des p-Wertes
6. Testentscheidung:
t ∈ Kα
t 6∈ Kα
⇔ p ≤ α ⇒ Ablehnung von H0 ;
⇔ p > α ⇒ Stichprobe spricht nicht gegen H0 .
7. Schlussfolgerung für die gegebene Aufgabenstellung
Im Beispiel :
Die Vermutung, dass das Gewicht der Waschmittelpackungen systematisch
geringer als 5 kg ist, ist (nicht) statistisch abgesichert.
105
Interpretation der Testergebnisse
• Beim Testen wird nur die Wahrscheinlichkeit für den Fehler 1. Art kontrolliert,
d.h. P(H0 ablehnen | H0 ist wahr) ≤ α .
• Wenn also H0 tatsächlich gilt, wird man sich nur in α · 100% der Fälle für HA
entscheiden.
• Die Entscheidung für HA ist in diesem Sinn statistisch abgesichert.
• Bei einer Entscheidung gegen H0 und damit für HA spricht man von einem
signifikanten Ergebnis.
• Die Wahrscheinlichkeit für den Fehler 2. Art wird nicht kontrolliert.
⇒ Eine Entscheidung H0 beizubehalten ist nicht statistisch abgesichert.
⇒ Kann man H0 nicht verwerfen, bedeutet das daher nicht, dass man sich „aktiv“
für H0 entscheidet; es spricht nur nichts gegen H0 .
Auswahl eines geeigneten Tests
• Da es eine Vielzahl unterschiedlicher Tests gibt, ist die Auswahl eines geeigneten
Tests eine wichtige Aufgabe.
• Bei dieser Auswahl spielen unter anderem eine Rolle
– das Skalenniveau des Merkmals oder der Merkmale;
– die Stichprobensituation: eine Stichprobe von reellen Werten / eine vektorielle
Stichprobe (eine gepaarte oder verbundene Stichprobe) / zwei (unabhängige)
Stichproben / mehr als zwei (unabhängige) Stichproben;
– Vorkenntnisse (z.B. durch vorangegangene Tests) oder Annahmen an die Verteilung der Merkmalszufallsgröße(n);
– die zu lösende Aufgabenstellung, z.B. im Hinblick auf mögliche unterschiedliche Alternativhypothesen zu einer gewählten Nullhypothese.
• Viele Tests sind in Statistikcomputerprogrammen verfügbar, auch in R. Dann ist
neben der Auswahl eines geeigneten Tests auch wichtig, die Vorgehensweise bzw.
den Aufruf zu kennen und die Ergebnisse richtig auszuwerten.
5.1.1
Tests für eine Stichprobe mit stetiger Skala
a) Shapiro-Wilk-Test
• Mit dem Shapiro-Wilk-Test überprüft man, ob die Daten mit einer Normalverteilung verträglich sind.
• Geg.: konkrete Stichprobe x1 , . . . , xn .
106
• Vor.: Merkmalszufallsgröße X auf stetiger Skala; repräsentative Stichprobe.
• Hyp.: H0 : X ist normalverteilt ; H1 : X ist nicht normalverteilt
• R-Aufruf:
shapiro.test()
• Bem.:
– Die Parameter der vermuteten Normalverteilung (Erwartungswert und Varianz) müssen nicht bekannt sein.
– Der Test reagiert sensibel auf Ausreißer.
– Der Test ist relativ anfällig gegenüber Bindungen, deshalb sollten die Werte
nicht stark gerundet sein.
– Die Teststärke ist insbesondere bei kleinen Stichprobenumfängen größer als
bei allgemeinen Anpassungstests, wie dem Kolmogorow-Smirnow-Test
oder dem χ2 −Anpassungstest.
Bsp. Shapiro-Wilk-Test für exponentialverteilte Daten
> x1=rexp(50)
# Simulation der exponentialverteilten Werte
> shapiro.test(x1)
Shapiro-Wilk normality test
data: x1
W = 0.8657, p-value = 4.249e-05
# W ist Wert der Teststatistik
> hist(x1)
# Histogramm
> qqnorm(x1)
# Q-Q-Plot bzgl. Normalverteilung
Normal Q−Q Plot
●
●
2.0
●
●
1.5
0.0
1
2
3
4
●
●●●●
●●
●
●
●
●
●
●
●●●
●
●
−2
x1
●
● ●
●
●●
●●●●
●●●
●
● ●●●
−1
0
Theoretical Quantiles
107
●
●
0.5
5
0
●
●
●●●
●●
1.0
10
Sample Quantiles
2.5
●
0
Frequency
15
3.0
20
3.5
Histogram of x1
1
2
Bsp. Shapiro-Wilk-Test für normalverteilte Daten
> x2=rnorm(50)
> shapiro.test(x2)
Shapiro-Wilk normality test
data: x2
W = 0.9894, p-value = 0.9309
> hist(x2)
> qqnorm(x2)
# Simulation der normalverteilten Werte
# W ist Wert der Teststatistik
# Histogramm
# Q-Q-Plot bzgl. Normalverteilung
Normal Q−Q Plot
10
2
Histogram of x2
●
●
●
8
1
● ●
●●
●●
0
●●
●●●
●●●●
●
●
●
●
●
●●●
●●
−1
4
Frequency
6
Sample Quantiles
●
●
●
●
●●
●●●●
●●
●●
●
● ●
−2
2
●●
●
−3
0
●
−3
−2
−1
0
1
2
●
−2
x2
−1
0
1
2
Theoretical Quantiles
b) Kolmogorow-Smirnow-Test
• Mit dem Kolmogorow-Smirnow-Test überprüft man, ob die Daten mit einer
vorgebenen Verteilung verträglich sind.
• Geg.: konkrete Stichprobe x1 , . . . , xn .
• Vor.: Merkmalszufallsgröße X auf stetiger Skala; repräsentative Stichprobe.
• Hyp.:
H0 : FX = F0 (Verteilungsfunktion von X ist F0 ) ;
H1 : FX 6= F0 (Verteilungsfunktion von X ist nicht F0 ) .
• R-Aufruf:
ks.test(,)
• Bem.:
– Die Verteilungsfunktion F0 muss vollständig bekannt sein, insbesondere alle
Parameter.
– Es gibt Varianten des Tests für spezielle Fälle mit geschätzten Parametern.
– Der Test ist relativ anfällig gegenüber Bindungen, deshalb sollten die Werte
nicht stark gerundet sein.
108
Bsp. Kolmogorow-Smirnow-Test mit R
> x1=rexp(50) # Simulation der exponentialverteilten Werte (Parameter=1)
> ks.test(x1,"pexp")
# Test auf Exponentialverteilung mit Parameter=1
One-sample Kolmogorov-Smirnov test
data: x1
D = 0.1029, p-value = 0.6279
alternative hypothesis: two-sided
> ks.test(x1,"pexp",2)
# D ist Wert der Teststatistik
# Test auf Exponentialverteilung mit Parameter=2
One-sample Kolmogorov-Smirnov test
data: x1
D = 0.2696, p-value = 0.001061
alternative hypothesis: two-sided
> x2=rnorm(50)
> ks.test(x2,"pnorm")
# D ist Wert der Teststatistik
# Simulation der normalverteilten Werte
One-sample Kolmogorov-Smirnov test
data: x2
D = 0.12592, p-value = 0.3747
alternative hypothesis: two-sided
# D ist Wert der Teststatistik
c) χ2 − Anpassungstest
• Mit dem χ2 − Anpassungstest überprüft man, ob die Daten mit einer vorgebenen
Verteilung verträglich sind.
• Geg.: konkrete Stichprobe x1 , . . . , xn .
• Vor.: Merkmalszufallsgröße X auf stetiger Skala (auch für andere möglich);
repräsentative Stichprobe.
• Hyp.:
H0 : FX = F0 (Verteilungsfunktion von X ist F0 ) ;
H1 : FX 6= F0 (Verteilungsfunktion von X ist nicht F0 ) .
• R-Aufruf:
chisq.test(,)
Bemerkungen zum χ2 − Anpassungstest
• Der χ2 −Anpassungstest für stetige Daten basiert auf einer Klasseneinteilung der
Stichprobe und dem Vergleich der theoretischen Häufigkeiten der Werte in den
Klassen mit den empirischen Häufigkeiten.
109
• Die Testgröße ist unter H0 asymptotisch χ2 −verteilt, dies ist eine häufiger vorkommende statistische Prüfverteilung mit einem Parameter, der Anzahl der Freiheitsgrade genannt wird. Sie kann nur nichtnegative Werte annehmen.
• Die theoretische Häufigkeit sollte pro Klasse mindestens 5 sein.
• Der Wert der Testgröße (und damit ggf. das Testergebnis) hängt von der gewählten
Klasseneinteilung ab, außerdem ist es nur ein asymptotischer Test.
Bsp. χ2 − Anpassungstest mit R
> x2=rnorm(50)
# Simulation der normalverteilten Werte
> x2_cut=cut(x2,breaks=c(-3,-2,-1,0,1,2))
# Klasseneinteilung
> table(x2_cut)
x2_cut
(-3,-2] (-2,-1] (-1,0] (0,1] (1,2]
3 9 15 16 7
> freq_emp=vector()
# Vektor der empirischen Häufigkeiten
> for(i in 1:5) freq_emp[i]=table(x2_cut)[[i]]
> freq_emp
[1] 3 9 15 16 7
> freq_th=c(pnorm(-2)-pnorm(-3),pnorm(-1)-pnorm(-2), pnorm(0)-pnorm(-1),
+ pnorm(1)-pnorm(0),pnorm(2)-pnorm(1))
> freq_th
# Vektor der theoretischen Häufigkeiten
[1] 0.02140023 0.13590512 0.34134475 0.34134475 0.13590512
> chisq.test(freq_emp,freq_th)
Pearson’s Chi-squared test
data: freq_emp and freq_th
X-squared = 10, df = 8, p-value = 0.265
Warnmeldung:
In chisq.test(freq_emp, freq_th) :
Chi-Quadrat-Approximation kann inkorrekt sein
d) Ein-Stichproben-t-Test
• Mit dem Ein-Stichproben-t-Test werden Annahmen über den Erwartungswert einer normalverteilten Grundgesamtheit bei unbekannter Varianz überprüft.
• Geg.: konkrete Stichprobe x1 , . . . , xn .
• Vor.: normalverteilte Merkmalszufallsgröße X mit unbekanntem Erwartungswert µ und unbekannter Varianz σ 2 ; repräsentative Stichprobe.
110
• Hyp.:
H0 : µ = µ0 (µ0 ist gegebene (Soll-)Größe) ;
H1 : µ 6= µ0 (zweiseitig) bzw. µ < µ0 oder µ > µ0 (einseitig) .
• R-Aufruf:
t.test()
X − µ0 √
• Bem.: Die Testgröße ist hier T =
n, diese ist unter H0 t−verteilt
S
mit n − 1 Freiheitsgraden. Die t−Verteilung oder Student-Verteilung ist eine
weitere oft genutzte statistische Prüfverteilung mit einem Parameter („Anzahl der
Freiheitsgrade“).
Bsp. Ein-Stichproben-t-Test mit R
• Simulation von Realisierungen N(0, 1)-verteilter Zufallsgrößen.
x=rnorm(50)
• Zweiseitiger t−Test für H0 : µ = 0 , H1 : µ 6= 0 :
> t.test(x)
One Sample t-test
data: x
t = -0.2207, df = 49, p-value = 0.8263
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
-0.3017750 0.2420545
sample estimates:
mean of x
-0.02986026
Bsp. Ein-Stichproben-t-Test (einseitig) mit R
• Einseitiger t−Test für H0 : µ = 0, H1 : µ < 0 :
> t.test(x,alternative="less")
One Sample t-test
data: x
t = -0.2207, df = 49, p-value = 0.4131
alternative hypothesis: true mean is less than 0
111
95 percent confidence interval:
-Inf 0.1969931
sample estimates:
mean of x
-0.02986026
• Einseitiger t−Test für H0 : µ = 0 , H1 : µ > 0 :
> t.test(x,alternative="greater")
One Sample t-test
data: x
t = -0.2207, df = 49, p-value = 0.5869
alternative hypothesis: true mean is greater than 0
95 percent confidence interval:
-0.2567136 Inf
sample estimates:
mean of x
-0.02986026
• Zweiseitiger t−Test für H0 : µ = 1 , H1 : µ 6= 1 :
> t.test(x,mu=1)
One Sample t-test
data: x
t = -7.6111, df = 49, p-value = 7.546e-10
alternative hypothesis: true mean is not equal to 1
95 percent confidence interval:
-0.3017750 0.2420545
sample estimates:
mean of x
-0.02986026
112
• Zweiseitiger t−Test für H0 : µ = −0.1 , H1 : µ 6= −0.1 :
> t.test(x,mu=-0.1)
One Sample t-test
data: x
t = 0.5184, df = 49, p-value = 0.6065
alternative hypothesis: true mean is not equal to -0.1
95 percent confidence interval:
-0.3017750 0.2420545
sample estimates:
mean of x
-0.02986026
e) χ2 -Test auf Streuung
• Mit dem χ2 -Test auf Streuung werden Annahmen über die Varianz einer normalverteilten Grundgesamtheit bei unbekanntem Erwartungswert überprüft.
• Geg.: konkrete Stichprobe x1 , . . . , xn .
• Vor.: normalverteilte Merkmalszufallsgröße X mit unbekanntem Erwartungswert µ und unbekannter Varianz σ 2 ; repräsentative Stichprobe.
• Hyp.:
H0 : σ 2 = σ02 (σ02 ist eine gegebene (Soll-)Größe) ;
H1 : σ 2 6= σ02 (zweiseitig) bzw. σ 2 < σ02 oder σ 2 > σ02 (einseitig) .
• R-Aufruf:
sigma.test() aus Zusatzpaket „TeachingDemos“.
• Die Testgröße ist hier T =
Freiheitsgraden.
(n − 1)S 2
, diese ist unter H0 χ2 −verteilt mit n − 1
σ02
Bsp. 1 χ2 -Test auf Streuung mit R
Voraussetzung ist, dass das Programmpaket „TeachingDemos“ vorher installiert wurde.
> require(TeachingDemos)
> x=rnorm(50)
> sigma.test(x)
# Laden des Programmpakets
# Simulation der normalverteilten Werte
One sample Chi-squared test for variance
data: x
113
X-squared = 58.4113, df = 49, p-value = 0.3359
alternative hypothesis: true variance is not equal to 1
95 percent confidence interval:
0.8318045 1.8511005
sample estimates:
var of x
1.192068
Bsp. 2 χ2 -Test auf Streuung mit R
> require(TeachingDemos)
# Laden des Programmpakets
> x=rnorm(50)
# Simulation der normalverteilten Werte
> sigma.test(x,sigmasq=1.5,alternative="less")
One sample Chi-squared test for variance
data: x
X-squared = 33.8897, df = 49, p-value = 0.04946
alternative hypothesis: true variance is less than 1.5
95 percent confidence interval:
0.000000 1.498204
sample estimates:
var of x
1.037439
f ) Vorzeichentest
• Der Vorzeichentest oder Zeichentest dient als Test über den Median einer stetigen
Verteilung.
• Geg.: konkrete Stichprobe x1 , . . . , xn .
• Vor.: Merkmalszufallsgröße X auf stetiger Skala; repräsentative Stichprobe.
• Hyp.:
H0 : X0.5 = m (m ist ein vorgebener Wert für den Median) ;
H1 : X0.5 6= m .
• R-Aufruf:
binom.test(table(x<m))
(für Datenvektor x).
• Die Testgröße ist die Anzahl der Stichprobenwerte, die größer oder gleich dem
hypothetischen Wert m für den Median sind. Sie ist unter H0 binomialverteilt
mit den Parametern n und p = 0.5 . Der Test heißt deshalb auch Binomialtest
(bzw. ist ein Spezialfall davon).
114
Bsp. Vorzeichentest
• Der Vorzeichentest wird auf simulierte exponentialverteilte mit Parameter λ = 1
Daten angewandt. Der theoretische Median einer solchen exponentialverteilten
Zufallsgröße ist X0.5 = ln(2) = 0.6931472 .
• >x=rexp(30)
# Simulation der exponentialverteilten Werte
> binom.test(table(x<log(2)))
Exact binomial test
data: table(x < log(2))
number of successes = 14, number of trials = 30, p-value = 0.8555
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.2834181 0.6567448
sample estimates:
probability of success
0.4666667
• Bei einem Test auf den (falschen) hypothetischen Medianwert m = 1 erhält man
für diese Stichprobe folgenden Ausdruck.
• > binom.test(table(x<1))
Exact binomial test
data: table(x < 1)
number of successes = 9, number of trials = 30, p-value = 0.04277
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.1473452 0.4939590
sample estimates:
probability of success
0.3
115
Bsp. Vorzeichentest Erläuterung
• Zur Erläuterung der R-Befehle seien hier die Stichprobe und Zwischenergebnisse
mit angegeben.
• > x
[1] 0.474913225 1.998718750 0.236340651 1.190075521 0.204773207
[6] 1.032235380 0.381776969 0.189361459 1.148530885 0.179905086
[11] 0.367202075 0.016486336 1.634640983 0.579307548 0.841339218
[16] 0.547713449 1.440086523 0.716338951 0.906362104 1.184678989
[21] 0.203456942 0.928086586 0.267522051 4.082806101 0.553727047
[26] 0.037520679 0.003251419 0.054086418 1.102460776 0.914379178
> x<1
[1] TRUE FALSE TRUE FALSE TRUE FALSE TRUE TRUE FALSE TRUE
[11] TRUE TRUE FALSE TRUE TRUE TRUE FALSE TRUE TRUE FALSE
[21] TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE FALSE TRUE
> table(x<1)
FALSE TRUE
9
21
• Die Erfolgsanzahl im Test (hier 9, die erste der durch table(x<1) zurückgegebene
Zahl) ist also die Anzahl der Stichprobenwerte, für die die Bedingung (hier x < 1)
nicht erfüllt ist.
Bsp. Vorzeichentest (einseitig)
• Einseitige Tests können auch durchgeführt werden.
• > binom.test(table(x<1),alternative="less")
Exact binomial test
data: table(x < 1)
number of successes = 9, number of trials = 30, p-value = 0.02139
alternative hypothesis: true probability of success is less than 0.5
95 percent confidence interval:
0.0000000 0.4650727
sample estimates:
probability of success
0.3
116
• Hier wird zum Niveau 0.05 die Hypothese H0 : P(X ≥ 1) = 0.5 abgelehnt und
die Alternative H1 : P(X ≥ 1) < 0.5 angenommen.
Dies bedeutet auch für den Median, dass er signifikant kleiner als 1 ist.
g) Wilcoxon-Vorzeichen-Rang-Test
• Beim Wilcoxon-Vorzeichen-Rang-Test werden Hypothesen über das Symmetriezentrum (und damit den Median) einer stetigen Verteilung geprüft.
• Geg.: konkrete Stichprobe x1 , . . . , xn .
• Vor.: Merkmalszufallsgröße X mit stetiger und symmetrischer Verteilung ;
repräsentative Stichprobe .
• Hyp.:
H0 : X0.5 = m (m ist ein vorgebener Wert für den Median);
H1 : X0.5 6= m .
• R-Aufruf:
wilcox.test() .
• Die Testgröße nutzt Rangzahlen der Werte xi − m, i = 1, . . . , n und damit mehr
Informationen als der Vorzeichentest.
• Bindungen können problematisch sein.
Bsp. Wilcoxon-Vorzeichen-Rang-Test
• Der Vorzeichentest wird auf simulierte t−verteilte (mit 10 Freiheitsgraden) Daten
angewandt. Dies ist eine symmetrische stetige Verteilung mit dem theoretischen
Median X0.5 = 0 .
• >x=rt(n=50,df=10)
# Simulation von 50 t-verteilten Werten
> wilcox.test(x)
Wilcoxon signed rank test with continuity correction
data: x
V = 627, p-value = 0.9231
# Annahme
alternative hypothesis: true location is not equal to 0
• Ein Test auf den (falschen) Median m = 1 ergibt:
> wilcox.test(x,mu=1)
Wilcoxon signed rank test with continuity correction
data: x
117
V = 207, p-value = 3.312e-05
# Ablehnung
alternative hypothesis: true location is not equal to 1
5.1.2
Tests für eine gepaarte (verbundene) Stichprobe (stetige Skala)
• Gegeben sei nun eine konkrete Stichprobe (xi , yi ), i = 1, . . . , n als Realisierungen
von unabhängigen und identisch verteilten stetigen Zufallsvektoren (Xi , Yi ), i =
1, . . . , n . Für jedes i beziehen sich die Werte xi und yi auf ein und dasselbe
statistische Individuum, so dass die Zufallsgrößen Xi und Yi nicht als unabhängig
angesehen werden können.
• Macht die Differenzbildung Di = Xi − Yi , i = 1, . . . , n inhaltlich Sinn, dann
können die Tests aus 5.1.1. auf die neu berechnete Stichprobe d1 , . . . , dn (die
nun univariat ist) angewandt werden, man untersucht somit ein Einstichprobenproblem.
• Dabei sind insbesondere die Tests bezüglich der Lageparameter von Interesse, da
dadurch eine eventuelle Verschiebung der Verteilung der Yi zu den Größen Xi
mit Hilfe eines Tests auf einen Median oder Erwartungswert 0 der Verteilung der
Differenzzufallsgrößen Di , i = 1, . . . , n überprüft werden kann.
a) Gepaarter t−Test
• Mit dem Ein-Stichproben-t-Test für D = X − Y oder dem gepaarten t−Test für
X und Y wird die Gleichheit der Erwartungswerte von X und Y bei einer
normalverteilten Differenz D = X − Y mit unbekannter Varianz überprüft.
• Geg.: konkrete gepaarte Stichprobe (x1 , y1 ) . . . , (xn , yn ) .
• Vor.: normalverteilte Zufallsgröße D = X − Y mit unbekannter Varianz σ 2 ;
repräsentative Stichprobe .
• Hyp.:
H0 : EX = EY , H1 : EX 6= EY (zweiseitiger Test) bzw.
H1 : EX < EY
oder H1 : EX > EY (einseitige Tests) .
• R-Aufruf: t.test(x,y,paired=TRUE)
bei Datenvektoren x und y .
• Ausreißer in den Daten können Probleme bereiten.
Bsp. 1 gepaarter t−Test
• Simulation einer gepaarten Stichprobe durch Beziehung:
fester Wert 2 + simulierte normalverteilte zufällige Fehler
für die x− und y−Werte jeweils.
118
• > x=2+rnorm(30,sd=0.1)
> y=2+rnorm(30,sd=0.1)
• Berechnung der Differenzen und Shapiro-Wilk-Test auf Normalverteilung .
• > d=x-y
> shapiro.test(d)
Shapiro-Wilk normality test
data: d
W = 0.9745, p-value = 0.6694
# Annahme
• Durchführung des Ein-Stichproben-t-Tests für d und des äquivalenten gepaarten
t−Tests für x und y .
• > t.test(d)
One Sample t-test
data: d
t = 0.7479, df = 29, p-value = 0.4605
# Annahme
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
-0.03149322 0.06780432
sample estimates:
mean of x
0.01815555
• > t.test(x,y,paired=TRUE)
Paired t-test
data: x and y
t = 0.7479, df = 29, p-value = 0.4605
# Annahme
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.03149322 0.06780432
sample estimates:
mean of the differences
0.01815555
119
Bsp. 2 gepaarter t−Test
• Simulation einer gepaarten Stichprobe durch Beziehungen
2 (bei x) bzw. 3 (bei y) + simulierte normalverteilte zufällige Fehler.
• > x=2+rnorm(30,sd=0.1)
> y=3+rnorm(30,sd=0.05)
• Berechnung der Differenzen und Shapiro-Wilk-Test auf Normalverteilung .
•
> d=x-y
> shapiro.test(d)
Shapiro-Wilk normality test
data: d
W = 0.9887, p-value = 0.9826
# Annahme
• Durchführung des Ein-Stichproben-t-Tests für d und des äquivalenten gepaarten
t−Tests für x und y .
• > t.test(d)
One Sample t-test
data: d
t = -55.026, df = 29, p-value < 2.2e-16
# Ablehnung
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
-1.078750 -1.001433
sample estimates:
mean of x
-1.040091
• > t.test(x,y,paired=TRUE)
Paired t-test
data: x and y
t = -55.026, df = 29, p-value < 2.2e-16
# Ablehnung
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-1.078750 -1.001433
sample estimates:
120
mean of the differences
-1.040091
b) Vorzeichentest für eine gepaarte Stichprobe
• Der Vorzeichentest für eine gepaarte Stichprobe ist ein Test über den Median 0
der stetigen Verteilung von D = X − Y . Bei Ablehnung der Nullhypothese kann
man folglich auf eine unterschiedliche „mittlere Lage“ der x− und der y−Werte
schließen.
• Geg.: konkrete gepaarte Stichprobe (x1 , y1 ) . . . , (xn , yn ) .
• Vor.: Die Zufallsgröße D = X − Y besitzt eine stetige Verteilung; es liegt eine
repräsentative gepaarte Stichprobe vor.
• Hypothesen:
H0 : D0.5 = 0 ,
H1 : D0.5 6= 0 .
• R-Aufruf: binom.test(table(x<y))
bei Datenvektoren x und y .
• Bindungen können problematisch sein.
Bsp. Vorzeichentest für eine gepaarte Stichprobe
• Das Vorgehen ist analog zum 2. Anwendungsbeispiel für den gepaarten t−Test,
jedoch mit exponentialverteilten Fehlern.
• > x=2+rexp(30)
# verschobene Exponentialverteilung
> y=3+rexp(30)
# verschobene Exponentialverteilung
> shapiro.test(x-y)
# Test auf Normalverteilung
Shapiro-Wilk normality test
data: x - y
W = 0.8966, p-value = 0.00693
# Ablehnung
• Vorzeichentest für eine gepaarte Stichprobe.
• > binom.test(table(x<y))
Exact binomial test
data: table(x < y)
number of successes = 7, number of trials = 30, p-value = 0.005223
alternative hypothesis: true probability of success is not equal to 0.5
121
95 percent confidence interval:
0.09933786 0.42283652
sample estimates:
probability of success
0.2333333
c) Gepaarter Wilcoxon-Vorzeichen-Rang-Test
• Der gepaarte Wilcoxon-Vorzeichen-Rang-Test ist ein Test über das Symmetriezentrum 0 (und damit den Median 0) der stetigen Verteilung von D = X−Y . Bei
Ablehnung der Nullhypothese kann man folglich auf eine unterschiedliche „mittlere
Lage“ der
x− und der y−Werte schließen.
• Geg.: konkrete gepaarte Stichprobe (x1 , y1 ) . . . , (xn , yn ) .
• Vor.: Die Zufallsgröße D = X − Y besitzt eine stetige und symmetrische
Verteilung; es liegt eine repräsentative gepaarte Stichprobe vor.
• Hyp.:
H0 : Die Verteilung von D = X − Y ist symmetrisch um 0 ;
H1 : Die Verteilung von D = X − Y ist symmetrisch um c 6= 0 .
• R-Aufruf: wilcox.test(x,y,paired=TRUE)
bei Datenvektoren x und y .
• Bindungen können problematisch sein.
Bsp. gepaarter Wilcoxon-Vorzeichen-Rang-Test
• Das Vorgehen ist analog zum 2. Anwendungsbeispiel für den gepaarten t−Test,
jedoch werden hier t−verteilte Fehler verwendet.
• > x=2+0.1*rt(30,df=10)
# t-Verteilung mit 10 Freiheitsgraden
> y=3+0.1*rt(30,df=10)
# t-Verteilung ist symmetrisch
> d=x-y
> shapiro.test(d)
# Test auf Normalverteilung
Shapiro-Wilk normality test
data: d
W = 0.9248, p-value = 0.0358
# Ablehnung
122
• Die Anwendung des Wilcoxon-Vorzeichen-Rang-Tests auf die Differenzen bzw.
gepaart ergibt
> wilcox.test(d)
Wilcoxon signed rank test
data: d
V = 0, p-value = 1.863e-09
# Ablehnung
alternative hypothesis: true location is not equal to 0
> wilcox.test(x,y,paired=TRUE)
Wilcoxon signed rank test
data: x and y
V = 0, p-value = 1.863e-09
# Ablehnung
alternative hypothesis: true location shift is not equal to 0
5.1.3
Tests für zwei oder mehr (unabhängige) Stichproben
(stetige Skala)
• Von besonderer Bedeutung sind statistische Tests bezüglich der Lageparameter für
die (unabhängigen) Zufallsgrößen X, Y bei zwei Stichproben bzw. X1 , . . . , Xk
bei mehreren Stichproben.
• Um derartige Tests anwenden zu können, müssen im Allgemeinen vorher Annahmen über die Verteilungen der Einzelzufallsgrößen und teilweise auch über die
Gleichheit der Varianzen überprüft werden.
• Es können wieder spezielle Tests verwendet werden, falls die Merkmalszufallsgrößen normalverteilt sind.
• Im Fall von nichtnormalverteilten Zufallsgrößen können oft rangbasierte (sogenannte verteilungsfreie) Tests verwendet werden. Diese können auch für normalverteilte Daten verwendet werden, sind dann aber nicht so effektiv wie die speziellen
Tests.
a) Anpassungstests für mehrere Stichproben (stetige Skala)
• Statistische Tests über die Verteilung werden in dieser Situation oft so durchgeführt, dass für jede beteiligte reelle Stichprobe ein geeigneter Anpassungstest
durchgeführt wird.
• Damit können beim Test auf Normalverteilung zwei (bzw. k) einzelne ShapiroWilk-Tests für X und Y im Zweistichprobenfall (bzw. X1 , . . . , Xk im
k−Stichprobenfall) durchgeführt werden.
123
• Analog können für andere Verteilungen zwei (bzw. k) einzelne χ2 −Anpassungstests
oder Kolmogorow-Smirnow-Tests durchgeführt werden.
• Da bei der Durchführung mehrerer Tests, die nur zusammen eine Gesamtaussage erlauben, eine vorgegebene Wahrscheinlichkeit für einen Fehler 1. Art für
die Gesamtaussage nicht mit dem entsprechenden Niveau der einzelnen beteiligten Tests übereinstimmt, sollte man in einer solchen Situation die sogenannte
Bonferroni-Methode oder Bonferroni-Korrektur anwenden.
b) Bonferroni-Methode oder Bonferroni-Korrektur
• Angenommen eine Hypothese setzt sich aus k Einzelhypothesen wie folgt zusammen:
H0 : H01 ∩ . . . ∩ H0k ,
H1 : H11 ∪ . . . ∪ H1k .
• Sind z.B. die k Zufallsgrößen X1 , . . . , Xk gegeben, erhält man die Hypothesen
H0 : alle k ZG sind normalverteilt ,
H1 : mind. eine ZG Xi ist nicht normalverteit
in obiger Weise aus den Einzelhypothesen
H0i : Xi ist normalverteilt ,
H1i : Xi ist nicht normalverteilt .
• Man führt nun k Tests bezüglich der Einzelhypothesen H i durch, und entscheidet
dann wie folgt:
Man verwirft H0 , wenn mindestens ein Einzeltest die Nullhypothese H0i verwirft,
sonst behält man H0 bei.
• Führt man die Einzeltest jeweils zum Signifikanzniveau α̃ durch und bezeichne
Aj , j = 1, . . . , k, das zufällige Ereignis, dass der j−te Test seine Nullhypothese
ablehnt, so gilt unter der Annahme der Unabhängigkeit der Ereignisse Ai und
kleinem α̃ :
α = P(H0 wird verworfen | H0 wahr)
= P(A1 ∪ . . . ∪ Ak | H0 wahr)
= 1 − P(A1 c ∩ . . . ∩ Ak c | H0 wahr)
= 1 − P(A1 c | H0 wahr) · . . . · P(Ak c | H0 wahr)
k 2
k
= 1 − (1 − α̃) = 1 − 1 + k α̃ −
α̃ + . . . + (−1)k α̃k
2
≈ k α̃ .
• Folglich sollte man als Niveau der Einzeltests α̃ =
124
α
wählen.
k
c) F −Test für Varianzen zweier normalverteilter Merkmale
• Der F −Test dient zum Vergleich der Varianzen zweier unabhängiger normalverteilter Merkmale mit unbekannten Erwartungswerten.
• Geg.: 2 Stichproben x1 , . . . , xn und y1 , . . . , ym (die Stichprobenumfänge können
unterschiedlich sein).
• Vor.: Die Zufallsgrößen X und Y sind unabhängig und normalverteilt mit
(unbekannten) Erwartungswerten µX und µY und Varianzen σX2 und σY2 ;
repräsentative Stichproben.
• Hyp.:
H0 : σX2 = σY2 ,
• R-Aufruf:
H1 : σX2 6= σY2 (zweiseitiger Test).
var.test(,) .
• Ausreißer in den Daten können Probleme bereiten.
SX2
, sie ist unter H0 F −verteilt mit (n − 1, m − 1)
SY2
Freiheitsgraden. Einseitige Tests sind auch möglich.
• Die Testgröße ist F =
Bsp. F −Test für Varianzen zweier normalverteilter Merkmale (α = 0.05)
• Simulation der Stichproben und Test auf Normalverteilung (mit BonferroniKorrektur).
• > x=rnorm(30)
> y=rnorm(40)
> shapiro.test(x)
Shapiro-Wilk normality test
data: x
W = 0.9793, p-value = 0.8056
# >0.05/2, also Annahme
> shapiro.test(y)
Shapiro-Wilk normality test
data: y
W = 0.9643, p-value = 0.2345
# >0.05/2, also Annahme
• Durchführung F −Test.
125
• > var.test(x,y)
F test to compare two variances
data: x and y
F = 1.166, num df = 29, denom df = 39, p-value = 0.6468
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.5943451 2.3701436
sample estimates:
ratio of variances
1.166027
d) Bartlett-Test für Varianzen von Normalverteilungen
• Der Bartlett-Test dient zum Vergleich der Varianzen mehrerer unabhängiger
normalverteilter Merkmale.
• Geg.: k Stichproben x11 , . . . , x1n1 usw. bis xk1 , . . . , xknk (die Stichprobenumfänge können unterschiedlich sein).
• Vor: Die Zufallsgrößen Xi , i = 1, . . . , k sind unabhängig und normalverteilt mit
(unbekannten) Erwartungswerten µi und Varianzen σi2 jeweils; repräsentative
Stichproben.
• Hyp.:
H0 : σ12 = . . . = σk2 ,
• R-Aufruf:
H1 : σi2 6= σj2 für mindestens ein Paar (i, j) .
bartlett.test() .
• Ausreißer in den Daten können Probleme bereiten.
• Der Test ist ein asymptotischer Test, als Faustregel wird ni ≥ 5 , i = 1, . . . , k,
empfohlen.
• Einseitige Tests sind hier nicht möglich.
Bsp. Bartlett-Test für Varianzen
• Simulation der Stichproben und Test auf Normalverteilung (mit BonferroniKorrektur).
• > x1=rnorm(30)
# N(0,1)
> x2=rnorm(30)
# N(0,1)
> x3=rnorm(50,mean=1,sd=2)
# N(1,4)
126
> shapiro.test(x1)
Shapiro-Wilk normality test
data: x1
W = 0.9626, p-value = 0.3611
# >0.05/3, also Annahme
> shapiro.test(x2)
Shapiro-Wilk normality test
data: x2
W = 0.9295, p-value = 0.04753
# >0.05/3, also Annahme
> shapiro.test(x3)
Shapiro-Wilk normality test
data: x3
W = 0.9848, p-value = 0.7649
# >0.05/3, also Annahme
• Durchführung Bartlett-Test.
• > bartlett.test(list(x1,x2,x3))
Bartlett test of homogeneity of variances
data: list(x1, x2, x3)
Bartlett’s K-squared = 22.2336, df = 2, p-value = 1.486e-05
e) Fligner-Test für Varianzen stetiger Merkmale
• Der Fligner-Test oder Fligner-Killeen-Median-Test dient zum Vergleich der
Varianzen mehrerer unabhängiger stetig verteilter Merkmale.
• Geg.: k ≥ 2 Stichproben x11 , . . . , x1n1 usw. bis xk1 , . . . , xknk (die Stichprobenumfänge können unterschiedlich sein).
• Vor.: Die Zufallsgrößen Xi , i = 1, . . . , k, sind unabhängig und stetig verteilt mit
Varianzen σi2 jeweils; repräsentative Stichproben.
• Hyp.:
H0 : σ12 = . . . = σk2 ,
• R-Aufruf:
H1 : σi2 6= σj2 für mindestens ein Paar (i, j) .
fligner.test() .
• Der Test ist ein rangbasierter Test, so dass Probleme bei Bindungen auftreten
könnten.
• Einseitige Tests sind hier nicht möglich.
127
Bsp. Fligner-Test für Varianzen stetiger Merkmale
• Simulation exponentialverteilter Stichproben (unterschiedliche Varianzen) und Test
auf Normalverteilung, um den stärkeren Bartlett-Test auszuschließen.
• > x1=rexp(30)
> x2=1+2*rexp(40)
# oder x2=1+rexp(40,rate=1/2)
> x3=2+3*rexp(50)
# oder x3=2+rexp(40,rate=1/3)
> shapiro.test(x1)
Shapiro-Wilk normality test
data: x1
W = 0.8881, p-value = 0.004358
# <0.05/3, also Ablehnung
• Durchführung Fligner-Test, da die Voraussetzungen für den Bartlett-Test
nicht erfüllt sind.
• > fligner.test(list(x1,x2,x3))
Fligner-Killeen test of homogeneity of variances
data: list(x1, x2, x3)
Fligner-Killeen:med chi-squared = 11.2757, df = 2, p-value = 0.003561
f ) Zwei-Stichproben-t-Test
• Mit dem Zwei-Stichproben-t-Test wird die Gleichheit der Erwartungswerte zweier normalverteilter Merkmale mit unbekannter, aber übereinstimmender Varianz
überprüft.
• Geg.: 2 konkrete Stichproben x1 , . . . , xn und y1 , . . . , ym (die Stichprobenumfänge können unterschiedlich sein).
• Vor.: Unabhängige normalverteilte Merkmalszufallsgrößen X und Y mit
unbekannten Erwartungswerten µX bzw. µY und unbekannter gleicher Varianz
σ 2 ; repräsentative Stichproben.
• Hyp.: H0 : µX = µY , H1 : µX 6= µY (zweiseitig) bzw.
H1 : µX < µY
oder H1 : µX > µY (einseitige Tests) .
• R-Aufruf:
t.test(x,y,var.equal=TRUE)
bei Datenvektoren x und y .
• Ausreißer in den Daten können Probleme bereiten.
128
Bsp. Zwei-Stichproben-t-Test
• Simulation unabhängiger normalverteilter Stichproben mit unterschiedlichen Erwartungswerten und Test auf Normalverteilung.
• > x=rnorm(30)
# N(0,1)
> y=rnorm(40,mean=1,sd=1)
# N(1,1)
> shapiro.test(x)
Shapiro-Wilk normality test
data: x
W = 0.9675, p-value = 0.4737
# >0.05/2, also Annahme
> shapiro.test(y)
Shapiro-Wilk normality test
data: y
W = 0.9741, p-value = 0.4809
# >0.05/2, also Annahme
• Test auf Gleichheit der Varianzen und Zwei-Stichproben-t-Test.
• > var.test(x,y)
F test to compare two variances
data: x and y
F = 1.1876, num df = 29, denom df = 39, p-value = 0.6094
# >0.05
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.6053333 2.4139626
sample estimates:
ratio of variances
1.187585
• > t.test(x,y,var.equal=TRUE)
Two Sample t-test
data: x and y
t = -4.1266, df = 68, p-value = 0.0001026
129
# Ablehnung
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-1.5405127 -0.5362612
sample estimates:
mean of x
mean of y
-0.05803432 0.98035260
g) Welchs-t-Test
• Mit Welchs-t-Test wird die Gleichheit der Erwartungswerte zweier normalverteilter Merkmale mit unbekannten Varianzen überprüft.
• Geg.: 2 konkrete Stichproben x1 , . . . , xn und y1 , . . . , ym (die Stichprobenumfänge können unterschiedlich sein).
• Vor.: Unabhängige normalverteilte Merkmalszufallsgrößen X und Y mit
unbekannten Erwartungswerten µX bzw. µY und unbekannten Varianzen σX2
bzw. σY2 ; repräsentative Stichproben.
• Hyp.: H0 : µX = µY , H1 : µX 6= µY (zweiseitig) bzw.
H1 : µX < µY
oder H1 : µX > µY (einseitige Tests) .
• R-Aufruf: t.test(x,y) oder t.test(x,y,var.equal=FALSE)
vektoren x und y .
bei Daten-
• Ausreißer in den Daten können Probleme bereiten.
• Der Test ist ein asymptotischer Test.
Bsp. Welchs-t-Test
• Simulation unabhängiger normalverteilter Stichproben mit unterschiedlichen Erwartungswerten und Varianzen und Test auf Normalverteilung.
• > x=rnorm(30)
# N(0,1)
> y=rnorm(40,mean=1,sd=0.5)
# N(1,0.25)
> shapiro.test(x)
Shapiro-Wilk normality test
data: x
W = 0.9627, p-value = 0.3625
# >0.05/2, also Annahme
> shapiro.test(y)
130
Shapiro-Wilk normality test
data: y
W = 0.9774, p-value = 0.5923
# >0.05/2, also Annahme
• Test auf Gleichheit der Varianzen und (da Ablehnung) Welchs-t-Test.
• > var.test(x,y)
F test to compare two variances
data: x and y
F = 4.7789, num df = 29, denom df = 39, p-value = 8.677e-06
Ablehnung
#
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
2.435876 9.713844
sample estimates:
ratio of variances
4.778869
• > t.test(x,y)
# oder t.test(x,y,var.equal=FALSE)
Welch Two Sample t-test
data: x and y
t = -4.9802, df = 38.119, p-value = 1.402e-05
# Ablehnung
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-1.4450751 -0.6098604
sample estimates:
mean of x
mean of y
0.03109383 1.05856155
131
h) Einfache Varianzanalyse (ANOVA)
• Die einfache Varianzanalyse (ANOVA, von ”analysis of variance”) dient zum Test
auf Gleichheit der Erwartungswerte mehrerer unabhängiger normalverteilter Merkmale.
• Geg.: k Stichproben x11 , . . . , x1n1 usw. bis xk1 , . . . , xknk (die Stichprobenumfänge können unterschiedlich sein).
• Vor.: Die Zufallsgrößen Xi , i = 1, . . . , k, sind unabhängig und normalverteilt
mit Erwartungswerten µi jeweils und Varianz σ 2 (unbekannt, aber übereinstimmend); repräsentative Stichproben.
• Hyp.:
H0 : µ1 = . . . = µk ,
• R-Aufruf:
H1 : µi 6= µj für mindestens ein Paar (i, j) .
anova() .
• Der p−Wert kann unter Pr(>F) abgelesen werden.
• Ausreißer in den Daten können Probleme bereiten.
• Einseitige Tests sind hier nicht möglich.
Bsp. Einfache Varianzanalyse
• Wir wenden die einfache Varianzanalyse auf die Breite des Kelchblattes (”Sepal.Width”) des Iris-Beispieldatensatzes an. Dabei erhält man 3 unabhängige Stichproben, wenn man dieses Merkmal jeweils für eine der 3 untersuchten Arten beobachtet.
• > data(iris)
# Laden, dann Tests auf Normalverteilung
> shapiro.test(iris$Sepal.Width[1:50])
Shapiro-Wilk normality test
data: iris$Sepal.Width[1:50]
W = 0.9717, p-value = 0.2715
# >0.05/3, Annahme
> shapiro.test(iris$Sepal.Width[51:100])
Shapiro-Wilk normality test
data: iris$Sepal.Width[51:100]
W = 0.9741, p-value = 0.338
# >0.05/3, Annahme
> shapiro.test(iris$Sepal.Width[101:150])
Shapiro-Wilk normality test
132
data: iris$Sepal.Width[101:150]
W = 0.9674, p-value = 0.1809
# >0.05/3, Annahme
• Test auf Gleichheit der Varianzen .
• > bartlett.test(Sepal.Width˜Species,data=iris)
Bartlett test of homogeneity of variances
data: Sepal.Width by Species
Bartlett’s K-squared = 2.0911, df = 2, p-value = 0.3515
# Annahme
• ANOVA.
• > anova(lm(Sepal.Width˜Species,data=iris))
Analysis of Variance Table
Response: Sepal.Width
Df Sum Sq Mean Sq F value
Pr(>F)
Species
2 11.345 5.6725
49.16 < 2.2e-16 ***
Residuals 147 16.962 0.1154
--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
• Bemerkung: Im anova-Aufruf steht lm() für ”linear model”.
Parallele Box-Plots zum Anwendungsbeispiel
> boxplot(Sepal.Width˜Species,data=iris,notch=TRUE)
133
4.0
3.5
3.0
2.5
2.0
●
setosa
versicolor
virginica
.
i) Wilcoxon-Rang-Summen-Test
• Mit dem Wilcoxon-Rang-Summen-Test vergleicht man die Lageparameter zweier
Merkmale mit stetiger Verteilung miteinander.
• Geg.: 2 konkrete Stichproben x1 , . . . , xn und y1 , . . . , ym (die Stichprobenumfänge können unterschiedlich sein).
• Vor.: unabhängige stetig verteilte Zufallsgrößen X und Y mit Verteilungsfunktionen FX (x) und FY (x) = FX (x + c) , x ∈ R ; repräsentative Stichproben.
• Hyp.:
H0 : c = 0 , d.h. FX (x) = FY (x) für alle x ∈ R ,
H1 : c 6= 0 , d.h. FX (x) = FY (x − c) für alle x ∈ R .
• R-Aufruf:
bei Datenvektoren x und y .
wilcox.test(x,y)
• Wird die Nullhypothese abgelehnt, kann man auf unterschiedliche Lageparameter
schließen. Auch einseitige Tests sind möglich.
• Dieser Test ist ein rangbasierter Test. Bindungen können problematisch sein.
Bsp. Wilcoxon-Rang-Summen-Test
• Simulation unabhängiger exponentialverteilter Beobachtungswerte mit unterschiedlichen Erwartungswerten (Medianen,. . . ), dann Test auf Normalverteilung.
134
• > x=rexp(30)
> y=1+rexp(40)
> shapiro.test(x)
Shapiro-Wilk normality test
data: x
W = 0.7289, p-value = 4.223e-06
# keine Normalverteilung
• Wilcoxon-Rang-Summen-Test.
•
> wilcox.test(x,y)
Wilcoxon rank sum test
data: x and y
W = 66, p-value = 5.848e-13
# Ablehnung
alternative hypothesis: true location shift is not equal to 0
j) Kruskal-Wallis-Test
• Der Kruskal-Wallis-Test dient zum Vergleich der Lage mehrerer stetiger Merkmale, er verallgemeinert den Wilcoxon-Rang- Summen-Test.
• Geg.: k Stichproben x11 , . . . , x1n1 usw. bis xk1 , . . . , xknk .
• Vor.: Die Zufallsgrößen Xi , i = 1, . . . , k, sind unabhängig und stetig verteilt mit
Verteilungsfunktionen Fi jeweils, so dass gilt Fi (x) = Fj (x + cij ) für alle x ∈ R
mit Konstanten cij ∈ R ; repräsentative Stichproben.
• Hyp.:
H0 : cij = 0 für alle i 6= j ,
H1 : cij 6= 0 für mindestens ein Paar (i, j) .
• R-Aufruf:
kruskal.test() .
• Dieser Test ist ein rangbasierter Test. Bindungen können problematisch sein.
Bsp. Kruskal-Wallis-Test
• Simulation exponentialverteilter Stichproben (unterschiedliche Varianzen) und Test
auf Normalverteilung, um die ANOVA auszuschließen.
• > x1=rexp(30)
> x2=rexp(40)
> x3=1+rexp(50)
135
> shapiro.test(x1)
Shapiro-Wilk normality test
data: x1
W = 0.8759, p-value = 0.00227
# <0.05/3, also Ablehnung
• Kruskal-Wallis-Test.
• > kruskal.test(list(x1,x2,x3))
Kruskal-Wallis rank sum test
data: list(x1, x2, x3)
Kruskal-Wallis chi-squared = 24.3531, df = 2, p-value = 5.15e-06
5.1.4
Weitere ausgewählte statistische Tests
a) Binomialtest
• Der Binomialtest ist ein Test für die Erfolgswahrscheinlichkeit (den Parameter p)
einer Bernoulli-verteilten Zufallsgröße (und damit einer diskreten Zufallsgröße).
• Geg.: Anzahl k der „Erfolge“ in einer konkreten Stichprobe vom Umfang n .
• Vor.: Die Merkmalszufallsgröße X ist Bernoulli-verteilt mit unbekanntem Parameter p ; eine repräsentative Stichprobe liegt zugrunde.
• Hyp.:
H0 : p = p0 (p0 ist ein vorgebener Wert für die Erfolgswahrscheinlichkeit),
H1 : p 6= p0 (zweiseitig) bzw. H1 : p < p0 oder H1 : p > p0 (einseitig) .
• R-Aufruf:
binom.test(k,n,p0 )
Bsp. Binomialtest
• In einer Stichprobe von 100 Erzeugnissen wurden bei der Qualitätskontrolle 6
Ausschussteile gefunden. Kann man in dieser Situation von einer maximalen Sollausschussquote von 5% ausgehen oder muss man von einer größeren ausgehen ?
• > binom.test(6,100,0.05,alternative="greater")
Exact binomial test
data: 6 and 100
number of successes = 6, number of trials = 100, p-value = 0.384
136
alternative hypothesis: true probability of success is greater than 0.05
95 percent confidence interval:
0.02644971 1.00000000
sample estimates:
probability of success
0.06
• Keine Ablehnung (Annahme) von H0 : p = 0.05 , d.h. die Ausschussquote ist nicht
signifikant größer als 5% .
5.1.5
b) Korrelations- und Abhängigkeitstests
• Zwei weitere wichtige Gruppen von Tests sind die Korrelations- und Abhängigkeitstests.
• Für mehrdimensional normalverteilte Daten kann man den Pearson-Korrelationstest
nutzen, um den Vorgabewert %0 = 0 für den gewöhnlichen Korrelationskoeffizienten zu überprüfen. Wird die Hypothese H0 : Corr (X, Y ) = 0 abgelehnt, werden
die normalverteilten Merkmale X und Y nicht als unabhängig angesehen.
• Für nichtnormalverteilte Zufallsvektoren kann man mit dem Spearman-Korrelationstest
(S)
den Vorgabewert 0 für den Spearmanschen Rangkorrelationskoeffizienten rX,Y
und damit die Unabhängigkeit der Merkmale überprüfen.
• Die Unabhängigkeit zweier kategorieller Merkmale überprüft man mit dem χ2 Unabhängigkeitstest oder mit Fishers exaktem Test, falls dichotome Merkmale
vorliegen.
5.1.6
c) Pearson-Korrelationstest
• Mit dem Pearson-Korrelationstest überprüft man, ob der (gewöhnliche oder
Pearson-) Korrelationskoeffizient Corr (X, Y ) = ρ(X,Y ) eines normalverteilten
Zufallsvektors (X, Y ) Null ist (dann sind die Komponenten X und Y auch
stochastisch unabhängige Zufallsgrößen).
• Geg.: konkrete Stichprobe (x1 , y1 ), . . . , (xn , yn ) .
• Vor.: Der Zufallsvektor (X, Y ) hat eine zweidimensionale Normalverteilung mit
unbekannten Parametern; repräsentative Stichprobe.
• Hyp.:
H0 : Corr (X, Y ) = 0 , H1 : Corr (X, Y ) =
6 0 (zweiseitig)
Corr (X, Y ) < 0 oder H1 : Corr (X, Y ) > 0 (einseitig).
• R-Aufruf:
cor.test(x,y)
(bei Datenvektoren x und y) .
• Ausreißer in den Daten können Probleme bereiten.
137
bzw. H1 :
5.1.7
Bsp- Pearson-Korrelationstest
• > x=rnorm(50)
# Simulation N(0,1)
> y=rnorm(50)
# Simulation N(0,1)
> shapiro.test(x)
# Test auf Normalverteilung X
Shapiro-Wilk normality test
data: x
W = 0.9793, p-value = 0.5208
# >0.05/2, Annahme
> shapiro.test(y)
# Test auf Normalverteilung X
Shapiro-Wilk normality test
data: y
W = 0.9613, p-value = 0.1008
# >0.05/2, Annahme
> cor.test(x,y)
Pearson’s product-moment correlation
data: x and y
t = 1.1609, df = 48, p-value = 0.2514
# Annahme
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.1185480 0.4240931
sample estimates:
cor
0.1652527
• Der Zufallsvektor (X + Y, Y ) ist, falls X und Y unabhängige standardnormalverteilte Zufallsgrößen sind, wieder ein normalverteilter Zufallsvektor, der
Korrelationskoeffizient zwischen X + Y und Y ist jetzt positiv.
• > shapiro.test(x+y)
# Test auf Normalverteilung X+Y
Shapiro-Wilk normality test
data: x + y
W = 0.9832, p-value = 0.6909
# >0.05/2, Annahme
> cor.test(x+y,y,alternative="greater")
138
Pearson’s product-moment correlation
data: x + y and y
t = 7.8807, df = 48, p-value = 1.668e-10
# Ablehnung
alternative hypothesis: true correlation is greater than 0
95 percent confidence interval:
0.6263595 1.0000000
sample estimates:
cor
0.7510368
d) Spearman-Korrelationstest
• Mit dem Spearman-Korrelationstest überprüft man, ob der Spearmansche Rangkorrelationskoeffizient %(S) (X, Y ) eines Zufallsvektors (X, Y ) Null ist. Wird
diese Hypothese nicht angenommen, werden die Komponenten X und Y als
stochastisch abhängige Zufallsgrößen angesehen.
• Geg.: konkrete Stichprobe (x1 , y1 ), . . . , (xn , yn ) .
• Vor.: Der Zufallsvektor (X, Y ) hat eine zweidimensionale stetige Verteilung;
repräsentative Stichprobe.
• Hyp.:
H0 : %(S) (X, Y ) = 0 , H1 : %(S) (X, Y ) 6= 0 (zweiseitig)
0 oder H1 : %(S) (X, Y ) > 0 (einseitig).
• R-Aufruf:
y) .
cor.test(x,y,method="spearman")
bzw. H1 : %(S) (X, Y ) <
(bei Datenvektoren x und
• Bindungen können problematisch sein.
Bsp. Spearman-Korrelationstest
> x=rlnorm(50)
> y=rlnorm(50)
> shapiro.test(x)
# Simulation lognormale Werte
# unabhängige lognormale Werte
# Test auf Normalverteilung
Shapiro-Wilk normality test
data: x
W = 0.7636, p-value = 1.396e-07
# <0.05/2, Ablehnung
> cor.test(x,y,method="spearman")
Spearman’s rank correlation rho
139
data: x and y
S = 21748, p-value = 0.7593
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
-0.04432173
# Annahme
e) χ2 -Test auf Unabhängigkeit in Kontingenztafeln
• Der χ2 -Test auf Unabhängigkeit in Kontingenztafeln oder χ2 -Unabhängigkeitstest
testet auf Unabhängigkeit zweier kategorieller Merkmale.
• Geg.: konkrete Stichprobe (x1 , y1 ), . . . , (xn , yn ) oder Kontingenztafel, d.h. Tabelle mit den Häufigkeiten der Wertekombinationen in der Stichprobe.
• Vor.: kategorielle Merkmale X und Y ; repräsentative Stichprobe.
• Hyp.:
H0 : X und Y sind stochastisch unabhängig;
H1 : X und Y sind stochastisch abhängig.
• R-Aufruf: chisq.test(x,y) oder chisq.test(table(x,y))
vektoren x und y) .
(bei Daten-
• Der Test ist ein asymptotischer Test. Die theoretischen Häufigkeiten von Merkmalskombinationen sollten unter H0 möglichst den Wert 5 nicht unterschreiten.
Bsp. χ2 -Test auf Unabhängigkeit in Kontingenztafeln
> x=sample(c("a","b","c"),200,TRUE,c(0.2,0.2,0.6))
> y=sample(c("u","v","w"),200,TRUE,c(0.5,0.2,0.3))
> table(x,y)
y
x
u v w
a 20 6 10
b 17 9 14
c 60 22 42
> chisq.test(table(x,y))
Pearson’s Chi-squared test
data: table(x, y)
X-squared = 1.4911, df = 4, p-value = 0.8282
> chisq.test(x,y)
# Annahme
# andere Form des Aufrufes
Pearson’s Chi-squared test
140
data: table(x, y)
X-squared = 1.4911, df = 4, p-value = 0.8282
f ) Fishers exakter Test
• Mit Fishers exaktem Test prüft man die Unabhängigkeit zweier dichotomer Merkmale.
• Geg.: konkrete Stichprobe (x1 , y1 ), . . . , (xn , yn ) oder 2 × 2−Kontingenztafel,
d.h. Tabelle (mit 2 Datenzeilen und -spalten) mit den Häufigkeiten der Wertekombinationen in der Stichprobe (auch „Vierfeldertafel“ genannt).
• Vor.: Dichotome Merkmale X und Y
repräsentative Stichprobe.
(nur zwei mögliche Werte jeweils);
• Hyp.:
H0 : X und Y sind stochastisch unabhängig;
H1 : X und Y sind stochastisch abhängig.
• R-Aufruf: fisher.test(x,y) oder fisher.test(table(x,y))
tenvektoren x und y) .
(bei Da-
Bsp. Fishers exakter Test
> x=sample(c("a","b"),40,TRUE,c(0.3,0.7))
> y=sample(c("u","v"),40,TRUE,c(0.8,0.2))
> table(x,y)
y
x
u v
a 10 1
b 20 9
> fisher.test(x,y)
Fisher’s Exact Test for Count Data
data: x and y
p-value = 0.2328
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.4776787 216.3972840
sample estimates:
odds ratio
4.364414
# identische Ausgabe bei Aufruf
> fisher.test(table(x,y))
141
# Annahme
5.1.8
Weitere Bemerkungen zu Tests
• Statistische Tests, bei denen die Testgrößen mit Hilfe von X oder/und S 2 berechnet werden (dies sind z.B. oft Tests mit Normalverteilungsvoraussetzung), haben
oft Probleme, wenn bei größerem Stichprobenumfang Ausreißer in den Daten zu
finden sind. Gibt es nicht zu viele Ausreißer und liegen diese nicht weit von den
Ausreißergrenzen entfernt, kann man aber häufig noch mit diesen Tests arbeiten.
• Analog verfälschen Bindungen (die z.B. durch Rundung der Realisierungen stetiger Zufallsgrößen entstehen) die Ergebnisse von rangbasierten Tests. Für eine
Reihe von Tests gibt es deshalb zu berücksichtigende Korrekturterme, um trotzdem zuverlässige Resultate zu erzielen.
• Ist bei einem einseitigen Test der p−Wert größer als 0.5, sollte man noch einmal
alles genau überprüfen, oft hat sich dann ein Fehler eingeschlichen bzw. Ausreißer
verfälschen die Ergebnisse (oder das Testergebnis ist trivial).
Homoskedastizität und Heteroskedastizität
• Bei einigen statistischen Tests und Modellen wird überprüft (siehe F −Test, Bartlettoder Fligner-Test) bzw. vorausgesetzt oder verlangt (siehe Zwei-Stichproben-tTest oder ANOVA), dass die Varianzen beteiligter Zufallsgrößen übereinstimmen.
Dieses nennt man auch Homoskedastizität oder Varianzhomogenität.
• Im Falle unterschiedlicher Varianzen der relevanten Zufallsgrößen spricht man dagegen auch von Heteroskedastizität oder Varianzheterogenität bzw. Varianzinhomogenität.
142
143
Herunterladen