Mathematik III Wahrscheinlichkeit und Statistik

Werbung
Skript zur Vorlesung
Mathematik III
Wahrscheinlichkeit und Statistik
Sommersemester 2004
BA-Mannheim
Kurs: tit02agr
E-mail: [email protected]
Stand: 02.06.2004
Dozent
Dr. Torsten-Karl Strempel
E-mail
Internet
[email protected]
www.strempels.de/ba-mannheim
Mein besonderer Dank gilt
Dr. Holger Grothe, Dr. Stefan Rettig und Dr. Michael Meßollen!
Wesentliche Teile dieser Unterlagen wurden von Ihnen erarbeitet und mir freundlicherweise zur Verfügung gestellt.
WAHRSCHEINLICHKEIT UND STATISTIK
Inhaltsverzeichnis
1 Einleitung
1
1.1
Was ist Statistik? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Warum machen Sie Statistik? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.3
Definitionen und Schreibweisen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.3.1
Vektoren und Maße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
Darstellung von Ergebnissen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.4.1
Runden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.4.2
Zeichnungen
4
1.4
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Beschreibende Statistik
5
2.1
Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.2
Stichprobe / Meßreihe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.3
Allgemeine Darstellungsformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.4
Graphische Darstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
2.4.1
Stabdiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
2.4.2
Empirische Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.4.3
Histogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.5.1
Arithmetisches Mittel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.5.2
Median . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2.5.3
Modalwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
2.5.4
Weitere Mittelwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
2.5.5
Spannweite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.5.6
Empirische Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
2.5.7
Empirische Streuung oder empirische Standardabweichung . . . . . . . . . . . .
16
2.5
Seite 2
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
2.5.8
Gewichtete Zusammenfassung von Varianz und Empirischer Streuung . . . . .
17
2.5.9
Durchschnittliche Mittelwertabweichung . . . . . . . . . . . . . . . . . . . . . .
17
2.5.10 Durchschnittliche Medianabweichung . . . . . . . . . . . . . . . . . . . . . . . .
17
2.5.11 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
2.5.12 Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
Robustheit von Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
2.6.1
α-gestutztes Mittel: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
2.6.2
α-windsorisiertes Mittel: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
Zweidimensionale Meßreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
2.7.1
Maßzahlen für zweidimensionale Meßreihen . . . . . . . . . . . . . . . . . . . .
22
2.7.2
Empirische Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
2.7.3
Empirischer Korrelationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . .
23
2.7.4
Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
2.8
Ergänzungen zur Linearen Regression . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
2.9
Regression höheren Grades — Least Sqares Fits (LSQ) . . . . . . . . . . . . . . . . . .
32
2.6
2.7
3 Wahrscheinlichkeitstheorie
3.1
Zufallsexperiment und Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . .
34
3.1.1
Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
Ergebnis und Ergebnismenge . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
Ereignis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
Zusammengesetzte Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
Axiomensystem von Kolmogoroff . . . . . . . . . . . . . . . . . . . . . . . . . .
35
Rechenregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
Laplace – Annahme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
Paradoxa der Wahrscheinlichkeitstheorie . . . . . . . . . . . . . . . . . . . . . .
39
Grundlagen der Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
3.1.3
Das Pascalsche Dreieck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
3.1.4
Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
Bedingte Wahrscheinlichkeiten und Unabhängigkeit . . . . . . . . . . . . . . . . . . . .
43
3.2.1
Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
Bedingte Wahrscheinlichkeit von A unter B . . . . . . . . . . . . . . . . . . . .
45
3.1.2
3.2
33
Regel von der vollständigen Wahrscheinlichkeit . . . . . . . . . . . . . . . . . .
45
Formel von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
Multiplikationsformel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
Pfadregel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
Unabhängigkeit von Ereignissen
. . . . . . . . . . . . . . . . . . . . . . . . . .
50
Zufallsvariable und Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . .
52
3.3.1
Diskret verteilte Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
Geometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
Poisson–Verteilung und Poissonscher Grenzwertsatz . . . . . . . . . . . . . . .
59
Stetig verteilte Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
Rechteckverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
Weilbullverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
Erwartungswert, Varianz und weitere Kennzahlen . . . . . . . . . . . . . . . . . . . . .
69
3.4.1
Erwartungswert einer diskret verteilten Zufallsvariable . . . . . . . . . . . . . .
69
3.4.2
Erwartungswert einer stetig verteilten Zufallsvariable . . . . . . . . . . . . . . .
71
3.4.3
Varianz einer Zufallsvariable
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
3.4.4
Rechenregeln für Erwartungswerte . . . . . . . . . . . . . . . . . . . . . . . . .
75
3.4.5
Tschebyscheffsche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
3.4.6
Summen von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
3.4.7
Weitere Kennzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
3.2.2
3.3
3.3.2
3.4
3.5
4 Schließende Statistik
4.1
85
Empirische Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
4.1.1
Zentralsatz der Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
4.1.2
Wahrscheinlichkeitspapier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
4.1.3
Kolmogoroff–Smirnov–Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
WAHRSCHEINLICHKEIT UND STATISTIK
5 Simulation und Erzeugung von Zufallszahlen
94
5.1
Erzeugung von Zufallszahlen mit dem Computer . . . . . . . . . . . . . . . . . . . . .
94
5.2
Prüfung der Gleichverteilung von Zufallszahlen . . . . . . . . . . . . . . . . . . . . . .
94
5.3
Praxisbeispiel - Geografische Verteilung von Anrufen . . . . . . . . . . . . . . . . . . .
94
5.4
Statistik-Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
94
5.4.1
MicroSoft Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
95
Web-Adressen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
95
5.5
A Verteilungsfunktion Φ(x) der N(0,1)–Verteilung
96
Literatur
97
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite i
WAHRSCHEINLICHKEIT UND STATISTIK
Kapitel 1
Einleitung
1.1
Was ist Statistik?
Z.B. www.net-lexikon.de
Statistik, eine angewandte Disziplin der Mathematik,
ist die Analyse & Interpretation von Daten
mit Mitteln der Wahrscheinlichkeitstheorie.
Sie beschäftigt sich mit
• Versuchsplanung / Erhebungsvorbereitung (Erhebungskonzept, Fragebogenentwicklung,
Stichprobenziehung),
• Datengewinnung / Erhebung (von Stichproben) / Nutzung von Betriebsdaten,
• Aufbereitung (Datenprüfungen, Typisierungen / Merkmalszusammenfassungen / Reduktion),
• Auswertung (Tabellierung, Modellierung, Hoch- und Fehlerrechnung, Wahrscheinlichkeit, Fehler 1. und 2. Art, Schätzen und Testen) sowie
• Ergebnispräsentation (Tabellen, Grafiken, Ergebnisinterpretation).
Methoden der beschreibenden Statistik (deskriptive Statistik) verdichten quantitative Daten zu
Tabellen, graphischen Darstellungen und Kennzahlen. Umgangssprachlich werden auch die Ergebnisse
der deskriptiven Statistik als Statistik bezeichnet: Bevlkerungsstatistik, Unfallstatistik, Handelsstatistik.
Methoden der schließenden Statistik liefern Werkzeuge zum Umgang mit Unsicherheit, die auf unvollständiger Information beruht, wie sie typischerweise nach der Erhebung einer Stichprobe vorliegt.
Die verwendeten Verfahren haben einen deutlichen Bezug zur Stochastik.
Whrend sich die univariate Statistik mit der Beschreibung der Verteilung eines Untersuchungsmerkmals beschäftigt, wird in der multivariaten Statistik die gemeinsame Verteilung von mehreren
Untersuchungsmerkmalen betrachtet.
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 1
WAHRSCHEINLICHKEIT UND STATISTIK
1.2
Warum machen Sie Statistik?
• Grundlage (informations-)technischer Verfahren
• Beurteilung der Aussagekraft von Ergebnissen
• Berücksichtigung realer“ Einflüsse
”
• Planung wirkungvoller Simulationen
Statistische Aussagen sollten immer kritisch betrachtet werden!
oder Traue nie einer Statistik, die Du nicht selbst gefälscht hast ...“
”
• So lügt man mit Statistik Krämer, W. 4. Auflage, Campus 1992
• Denkste ! — Trugschlüsse aus der Welt des Zufalls und der Zahlen Krämer, W. Campus 1995.
1.3
Definitionen und Schreibweisen
Das Script hält sich an gängige Mathematische Konventionen und verwendet gängige Schreibweisen.
Es kann allerdings im Einzelfall sein, dass eine Definition oder Schreibweise von anderen Autoren,
Software oder Taschenrechnern anders benutzt wird.
Im Einzelfall wird hierauf im Script hingewiesen. In den Übungen und der Klausur sind aber immer
die im Script verwendeten Definitionen anzuwenden (z.B. Berechnung der Varianz).
Die grundsätzlichen mathematischen Schreibweisen werden hier vorausgesetzt und nur im Einzelfall
zur Sicherheit aufgeführt.
Intervalle
Zur Darstellung von Intervallen gibt es verschiedene Schreibweisen. Im Script verwenden wir die nachfolgende:
• [a, b] geschlossenes Intervall, dass die Unter- und die Obergrenze mit einbezieht.
• (a, b] halboffenes Intervall, dass nur die Obergrenze mit einbezieht.
• [a, b) halboffenes Intervall, dass nur die Untergrenze mit einbezieht.
• (a, b) offenes Intervall, dass die Unter- und die Obergrenze nicht mit einbezieht.
(a, b) wird z.B. auch als ]a, b[ geschrieben usw..
Seite 2
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
1.3.1
Vektoren und Maße
Möchte man Messreihen vergleichen, so kann man verschiedene Maße definieren. Geht man zunächst
davon aus, dass die Messreihen {x1 , . . . , xn } und {y1 , . . . , yn } die gleiche Anzahl von Messwerten (n)
enthalten, dann kann man die Summe der paarweisen Abstände als Kriterium definieren.
Fasst man die Messreihen als Punkte in einem n-dimensionalen Vektorraum Rn, dann ist der Abstand gerade die Länge des Verbindungsvektors xy.
~ Diese Länge kann man in verschiedenen Normen
betrachten.
Definition 1.1 Ein Maß k~x, ~y k heißt Norm, wenn gilt:
a)
b)
c)
positiv definit
symmetrisch
Dreiecksungleichung
k~x, ~y k ≥ 0
k~x, ~y k = k~y , ~xk
k~x, ~y k + k~y , ~zk ≥ k~x, ~zk
Definition 1.2 p-Norm
v
u n
uX
p
kxyk
~ p=t
|xi − yi |p
i=1
a) 2-Norm (Euklidischer Abstand)
v
u n
uX
2
kxyk
~ 2 = |xy|
~ =t
(xi − yi )2
i=1
a) 1-Norm (Betragssumme, Taxinorm)
kxyk
~ 1=
n
X
i=1
|xi − yi |
a) unendlich-Norm (Maximaler Abstand in einer Komponente)
kxyk
~ ∞ = max |xi − yi |
i=1···n
Normierung des Abstandes bzgl. der Dimension / der Anzahl der Messwerte
Skalarprodukt und Winkel
Bei Unterschiedlicher Anzahl von Messwerten Fitten einer Theoretischen Kurve und Bestimmung der
Parameter (z.B. a,b).
Dann Vergleich der Parameter-Vektoren mit den oben definierten Normen
1.4
Darstellung von Ergebnissen
Ergebnisse sind hervorzuheben und in geschlossener Form darzustellen, z.B.: - Geradengleichung hinschreiben nicht y=ax+b, a=1,12, b=2,23 - a¿b weil ...
ggf. Doppelt unterstreichen oder einen Kasten drumrum.
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 3
WAHRSCHEINLICHKEIT UND STATISTIK
1.4.1
Runden
Ergebnisse sind immer in Dezimalschreibweise anzugeben, es sei denn, in der Aufgabe wird es anders
gefordert.
Bei der Beschreibung von Messreihen macht eine Angabe mit der Genauigkeit der Rechner keinen
Sinn! Als Faustformel sollten die Ergebnisse immer auf eine Stelle mehr gerundet werden, als die
Messwerte haben.
Um diese Genauigkeit zu erhalten, müssen die Zwischenschritte natürlich mit höherer Genauigkeit
durchgeführt werden. D.h. erst zum Schluss runden!
1.4.2
Zeichnungen
Zeichnungen müssen mit Lineal und dünnen Stiften angefertigt werden.
Skalierungen und Achsenabschnitte sind so zu wählen, dass der betrachtete Auschnitt des Koordinatensystems möglicht unverzerrt und in ausreichender Größe dargestellt wird.
Seite 4
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
Kapitel 2
Beschreibende Statistik
Die deskriptive Statistik oder auch beschreibende Statistik dient dazu, Daten unter bestimmten Aspekten zu beschreiben und die in den Daten vorliegenden Informationen auf ihren - für eine
gegebene Fragestellung - wesentlichen Kern zu reduzieren. Die wichtigsten Verfahren der deskriptiven
Statistik sind Gegenstand dieses Kapitels.
Zunächst werden einige für die deskriptive Statistik grundlegende Begriffe eingeführt und an Beispielen
erläutert.
Definition 2.1 Unter einer Menge M verstehen wir eine Gesamtheit gleichartiger Individuen (oder
Objekte oder Ereignisse), an denen ein oder mehrere Merkmale beobachtet werden können. Jedes Individuum i heißt Element der Menge (i ∈ M ).
Bemerkung 2.2 Man bezeichnet o.g. Menge aus Definition 2.1 auch mit Beobachtungsmenge, die
Individuen auch mit Beobachtungseinheiten und die Merkmale mit Beobachtungsmerkmalen bzw.
Eigenschaften oder Sachverhalten.
Beispiel 2.3 Menge M

Element 1



 Element 2
..

.



Element n









charakterisierbar
durch eine Variable X
(Zufallsgröße)
Untersuchtes Merkmal
Beispiel 2.4 M1 : Schulklasse, bestehend aus n Schülern




Schüler 1 
x1 = 169 








 Schüler 2 


 x2 = 175 
Körperlänge
..
.
..




.

 (in cm)










Schüler n
xn = 160
Beispiel 2.5 M2 : n Würfe mit einem Würfel


Wurf 1 




 Wurf 2 

Augenzahl
..


.






Wurf n
Dr. Torsten-Karl Strempel

x1



 x2




xn

= 5 


= 2 
..

.



= 3
Stand: 02.06.2004
Seite 5
WAHRSCHEINLICHKEIT UND STATISTIK
Definition 2.6 Unter einer Zufallsgröße oder Zufallsvariablen X versteht man die Funktion
X = X(i), i = 1, 2, . . . , n, die für alle Elemente i ∈ M definiert ist und jedem Element i einen
Zahlenwert xi eindeutig zuordnet.
Definition 2.7 Eine Zufallsvariable X heißt stetig oder kontinuierlich, wenn sie jeden beliebigen
Wert eines bestimmten Intervalls annehmen kann. Man nennt X eine diskrete Zufallsvariable, wenn
sie nur endlich viele Werte oder abzählbar unendlich viele Werte der reellen Zahlengeraden annehmen
kann.
Beispiel 2.8 Die beiden Beispiele aus Beispiel 2.4 und Beispiel 2.5 lassen bereits o.g. zwei Typen von
Zufallsvariablen erkennen: die stetige Zufallsvariable (Beispiel 2.4) und die diskrete Zufallsvariable
(Beispiel 2.5).
2.1
Merkmale
Die Ergebnisse xi , die bei der Beobachtung eines Merkmals auftreten können, heißen Merkmalsausprägungen. Man unterscheidet vier verschiedene Merkmalsausprägungen der xi :
• qualitative Merkmale
z.B. Geschlecht, Familienstand, Religionszugehörigkeit, Wohnort
• Rangmerkmale
z.B. Grad des Interesses am technischen Fortschritt
• quantitativ–diskrete Merkmale
z.B. Anzahl defekter Stücke in einem Los, Augenzahl beim Würfeln
Merkmalsausprägungen entstehen in der Regel durch Zählen
• quantitativ–stetige Merkmale
z.B. Körperlänge, Temperatur, Druck, Spannung
Merkmalsausprägungen entstehen in der Regel durch Messen
Bemerkung 2.9 Im weiteren werden wir uns vornehmlich mit quantitativen Merkmalen befassen.
2.2
Stichprobe / Meßreihe
Definition 2.10 Die Menge aller gleichartigen Individuen (oder Objekte oder Ereignisse) bildet die
Grundgesamtheit G.
Entnimmt man dieser Menge G eine zufällige Auswahl von n Elementen, so erhält man eine Stichprobe.
Definition 2.11 Die für eine bestimmte Untersuchung zufallsmäßig aus G ausgewählten Individuen
(oder Objekte oder Ereignisse) bilden eine Stichprobe aus der Menge G.
Die Anzahl n der in der Stichprobe auftretenden Zahlenwerte der Zufallsvariablen X wird Umfang der
Stichprobe genannt.
Seite 6
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
Das wichtigste Ziel aller statistischen Untersuchungen besteht darin, von den besonderen Verhältnissen einer gerade vorliegenden Stichprobe zu allgemeinen Aussagen zu gelangen.
Definition 2.12 Die Menge der quantitativen Merkmalsausprägungen {xi } = {x1 , . . . , xn } der einzelnen Individuen i = 1 . . . n nennt man Meßreihe.
Erhebt man in einer Stichprobe von einer Grundgesamtheit gleichzeitig mehrere Merkmale (z.B.
Körpergröße, Gewicht, Alter, usw.), dann werden diese als mehrere eindimensionale Meßreihen betrachtet.
{X, Y, . . .} = {{x1 , . . . , xn }, {y1 , . . . , yn }, . . .}
Diese kann man dann sowohl getrennt beurteilen (Mittelwerte, Streuung, usw.) als auch Abhängigkeiten voneinander zu untersuchen (z.B. Korrelation Körpergröße-Gewicht, Alter-Ruhepuls, usw.):
(X, Y ) = {(x1 , y1 ), . . . , (xn , yn )}
2.3
Allgemeine Darstellungsformen
Die beschreibende Statistik verfolgt, wie eingangs schon erwähnt, lediglich das Ziel, die Untersuchungsergebnisse darzustellen. Dazu ist es nicht zweckmäßig und oft auch nicht möglich, alle Meßwerte oder
Beobachtungen im einzelnen mitzuteilen. Es gilt vielmehr, das Gefundene sinnvoll zusammenzufassen, um das Wesentliche klar und verständlich in komprimierter Form zum Ausdruck zu bringen. Die
statistische Beschreibung kann in drei verschiedenen Formen erfolgen:
• in Tabellen,
• als graphische Darstellung,
• mit charakteristischen Maßzahlen, z.B.: x̄(arithmetisches Mittel), s(Streuung).
Beispiel 2.13 Die Mathematikleistung von 34 Schülern einer Klasse sollen an Hand der Zensuren
beschrieben werden. Die einfachste Form ist es, für jeden Schüler die Note anzugeben:
Schüler (Nr.)
Zensur
1
3
2
2
3
4
...
...
34
1
Obige Darstellung bezeichnet man auch als Meßreihe oder Urliste. Abkürzend (und davon werden wir
in Zukunft häufig gebrauch machen) kann man eine Meßreihe auch darstellen als
3
2
4
...
1
Diese Form kann jedoch bei großen Meßreihen unübersichtlich sein. Deshalb kann die Meßreihe auch
komprimiert in Form einer Tabelle angegeben werden:
Zensur
1
2
3
4
5
Häufigkeit
3
12
15
3
1
Dr. Torsten-Karl Strempel
oder
Zensur
Häufigkeit
Stand: 02.06.2004
1
3
2
12
3
15
4
3
5
1
Seite 7
WAHRSCHEINLICHKEIT UND STATISTIK
Diese Darstellung trägt auch den Namen Häufigkeitsverteilung.
In dem angeführten Beispiel will der Untersuchende feststellen, wie eine Variable (die Mathematikzensur) in der Schulklasse verteilt ist. Einer solchen Fragestellung liegt eine monovariable Verteilung
zugrunde (auch eindimensionale, univariable oder univariate Verteilung genannt). Mit diesen werden
wir uns im nächsten Abschnitt intensiv beschäftigen.
Will man dagen den Zusammenhang zwischen zwei Variablen erfassen, dann handelt es sich um
bivariable (zweidimensionale oder bivariate) Verteilungen. Diese werden wir in Kapitel ?? behandeln.
Beispiel 2.14 Der Zusammenhang zwischen der Physik- und Mathematiknote die jeder Schüler aus
Beispiel 2.13 erhält, soll beschrieben werden.
Zensur
in
Mathematik
2.4
5
4
3
2
1
Zensur in Physik
1
2
3 4 5
1
2 1
4
9 2
2
9
1
2
1
4 14 10 4 2
1
3
15
12
3
34
Graphische Darstellungen
Auf Grund von Häufigkeitstabellen kann man gewisse Besonderheiten der Verteilung erkennen. Das
Verständniss solcher Tabellen setzt freilich voraus, daß der Leser Zahlbegriffe richtig in Mengenvorstellungen umsetzt. Bei wenigen, kleinen und ganzen Zahlen gelingt dies auch (meistens) mühelos. Bei
z.B. gebrochenen oder großen Zahlen ist die richtige Vorstellung der damit bezeichneten Menge oft
schwierig und kann dadurch leicht zu Misinterpretationen führen. Diese Nachteile werden durch die
graphische Darstellung vermieden.
Eine graphische Darstellung ist das geometrische Bild einer Menge von Daten oder eines mathematischen Zusammenhangs. Numerische Werte stehen in eindeutigem Zusammenhang mit Punkten,
Strecken, Flächen oder Körpern.
Bei einer Häufigkeitsverteilung wird die Häufigkeit eines Meßwerts durch eine Fläche repräsentiert.
Diese anschauliche Darstellungstechnik erspart dem Betrachter die Umsetzung von Zahlen in angemessene Mengenvorstellungen. Die graphische Darstellung unterscheidet sich von der Tabelle nur in
ihrer Form. Inhaltlich vermitteln beide dieselben Informationen. Die Art und Weise der Darstellung
hängt davon ab, welche Daten beschrieben werden sollen.
2.4.1
Stabdiagramm
Stabdiagramme finden Anwendung bei quantitativ–diskreten Merkmalen und zeigen die relative
Häufigkeit innerhalb der beobachteten Meßreihe.
Seite 8
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
Beispiel 2.15 Anzahl defekter Stücke in Losen aus jeweils 1000 gleichartigen Bauteilen. Gegeben sei
folgende Urliste:
3 1 0 0 2 2 0 5 4 7
0 1 6 9 0 4 2 1 0 2
n = 20
Die primäre Tafel (d.h. die Liste mit geordneten Größen) ist dann
0 0 0 0 0 0 1 1 1 2
2 2 2 3 4 4 5 6 7 9
n = 20
Daraus ergibt sich folgende Tabelle
Anzahl defekter Stücke
absolute Häufigkeit
relative Häufigkeit in %
0
6
30
1
3
15
2
4
20
3
1
5
4
2
10
5
1
5
6
1
5
7
1
5
8
0
0
9
1
5
Das zugehörige Stabdiagramm ist dann für die relative Häufigkeit in %:
40
30
s
relative
Häufigkeit 20
[%]
s
s
10
0
0
1
↑
|
|
h
|
|
↓
s
s
s
s
s
s
s
2
3
4
5
6
7
8
9
10
Anzahl defekter Stücke
Bemerkung 2.16 Die Darstellung einer Meßreihe durch ein Stabdiagramm ist bei quantitativ–
stetigen Merkmalen im allgemeinen nicht sinnvoll, da meist alle Werte x1 , ..., xn verschieden, d.h. alle
Stäbe hätten Höhe n1 .
(Denken Sie an die Körpergröße: spätestens wenn wir diese nicht in cm sondern in mm messen, dann
gibt es (sehr wahrscheinlich) nicht zwei aus Ihrer Gruppe, die eine identische Größe haben)
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 9
WAHRSCHEINLICHKEIT UND STATISTIK
2.4.2
Empirische Verteilungsfunktion
Definition 2.17 Für x ∈ R bezeichne G(x) die Anzahl der Werte in der Meßreihe, die kleiner oder
gleich der Zahl x sind. G(x) heißt Summenhäufigkeit und, falls n die Gesamtzahl der Meßwerte
bezeichnet,
H : R → [0, 1]
1
H(x) = · G(x)
n
relative Summenhäufigkeit an der Stelle x. Die dadurch definierte Funktion H : R → [0, 1] heißt
empirische Verteilungsfunktion. Es handelt sich dabei um eine Treppenfunktion, deren Sprungstellen die Werte der Meßreihe sind. Die jeweiligen Sprunghöhen sind die relativen Häufigkeiten der
Meßwerte in der Meßreihe.
Beispiel 2.18 Fortsetzung Beispiel 2.15
1.0
s
.... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... ..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
s
0.9
s
s
0.8
0.7
s
s
s
0.6
H(x) 0.5
s
0.4
0.3
0.2
0.1
0.0
s
↑
|
h
|
↓
empirische Verteilungsfunktion
0
1
2
3
4
5
6
7
8
9
10
Anzahl defekter Stücke
Bemerkung 2.19 Die empirische Verteilungsfunktion spielt eine entscheidende Rolle in der Schließenden Statistik. In der Verteilungsfunktion werden (in der Regel) keine Klassen gebildet!
Seite 10
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
2.4.3
Histogramm
Histogramme finden Anwendung bei quantitativen Merkmalen.
Dazu wird der Wertebereich der Meßwerte in k Klassen eingeteilt: (a0 , a1 ], (a1 , a2 ], . . . , (ak−1 , ak ].
Wir tragen Rechtecke über den einzelnen Klassen ab, wobei:
Breite eines Rechtecks = Klassenbreite
Höhe eines Rechtecks = relative Klassenhäufigkeit
Klassenbreite
Fazit: Die Fläche des Rechtecks entspricht der relativen Klassenhäufigkeit. Dazu ein Beispiel:
Beispiel 2.20 200 Nietkopfdurchmesser [mm] x1 , . . . , x200 , alle im Intervall
(14.10, 14.60] = (14.10, 14.15] ∪ (14.15, 14.20] ∪ . . . ∪ (14.55, 14.60]
|
{z
}
Klassen
Es ergab sich folgende Tabelle:
Nr.
1
2
3
4
5
6
7
8
9
10
Klasse
(14.10, 14.15]
(14.15, 14.20]
(14.20, 14.25]
(14.25, 14.30]
(14.30, 14.35]
(14.35, 14.40]
(14.40, 14.45]
(14.45, 14.50]
(14.50, 14.55]
(14.55, 14.60]
absolute
Klassenh.
2
4
12
23
39
42
36
24
12
6
200
relative
Klassenh.
0.010
0.020
0.060
0.115
0.195
0.210
0.180
0.120
0.060
0.030
1.000
relative Klassenhäufigkeit
Klassenbreite
0.2
0.4
1.2
2.3
3.9
4.2
3.6
2.4
1.2
0.6
20.0
Das zugehörige Histogramm ist dann
rel. Klassenhäufigkeit
Klassenbreite
5.0
4.0
3.0
2.0
1.0
0.0
14.1 14.2 14.3 14.4 14.5 14.6 14.7
Nietkopfdurchmesser
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 11
WAHRSCHEINLICHKEIT UND STATISTIK
Es gilt stets:
Histogrammfläche =
k
X
i=1
Klassenbreite ·
relative Klassenhäufigkeit
=1
Klassenbreite
Bemerkung 2.21 Nicht die Höhen, sondern die Flächen der Histogrammrechtecke charakterisieren
die relativen Klassenhäufigkeiten. Wichtig insbesondere bei nicht äquidistanten Klasseneinteilungen !
2.5
Maßzahlen
In dem Bemühen, eine Gesamtheit von Beobachtungen knapp zu charakterisieren, sucht man nach
Zahlenwerten, die alle Daten zu repräsentieren vermögen, so daß wir darauf verzichten können, diese
selbst mitzuteilen. Die beschreibende Statistik hat derartige Maßzahlen definiert.Sie lassen sich in zwei
große Gruppen gliedern:
a) Mittelwerte zur Kennzeichnung der Lage einer Verteilung auf der Abzissenachse und
b) Streuungswerte zur Kennzeichnung der Breite der Verteilung.
Die Streuungswerte haben die Aufgabe, die Variabilität des gemessenen Merkmals zu beschreiben.
Das ist wichtig, da selbst solche Verteilungen, die bezüglich ihres Mittelwerts völlig übereinstimmen,
stark voneinander abweichen können:
Bemerkung 2.22 Die Angabe einer Streuungsmaßzahl sollte immer in Bezug auf eine Lagemaßzahl
erfolgen.
Lagemaßzahlen
2.5.1
Arithmetisches Mittel
Definition 2.23 Das arithmetische Mittel x̄ (Durchschnittswert, Mittel, engl.: arithmetic mean,
arithmetic average) einer Meßreihe x1 , .., xn ist deren Summe geteilt durch ihre Anzahl:
n
x̄ =
x1 + x2 + x3 + · · · + xn
1X
=
xi
n
n
i=1
Bemerkung 2.24 x̄ ist im allgemeinen kein beobachteter Wert.
x
x4
x7
x1
x2
....
...
..
x5
x6
x3
-x
Eigenschaften des arithmetischen Mittels
1. Wird zu allen xi einer Meßreihe dieselbe Zahl addiert, so vergrößert sich auch das arithmetische
Mittel um diese Zahl. Dasselbe gilt für die Subtraktion.
Seite 12
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
2. Die Summe der Abweichungen aller Meßwerte von ihrem arithmetischen Mittel ist Null.
n
X
(xi − x̄) = 0.
(2.25)
i=1
Dieser Satz ist bei der Bestimmung von Streuungsmaßen sehr wichtig.
3. Die Summe der Quadrate der Abweichungen aller Meßwerte von ihrem Mittelwert
n
P
i=1
(xi − x̄)2
ist kleiner als die Summe der Quadrate der Abweichungen aller Meßwerte von einem beliebigen
n
P
anderen Wert der Verteilung
(xi − xk )2 .
i=1
Mit anderen Worten: Die Summe der Abweichungsquadrate (SAQ) ist für das arithmetische
Mittel ein Minimum.
2.5.2
Median
Definition 2.26 Der Median x̃ (Zentralwert, Stellungmittel, mittelster Wert, engl.: median) ist derjenige Wert einer geordneten Rangreihe x(1) ≤ x(2) ≤ x(3) ≤ · · · ≤ x(n) der Meßwerte, der die Reihe
halbiert, d.h.

für n ungerade
x n + 1!



2
x̃ =
„n«

x
für n gerade


2
Bemerkung 2.27
a) x̃ ist stets ein beobachteter Meßwert !
b) Mindestens 50% der Meßwerte sind ≤ x̃ und mindestens 50% der Meßwerte sind ≥ x̃.
Beispiel 2.28
n=7
x(1)
x(2) x(3)
x(1)
x(2) x(3)
x̃ = x(4)
x(5)
x(6)
x̃ = x(4)
x(5)
x(6)
x(7)
-x
n=8
x(7)
x(8)
-x
Bemerkung 2.29 Die Summe der absoluten Abweichungen aller Meßwerte xi von ihrem Median x̃
ist ein Minimum. Sie ist kleiner als die Summe der absoluten Abweichungen aller Meßwerte xi von
einem beliebigen anderen Wert xk , xk 6= x̃.
n
X
i=1
Dr. Torsten-Karl Strempel
|xi − x̃| <
n
X
i=1
|xi − xk |
Stand: 02.06.2004
, xk 6= x̃.
Seite 13
WAHRSCHEINLICHKEIT UND STATISTIK
Bemerkung 2.30
Achtung: Einige Programme und Taschenrechner definieren den Median für den Fall einer geraden
Anzahl von Messwerten als den Mittelwert von zwei Messwerten:


x̃ =
2.5.3
1 "

x n − 1 # + x" n + 1 # 
2
2
2
Modalwert
Definition 2.31 Der Modalwert x̃m ist der in einer Messreihe am häufigsten vorkommende Messwert.
Gibt es mehrere häufigste Messwerte in einer Messreihe, so unterscheidet man danach, ob diese in der
geordneten Messreihe benachbart sind oder nicht.
Im ersten Fall bildet man das arithmetische Mittel der benachbarten Modalwerte. Im zweiten Fall muss
man alle Modalwerte angeben und spricht, z.B. im Fall von 2 Werten von einer 2-gipfligen Verteilung.
2.5.4
Weitere Mittelwerte
Definition 2.32 Das geometrische Mittel x̄G (engl.: geometric mean) einer Meßreihe x1 , .., xn ist
die n-te Wurzel aus dem Produkt der Meßwerte:
√
x̄G = n x1 · x2 · x3 · · · xn
Das geometrische Mittel ist nur sinnvoll für Meßreihen, die nur Meßwerte xi > 0 enthalten. Es spielt für
multiplikativ verknüpfte Größen eine Rolle, z.B. um einen mittleren Zinssatz über eine Finanzierungsdauer zu berechnen. Zur Berechnung verwendet man allerdings zweckmäßiger Weise das arithmetische
Mittel der logarithmierten Werte, um Rundungsfehler aufgrund großer Zahlen zu vermeiden:
n
G
lg x̄
lg x1 + lg x2 + lg x3 + · · · + lg xn
1X
=
=
lg xi
n
n
i=1
Definition 2.33 Das harmonische Mittel x̄H (engl.: harmonic mean) einer Meßreihe x1 , .., xn ist
die Summe Ihrer Kehrwerte dividiert durch 1/n:
x̄H =
n
1
x1
+
1
x2
+
1
x3
··· +
1
xn
=
n
n
P
1
i=1
xi
Definition 2.34 Das gewichtete Mittel x̄g wird z.B. dazu verwendet die Mittelwerte x̄1 , .., x̄k verschiedener Messreihen zusammen zufassen, wenn diese eine unterschiedliche Anzahl von Messwerten
n1 , .., nk haben:
k
P
n i · xi
n1 · x̄1 + n2 · x̄2 + n3 · x̄3 · · · + nk · x̄k
x̄g =
= i=1
k
n1 + n2 + n3 + · · · + nk
P
ni
i=1
Seite 14
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
Streuungsmaßzahlen
-x
x
kleine Streuung: Lagemaßzahl hat hohe Aussagekraft
-x
x
große Streuung: Lagemaßzahl hat geringe Aussagekraft
2.5.5
Spannweite
Wir erhalten ersten Aufschluß über die Streuung der Meßwerte, indem wir die extremen Meßwerte
betrachten. Je stärker diese voneinander abweichen, desto größer ist offenbar die Streuung. Auf dieser
überlegung beruht die Definition der Spannweite (Variationsweite, engl.: range):
Definition 2.35 Die Spannweite d ist die Differenz zwischen dem größten und dem kleinsten Meßwert einer Verteilung.
d = xmax − xmin .
Beispiel 2.36 Gegeben sei eine geordneten Meßreihe x(1) ≤ x(2) ≤ x(3) ≤ · · · ≤ x(n) .
Dann ist d = xn − x1 .
←−−−−−−−−−−−−−−−−−−−−− d −−−−−−−−−−−−−−−−−−−−−→
x(1)
x(n)
-x
Besser als die Spannweite kennzeichnen diejenigen Maßzahlen die Streuung, die den Abstand jeder
einzelnen Messung vom Mittelwert zugrunde legen. Dieser Abstand (xi − x̄) ist für extreme Meßwerte
groß. Je dichter die Meßwerte um den Mittelwert liegen, desto kleiner werden die ihnen zugeordneten
Abweichungen. Es liegt also nahe, die Summe all dieser Abweichungen als Streuungsmaß zu verwenden.
Da jedoch die Summe der Abweichungen aller Meßwerte von ihrem arithmetischen Mittel Null ist (siehe
Eigenschaften auf Seite 12, Formel 2.25), gehen wir zwei andere Wege:
1. Wir betrachten die absoluten Beträge der Abweichungen |xi − x̄|.
2. Wir betrachten das Quadrat der Abweichungen (xi − x̄)2 .
Der erste Weg führt zur durchschnittlichen Abweichung; der zweite Weg führt zur Varianz und zur
Standardabweichung.
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 15
WAHRSCHEINLICHKEIT UND STATISTIK
2.5.6
Empirische Varianz
Definition 2.37 Die empirische Varianz ist die Summe der Abweichungsquadrate (SAQ) aller
Meßwerte einer Verteilung von ihrem arithmetischen Mittel, dividiert durch die um 1 verminderte
Anzahl der Messungen. Die Varianz einer Stichprobe wird mit s2 bezeichnet.
n
s2 =
1 X
(xi − x̄)2
n−1
i=1
1
und
n−1
1
! Die spezielle Wahl hat bei weiteren Berechnungen Vorteile, da sich der Vorfaktor dann bei
nicht
n
Ableitungen herauskürzt.
Bemerkung 2.38 Die empirische Varianz ist eine definierte Größe, der Vorfaktor ist
Achtung: Teilweise wird diese Größe in Programmen oder Taschenrechnern anders definiert, z.B. Excel
verwendet den Vorfaktor n1 .
Für die Berechnung der Varianz sind viele Formeln entwickelt worden. Eine davon ist:
n
s2 =
1 X
(xi − x̄)2
n−1
i=1
=
=
1
n−1
n
X
(x2i − 2x̄xi + x̄2 )
i=1
n
X
1
(
n−1
i=1
x2i
− 2x̄
n
X
xi +
|i=1
{z }
=nx̄
=
n
X
1
(
n−1
i=1
x2i − nx̄2 )
n
X
x̄2 )
|i=1{z }
nx̄2
Bemerkung 2.39 Die o.g. Formeln sind anfällig gegen Rundungsfehler, da bei ihrer Berechnung
große Zahlen auftreten!
2.5.7
Empirische Streuung oder empirische Standardabweichung
Definition 2.40 Die empirische Standardabweichung (mittlere quadratische Abweichung) ist die
Quadratwurzel aus der Varianz. Sie wird mit s bezeichnet.
v
v
u
u
n
n
√
u 1 X
u 1 X
2
2
t
t
(xi − x) = s =
(
x2i − nx̄2 )
s=
n−1
n−1
i=1
i=1
Bemerkung 2.41 v = s/x̄ wird als Variationskoeffizient bezeichnet.
Weitere Streuungsmaßzahlen, die im Vergleich zur Standardabweichung weniger empfindlich auf extrem hohe bzw. niedrige Werte in der Meßreihe reagieren:
Seite 16
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
2.5.8
Gewichtete Zusammenfassung von Varianz und Empirischer Streuung
Hat man mehrere Stichproben mit unterschiedlichem Umfang, deren Mittelwerte gleich sind, dann
kann man die Varianz wie folgt gewichtet zusammenfassen:
s2 =
k
s21 (n1 − 1) + s22 (n2 − 1) + s23 (n3 − 1) + · · · + s2k (nk − 1)
1 X 2
=
si (ni − 1)
n−k
n−k
i=1
und
2.5.9
v
u
u
s=t
k
1 X 2
si (ni − 1)
n−k
i=1
Durchschnittliche Mittelwertabweichung
n
1X
dx =
|xi − x̄|
n
i=1
Dabei ist
|y| =
2.5.10
y
−y
falls
falls
y≥0
y<0
Durchschnittliche Medianabweichung
n
1X
dx̃ =
|xi − x̃|
n
i=1
Neben den bisher besprochenen Maßzahlen betrachtet man noch die
2.5.11
Quantile
Definition 2.42 Sei x1 , x2 , . . . , xn eine Meßreihe. Ist p ∈ R eine reele Zahl mit 0 < p < 1, so ist das
p-Quantil xp gegeben durch
xp =
x([np+1])
x(np)
falls np nicht ganzzahlig
falls np ganzzahlig
wobei [a] für a ∈ R die größte ganze Zahl, die nicht größer als a ist, bezeichnet:
[a] = größte ganze Zahl ≤ a
und x(1) , x(1) , . . . , x(n) die zugehörige geordnete Meßreihe bezeichnet.
Beispiel 2.43 [3.5] = 3, [0.7] = 0
Ein p-Quantil ist also ein Meßwert mit der Eigenschaft:
Mindestens 100 · p% der Meßwerte sind ≤ xp und mindestens 100 · (1 − p)% der Meßwerte sind ≥ xp .
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 17
WAHRSCHEINLICHKEIT UND STATISTIK
Beispiel 2.44
p = 0.1, n = 20 ⇒ n · p = 2 ganzzahlig
-x
x(2) = x0.1
x(20)
0.1–Quantil
Beispiel 2.45
p = 0.2, n = 21 ⇒ n · p = 4.2 nicht ganzzahlig, [4.2 + 1] = [5.2] = 5
-x
x(1)
x(5) = x0.2
x(21)
0.2–Quantil
Bemerkung 2.46 Es gilt:
x0.5 = x̃
,
d.h. das 0.5–Quantil ist gerade der Median der Meßreihe.
Bemerkung 2.47 Spezielle p-Quantile haben eigene Bezeichnungen:
x0.25 = unteres Quartil
x0.75 = oberes Quartil
Ein mit Hilfe von Quantilen definiertes Streuungsmaß ist der Quartilabstand:
q = x0.75 − x0.25
Zwischen x0.25 und x0.75 liegen die mittleren 50% der Meßwerte.
Beispiel 2.48 n = 16 ⇒ n · 0.25 = 4
und
n · 0.75 = 12 ⇒ q = x(12) − x(4)
←−−−−−−−−−− q −−−−−−−−−−→
x(1)
Seite 18
x(4) = x0.25
x(12) = x0.75
Stand: 02.06.2004
-x
x(16)
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
2.5.12
Boxplots
Ein weiteres Mittel zur graphischen Veranschauung des Datenmaterials sind die Boxplots, die sich
insbesondere zum Vergleich von Meßreihen eignen.
Beispiel 2.49 Es sei n = 16.
x(1)
x(4)
x(8)
x(12)
x(16)
-x
....
...
..
...
...
...
...
r
x(1)
x0.25
x̃ = x0.5
r
x0.75
x
x(16)
←− untere 25% −→←−−−−−−−−− mittlere 50% −−−−−−−−−→←−−−− obere 25% −−−−→
Speziell bei symmetrischem Datenmaterial ergibt sich folgender Boxplot:
x̃ − x0.25 ≈ x0.75 − x̃
....
...
..
...
...
...
....
r
x(1)
2.6
x0.25
r
x0.75
x ≈ x̃
x(n)
Robustheit von Maßzahlen
Neben den klassischen Verfahren der beschreibenden Statistik, die sich auf arithmetisches Mittel und
Streuung stützen, haben in den letzten Jahren sogenannte robuste“ Verfahren an Bedeutung gewon”
nen. Um die Ideen, die den sogenannten robuste“ Verfahren zugrunde liegen, wenigstens anzudeuten,
”
hier ein Beispiel:
Beispiel 2.50 Haltungsnote beim Skispringen (siehe [1])
Bewertungen durch fünf Schiedsrichter, wobei die niedrigste und die höchste Bewertung gestrichen
wird. Werden z.B. von den fünf Schiedsrichtern die Haltungsnoten
16, 5,
17, 0,
16, 5,
17, 5,
19, 0
erteilt, so hat sich der 5. Schiedsrichter (z.B. aus Voreingenommenheit) nach oben vergriffen ohne jedoch die Haltungsnote dadurch wesentlich zu beeinflussen. Er hätte den Sprung auch mit 20,0 bewerten
können, es hätte sich trotzdem
16, 5 + 17, 0 + 17, 5 = 51, 0
als Haltungsnote ergeben. Man erkennt, daß die Haltungsnote in einem gewissen Sinne robust“ ist
”
gegenüber parteiischer oder irrtümlicher Über- bzw. Unterbewertung einzelner Schiedrichter.
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 19
WAHRSCHEINLICHKEIT UND STATISTIK
Beispiel 2.51 Ausreißerempfindlichkeit bei Messreihen
Messreihe x1 , . . . , x5
13, 12, 14, 11, 10
13, 12, 14, 11, 100
arithmetisches Mittel x̄
12
30
Median x̃
12
13
Das Beispiel zeigt, daß der Median weniger ausreißerempfindlich“ ist als das arithmetische Mittel.
”
Diese Überlegungen führen zu den folgenden robustenMittelwerten:
Sei wieder x1 , . . . , xn eine Messreihe und 0 < α < 0, 5. Dann unterteilen wir die zugehörige geordnete
Messreihe in drei Gruppen von Messwerten:
x(1) , . . . , x(k) ,
|
{z
}
k−Elemente
x(k+1) , . . . , x(n−k) ,
|
{z
}
(n−2k)−Elemente
x(n−k+1) , . . . , x(n) ,
|
{z
}
k−Elemente
so dass die linke Gruppe die k = [n · α] kleinsten und die rechte Gruppe die k größten Werte enthält.
Streicht man die extremen Werte und bildet man den Mittelwert der in der mittleren Gruppe verbliebenen Werte, so erhält man das
2.6.1
α-gestutztes Mittel:
x̄α =
1
x(k+1) + · · · + x(n−k)
n − 2k
Ersetzt man statt dessen jeden der extremen Werte durch den nächstgelegenen Wert in der mittleren
Gruppe, so ergibt sich das
2.6.2
α-windsorisiertes Mittel:
wα =
1
k · x(k+1) + x(k+1) + · · · + x(n−k) + k · x(n−k)
n
Man erkennt, dass sich für n · α < 1 dieses Mittel nicht vom arithmetischen Mittel (x̄ = x̄α = wα ) und
für n · α ≥ n−1
2 nicht vom Median (x̃ = x̄α = wα ) unterscheidet.
Beispiel 2.52 Durchschnittsalter einer Fussballmanschaft (siehe [1])
In der Sportzeitung war zu lesen: Die Mannschaft B mit dem geringeren Durchschnittsalter gewann
”
das Spiel“ .
A
B
39
22
20
23
22
24
22
23
21
22
20
23
33
22
22
25
22
23
21
22
22
24
In der Mannschaft A hat der Torwart das Alter 39 und der Libero ist 33 Jahr alt. Außer diesen beiden
Spielern der Mannschaft A ist keiner älter als der jüngste Spieler der Mannschaft B!
Seite 20
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
Mannschaft
A
B
x̄
24,0
23,0
x̄0,1
22,8
22,9
x̄0,2
21,7
22,9
x̃
22
23
w0,1
23,5
22,9
w0,2
21,6
22,9
Wird das Durchschnittsalter aufgrund des arithmetischen Mittels x̄ oder des 10%-windsorisierten Mittels angegeben, so ist die Mannschaft A die ältere, während sich bei den anderen Mittelwertbildungen
jeweils B als die ältere ergibt.
Bemerkung 2.53 Die vorgestellten robusteren“ Maßzahlen können als Spezialfälle von gewichteten
”
Mittelwerten (s.o.) betrachtet werden, wobei die Gewichte geeignet gewählt wurden.
2.7
Zweidimensionale Meßreihen
Bei zweidimensionalen Meßreihen
(x1 , y1 ), . . . , (xn , yn )
werden zwei Merkmalswerte jeweils an derselben Beobachtungseinheit (z.B. einer Person) erhoben.
Auch zweidimensionale Verteilungen lassen sich graphisch und in Tabellenform darstellen. Für die
Tabellenform gaben wir schon ein Beispiel:
Beispiel 2.14 Der Zusammenhang zwischen der Physik- und Mathematiknote die jeder Schüler aus
Beispiel 2.13 erhält, soll beschrieben werden.
Zensur
in
Mathematik
5
4
3
2
1
Zensur in Physik
1
2
3 4 5
1
2 1
4
9 2
2
9
1
2
1
4 14 10 4 2
1
3
15
12
3
34
Vorstehende Tabelle wird auch Mehrfeldertafel oder Kontigenztafel genannt.
Bemerkung 2.54 Bei quantitativen Merkmalen erhält man eine Kontingenztafel durch eine Klasseneinteilung.
Beispiel 2.55 Wurmbefall bei Zuchtpferden
x = Rassenzugehörigkeit
y = Wurmbefall
(qualitatives Merkmal)
(Rangmerkmal)
Kontingenztafel:
y
gering
mittel
stark
Dr. Torsten-Karl Strempel
Rasse 1
28
9
13
50
x
Rasse 2
19
6
14
39
Rasse 3
17
35
20
72
Stand: 02.06.2004
64
50
47
161
Seite 21
WAHRSCHEINLICHKEIT UND STATISTIK
Zur graphischen Darstellung einer zweidimensionalen Verteilung kann man (unter anderem) ein rechtwinkeliges Koordinatensystem mit zwei Achsen verwenden und sodann für jedes (xi , yi )-Wertepaar
einen Punkt in dieses System einzeichnen. Das so entstandene Diagramm nennt man Punktediagramm
(oder auch Streuungs- oder Korrelationsdiagramm).
Beispiel 2.56 Fortsetzung Beispiel 2.14
Das zugehörige Punktdiagramm (Zusammenhang zwischen Mathematik- und Physikzensur) ist:
u
5
uu
4
Mathematik- 3
zensur Y
uu
2
1
uu
1
u
uuu uuu uu
u
uuu
uuu
uuu u
uuu
uuu
u
2
3
4
Physikzensur X
5
In vorstehender Abbildung sind die Häufigkeiten fxy durch die Anzahl der Punkte dargestellt. Aus der
Verteilung der Punkte im Punktdiagramm kann man - wie aus der Verteilung der Häufigkeiten fxy in
der Kontingenztabelle - schon erahnen, daß ein Zusammenhang zwischen den beiden Variablen besteht.
Die Vermutung ist, daß Schüler, die gute Mathematikzensuren besitzen auch gute Physikzenzuren
besitzen. Allgemein fragt man sich, ob es einen Zusammenhang zwischen X und Y gibt (d.h. ob die
Datenpaare korrelieren).
Um diese Frage beantworten zu können, betrachten wir zuerst einmal
2.7.1
Maßzahlen für zweidimensionale Meßreihen
Als die wichtigsten Maßzahlen zur Kennzeichnung eindimensionaler Verteilungen haben wir Mittelwert
und Streuung kennengelernt. Jetzt sollen Maßzahlen zur Kennzeichnung zweidimensionaler Verteilungen besprochen werden. Das sind Korrelations- und Kontingenzkoeffizienten. Ein Koeffizient ist eine
Zahl, die in Physik und Technik zur Kennzeichnung von Materialeigenschaften verwendet wird (z.B.
informiert der Ausdehnungskoeffizient über den Grad, in dem sich ein Stoff bei Erwärmung ausdehnt).
Korrelations- und Kontingenzkoeffizienten informieren über den Grad des Zusammenhangs zwischen
zwei Variablen. Sind die Variablen intervallskaliert (die Merkmale also meßbar), dann wird ihr Zusammenhang durch einen Korrelationskoeffizienten bestimmt. Sind die Variablen dagegen nominal skaliert
(entstammen die Merkmale also qualitativ verschiedenen Gegenstandsklassen), dann wird ihr Zusammenhang durch einen Kontingenzkoeffizienten ausgedrückt.
Wir werden uns im Folgenden nur mit dem Korrelationskoeffizienten beschäftigen.
Gegeben sei also eine zweidimensionale Meßreihe
(x1 , y1 ), . . . , (xn , yn )
Seite 22
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
für zwei Merkmale x und y. Wir können die Varianz (siehe Definition 2.37) der jeweiligen eindimensionalen Meßreihen angeben:
n
1X
⇒ x̄ =
xi
n
x1 , . . . , xn
s2x
,
i=1
1
=
n−1
n
y1 , . . . , yn ⇒ ȳ =
2.7.2
1X
yi
n
n
X
(xi − x̄)2
v
u
u
sx = t
,
i=1
v
u
u
sy = t
n
s2y =
,
i=1
1 X
(yi − ȳ)2
n−1
,
i=1
n
1 X
(xi − x̄)2
n−1
i=1
n
1 X
(yi − ȳ)2
n−1
i=1
Empirische Kovarianz
Definition 2.57 Der Ausdruck
n
sxy =
1 X
(xi − x̄)(yi − ȳ)
n−1
i=1
wird als empirische Kovarianz bezeichnet.
Diese Ausdrücke lassen sich vereinfachen zu
.
n
s2x
=
=
=
1
n−1
i=1
n
X
i=1

2.7.3
sxy =
=


 n

1 
n
n
n
X

X
X
X
xi · xi − xi · x̄ − x̄ · xi + x̄ · x̄ =


n − 1
i=1
i=1
i=1
|
{z
} |
{z
} | {z }
 i=1
=x̄·nx̄
=x̄·nx̄
=nx̄·x̄
1
n−1
n
X
i=1
x2i
− nx̄
2
!
1 X
(xi − x̄)(yi − ȳ)
n−1
i=1
x2i − xi · x̄ − x̄ · xi + x̄2
|
=
n
1 X
(xi − x̄)(xi − x̄)
n−1
{z
=−nx̄·x̄
}
=
1
n−1
n
X
i=1
(xi · yi − xi · ȳ − x̄ · yi + x̄ · ȳ)




 n

X


n
n
n
1 
X
X
X
x
·
y
−
xi · ȳ −
x̄ · yi +
x̄ · ȳ
i
i

n − 1
i=1
i=1
i=1
 i=1
|
{z
} | {z } | {z }

=ȳ·nx̄
=x̄·nȳ
=nx̄·ȳ 
{z
|
1
n−1
n
X
i=1
xi yi − nx̄ · ȳ
!
=−nx̄·ȳ
}
Empirischer Korrelationskoeffizient
Liegen für beide Variablen metrische Daten vor, dann können wir den Grad ihres Zusammenhangs
durch den Maßkorrelationskoeffizienten r beschreiben.
Definition 2.58 Der empirische Korrelationskoeffizient r einer zweidimensionalen Meßreihe (xi , yi ),
i = 1, . . . , n, ist definiert durch
sxy
r =
sx · sy
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 23
WAHRSCHEINLICHKEIT UND STATISTIK
wobei
sx
v
u
u
= t
1
·
n−1
n
X
i=1
x2i − nx̄2
!
v
u
u
= t
und sy
1
·
n−1
Der Korrelationskoeffizient ist eine dimensionslose Größe:
n
X
i=1
yi2 − nȳ 2
!
n
P
xi yi − nx̄ · ȳ
xi yi − nx̄ · ȳ
i=1
i=1
s
s
r = s
=
n
n
n
s n
P
P
P
P 2
1
1
2
2
2
2
2
2
2
xi − nx̄ · n−1
yi − nȳ
xi − nx̄ ·
yi − nȳ
n−1
1
n−1
n
P
i=1
i=1
i=1
i=1
1
Man erkennt, dass sich die Vorfaktoren n−1
herauskürzen, so dass auch die mit dem Vorfaktor
berechneten Größen sx , sy , sxy zum gleichen Ergebnis führen.
1
n
Aus der Cauchy-Schwarzschen Ungleichung folgt, daß er nur Werte zwischen −1 und 1 annehmen
kann, es gilt:
−1 ≤ r ≤ 1
r=-1 besagt: Zwischen den beiden Variablen besteht ein ausgeprägtes Gegensatzverhältnis, das heißt:
hohe Meßwerte von x treten stets mit niedrigen y Werten auf.
r=+1 drückt einen positiven, streng linearen Zusammenhang beider Variablen aus: Hohen xi sind
hohe yi zugeordnet.
r=0 besagt: Beide Variablen stehen in keinem statistischen Zusammenhang miteinander, sondern
streuen unabhängig voneinander.
Interpretation von sxy :
n
sxy =
1 X
(xi − x)(yi − y)
n−1
i=1
y
y
6
6
r>0
r<0
−m
+m
−m
y
y
+m
−m
−m
+m
-
-
x
x
Seite 24
+m
x
x
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
viele Produkte positiv, wenige Produkte
negativ ⇒ sxy > 0
positive Korrelation
viele Produkte negativ, wenige Produkte
positiv ⇒ sxy < 0
negative Korrelation
Interpretation: |r| ist ein Maß für die Tendenz“ zu einem linearen Zusammenhang der x- und y”
Werte.
Der Korrelationskoeffizient lässt sich auch geometrisch deuten. Betrachtet man die Messreihen xi und
yi als Vektoren in einem mehrdimensionalen Vektorraum, dann kann man sx und sy als Länge dieser
Vektoren und sxy als Skalarprodukt auffassen (wir führen eine Transformation durch, so dass x̄ = ȳ = 0
ist):
|~x · ~y |
r =
= cos φ
|~x| · |~x|
wobei φ der von den beiden Vektoren eingeschlossene Winkel ist.
Wir können folglich der Größe von r die Stärke des Zusammenhangs, dem Vorzeichen von r den
Richtungssinn des Zusammenhangs entnehmen.
6 r=1
r
......
......
.......
......
.
.
.
.
.
......
.......
......
.......
.......
.
.
.
.
.
.
.......
......
......
.......
......
.
.
.
.
.
.....
.......
.......
.......
.......
.
.
.
.
.
......
.......
......
.......
.......
.
.
.
.
.
.
r
r
r
r
6...........r..............
.
r
r = −1
......
.......
.......
.......
.......
.......
.......
......
.......
.......
.......
.......
.......
.......
.......
.......
......
......
.......
......
.......
.......
.......
......
r r
r r
r
-
r
r
-
|r| = 1: Meßwerte liegen auf einer Geraden
Bemerkung 2.59 Es sei ausdrücklich darauf hingewiesen, daß dazu folgende Bedingungen vorliegen
müssen:
1. der Zusammenhang zwischen X und Y ist linear und
2. beide Variablen sind normal (siehe Kapitel 3.3.2) verteilt.
Ist die erste Vorraussetzung nicht gegeben, dann kann sich zum Beispiel r = 0 ergeben und dennoch ein
(freilich nichtlinearer) Zusammenhang zwischen beiden Variablen bestehen. Ist die zweite Bedingung
nicht erfüllt, dann bildet der Koeffizient den Zusammenhang möglicherweise falsch ab.
Die Beurteilung des Zusammenhangs zwischen den Werten +1 und −1 liegt im persönlichen Ermes”
sen des Betrachters“. Betrachten wir nochmals die geometrische Deutung, so kann man den Vektor y~
in zwei Komponenten ~yx und y~x0 parallel und senkrecht zu ~x zerlegen.
Man kann somit z.B. definieren, dass ein Zusammenhang gegeben ist, solange der zwischen ~x und ~
y
eingeschlossene Winkel kleiner als 45◦ ist, also
1
r = cos 45◦ = √ ≈ 0, 7071...
2
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 25
WAHRSCHEINLICHKEIT UND STATISTIK
Beispiel 2.60 Stichprobenumfang n = 9; Meßreihe (x1 , y1 ), . . . , (x9 , y9 )
Summe
xi
-2
-1
0
1
2
2
2
3
4
11
xi 2
4
1
0
1
4
4
4
9
16
43
yi
-3
-7
0
-2
0
2
4
3
0
-3
yi 2
9
49
0
4
0
4
16
9
0
91
x =
xi yi
6
7
0
-2
0
4
8
9
0
32
Man erhält:
r=
Punktediagramm:
y =
sx =
sy =
sxy =
11
9
3
1
− =−
3
v9
u
2 !
u1
11
t
43 − 9
= 1.922
8
9
v
u
2 !
u1
1
t
91 − 9 −
= 3.354
8
3
1
11
1
32 − 9
−
= 4.458
8
9
3
4.458
= 0.692
1.922 · 3.354
r
4
r
positive Korrelation
r
2
r
0
−2
r
r
r
r
−4
−6
−8
2.7.4
r
−3
−2
−1
0
1
2
3
4
5
Lineare Regression
Beispiel 2.61 Gegeben sei die zweidimensionale Meßreihe
(x1 , y1 ), . . . , (x30 , y30 )
wobei x das Alter gesunder Männer und y den systolischer Blutdruck bezeichnet. Die Meßreihe sei
Alter
Blutdruck
16
110
25
123
42
144
52
174
45
131
36
109
57
153
63
185
28
127
36
135
43
158
48
149
52
163
67
175
69
195
Alter
Blutdruck
48
196
19
124
41
123
58
175
67
183
37
117
21
116
38
146
66
193
46
142
48
127
23
118
42
128
63
168
45
136
Seite 26
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
Das zugehörige Punktediagramm ist:
Alter und systolischer Blutdruck bei gesunden Männern
200
s
s
180
s
s
160
s
s
140
s
s
120
s
s
s
s
s
s
s
s
s
s
s
s
Blutdruck
[mbar]
s
s
s
s
s
s
s
s
s
s
100
0
10
20
30
40
50
60
70
80
Alter [Jahre]
Die Regressionslinie ist eine Kurve, welche den Punkteschwarm am besten repräsentiert. Wir beschränken uns im folgenden auf den häufigsten Sonderfall: die Regressionsgerade: y = ax + b.
Am besten entspricht eine Gerade dem Punkteschwarm, wenn die Summe der Abweichungen jedes
einzelnen Punktes von ihr ein Minimum wird. Die Abweichungen werden gewöhnlich in zwei verschiedene Richtungen bestimmt: parallel zur Ordinatenachse (parallel zur y-Achse) oder zur Abzissenachse
(parallel zur x-Achse).
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 27
WAHRSCHEINLICHKEIT UND STATISTIK
6
...
....
....
...
.
.
.
.
....
...
...
....
...
.
.
....
...
....
....
...
.
.
....
...
....
....
...
.
.
...
....
...
....
...
.
.
....
...
....
....
...
.
.
..
....
....
....
...
.
.
.
..
....
....
....
...
.
.
.
....
...
....
....
...
.
.
....
...
....
...
....
.
.
..
....
...
....
...
.
.
.
i
.
...
...
....
....
...
.
.
....
...
....
....
...
.
.
..
....
....
....
...
.
.
.
...
...
....
...
....
.
.
....
...
....
...
...
.
.
.
...
ax + b
s
↑
|
|
|
r
|
|
|
s↓
s
yi
-
xi
Bemerkung 2.62 Die ri sind
ri = yi − (axi + b) ,
i = 1, . . . , n
und heißen Residuen.
Beide Arten der Distanzbestimmung führen, wenn der Korrelationskoeffizient r 6= 1 ist, zu verschiedenen Regressionslinien G. Wir beschäftigen uns zunächst mit der Minimierung der Abstandssummen
parallel zur Ordinatenachse (y-Achse).
Definition 2.63 Eine Regressionsgerade ist eine Gerade G, für welche die Summe der Quadrate
der Abweichungen aller Punkte ein Minimum bildet.
Das auf Gauss zurückgehende Verfahren zur Bestimmung der Regressionsgeraden nennt man daher
Methode der kleinsten Quadratsummen“.
”
Methode der kleinsten Quadrate“:
”
n
n
X
X
!
S(a, b) =
ri2 =
(yi − axi − b)2
= minimal
i=1
|i=1
{z
}
Summe der vertikalen
Abstandsquadrate
Seite 28
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
Obige Gleichung habe die Lösung: â, b̂. Dann ist die Regressionsgerade ( Schluß von x auf y“) gegeben
”
durch y = âx + b̂. Die Lösungen â, b̂ erhält man mittels folgender Formeln:
â =
n
X
i=1
xi yi − n · x̄ · ȳ
n
X
i=1
x2i − nx̄2
=
sxy
empirische Kovarianz
2 = empirische Varianz
sx
b̂ = ȳ − âx̄
Bemerkung 2.64 Der Punkt (x̄, ȳ) liegt stets auf der Regressionsgeraden, wegen
y = âx + (ȳ − âx̄) = â(x − x̄) + ȳ
Bemerkung 2.65 Wie man erkennt, sind die Steigung â und der Achsenabschnitt b̂ dabei
unabhängig davon, wie die Varianz bzw. Kovarianz definiert sind und ob diese z.B. mit Excel mit
1
dem Vorfaktor n1 anstelle von n−1
berechnet wurden!
Beispiel 2.66 Fortsetzung Beispiel 2.60
x=
11
,
9
1
y=− ,
3
sx = 1.922,
sxy = 4.458
Daraus folgt:
â =
4.458
= 1.207
1.9222
,
1
11
b̂ = − − 1.207 ·
= −1.809
3
9
Beispiel 2.67 Fortsetzung Beispiel 2.61
Alter – Blutdruck bei gesunden Männern; aus den Daten ergibt sich
â = 1.493
,
b̂ = 80.7
Faustformel:
Blutdruck ≈ 1.5 · Alter + 80
Diese Approximation kann zur Prognose herangezogen werden.
Punktediagramm mit Regressionsgerade:
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 29
WAHRSCHEINLICHKEIT UND STATISTIK
Alter und systolischer Blutdruck bei gesunden Männern
200
...
....
....
....
...
.
.
.
..
....
....
...
....
.
.
.
....
...
....
...
....
.
.
.
....
...
....
....
...
.
.
.
.
....
...
....
....
...
.
.
..
....
....
....
....
.
.
...
....
....
...
....
.
.
.
....
...
....
....
...
.
.
.
....
....
....
...
....
.
.
...
...
....
...
....
.
.
.
.
....
...
....
....
...
.
.
...
....
....
...
....
.
.
.
..
....
....
....
....
.
.
.
.
....
...
...
....
....
.
.
..
....
....
....
....
.
.
...
....
....
...
....
.
.
.
...
....
....
....
...
.
.
.
.
....
....
....
s
s
s
180
s
s
160
Blutdruck
[mbar]
s
140
s
s
s
120
s
s
s
s
s
0
10
s
s
s
s
s
s
s
s
s
100
s
s
s
s
s
s
s
20
30
40
50
60
70
80
Alter [Jahre]
Bemerkung 2.68 Wir haben im Allgemeinen zwei Regressionsgeraden
1. Schluß von x auf y
Prinzip: Summe der quadrierten senkrechten Abstände minimal !
2. Schluß von y auf x
Prinzip: Summe der quadrierten waagrechten Abstände minimal !
Die Geraden fallen genau dann zusammen, falls
s2y
sxy
=
s2x
sxy
,
s2xy
=1
s2x · s2y
,
d.h. falls
Seite 30
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
2.8
Ergänzungen zur Linearen Regression
Die Bestimmung einer Regressionsgeraden, um den Zusammenhang zwischen zwei eindimensionalen
Messreihen zu beschreiben, kann in mehreren Richtungen erweitert werden:
• Wie wir gesehen haben, wird es im allgemeinen zwei verschiedene Regressionsgeraden geben, je
nachdem, ob man die Messwerte einer Messreihe A in Abhängigkeit von Messreihe B beschreibt
oder umgekehrt. Exakt“ wäre die Bestimmung einer Geraden, in dem man die Abstände zu den
”
Messwerten senkrecht zur Geraden annimmt. Dadurch ergibt sich folgende Summe, die minimiert
werden muss:
n
X
∆=
...
i=1
Wie man erkennt, liefert dies ein sehr viel komplexeres Minimierungsproblem, das im allgemeinen
nicht geschlossen lösbar ist und nicht auf ein lineares Gleichungssystem führt. Man bezeichnet
das Verfahren deshalb auch als nichtlineare Regression.
• Häufig ist es so, dass nur stückweise ein linearer Zusammenhang besteht (z.B. Kennlinien von
Verstärkern im Arbeitsbereich) oder das dem Zusammenhang prinzipiell eine andere Funktion
zugrunde liegt. Man kann dementsprechend versuchen anstelle eines linearen Zusammenhangs
(oder eines Polynoms vom Grad 1) einen polynomialen Zusammenhang höheren Grades
zu bestimmen. Dies wird nachfolgend ausführlicher betrachtet.
• Führt man diese Überlegungen konsequent weiter, dann stellt sich die Frage, wie man allgemein
einen Satz von Funktionen zur Beschreibung heranziehen kann. Hier gibt es zwei Möglichkeiten:
a) Man transformiert die Messwerte mit der Umkehrfunktion der Funktion, die aus Polynomen hervorgeht, z.B.:
y = a ∗ exp b · x = exp ã + b · x −→ ỹi = ln yi
und dann kann man eine Regressionsgerade für die Messreihen xi und ỹi bestimmen.
b) Man führt den nachfolgend erläuterten Formalismus anstelle der Monome p(x) = xp mit den
gewünschten Basisfunktionen durch. Verwendet man z.B. die Funktionen fp (x) = cos(px)+
isin(px), dann liefert das obige Verfahren die Fourierkoeffizienten.
Wie schon beim Korrelationskoeffizienten gibt es auch hier eine geometrische Deutung bzw.
Analogie: Gram-Schmidt-Verfahren ...
• Eine weitere Verallgemeinerung führt schließlich auf die Beschreibung von Messwerten, die von
mehreren anderen Größen abhängen (vgl. Excel Tabellenfunktion RGP):
y(x1 , . . . , xn ) = a00
+a01 x11 + a02 x12 + · · · + a0n xdn
+aij x1i + a02 x12 + · · · + a0n xdn
Natürlich kann es auch zu einer Kombination dieser Fälle kommen . . ..
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 31
WAHRSCHEINLICHKEIT UND STATISTIK
2.9
Regression höheren Grades — Least Sqares Fits (LSQ)
Die oben beschriebene Methode der kleinsten Fehlerquadrate (engl. Least Sqares Fit) zur Bestimmung
einer Regressionsgeraden kann verallgemeinert werden, um Messreihen durch Polynome und andere
Funktionen zu approximieren. Dies soll hier kurz erläutert werden.
Seien wieder xi und yi zwei Messreihen mit je n Messwerten und es besteht die Vermutung, dass ein
polynomialer Zusammenhang besteht in der Form:
y(x) = a0 + a1 x1 + a2 x2 + · · · + ad xd
Setzt man nun also die Messwerte in diese Gleichung ein, dann erhält man ein lineares für n > d
überbestimmtes Gleichungssystem X~a = y~:
1
1
.
 ..
|
x11
x12
..
.
1 x1n
x21
x22
..
.
···
···
..
.
x2n · · ·
{z

a0
 a1 
 
 a2 
 . 
 .. 

xd1 
xd2 
·
.. 
. 
xdn
n Zeilen, d+1 Spalten
}

y1
 y2 
 
 y3 
 . 
 .. 

=
a
| {zd }
y
| {zn }
d+1 Zeilen, 1 Spalte
n Zeilen, 1 Spalte
Um eine Lösung für dieses Gleichungssystem zu finden multiplizieren wir mit der transponierten Matrix
AT :
 
a0
 1
1
1 · · · 1   1 x11 x21 · · · xd1 

a 
 1
 x11 x12 x13 · · · x1n   1 x12 x22 · · · xd2 
 a2 
 .
· .
·
..
..
..
.. 
..
..
..
.. 
 . 
 ..
.
.
.
.   ..
.
.
.
. 
 .. 
xd1 xd2 xd3 · · · xdn
1 x1n x2n · · · xdn
a
|
{z
} |
{z
}
| {zd }
d+1 Zeilen, n Spalten
n Zeilen, d+1 Spalten
d+1 Zeilen, 1 Spalte
 1
 x11
=
 ...
|
xd1
···
···
..
.
1
x12
..
.
1
x13
..
.
xd2
xd3 · · ·
{z
1 
x1n 
·
.. 
. 
xdn
d+1 Zeilen, n Spalten
}


y1
 y2 
 
 y3 
 . 
 .. 
y
| {zn }
n Zeilen, 1 Spalte
Damit hat man ein lineares Gleichungssystem mit d+ 1 Gleichungen und genauso vielen Unbekannten.
Dieses können wir nun mit dem bekannten Gauss-Algorithmus lösen. Allerdings hat die Matrix AT · A
besondere Eigenschaften, sie ist symmetrisch und positiv definit, d.h. sie enthält nur Elemente größer
gleich 0. Deshalb verwendet man zur Lösung in der Praxis die sog. Cholesky-Zerlegung. Dieses hat den
Vorteil, dass die Lösung effizienter (schneller) und genauer(geringere Rundungsfehler) durchgeführt
werden kann.
Seite 32
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
Kapitel 3
Wahrscheinlichkeitstheorie
Die Wahrscheinlichkeitsrechnung geht vom Begriff des zufälligen Ereignisses aus.
Definition 3.1 Ein zufälliges Ereignis ist ein Ereignis, das bei einem unter bestimmten Bedingungen durchgeführten Versuch eintreten kann, aber nicht notwendig eintreten muß.
Zufälligkeiten beeinflussen Experimente und damit auch Meßergebnisse; die Versuchsergebnisse sind
in diesen Fällen meist nicht reproduzierbar. Mögliche Ursachen sind z.B.:
• technische Variabilität (keine zwei Untersuchungsgegenstände in ihrerStruktur völlig gleich)
• Änderung der Versuchsbedingungen (z.B. Ort und Zeit der Messung)
• Meßfehler (Störeffekte überlagern den wahren Wert)
Die Daten (z.B. in einer Meßreihe) können also mit einer Streuung behaftet sein (Restvariabilität).
Definition 3.2 Vorgänge, bei denen das Ergebnis nicht aus den Versuchsbedingungen vorhersagbar
ist, heißen stochastische Vorgänge oder Zufallsexperimente.
Beispiel 3.3
• Messung des Spannungszustands einer Werkstoffprobe in einem Zugversuch
(Probenvariabilität + Meßfehler)
• Anteil des Kupfergehalts in Bodenproben
(räumliche Variabilität)
• Verkehrsdichte an einer Kreuzung
(Variabilität durch Zeitpunkt der Messung + Meßfehler)
• Bestimmung der Nährstoffkonzentration im Ablauf von Abwasserbehandlungsanlagen
(variierende Versuchsbedingungen [Industrie, Landwirtschaft, Haushalte] + zeitliche Abhängigkeiten + Meßfehler)
• monatliche Bestimmung der Biomasse in einem Wald
(variierende Versuchsbedingungen [Klima] + Probleme der Stichprobenauswahl)
• Glücksspiele (Würfeln, Roulette, Lotto, . . . )
Die Wahrscheinlichkeitstheorie beschäftigt sich mit der mathematischen Beschreibung von Zufallsexperimenten.
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 33
WAHRSCHEINLICHKEIT UND STATISTIK
3.1
3.1.1
Zufallsexperiment und Wahrscheinlichkeit
Grundbegriffe
Ergebnis und Ergebnismenge
Definition 3.4 Bei der Durchführung eines Zufallsexperiments erhalten wir ein Ergebnis ω. Dieses
Ergebnis ω entstammt einem Wertebereich, den wir die Ergebnismenge Ω nennen, d.h. ω ∈ Ω. ω
nennen wir auch Elementarereignis.
Beispiel 3.5
1. Würfelwurf:
Ω = {1, 2, 3, . . . , 6}
2. Werfen zweier unterscheidbarer Würfel:
Ω = {(i, j) | i, j = 1, . . . , 6} = {(1, 1), (1, 2), (2, 1), . . .}
36 Elemente
3. Werfen zweier nicht unterscheidbarer Würfel:
Ω = {(i, j) | i, j = 1, . . . , 6 ; i ≤ j}
= {(1, 1), (1, 2), (2, 2), (1, 3), . . .}
Ω = {ω ∈ R | ω ≥ 0} = R+
4. Lebensdauer eines Systems:
5. Gerät defekt oder intakt:
21 Elemente
Ω = {0, 1} ,
0=
b defekt, 1 =
b intakt
Ereignis
Definition 3.6 Unter einem Ereignis A verstehen wir eine Teilmenge von Ω (A ⊂ Ω).
Bemerkung 3.7 Sprechweise: Ereignis A tritt ein, falls Ergebnis ω ∈ A beobachtet wird.
Beispiel 3.8 Nummerierung bezogen auf Beispiel 3.5
1. A = {1, 3, 5} beim Würfelwurf
2. A = {(1, 1), (1, 2), (2, 1)}
”
”
ungerade Zahl“
Summe ≤ 3“
3. A = {(1, 1), (1, 2), (2, 2), (1, 3), (2, 3), (3, 3)}
4. A = {ω ∈ R | ω > 100} = (100, ∞)
5. A = {0}
Seite 34
”
”
”
beide Augenzahlen ≤ 3“
länger als 100 Stunden“
Gerät defekt“
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
Zusammengesetzte Ereignisse
Es seien A und B Ereignisse
A oder B“ :
”
mindestens eines tritt ein ⇔
ω ∈A∪B
A und B“ :
”
beide treten gleichzeitig ein ⇔
Ac , nicht A“ :
”
komplementäres Ereignis
∅:
leere Menge; unmögliches Ereignis
Ω:
sicheres Ereignis
A∩B =∅ :
unvereinbare oder disjunkte Ereignisse
{ω}, ω ∈ Ω :
Elementarereignis
ω ∈A∩B
Sei A1 , A2 , . . . eine Folge von Ereignissen
∞
\
i=1
∞
[
i=1
Ai
:
alle Ereignisse gleichzeitig“
”
Ai
:
mindestens eines davon“
”
Frage: Wie groß ist die Wahrscheinlichkeit dafür, daß die Betriebsdauer eines Gerätes exakt 100
Stunden beträgt ?
Antwort: praktisch = 0
besser: Wie groß ist die Wahrscheinlichkeit dafür, daß die Betriebsdauer eines Gerätes zwischen
90 und 100 Stunden liegt ?
also: Wahrscheinlichkeit für das Eintreten des Ereignisses A = [90, 100]
Fazit: Ereignisse haben Wahrscheinlichkeiten !
Definition 3.9 Die (stochastische) Wahrscheinlichkeit eines zufälligen Ereignisses A ⊂ Ω ist
gleich dem festen Wert, dem die relative Häufigkeit fnA bei wachsender Zahl n der Versuche zustrebt.
P (A) =
fA
n
für n → ∞.
P (A) = Wahrscheinlichkeit von A ⊂ Ω
Bemerkung 3.10 Der Buchstabe P stammt vom lateinischen Wort probabilitas (Wahrscheinlichkeit).
P (A) gibt uns eine Bewertung des Ereignisses A nach dem Grad, wie sehr mit seinem Eintreten zu
rechnen ist. Mit P ({ω}) bezeichnen wir die Wahrscheinlichkeit, daß das Elementarereignis ω eintritt.
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 35
WAHRSCHEINLICHKEIT UND STATISTIK
Axiomensystem von Kolmogoroff
Axiom I : Jedem zufälligen Ereignis A ist eine bestimmte Zahl P (A) zugeordnet,
die der Ungleichung 0 ≤ P (A) ≤ 1 genügt. Diese Zahl heißt die Wahrscheinlichkeit für das Ereignis A.
Axiom II : Die Wahrscheinlichkeit des sicheren Ereignisses ist gleich 1.
Axiom III: Die Wahrscheinlichkeit der Vereinigung (der Summe) von endlich vielen oder abzählbar unendlich vielen zufälligen Ereignissen, die einander
wechselseitig ausschliessen (siehe Definition 3.16), ist gleich der Summe
der Wahrscheinlichkeiten dieser Ereignisse (Additionssatz).
P (A1 ∪ A2 ∪ · · · ∪ Ak ) = P (A1 ) + P (A2 ) + · · · P (Ak )
!
k
k
[
X
⇐⇒
P
Ai
P (Ai )
=
i=1
i=1
Bemerkung 3.11 Die linke Seite der Gleichung von Axiom III wird gelesen: P von A1 oder A2
”
oder . . . oder Ak .“
Der Inhalt der Axiome werden wir an einigen Beispielen erläutern:
Beispiel 3.12 Beispiel zu Axiom I
Aus einer Urne mit 30 weißen und 10 schwarzen Kugeln, die sich in Größe, Oberflächenbeschaffenheit
und Gewicht gleichen, wird eine Kugel entnommen. Das zufällige Ereignis ist A1 : Die Kugel ist
schwarz. Die Wahrscheinlichkeit des Zutreffens dieses Ereignisses ist
P (A1 ) =
10
= 0.25.
40
Beispiel 3.13 Beispiel zu Axiom II
Die Kugel wird einer Urne mit 40 schwarzen Kugeln entnommen. Das zufällige Ereignis ist A2 : Die
Kugel ist schwarz. Die Wahrscheinlichkeit des Zutreffens dieses Ereignisses ist
P (A2 ) =
40
= 1.
40
Aus den Axiomen I und II folgt der Satz:
Satz 3.14 Die Wahrscheinlichkeit des unmöglichen Ereignisses ist gleich 0.
Beispiel 3.15 Die Kugel wird wiederum aus einer Urne mit 40 schwarzen Kugeln gezogen. Das
zufällige Ereignis ist A3 : Die Kugel ist rot. Die Wahrscheinlichkeit des Zutreffens dieses Ereignisses
ist
0
P (A3 ) =
= 0.
40
Um den Sinn des Axioms III verständlich zu machen, müssen wir definieren, was wir unter einander
ausschließenden Ereignissen verstehen:
Definition 3.16 Zwei Ereignisse A1 und A2 heißen einander ausschließende Ereignisse, wenn
beide nicht gleichzeitig eintreten können.
Seite 36
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
Beispiel 3.17 Beispiel zu Axiom III
Zufallsexperiment: Einmaliges Werfen eines idealen Würfels. Die beiden einander aussschließenden
Ereignisse seien: Ereignis A1 : Augenzahl 3; Ereignis A2 : Augenzahl 4. Wie hoch ist die Wahrscheinlichkeit bei einem Wurf eine 3 oder eine 4 zu würfeln, also P (A1 ∪ A2 ) ?
1
P (A1 ) = ;
6
1
6
P (A2 ) =
Die Wahrscheinlichkeit der Vereinigung beider Ereignisse (A1 ∪ A2 ) ergibt sich als
P (A1 ∪ A2 ) =
1 1
1
+
=
= P (A1 ) + P (A2 ).
6 6
3
Das Axiom III ist die Verallgemeinerung dieses Sachverhalts; es bezieht sich nicht nur auf zwei, sondern auf k Ereignisse, die einander ausschließen.
Aus den Axiomen lassen sich weitere Sätze ableiten. Diese seien hier in Form von Rechenregeln dargestellt. Dabei bezeichne Ac das zu A komplementäre Ereignis (z.B. bei einem Münzwurf sei A: das
Wappen liegt oben; dann ist Ac das Ereignis: das Wappen liegt nicht oben (also die Zahl liegt oben)).
Rechenregeln
• P (Ac ) = 1 − P (A)
• P (∅) = 0
• A ⊂ B ⇒ P (A) ≤ P (B)
• Wahrscheinlichkeit des zusammengesetzten Ereignisses A1 oder A2“:
”
P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 )
• Wahrscheinlichkeit des zusammengesetzten Ereignisses A1 oder A2 oder A3“:
”
P (A1 ∪ A2 ∪ A3 ) = P (A1 ) + P (A2 ) + P (A3 )
− P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 )
+ P (A1 ∩ A2 ∩ A3 )
• allgemein: Wahrscheinlichkeit für die Vereinigung endlich vieler Ereignisse A1 oder A2 oder · · ·
”
oder An“
X
X
P (A1 ∪ . . . ∪ An ) =
P (Ai ) −
P (Ai ∩ Aj )
1≤i≤n
+
X
1≤i<j<k≤n
1≤i<j≤n
P (Ai ∩ Aj ∩ Ak )
− . . . + (−1)n+1 P (A1 ∩ . . . ∩ An )
Zum Beweis vorstehender Regel siehe dazu im Abschnitt ?? auf Seite ??.
Bisher haben wir die Wahrscheinlichkeit P immer intuitiv gewusst“. Diese Annahme müssen wir aber
”
mathematisch konkretisieren.
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 37
WAHRSCHEINLICHKEIT UND STATISTIK
3.1.2
Laplace – Annahme
Annahme 3.18 Falls Ω = {ω1 , . . . , ωn } eine endliche Menge ist und alle Elementarereignisse {ωi }, i =
1, .., n, die gleiche Wahrscheinlichkeit haben, so gilt:
1,
P ({ωi }) = n
i = 1, .., n
Bemerkung 3.19 Aus der Laplace-Annahme folgt für ein Ereignis A ⊂ Ω:
P (A) =
Anzahl der Elemente in A
|A|
=
n
|Ω|
Dabei bezeichnet |A| bzw. |Ω| die Mächtigkeit der Menge A bzw. Ω (siehe Seite 40).
Interpretation
P (A) =
Anzahl der für A günstigen Ergebnisse
Anzahl der möglichen Ergebnisse
Beispiel 3.20
• Werfen eines Würfels: Ω = {1, 2, 3, 4, 5, 6}
3
1
P ( ungerade Zahl“) = P ({1, 3, 5}) = =
”
6
2
• Werfen zweier unterscheidbarer Würfel
Ω = {1, . . . , 6} × {1, . . . , 6} = {(i, j) | i, j = 1, . . . , 6}
Es gilt bei Laplace-Annahme
P ( mindestens eine 6“) = P ({(1, 6), (2, 6), . . . , (6, 6), (6, 5), . . . , (6, 1)})
”
11
=
36
• Achtung: Werfen zweier nicht unterscheidbarer Würfel
Ω = {(i, j)|i, j = 1, . . . , 6 ; i ≤ j}
21 Elemente
bei Laplace-Annahme:
1
21
Die Laplace-Annahme ist hier nicht gerechtfertigt! Während das Ergebnis (1, 1) nur dann auftritt, wenn beide Würfel eine Eins anzeigen, kommt das Ergebnis (1, 2) durch zwei verschiedene
Würfelkonstellationen zustande. Diese Festlegung von P entspricht also nicht mehr der LaplaceAnnahme, da die Elementarereignisse unterschiedliche Wahrscheinlichkeiten besitzen.
P ({(1, 1)}) =
• 3 Würfel werden geworfen; Ereignisse:
Seite 38
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
A = Summe beträgt 12“
”
B = Summe beträgt 13“
”
C = Summe beträgt 11“
”
Mögliche Augenzahlen:
für A :
für B :
für C :
1+5+6
1+6+6
1+4+6
2+4+6
2+5+6
1+5+5
2+5+5
3+4+6
2+3+6
3+3+6
3+5+5
2+4+5
Ω = {(i, j, h) : i, j, h = 1, ..., 6};
3+4+5
4+4+5
3+3+5
4+4+4
3+4+4
|Ω| = 6 · 6 · 6 = 216
Anzahl der Möglichkeiten:
|A| = 6 + 6 + 3 + 3 + 6 + 1
|B| = 3 + 6 + 6 + 3 + 3
|C| = 6 + 3 + 6 + 6 + 3 + 3
Bei Laplace-Annahme gilt:
P (A) =
25
216
P (B) =
21
216
P (C) =
27
216
• Werfen von 4 unterscheidbaren Münzen
Ω = {(i, j, k, l) : i, j, k, l = 0, 1} = {0, 1} × {0, 1} × {0, 1} × {0, 1}
wobei 0 =
b Wappen, 1 =
b Zahl. Es gilt
|Ω| = 24 = 16
Es sei
A = mindestens einmal Wappen“
”
Aus der Laplace-Annahme folgt
P (A) = 1 − P (Ac ) = 1 − P ({(1, 1, 1, 1)}) = 1 −
1
15
=
16
16
Paradoxa der Wahrscheinlichkeitstheorie
Trotz dieser sehr einfachen Vorschrift für die Berechnung von Wahrscheinlichkeiten unter der LaplaceAnnahme können bei der Wahl einer mathematischen Beschreibung für einen zufallsabhängigen Vorgang noch Probleme auftreten. Dies zeigen wir an einem Beispiel:
Beispiel 3.21 In einem Speisewagen gibt es 5 Tische mit je 4 Plätzen. Bevor der Speisewagen öffnet,
nimmt der Kellner im Zug die Platzreservierungswünsche der Fahrgäste entgegen. Gleich die ersten
beiden Fahrgäste, die er unabhängig voneinander anspricht, lassen sich einen Platz reservieren. Wie
groß ist (unter geeigneter Laplace-Annahme) die Wahrscheinlichkeit, daß die beiden am gleichen Tisch
sitzen werden, wenn der Kellner die Reservierung zufällig vornimmt?
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 39
WAHRSCHEINLICHKEIT UND STATISTIK
1. Lösung: Betrachten wir die Situation nach der ersten Reservierung. Der Kellner wählt für den
zweiten Fahrgast mit gleicher Wahrscheinlichkeit einen der fünf Tische aus. Mit Wahrscheinlichkeit 15 wird dies der Tisch sein, an dem auch der erste Fahrgast sitzen wird.
2. Lösung: Betrachten wir die Situation wieder nach der ersten Reservierung. Der Kellner wählt für
den zweiten Fahrgast mit gleicher Wahrscheinlichkeit einen der noch freien 19 Plätze aus. Mit
3
Wahrscheinlichkeit 19
wird dies einer der drei noch freien Plätze am Tisch des ersten Fahrgastes
sein.
Auf den ersten Blick scheint es unverständlich daß sich zwei verschiedene Wahrscheinlichkeiten,
nämlich 0.20 und 0.16 ergeben. Man spricht in solchen Fällen von Paradoxa der Wahrscheinlichkeitstheorie. Solche Paradoxa beruhen darauf, daß die Beschreibung des zufallsabhängigen Vorgangs
nicht präzise genug ist. So ist in unserem Beispiel unklar, ob die zufällige Reservierung durch die
Laplace-Annahme für die Wahl des Tisches oder des Platzes beschrieben werden soll.
Grundlagen der Kombinatorik
Definition 3.22 Wenn wir |Ω| schreiben, wobei Ω eine endliche Menge bezeichnet, dann sprechen wir
von der Mächtigkeit der Menge Ω, d.h. also von der Anzahl der in ihr erhaltenen Elementen. Sei
beispielsweise Ω = {1, 2, 3, 4}, dann ist |Ω| = 4, da Ω vier Elemente enthält.
• Es sei |Ω1 | = n1 und |Ω2 | = n2 . Dann gilt (Kreuzprodukt):
Ω1 × Ω2 = {(ω1 , ω2 ) : ω1 ∈ Ω1 , ω2 ∈ Ω2 }.
|Ω1 × Ω2 | =
• |Ω| = n ;
n1 · n2 .
k∈N
Unter einer geordneten Probe aus Ω von k Elementen mit Wiederholungen bzw. mit
Zurücklegen versteht man ein k-Tupel (x1 , . . . , xk ) mit Komponenten xi ∈ Ω, i = 1, . . . , k.
Anzahl = nk
Begründung:
Möglichkeiten
• |Ω| = n ;
1. Platz
n
2. Platz
n
...
...
k. Platz
n
insgesamt
nk
k≤n
Unter einer geordneten Probe aus Ω von k Elementen ohne Wiederholung bzw. ohne
Zurücklegen versteht man ein k-Tupel (x1 , . . . , xk ) mit paarweise verschiedenen Komponenten
xi ∈ Ω, i = 1, . . . , k.
Anzahl = n · (n − 1) · . . . · (n − k + 1)
Begründung:
Möglichkeiten
Seite 40
1. Platz
n
2. Platz
n−1
Stand: 02.06.2004
...
...
k. Platz
n − (k − 1)
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
Spezialfall: n = k
n · (n − 1) · . . . · 2 · 1 = n! Permutationen
Beispiel 3.23 Es sei n = 3. Permutationen
123 , 132 , 213 , 231 , 312 , 321
Anzahl Permutationen
1 · 2 · 3 = 3! = 6
• |Ω| = n ;
k≤n
Unter einer ungeordneten Probe aus Ω von k Elementen ohne Wiederholungen versteht
man eine k-elementige Teilmenge von Ω.
n
Anzahl der k-elementigen Teilmengen von Ω
k
Anzahl der geordneten Proben:
n · (n − 1) · . . . · (n − k + 1)
da ungeordnet: je k! viele der geordneten Proben sind gleich, also
n · (n − 1) · . . . · (n − k + 1)
k!
Durch Erweiterung des Bruches erhält man
n
k
n · (n − 1) · . . . · (n − k + 1) (n − k) · . . . · 1
n!
·
=
=:
k!
(n − k) · . . . · 1
k!(n − k)!
n
k
nennt man Binomialkoeffizient.
n
= Anzahl der k–elementigen Teilmengen aus einer n–elementigen Menge“
”
k
n!
=
k! (n − k)!
Beispiel 3.24 Es sei n = 4 und k = 2. Anzahl der 2-elementigen Teilmengen einer 4-elementigen
Menge:
4
4!
4·3·2·1
=
=6
=
2!2!
2·1·2·1
2
Aufzählung der Teilmengen:
3.1.3
{1, 2}, {1, 3}, {1, 4}, {2, 3}, {2, 4}, {3, 4} ⊂ {1, 2, 3, 4}
Das Pascalsche Dreieck
--------------------------------------------------------------------------------------------------------------------------------Definition und Hinweise zum Ablesen verschiedener Zahlen
---------------------------------------------------------------------------------------------------------------------------------
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 41
WAHRSCHEINLICHKEIT UND STATISTIK
3.1.4
Zufallsvariablen
(siehe auch Kapitel 3.3)
Bei vielen Zufallsexperimenten tritt als Versuchsergebnis unmittelbar ein Zahlenwert auf. Oft ist aber
nicht das genaue Ergebnis ω von Interesse, sondern nur ein damit verbundener Zahlenwert.
Beispiel 3.25 Deutsche KFZ werden nach Hubraum besteuert. Dabei gibt es Hubraumklassen. Im
Allgemeinen ist es nicht von Interesse, wieviel Hubraum ein KFZ hat, sondern wieviel Steuer pro Jahr
dafür entrichtet werden muss, d.h. in welcher Hubraumklasse das KFZ ist.
Ähnlich geht es bei der Einteilung der KFZ bei den Versicherern in Typklassen nicht darum, wieviel
Leistung in kW das KFZ besitzt, sondern darum, wieviel Versicherungsbeitrag man zu entrichten hat.
Wir sind also oft nur an einer Zufallsvariablen interessiert, die das genau Ergebnis ω auf einen Zahlenwert abbildet. Jedem Ergebnis ω wird eine reelle Zahl X(ω) zugeordnet. Die Zuordnungsvorschrift
ist eine Abbildung:
X :Ω→R
W1
W2
X(W2)
X(W1)
Von besonderem Interesse sind Ereignisse der Form X = k“. Mit
”
A = {ω ∈ Ω : X(ω) = k}
gilt
P (X = k) = P (A)
Beispiel 3.26 Augensumme beim Wurf zweier unterscheidbarer Würfel. Ergebnismenge des Zufallsexperiments:
Ω = {1, . . . , 6} × {1, . . . , 6} = {(i, j) | i, j = 1, . . . , 6}
36 Elemente
Zufallsvariable
X = Summe der Augenzahlen
also
X:
Ω
→ R
(i, j) 7→ i + j
Wertebereich von X : {2, 3, . . . , 12}.
Seite 42
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
Die Verteilung von X unter der Laplace-Annahme ist:
P (X = 2) = P ({(1, 1)})
=
P (X = 3) = P ({(1, 2), (2, 1)})
=
P (X = 4) = P ({(1, 3), (2, 2), (3, 1)})
=
P (X = 5) = P ({(1, 4), (2, 3), (3, 2), (4, 1)})
=
P (X = 6) = P ({(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)})
=
P (X = 7) = P ({(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}) =
P (X = 8) = P (X = 6)
=
P (X = 9) = P (X = 5)
=
P (X = 10) = P (X = 4)
=
P (X = 11) = P (X = 3)
=
P (X = 12) = P (X = 2)
=
1
36
2
36
3
36
4
36
5
36
6
36
5
36
4
36
3
36
2
36
1
36
Das zugehörige Stabdiagramm ist:
6
36
s
5
36
s
4
36
P (X = k)
s
3
36
s
s
2
36
1
36
s
s
s
s
s
2
s
3
4
5
6
7
8
9
10
11
12
k
Es gilt:
12
X
P (X = k) = 1 = P (Ω)
k=2
3.2
Bedingte Wahrscheinlichkeiten und Unabhängigkeit
In Definition 3.9 auf Seite 35 hatten wir die Wahrscheinlichkeit P (A) eines Ereignisses A definiert.
Zur Erinnerung:
Definition 3.9 Die (stochastische) Wahrscheinlichkeit eines zufälligen Ereignisses A ⊂ Ω ist
gleich dem festen Wert, dem die relative Häufigkeit fnA bei wachsender Zahl n der Versuche zustrebt.
P (A) =
Dr. Torsten-Karl Strempel
fA
n
für n → ∞.
Stand: 02.06.2004
Seite 43
WAHRSCHEINLICHKEIT UND STATISTIK
Bemerkung 3.27 Vorstehende Definition lässt folgende Interpretation zu
P (A) ≈ relative Häufigkeit des Eintretens von A in langen Serien gleicher, getrennter Versuche
Beispiel 3.28 Wir erwarten bei einer Serie von Münzwürfen, daß Zahl und Wappen gleichhäufig
auftreten:
1
P ( Wappen“) = P ( Zahl“) =
”
”
2
Bei Serien von Münzwürfen (in den USA) wurden folgende relative Häufigkeiten ermittelt:
Buffon
Pearson
3.2.1
n
nWappen
relative Häufigkeit
4040
24000
2048
12012
0.5069
0.5005
≈ 1/2
≈ 1/2
Bedingte Wahrscheinlichkeiten
Wiederholen wir ein Zufallsexperiment n-mal unter den gleichen Bedingungen und tritt in der Reihe
der Versuchsdurchführungen das Ereignis A genau nA -mal ein, das Ereignis B genau nB -mal und das
A∩B die relative Häufigkeit des
Ereignis A ∩ B ( A und B gleichzeitig“) genau nA∩B -mal, so ist nn
B
”
Eintretens von A in der Serie der Versuchsdurchführungen, bei denen das Ereignis B eintritt. Bei
dieser Überlegung greifen wir aus der ganzen Versuchsserie nur jene Versuchsdurchführungen heraus,
die der Bedingung B tritt ein“ genügen. Man spricht deshalb auch von der bedingten Häufigkeit von
”
A unter der Bedingung B.
Beispiel 3.29 Gegeben seien zwei Ereignisse A und B
Serie:
A
A
B
B
A
A
B
B
A
A
B
A
B
wobei
nA = Anzahl Versuche mit A
nB = Anzahl Versuche mit B
nA∩B = Anzahl Versuche mit A und B gleichzeitig
In der obigen Serie:
n = 12,
nA = 7,
nB = 6,
nA∩B = 4
Die Wahrscheinlichkeit für A unter der Bedingung, daß B eintritt (d. h. zähle nur die Versuche, in
denen B eintritt) ist durch die offensichtlich geltende Gleichung:
nA∩B
nA∩B /n
=
nB
nB /n
Seite 44
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
gegeben.
In der obigen Serie:
4
nA∩B
= ,
nB
6
nA∩B
4
1
=
= ,
n
12
3
nB
6
1
=
=
n
12
2
Es gilt:
Bedingte Wahrscheinlichkeit von A unter B
Definition 3.30 Sind A und B Ereignisse mit A, B ∈ Ω. Gilt P (B) > 0, so heißt
P (A|B) =
P (A ∩ B)
P (B)
die bedingte Wahrscheinlichkeit von A unter der Bedingung B.
In der obigen Definition gehen wir davon aus, daß die Wahrscheinlichkeiten der Ereignisse A und A∩B
bekannt sind, so daß wir die bedingte Wahrscheinlichkeit P (B|A) berechnen können. In den Anwendungen werden jedoch häufig Experimente durch Angabe gewisser bedingter Wahrscheinlichkeiten
beschrieben und die Wahrscheinlichkeit von Ereignissen der Form A ∩ B durch
P (A ∩ B) = P (A|B) · P (B)
bzw. von A durch
P (A) = P (A ∩ B) + P (A ∩ B c ) = P (A|B) · P (B) + P (A|B c ) · P (B c )
berechnet. Allgemein gilt für das Rechnen mit bedingten Wahrscheinlichkeiten die folgende Regel:
Regel von der vollständigen Wahrscheinlichkeit
Regel 3.31 Die Ereignisse B1 , . . . , Bn seien paarweise unvereinbar (d. h. Bi ∩ Bj = ∅
Ferner sei
n
S
Bi = Ω und P (Bi ) > 0
für
für
i 6= j).
i = 1, . . . , n.
i=1
Dann gilt
P (A) =
n
X
i=1
Dr. Torsten-Karl Strempel
P (A|Bi ) · P (Bi )
Stand: 02.06.2004
Seite 45
WAHRSCHEINLICHKEIT UND STATISTIK
Beweis:
n
X
i=1
P (A|Bi ) · P (Bi ) =
=
n
X
P (A ∩ Bi )
i=1
n
X
i=1
= P
P (Bi )
· P (Bi )
(nach Definition 3.30)
P (A ∩ Bi )
n
[
!
(A ∩ Bi )
i=1



= P
A ∩

= P (A)

!

Bi 


| i=1{z }
n
[
=Ω
Bemerkung 3.32 (Verallgemeinerung)
Es sei B1 , B2 , . . . eine Folge von paarweise unvereinbaren Ereignissen mit
0
∞
S
Bi = Ω und P (Bi ) >
i=1
für i = 1, 2, . . .
Dann gilt
P (A) =
∞
X
i=1
P (A|Bi ) · P (Bi )
Beispiel 3.33 32 Karten (Skat), 4 Asse, 2 Karten ziehen (ohne Zurücklegen der ersten Karte); Wie
groß ist (unter der Laplace-Annahme für die einzelnen Züge) die Wahrscheinlichkeit, beim zweiten
Zug ein As zu ziehen?
Ereignisse:
B1 =
B2 =
A =
Seite 46
”
”
”
kein As beim 1. Zug“
As beim 1. Zug“
As beim 2. Zug“
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
Laplace-Annahme:
P (B1 ) =
28
,
32
P (B2 ) =
4
,
32
P (A|B1 ) =
4
,
31
P (A|B2 ) =
3
31
Mit der Regel von der vollständigen Wahrscheinlichkeit gilt:
P (A) = P (A|B1 ) · P (B1 ) + P (A|B2 ) · P (B2 ) =
4 28
3 4
1
·
+
·
=
31 32 31 32
8
Formel von Bayes
Regel 3.34 Unter den Vorraussetzungen von Regel 3.31 gilt im Fall P (A) > 0
P (Bi |A) =
P (A ∩ Bi )
P (A|Bi ) · P (Bi )
= n
X
P (A)
P (A|Bk ) · P (Bk )
k=1
für i = 1, . . . , n.
Beispiel 3.35 Ein Würfel wird geworfen. Anschliessend wirft man so viele Münzen wie der Würfel
Augen zeigt. Wir betrachten die Ereignisse:
A: Alle Münzen zeigen Wappen“ und
”
Bi : der Würfel zeigt i Augen“.
”
Unter der Laplace-Annahme für die Teilexperimente gilt
P (Bi ) =
1
1
und P (A|Bi ) = i ,
6
2
i = 1, . . . , 6.
Damit erhalten wir aus Regel 3.31
1
1 1 1
1
1
1
63
21
+ + +
+
+
=
=
P (A) = ·
6
2 4 8 16 32 64
6 · 64
128
und für die bedingte Wahrscheinlichkeit von Bi unter der Bedingung A
P (Bi |A) =
P (A|Bi ) · P (Bi )
128 1 1
=
· · ,
P (A)
21 2i 6
i = 1, . . . , 6.
Interpretation: Wird nach Abschluß dieses Versuchs nur darüber informiert, daß alle Münzen Wappen
zeigen, daß also das Ereignis A eingetreten ist, und soll man das Würfelergebnis raten, so hat man
mit dem Tipp i = 1 (es wurde nur eine Münze geworfen) die größte Chance P (B1 |A) ≈ 12 , richtig zu
raten. D.h. in etwa der Hälfte der Fälle, in denen am Ende des Versuchs alle Münzen Wappen zeigen,
wird nur eine Münze geworfen.
Eine weitere leicht zu beweisende Regel ist die folgende
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 47
WAHRSCHEINLICHKEIT UND STATISTIK
Multiplikationsformel
Regel 3.36 (Multiplikationsformel)
Seien A1 , . . . , An Ereignisse mit P (A1 ∩ . . . ∩ An−1 ) > 0. Dann gilt:
P (A1 ∩ . . . ∩ An ) = P (A1 ) · P (A2 |A1 ) · P (A3 |A2 ∩ A1 ) · . . . · P (An |A1 ∩ . . . ∩ An−1 ).
Beweis:
P (A1 ) · P (A2 |A1 ) · P (A3 |A1 ∩ A2 ) · . . .
. . . · P (An−1 |A1 ∩ . . . ∩ An−2 ) · P (An |A1 ∩ . . . ∩ An−1 )
P (A1 ∩ A2 ) P (A1 ∩ A2 ∩ A3 )
·
· ...
P (A1 )
P (A1 ∩ A2 )
P (A1 ∩ . . . ∩ An−1 ) P (A1 ∩ . . . ∩ An )
... ·
·
P (A1 ∩ . . . ∩ An−2 ) P (A1 ∩ . . . ∩ An−1 )
= P (A1 ) ·
= P (A1 ∩ . . . ∩ An )
Beispiel 3.37 Wir fragen nach der Wahrscheinlichkeit, daß unter n ≤ 365 zufällig ausgewählten
Personen, keine zwei am selben Tag Geburtstag haben:
P ( keine 2 Personen haben am selben Tag Geburtstag“) = ?
”
Sei
A1 =
A2 =
”
”
2. Person hat anderen Geburtstag als 1. Person“
3. Person hat anderen Geburtstag als 1. und 2. Person“
A3 = 4. Person hat anderen Geburtstag als 1., 2. und 3. Person“
”
..
.
Ak−1 = k–te Person hat anderen Geburtstag als 1., 2., . . . , (k − 1)–te Person“
”
..
.
An−1 =
”
n–te Person hat anderen Geburtstag als alle vorher“
P (A1 ∩ . . . ∩ An−1 ) = ?
P (A1 ) =
P (A2 |A1 ) =
P (A3 |A1 ∩ A2 ) =
364
365
363
365
362
365
..
.
P (An−1 |A1 ∩ . . . ∩ An−2 ) =
Seite 48
365 − (n − 1)
365 − n + 1
=
365
365
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
Die Multiplikationsformel liefert:
P (A1 ∩ . . . ∩ An−1 ) =
364 · 363 · . . . · (365 − n + 1)
365n−1
=
365 · 364 · . . . · (365 − n + 1)
365n
n
5
20
30
50
60
(Laplace-Annahme)
P (A1 ∩ . . . ∩ An−1 )
0.973
0.589
0.294
0.030
0.006
Man erkennt, daß man bereits bei 50 bis 60 zufällig zusammengekommenen Personen fast sicher sein
kann, mindestens zwei mit gleichem Geburtstag dabei zu haben.
Eine Anwendung der Multiplikationsformel ist die
Graphische Methode (Pfadregel)
Die Pfadregel erlaubt es, die Multiplikationsformel graphisch darzustellen. Dies soll an Beispielen
veranschaulicht werden.
Beispiel 3.38 32 Karten (Skat), 4 Asse, 2 Karten ziehen (ohne Zurücklegen der 1. Karte)
P ( As beim 2. Zug“) = ?
”
Pfaddiagramm (Baumdiagramm):
28/32
4/32
kein As
As
1. Zug
27/31
4/31
28/31
3/31
kein As
As
kein As
As
also
2. Zug
3 4
4 28
1
P ( As beim 2. Zug“) =
·
+
·
=
”
31 32 31 32
8
Beispiel 3.39 Werfen von 3 Münzen
X = Anzahl Münzen mit Wappen sichtbar
Pfaddiagramm:
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 49
WAHRSCHEINLICHKEIT UND STATISTIK
1/2
1/2
Z
1/2
1/2
1/2
Z
1/2
1. Münze
W
W
1/2
1/2
Z
1/2
W
1/2
1/2
Z
W
Z
W
Z
X=0
X=1
X=1
X=2
X=1
1/2
W
Z
X=2 X=2
2. Münze
1/2
W
3. Münze
X=3
also
P (X = 0) =
1
2
·
P (X = 1) = 3 ·
P (X = 2) = 3 ·
P (X = 3) =
1
2
·
1
2
1
8
1
8
1
2
·
1
2
·
1
2
=
=
=
=
1
8
3
8
3
8
1
8
bei n Münzen:
P (X = k) =
3.2.2
n
n
1
·
k
2
k = 0, . . . , n
(Binomialverteilung, siehe Kapitel 3.3.1 S.58)
Unabhängigkeit von Ereignissen
Beispiel 3.40 32 Karten (Skat), 4 Asse, 2 Züge mit Zurücklegen der 1. Karte und gutem Durchmischen; die Asse seien die Karten mit den Nummern 1, 2, 3 und 4.
Ergebnismenge:
Ω = {1, 2, 3, 4, . . . , 31, 32} × {1, 2, 3, 4, . . . , 31, 32}
322 Elemente
Ereignisse:
A
= {1, 2, 3, 4} × {1, 2, . . . , 32}
B
= {1, 2, . . . , 32} × {1, 2, 3, 4}
A ∩ B = {1, 2, 3, 4} × {1, 2, 3, 4}
1. Karte ein As“
”
2. Karte ein As“
”
zweimal As“
”
Unter der Laplace-Annahme ergibt sich also:
P (A) =
P (A ∩ B) =
4 · 32
1
= = P (B)
322
8
16
1
=
322
64
Damit haben wir die bedingten Wahrscheinlichkeiten:
Seite 50
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
P (A|B) =
P (B|A) =
P (A∩B)
P (B)
P (B∩A)
P (A)
=
=
8
64
8
64
=
=
1
8
1
8
= P (A)
= P (B)
”
”
B hat keinen Einfluß auf A“
A hat keinen Einfluß auf B“
Hier stimmen also die bedingten Wahrscheinlichkeiten mit den ( unbedingten“) überein. Insbesonder
”
gilt:
⇔
Also:
P (A ∩ B) = P (A|B) · P (B) = P (B|A) · P (A) = P (A) · P (B)
”
getrennte Versuchsteile bestimmten das Eintreten von A und B“
Intuitiv ist klar, daß die beiden Ereignisse A und B aus dem vorstehenden Beispiel völlig unabhängig
voneinander eintreten, da ja durch das Mischen zwischen zwei Zügen das Ergebnis des ersten Zuges
ohne Einfluß auf das Ergebnis des zweiten Zuges ist. Diese aufgrund der Versuchsdurchführung des
Experiment gegebene Unabhängigkeit“ der Ereignisse A und B beschreiben wir nun mathematisch:
”
Definition 3.41 Zwei Ereignisse A und B heißen (stochastisch) unabhängig, falls
P (A ∩ B) = P (A) · P (B)
gilt.
Immer, wenn aufgrund der Versuchanordnung die Annahme gerechtfertigt erscheint, daß das Eintreten
eines Ereignisses A völlig ohne Einfluß ist auf das Eintreten eines Ereignisses B, werden wir bei der
mathematischen Beschreibung die Wahrscheinlichkeiten P (A), P (B) und P (A ∩ B) so wählen, daß
P (A ∩ B) = P (A) · P (B) gilt.
Bemerkung 3.42 Sind die Ereignisse A und B unabhängig, so sind es auch die Ereignisse A und
B c , die Ereignisse Ac und B sowie die Ereignisse Ac und B c , denn aus P (A) · P (B) folgt
P (A) · P (B c ) = P (A) · (1 − P (B)) = P (A) − P (A) · P (B) = P (A) − P (A ∩ B) = P (A ∩ B c )
und entsprechend P (Ac ) · P (B) = P (Ac ∩ B) und mit der Regel P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
P (Ac ) · P (B c ) = (1 − P (A)) · (1 − P (B))
= 1 − P (A) − P (B) + P (A) · P (B)
= 1 − P (A) − P (B) + P (A ∩ B)
= 1 − P (A ∪ B)
= P (Ac ∩ B c )
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 51
WAHRSCHEINLICHKEIT UND STATISTIK
Definition 3.43 n Ereignisse A1 , . . . , An heißen vollständig unabhängig, falls für jede nichtleere
Teilmenge {i1 , i2 , . . . , ik } von {1, . . . , n}
P (Ai1 ∩ Ai2 ∩ . . . Aik ) = P (Ai1 ) · P (Ai2 ) · . . . · P (Aik )
gilt.
Bemerkung 3.44 Man beachte, daß im allgemeinen die Unabhängigkeit von A1 , . . . , An nicht aus
der Unabhängigkeit von je zwei Ereignissen folgt.
Beispiel 3.45 Ω = {1, 2, 3, 4},
P ({i}) = 41 ,
i = 1, . . . , 4,
Laplace-Annahme;
Sei
A = {1, 2},
B = {1, 3},
Es gilt:
P (A ∩ B) =
C = {2, 3}
1
1 1
= · = P (A) · P (B)
4
2 2
ebenso:
P (A ∩ C) = P (A) · P (C)
P (B ∩ C) = P (B) · P (C)
aber:
P (A ∩ B ∩ C) = 0 6= P (A) · P (B) · P (C)
”
3.3
A, B, C paarweise unabhängig, aber nicht vollständig unabhängig“
Zufallsvariable und Verteilungsfunktion
In Kapitel 3.1.4 hatten wir den Begriff der Zufallsvariable schon motiviert und benutzt. Dabei hatten
wir den wichtigen Fall der Ereignisse der Form X = k“angeführt, d.h. wir hatten uns für Ereignisse
”
der Form {ω ∈ Ω : X(ω) = k} interessiert.
Natürlich können wir auch Ereignisse der Form {ω ∈ Ω : X(ω) ∈ I} für ein beliebiges Intervall
I ∈ R betrachten. Dabei verstehen wir unter einem Intervall eine Teilmenge von R von der Form
{x ∈ R : a < x ≤ b}, {x ∈ R : a ≤ x ≤ b}, usw. aber auch Halbachsen“, wie etwa {x ∈ R : x ≤ b}, oder
”
{x ∈ R : a < x}. Diese Betrachtung ist allgemeiner, da insbesondere die einelementigen Teilmengen
({x ∈ R : X(ω) = k}) zu den Intervallen gehören.
Für die Wahrscheinlichkeit des Ereignisses {ω ∈ Ω : X(ω) ∈ I} schreiben wir abkürzend P (X ∈ I)
und entsprechend P (a < X ≤ b), P (a ≤ X ≤ b), P (X = a), usw.
Die Wahrscheinlichkeiten solcher Ereignisse lassen sich mit Hilfe der in folgender Definition erklärten
Verteilungsfunktion berechnen:
Definition 3.46 Sei X eine Zufallsvariable. Dann heißt die Abbildung F : R → [0, 1] mit
F (x) = P (X ≤ x),
x ∈ R,
Verteilungsfunktion der Zufallsvariable X.
Seite 52
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
Bemerkung 3.47 Wir benutzen die Abkürzungen:
F (x + 0) =
F (x − 0) =
F (−∞) =
F (∞) =
lim
F (x + h),
lim
F (x − h),
h>0,h→0
h>0,h→0
lim F (x)
x→−∞
und
lim F (x)
x→∞
Bemerkung 3.48 In der beschreibenden Statistik (also im Kapitel 2) haben wir schon über die
empirische Verteilung, die durch die Angabe der absoluten Häufigkeiten zu den verschiedenen Klassen der Variablenwerte xi gekennzeichnet wurde, gesprochen. Ersetzt man die absoluten Häufigkeiten
durch die relativen Häufigkeiten, so gelangt man zur Definition der empirischen Verteilungsfunktion
(siehe Definition 2.17). Im Folgenden beschäftigen wir uns mit theoretischen Verteilungen, die die
Erwartungswerte eines Experiments beschreiben.
Für die Verteilungsfunktion einer Zufallsvariable gelten folgende Sätze:
Satz 3.49 Ist F die Verteilungsfunktion einer Zufallsvariable X,so gilt:
(i) F ist monoton wachsend.
(ii) F ist rechtsseitig stetig, d.h. F (x) = F (x + 0) für alle x ∈ R.
(iii) F (−∞) = lim F (x) = 0 und F (∞) = lim F (x) = 1.
x→−∞
x→∞
Zur Veranschaulichung des vorstehenden Satzes betrachten wir das folgende Bild:
F(x)
1
0
x
Abbildung 3.1: F ist monoton wachsend, rechtseitig stetig und
lim F (x) = 0, lim F (x) = 1
x→∞
Dr. Torsten-Karl Strempel
x→−∞
Stand: 02.06.2004
Seite 53
WAHRSCHEINLICHKEIT UND STATISTIK
Bemerkung 3.50
• F ist eine Treppenfunktion, falls X eine diskret verteilte Zufallsvariable ist.
F(x)
1
0
x
Abbildung 3.2: Diskret verteilte Zufallsvariable: Treppenfunktion
• F ist eine stetige Funktion (keine Sprünge“), falls X stetig verteilt mit Dichte f ist.
”
Zx
F (x) =
f (t)dt
−∞
Beachte: Das Integral hängt nur von der oberen Grenze ab!
F(x)
1
0
x
Abbildung 3.3: Stetig verteilte Zufallsvariable: stetige Funktion
Satz 3.51 Ist F die Verteilungsfunktion der Zufallsvariable X,so gilt für a, b ∈ R, a < b:
(i) P (a < X ≤ b) = F (b) − F (a)
(ii) P (X = a) = F (a) − F (a − 0) = F (a) −
lim
h>0,h→0
F (a − h)
(iii) P (a ≤ X ≤ b) = F (b) − F (a) + P (X = a)
(iv) P (a ≤ X < b) = F (b − 0) − F (a − 0) =
lim
h>0,h→0
F (b − h) −
lim
h>0,h→0
F (a − h)
(v) P (X > a) = 1 − F (a)
Seite 54
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
3.3.1
Diskret verteilte Zufallsvariable
Die im Folgenden dargestellten diskreten Zufallsvariablen entsprechen den quantitativ-diskreten Merkmalen der beschreibenden Statistik.
Diskret verteilte Zufallsvariablen finden ihre Anwendung meistens beim Zählen.
Wir behandeln drei Fälle von diskreten Zufallsvariablen
• geometrisch–verteilte Zufallsvariable (siehe Seite 56)
• binomial–verteilte Zufallsvariable (siehe Seite 58)
• Poisson–verteilte Zufallsvariable (siehe Seite 59)
Definition 3.52 Eine Zufallsvariable heißt diskret–verteilt (oder diskret), wenn ihr Wertevorrat endlich oder abzählbar unendlich ist.
Die Verteilungsfunktion einer diskreten Zufallsvariablen X ist durch die Angabe der Werte x1 , x2 , . . .
und der Wahrscheinlichkeiten P (X = x1 ), P (X = x2 ), . . . festgelegt. Dies stellt man oft in Form einer
Wertetabelle dar:
Werte xi
Wahrscheinlichkeit P (X = xi )
Dabei sind p1 , p2 , . . . nichtnegative Zahlen mit
P
x1
p1
x2
p2
x3
p3
...
...
= 1. Die Verteilungsfunktion F ist in diesem Falle
i
eine Treppenfunktion mit Sprungzielen X1 , x2 , . . . und zugehörigen Sprunghöhen p1 , p2 , . . ..
1.0
F (X)
s
.... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. k
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. i
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
s
s
s
s
p
s
0.5
s
s
p
s
0.0
Dr. Torsten-Karl Strempel
xi
xk
Stand: 02.06.2004
X
Seite 55
WAHRSCHEINLICHKEIT UND STATISTIK
Bemerkung 3.53 Die im Folgenden behandelten diskreten Zufallsvariablen entsprechen den quantitativdiskreten Merkmalen der beschreibenden Statistik.
Geometrische Verteilung
Definition 3.54 Sei 0 < p < 1. Eine diskrete Zufallsvariable X mit
P (X = i) = p · (1 − p)i−1 ,
i = 1, 2, 3, . . . ,
heißt geometrisch verteilt mit dem Parameter p.
Eine geometrisch verteilte Zufallsvariable eignet sich zur Beschreibung des folgenden Experiments:
Beispiel 3.55 Warten auf die erste 6“ beim Würfeln.
”
Es sei X = Anzahl der benötigten Würfe.
Unter der Annahme, daß die einzelnen Würfe ohne gegenseitige Beeinflussung erfolgen (Unabhängigkeitsannahme), gilt:
X=1
X=2
X=3
X=4
=6
=6
=6
=6
1/6
1/6
1/6
<6
5/6
<6
1/6
<6
5/6
<6
5/6
5/6
.......
Daraus folgt:
P (X = 1) =
1
6
5
1
P (X = 2) =
·
6
6
2
5
1
P (X = 3) =
·
6
6
3
5
1
P (X = 4) =
·
6
6
Es gilt also für i = 1, 2, 3, . . .
1
P (X = i) = ·
6
Seite 56
usw
i−1
5
6
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
Bemerkung 3.56 (Verallgemeinerung: Warten auf den ersten Erfolg“ )
”
Es sei
p = Erfolgswahrscheinlichkeit pro Experiment
und
X = Anzahl der benötigten Versuche bis zum 1. Erfolg
Falls die einzelnen Experimente sich nicht gegenseitig beeinflussen (Unabhängigkeitsannahme), ergibt
sich obige Formel:
P (X = i) = p (1 − p)i−1 ,
i = 1, 2, 3, . . .
Es gilt:
∞
X
i=1
∞
∞
X
X
i−1
P (X = i) = p ·
(1 − p)
=p·
(1 − p)i = p ·
i=1
|i=0 {z
}
1
=1
1 − (1 − p)
geometrische
Reihe
(Beachte: P (Ω) = 1 !)
Beispiel 3.57 Würfelwurf
X = Anzahl der Versuche bis zur ersten 6
Gesucht ist die Wahrscheinlichkeit für das Ereignis
A = erste 6 spätestens beim 3. Wurf“
”
Man erhält:
P (X ≤ 3) =
=
=
Dabei wurde benutzt:
n
X
i=0
Dr. Torsten-Karl Strempel
qi =
i−1
3
X
1
5
P (X = i) =
·
6
6
i=1
i=1
3
5
1−
2 i
X
1
5
1
6
= ·
5
6
6
6
i=0
1−
6
91
= 0.4213
216
3
X
1 − q n+1
1−q
für
Stand: 02.06.2004
q>0
Seite 57
WAHRSCHEINLICHKEIT UND STATISTIK
Binomialverteilung
Definition 3.58 Sei 0 < p < 1 und n ∈ N. Eine Zufallsvariable X mit
P (X = k) =
n
· pk · (1 − p)n−k ,
k
k = 0, 1, . . . , n
heißt binomialverteilt mit den Parametern n und p (kurz: B(n, p)-verteilt).
Eine binomial verteilte Zufallsvariable eignet sich zur Beschreibung des folgenden Experiments:
Bemerkung 3.59 Ein Zufallsexperiment wird n-mal wiederholt, ohne daß sich die einzelnen Versuchsdurchführungen gegenseitig beinflussen (Unabhängigkeitsannahme).
Das Ereignis A sei vorgegeben; Erfolg“ = A tritt ein“
”
”
X = Anzahl Experimente mit A ( Anzahl Erfolge“)
”
Die Ergebnismenge ist:
Ω = {(ω1 , ω2 , . . . , ωn ) | ωi ∈ {0, 1}}
wobei
ωi = 0 , kein Erfolg
ωi = 1 , Erfolg
Die Zufallsvariable X sei definiert als:
X : Ω −→ N
(ω1 , ω2 , . . . , ωn ) 7→ Anzahl i mit ωi = 1
Es sei
p = P (A) = Erfolgswahrscheinlichkeit pro Experiment,
0≤p≤1
und
ω = (ω1 , ω2 , . . . , ωn ) ∈ Ω
mit X(ω) = k
k Erfolge“
”
Dann gilt aufgrund der Unabhängigkeitsannahme:
P ({ω}) =
pk
|{z}
k Erfolge
Es gibt insgesamt
obige Formel:
n
k
·
(1 − p)n−k
| {z }
n − k Mißerfolge
solcher ω mit X(ω) = k (Anzahl Serien mit genau k Erfolgen). Daraus folgt
n
P (X = k) =
· pk · (1 − p)n−k ,
k
Seite 58
Stand: 02.06.2004
k = 0, 1, . . . , n
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
Es gilt:
n
X
P (X = k) =
k=0
n X
n
k
k=0
pk (1 − p)n−k
= (p + (1 − p))n
= 1
(P (Ω) = 1 !)
Dabei wurde die binomische Formel benutzt:
n
(a + b) =
n X
n
k=0
k
ak · bn−k
Beispiel 3.60 3 Würfe eines Würfels
X = Anzahl der Sechsen“
”
Es gilt:
X ∼ B(n, p)
also
mit
n=3
und
p=
k 3−k
3
1
5
P (X = k) =
·
·
,
k
6
6
Die Formel liefert:
P (X
P (X
P (X
P (X
= 0)
= 1)
= 2)
= 3)
=
=3
=3
=
Insgesamt gilt:
3
X
1
6
1 2
6
1 3
6
5 3
6
5 2
6
5
6
P (X = k) =
k=0
=
=
=
=
125
216
75
216
15
216
1
216
1
,
6
k = 0, 1, 2, 3
= 0.5787
= 0.3472
= 0.0694
= 0.0046
216
=1
216
Bemerkung 3.61 Problem: Die Berechnung von P (X = k) bei großem n !
Poisson–Verteilung und Poissonscher Grenzwertsatz
Definition 3.62 Sei λ > 0. Eine Zufallsvariable mit
P (X = i) =
λi −λ
·e ,
i!
i = 0, 1, 2, . . . ,
λ>0
heißt Poisson-verteilt mit Parameter λ (Verteilung für die Anzahl des Auftretens seltener Ereignisse.).
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 59
WAHRSCHEINLICHKEIT UND STATISTIK
Eine poisson verteilte Zufallsvariable eignet sich zur Beschreibung des folgenden Experiments:
Bemerkung 3.63 In einer Telefonzentrale wird an einem normalen Vormittag die Anzahl der innerhalb einer Zeitspanne t ankommenden Telefongespräche ermittelt. λ hat dann die Bedeutung der
mittleren Anzahl“ der Gespräche pro Zeiteinheit t.
”
Beispiel 3.64 In einer empirischen Untersuchung ist die Anzahl der Soldaten eines preußischen Kavallerieregiments ermittelt, die innerhalb eines Jahres an den Folgen eines Huftritts starben. Für 10
Regimenter wurden über einen Zeitraum von 20 Jahren die entsprechenden Zahlen ermittelt:
Anzahl der Todesfälle
beobachtete Häufigkeit
Als mittlere Anzahl “ erhält man
”
4
P
i=0
i·fi
200
0
109
1
65
2
22
3
3
4
1
= 0.61.
Wir berechnen die Wahrscheinlichkeiten, mit der eine mit dem Parameter λ = 0.61 poisson verteilte
Zufallsvariable X die Werte 0, . . . , 4 annimmt und erhalten:
P (X = 0) =
e−0.61 = 0.543
P (X = 1) =
0.61 · e−0.61 = 0.331
P (X = 2) =
0.612
2!
P (X = 3) =
0.613
3!
P (X = 4) =
0.614
4!
· e−0.61 = 0.101
· e−0.61 = 0.021
· e−0.61 = 0.003
Diese Wahrscheinlichkeiten vergleichen wir mit den den relativen Häufigkeiten, die im Experiment
ermittelt wurden:
Anzahl Todesfälle
beob. rel. Häufigkeit
Wahrscheinlichkeit
0
0.545
0.543
1
0.325
0.331
2
0.110
0.10
3
0.015
0.021
4
0.005
0.003
Bemerkung 3.65 Es gilt:
∞
X
P (X = i) = e−λ
i=0
wegen
ex =
∞
X
xi
i=0
i!
∞
X
λi
i=0
i!
= e−λ eλ = 1
(Reihenentwicklung der Exponentialfunktion)
Satz 3.66 (Poissonscher Grenzwertsatz)
Sei X1 , X2 , . . . eine Folge von Zufallsvariablen
Xn sei B(n, pn )-verteilt, n = 1, 2, . . ., und es gelte für ein λ > 0
lim n · pn = λ.
n→∞
Dann gilt
lim P (Xn = k) =
n→∞
Seite 60
λk −λ
·e ,
k!
für k = 0, 1, 2, . . .
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
Beweis: Sei 0 ≤ k ≤ n
P (Xn = k)
n k
p (1 − pn )n−k
k n
=
=
=
−→
n→∞
npn n
1
−
k
n(n − 1) · . . . · (n − k + 1) npn
n
k!
n
(1 − pn )k

n
1
k−1
→λ
z}|{
1· 1−
· ... · 1 −
(npn )k 
npn 
n
n
 ·
·
1
−


k
k! }
n
(1 − pn )
| {z
|
{z
}
k
→1
λ
|
{z
}
→
k!
→e−λ
λk −λ
e
k!
Approximation von Binomialwahrscheinlichkeiten
X ∼ B(n, p) ,
Dann gilt mit λ = n · p
P (X = k) ≈
wobei n groß und p klein
λk −λ
·e
k!
für k = 0, 1, . . . , n
Beispiel 3.67 Es werden 200 Personen zufällig gewählt. Der Anteil der Personen mit Blutgruppe AB
in der Bevölkerung betrage 2%. Sei
X = Anzahl herausgegriffener Personen mit Blutgruppe AB
Es gilt
X ∼ B(200, 0.02)
Mit λ = 200 · 0.02 = 4 erhält man näherungsweise nach dem Poissonschen Grenzwertsatz:
P (X > 3) = 1 − P (X ≤ 3)
3
X
λk
−4
≈ 1−e
k!
k=0
32
−4
= 1−e
1+4+8+
3
71
= 1 − e−4 ·
3
= 0.5665
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 61
WAHRSCHEINLICHKEIT UND STATISTIK
f(t)
t
x
Flacheninhalt = F(x) = P(X < x)
Abbildung 3.4: Dichtefunktion
3.3.2
Stetig verteilte Zufallsvariable
Definition 3.68 Eine Zufallsvariable X heißt stetig verteilt mit der Dichte f , falls sich ihre
Verteilungsfunktion F durch eine nichtnegative Funktion f : R → R in der folgenden Weise schreiben
lässt:
Zx
F (x) = P (X ≤ x) =
f (t)dt
−∞
Insbesondere gilt
Z∞
f (t)dt = 1
Gesamtfläche
−∞
f(t)
Flache = 1
t
Abbildung 3.5: Dichtefunktion: Flächeninhalt 1
Bemerkung 3.69 Es sei X eine stetig verteilte Zufallsvariable mit Dichte f . Dann gilt (vgl. Satz 3.51):
• P (X = c) = 0
für beliebiges c
• P (a < X ≤ b) = F (b) − F (a) =
• P (X ≤ b) = F (b) =
Seite 62
Rb
Rb
a
f (t)dt = P (a ≤ X ≤ b)
f (t)dt = P (X < b)
−∞
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
f(t)
Flache = P(a < X < b)
0
t
a
b
Abbildung 3.6: Dichtefunktion einer stetigen Zufallsvariable:
P (a < X ≤ b) = P (a ≤ X ≤ b)
f(t)
Flache = P(X > a)
0
t
a
Abbildung 3.7: Dichtefunktion einer stetigen Zufallsvariable:
P (X > a) = P (X ≥ a)
• P (X > a) = 1 − F (a) =
R∞
a
f (t)dt = P (X ≥ a)
• P (|X| ≤ c) = P (−c ≤ X ≤ c) =
Rc
−c
f (t)dt = F (c) − F (−c)
Rechteckverteilung
Definition 3.70 Sei −∞ < a < b < ∞. X heißt rechteckverteilt im Intervall [a, b] (R(a, b)verteilt), falls X stetig verteilt ist mit der Dichte f , gegeben durch

 1
für a < t < b
f (t) =
b−a
 0
sonst
Die zugehörige Verteilungsfunktion F ergibt sich zu

für x ≤ a
 0
x−a
für a < x < b
F (x) =
 b−a
1
für x ≥ b
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 63
WAHRSCHEINLICHKEIT UND STATISTIK
f(t)
Flache = P(|X| < c)
0
t
-c
0
c
Abbildung 3.8: Dichtefunktion einer stetigen Zufallsvariable:
P (|X| ≤ c) = F (c) − F (−c)
f(t)
1/(b-a)
t
a
b
Abbildung 3.9: Rechteckverteilung
Bemerkung 3.71 Rechteckverteilte Zufallsvariablen eignen sich zur Beschreibung von Vorgängen,
bei denen die Ergebnisse nur Zahlen eines bestimmten Intervalls [a, b] sein können und die Chance,
das das Ergebnis in ein bestimmtes Teilintervall fällt, lediglich durch dessen Länge bestimmt ist.
Beispiel: Ermittlung der Wartezeit eines Fahrgastes auf den nächsten Zug, wenn der Fahrgast zu einem
zufälligen Zeitpunkt einen Bahnsteig betritt an dem alle 5 Minuten ein Zug eintrifft.
Exponentialverteilung
Definition 3.72 Sei λ > 0. X heißt exponentialverteilt mit dem Parameter λ (kurz: Ex(λ)verteilt), falls X stetig verteilt ist mit der Dichte f :
0
für t < 0
f (t) =
λe−λt für t ≥ 0
und Verteilungsfunktion F :
F (x) =
0
für x < 0
.
−λx
für x ≥ 0
1−e
Eine exponential verteilte Zufallsvariable eignet sich zur Beschreibung folgender Experimente
Bemerkung 3.73
a) In einer Telefonzentrale wird die Zeitspanne zwischen zwei Telefonanrufen ermittelt.
Seite 64
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
b) In einem Call-Center wird die Dauer der einzelnen Gespräche ermittelt.
c) Beschreibung der Lebensdauer von Geräten wenn die Defekte in erster Linie durch äußere Einflüsse
und nicht durch Verschleiß verursacht werden.
1
0.9
0.8
0.7
f(x)
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.5
1
1.5
2
2.5
x
3
3.5
4
4.5
5
Abbildung 3.10: Dichte der Exponentialverteilung mit Parameter λ = 1.0
1
0.9
0.8
0.7
F(x)
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.5
1
1.5
2
2.5
x
3
3.5
4
4.5
5
Abbildung 3.11: Verteilungsfunktion der Exponentialverteilung mit Parameter λ = 1.0
Beispiel 3.74 Die Lebensdauer eines Geräts (in Wochen) sei durch eine Ex(λ)-verteilte Zufallsvariable T beschrieben. Bezeichnet F die Verteilungsfunktion von T , so gilt:
P (T ≤ 5|T ≥ 2)
Dr. Torsten-Karl Strempel
=
P (T ≤ 3)
Stand: 02.06.2004
=
F (3).
Seite 65
WAHRSCHEINLICHKEIT UND STATISTIK
Begründung:
P (T ≤5,T ≥2)
P (T ≥2)
P (T ≤ 5|T ≥ 2) =
(nach Definition 3.30)
=
P (2≤T ≤5)
1−P (T <2)
=
F (5)−F (2)
1−F (2)
=
1−e−5λ −(1−e−2λ )
e−2λ
=
e−2λ −e−5λ
e−2λ
= 1 − e−3λ
=
F (3)
=
P (T ≤ 3).
Interpretation: Wenn das Gerät am Ende der zweiten Woche (Bedingung T ≥ 2) noch intakt ist,
so ist die Wahrscheinlichkeit P (T ≤ 5|T ≥ 2) für einen Defekt innerhalb der nächsten drei Wochen
ebenso groß wie die Wahrscheinlichkeit P (T ≤ 3) für einen Defekt innerhalb der ersten drei Wochen.
Bei einem Gerät mit Abnutzungserscheinungen müßte die Wahrscheinlichkeit für das Auftreten eines
Defekts im Laufe der Zeit immer größer werden.
Die Exponentialverteilung ist ein Spezialfall der
Weilbullverteilung
Definition 3.75 Sei α > 0 und β > 0. X heißt Weilbull-verteilt mit dem Parametern α und β,
falls X stetig verteilt ist mit der Dichte f :
f (t) =
0
α·β·
und Verteilungsfunktion F :
F (x) =
β
tβ−1 e−αt
0
β
1 − e−αx
für t < 0
für t ≥ 0
für x < 0
.
für x ≥ 0
Bemerkung 3.76 Die Exponentialverteilungen sind spezielle Weilbullverteilungen mit β = 1.
Eine Weilbull-verteilte Zufallsvariable eignet sich zur Beschreibung des folgenden Experiments:
Bemerkung 3.77 Beschreibung der Lebensdauer von Geräten mit Abnutzungserscheinungen.
Normalverteilung
Definition 3.78 Sei µ ∈ R und σ > 0. Eine Zufallsvariable X heißt normalverteilt mit den Parametern µ und σ 2 (kurz: N (µ, σ 2 )-verteilt), falls X stetig verteilt ist mit der Dichte
1
−(t − µ)2
−
1
1
f (t) = √ e 2σ 2
= √ e 2
σ 2π
σ 2π
Seite 66
Stand: 02.06.2004
t−µ
σ
2
.
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-6
-4
-2
0
2
4
6
8
10
12
14
16
x
Abbildung 3.12: Dichten der Normalverteilungen mit Parametern µ = 0.0, σ = 1.0 bzw. µ = 5.0, σ = 4.0
0.4
0.35
0.3
f(x)
0.25
0.2
0.15
0.1
0.05
0
-4
-3
-2
-1
0
x
1
2
3
4
Abbildung 3.13: Dichte der Standard-Normalverteilung
Normalverteilte Zufallsvariablen werden z.B. häufig dann verwendet, wenn man Meßvorgänge beschreiben möchte, bei denen Ungenauigkeiten zu zufälligen Schwankungen der Meßergebnisse führen.
Bemerkung 3.79 Für µ = 0 und σ 2 = 1 heißt X auch standard-normalverteilt. In diesem Fall
ist die Dichte:
1
− t2
1
f (t) = √ e 2
2π
und die Verteilungsfunktion
1
Φ(x) = √
2π
Dr. Torsten-Karl Strempel
Zx
1 2
e− 2 t dt
−∞
Stand: 02.06.2004
Seite 67
WAHRSCHEINLICHKEIT UND STATISTIK
1
0.9
0.8
0.7
F(x)
0.6
0.5
0.4
0.3
0.2
0.1
0
-4
-3
-2
-1
0
x
1
2
Abbildung 3.14: Verteilungsfunktion
Standard-Normalverteilung
3
4
der
Da das Integral nicht geschlossen lösbar ist, wird Φ in einer Tabelle angegeben (siehe Anhang A). Die
Dichte f ist eine gerade Funktion, deshalb folgt
Φ(−x) = 1 − Φ(x)
für alle
x ∈ R.
Standardisierung
Sei jetzt X wieder eine N (µ, σ 2 )-verteilte Zufallsvariable mit beliebigen µ ∈ R und σ > 0 und Verteilungsfunktion Fµ,σ2 (x). Mit der Substitution u = t−µ
σ ergibt sich für die zugehörige Verteilungsfunktion:
P (X ≤ x) = Fµ,σ2 (x) =
1
√
σ 2π
Zx
1
e− 2 (
t−µ 2
σ
) dt
−∞
x−µ
Zσ
1 2
1
√
e− 2 u σdu
σ 2π
−∞
x−µ
= Φ
σ
=
Ihre Werte lassen sich also mit Hilfe einer Tabelle der Funktion Φ berechnen. Wegen
b−µ
a−µ
Pµ,σ2 (a < X ≤ b) = Fµ,σ2 (b) − Fµ,σ2 (a) = Φ
−Φ
σ
σ
besitzt die Zufallsvariable U = X−µ
σ , die man auch Standardisierung von X nennt, die Verteilungsfunktion Φ und ist daher N (0, 1)-verteilt.
Seite 68
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
Beispiel 3.80
”
2σ–Regel“
P (|X − µ| ≤ 2σ) = P (µ − 2σ ≤ X ≤ µ + 2σ)
= Fµ,σ2 (µ + 2σ) − Fµ,σ2 (µ − 2σ)
µ + 2σ − µ
µ − 2σ − µ
= Φ
−Φ
σ
σ
= Φ(2) − Φ(−2)
= 2Φ(2) − 1
= 0.9544 ≈ 95%
D.h., daß Abweichungen von µ, die größer als 2σ sind, bei normalverteilten Zufallsvariablen nur mit
einer Wahrscheinlichkeit von 5% auftreten.
3.4
Erwartungswert, Varianz und weitere Kennzahlen
Beschreibende Statistik
• Meßreihen
• Kennzahlen:
– Lageparameter
– Streuungsparameter
Wahrscheinlichkeitstheorie
• Verteilungen von Zufallsvariablen
• Kennzahlen:
– Erwartungswert (Mitte der Verteilung)
– Varianz (Breite der Verteilung)
– Momente (Abweichungen von Standardverteilung und Symmetrie)
3.4.1
Erwartungswert einer diskret verteilten Zufallsvariable
Verteilung von X gegeben als Wertetabelle:
Werte xi
Wahrscheinlichkeit P (X = xi )
x1
p1
x2
p2
x3
p3
...
...
Erwartungswert von X
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 69
WAHRSCHEINLICHKEIT UND STATISTIK
E(X) =
X
i
xi · P (X = xi )
gewichtete Summe“
”
falls die Reihe absolut konvergent ist, d.h. falls
X
|xi | · P (X = xi )
i
existiert!
Beispiele
• X ∼ B 3, 12 , also
3 3
1
3
1
P (X = k) =
·
=
·
k
2
k
8
bzw.
,
k = 0, 1, 2, 3
P (X = 0) =
1
8
P (X = 1) =
3
8
P (X = 2) =
3
8
P (X = 3) =
1
8
Erwartungswert von X:
E(X) = 0 · P (X = 0) + 1 · P (X = 1) + 2 · P (X = 2) + 3 · P (X = 3)
= 0·
=
3
3
1
1
+1· +2· +3·
8
8
8
8
12
3
=
8
2
• X Poisson–verteilt mit Parameter λ > 0 , also
P (X = i) =
λi −λ
e
i!
,
i = 0, 1, 2, . . .
Erwartungswert von X:
E(X) =
∞
X
i=0
i·
∞
∞
X
X
λi −λ
λi−1 −λ
λi −λ
e =λ
e =λ
e =λ
i!
(i − 1)!
i!
i=1
i=0
| {z }
=1
Transformationen
Es sei h : R −→ R beliebig. Dann gilt
E(h(X)) =
X
i
Seite 70
h(xi ) · P (X = xi )
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
falls die Reihe absolut konvergent ist !
Anwendungen
• h(x) = x2
E(X 2 ) =
X
i
Beispiel: X ∼ B 3, 12
x2i · P (X = xi )
E(X 2 ) = 0 · P (X = 0) + 1 · P (X = 1) + 4 · P (X = 2) + 9 · P (X = 3)
= 0·
=
1
3
3
1
+1· +4· +9·
8
8
8
8
24
=3
8
• h(x) = xk , k ∈ N
E(X k ) =
X
i
xki · P (X = xi )
k–tes Moment der Zufallsvariable X
in diesem Sinne:
E(X)
=
1. Moment (Erwartungswert)
2
=
2. Moment
3
=
3. Moment
E(X )
E(X )
...
3.4.2
Erwartungswert einer stetig verteilten Zufallsvariable
Es sei X eine stetig verteilte Zufallsvariable mit Dichte f
Erwartungswert von X
E(X) =
Z∞
x · f (x) dx
−∞
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 71
WAHRSCHEINLICHKEIT UND STATISTIK
falls der Integrand absolut integrierbar ist, d.h. falls
Z∞
|x| · f (x) dx
−∞
existiert !
Beispiel: X exponentialverteilt mit Parameter λ > 0 ; Dichte:
f (x) =
0
λe−λx
x<0
x≥0
Erwartungswert von X (durch partielle Integration):
E(X) =
Z∞
x · f (x)dx =
−∞
=
=
1
λx · −
λ
∞
−λx −xe
0
Z∞
0
∞
−λx e
0
+
Z∞
λxe−λx dx
−
Z∞
0
1
e−λx dx
λ· −
λ
e−λx dx
0
1 −λx ∞
= (0 − 0) − e
λ
0
= −(0 −
1
1
)=
λ
λ
Transformationen
Es sei h : R −→ R stetig. Dann gilt
E(h(X)) =
Z∞
h(x) · f (x) dx
−∞
falls der Integrand absolut integrierbar !
Anwendungen
• h(x) = x2
2
E(X ) =
Z∞
x2 · f (x) dx
−∞
Beispiel: X exponentialverteilt mit Parameter λ > 0
Seite 72
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
2
E(X ) =
Z∞
2
x · f (x)dx =
−∞
=
1
λx · −
λ
2
2
= (0 − 0) +
λ
=
λx2 e−λx dx
0
∞
−λx e
0
Z∞
|0
Z∞
−
Z∞
0
1
2λx · −
λ
e−λx dx
λxe−λx dx
{z
=E(X)
}
2
2 1
2
· E(X) = · = 2
λ
λ λ
λ
• h(x) = xk , k ∈ N (stetige Funktion)
k
E(X ) =
Z∞
xk · f (x) dx
−∞
k–tes Moment der Zufallsvariable X
in diesem Sinne:
E(X)
=
1. Moment (Erwartungswert)
2
=
2. Moment
3
=
3. Moment
E(X )
E(X )
...
3.4.3
Varianz einer Zufallsvariable
Es sei
h(x) = [x − E(X)]2
quadratische Abweichung von E(X)“
”
Varianz von X
V ar(X) = E(h(X)) = E([X − E(X)]2 )
| {z }
feste
Zahl
mittlere (erwartete) quadratische Abweichung vom Erwartungswert E(X)“
”
Es gilt
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 73
WAHRSCHEINLICHKEIT UND STATISTIK
• im Falle einer diskret verteilten Zufallsvariable X
V ar(X) =
X
[xi − E(X)]2 · P (X = xi )
i
• im Falle einer stetig verteilten Zufallsvariable X mit Dichte f
V ar(X) =
Z∞
[x − E(X)]2 · f (x) dx
−∞
Beispiele
• Sei
X = Augenzahl beim Würfelwurf
Es gilt
P (X = i) =
1
6
,
i = 1, 2, . . . , 6
Erwartungswert von X:
E(X) = 1 ·
1
1
1
1
1
7
+ 2 · + . . . + 6 · = (1 + 2 + . . . + 6) = · 21 = = 3.5
6
6
6
6
6
2
Varianz von X:
V ar(X) = [1 − 3.5]2 ·
=
1
1
1
+ [2 − 3.5]2 · + . . . + [6 − 3.5]2 ·
6
6
6
1
· [−2.5]2 + [−1.5]2 + [−0.5]2 · 2
6
=
1 25 + 9 + 1
·
3
4
=
35
= 2.917
12
• Für X ∼ N (µ, σ 2 ) gilt:
E(X) = µ
und
V ar(X) = σ 2
Merke:
Mitte der Verteilung“ −→ E(X)
”
Breite der Verteilung“ −→ V ar(X) , oder besser
”
p
V ar(X) (Streuung)
Seite 74
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
f(t)
WAHRSCHEINLICHKEIT UND STATISTIK
3.4.4
Rechenregeln für Erwartungswerte
Bei der Berechnung von Erwartungswerten können folgende Regeln angewandt werden:
• Es sei X eine diskret verteilte Zufallsvariable.
Gilt für ein µ ∈ R
P (X = µ − t) = P (X = µ + t)
für alle t ≥ 0
Verteilung symmetrisch zu µ“
”
dann ist
E(X) = µ ,
falls der Erwartungswert existiert.
Interpretation:
Erwartungswert = Symmetriepunkt
Beispiele
– X ∼ B(3, 12 ). Für µ =
3
2
gilt:
P (X =
3
3
− t) = P (X = + t) ,
2
2
also:
E(X) =
t≥0
3
2
(vgl. Berechnung oben)
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 75
WAHRSCHEINLICHKEIT UND STATISTIK
– Sei
X = Augenzahl beim Würfelwurf
Verteilung von X ist symmetrisch zu µ = 3.5, also
E(X) = 3.5
(vgl. Berechnung oben)
• Es sei X eine stetig verteilte Zufallsvariable mit Dichte f .
Gilt für ein µ ∈ R
f (µ − t) = f (µ + t)
für alle t ≥ 0 ,
dann ist
E(X) = µ ,
falls der Erwartungswert existiert.
Beispiel: X ∼ N (µ, σ 2 ) (Normalverteilung); Dichte:
1
−
e 2
1
f (x) = √
σ 2π
x−µ
σ
2
Hier gilt
f (µ − t) = f (µ + t) , t ≥ 0 ,
und man kann zeigen, daß E(X) existiert, also
E(X) = µ
Interpretation:
µ ist die Mitte der Verteilung“ !
”
• Es seien a, b ∈ R. Dann gilt:
E(aX + b) = aE(X) + b
V ar(aX + b) = a2 V ar(X)
• Die Varianz einer Zufallsvariable X kann mit folgender Formel berechnet werden:
V ar(X) = E X 2 − [E(X)]2
Beispiele
– Es sei X ∼ B(3, 12 ). Dann gilt (siehe oben):
E(X) =
Daraus folgt:
Seite 76
3
,
2
E(X 2 ) = 3
2
3
12 − 9
3
V ar(X) = 3 −
=
=
2
4
4
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
– Es sei X exponentialverteilt mit Parameter λ > 0. Dann gilt (siehe oben):
E(X) =
1
λ
E(X 2 ) =
,
Daraus folgt:
2
V ar(X) = 2 −
λ
3.4.5
2
λ2
2
1
1
= 2
λ
λ
Tschebyscheffsche Ungleichung
Zusammenhang zwischen Erwartungswert E(X) und Varianz V ar(X) einer Zufallsvariable X:
P (|X − E(X)| ≥ c) ≤
V ar(X)
,
c2
für c > 0
Die Tschebyscheffsche Ungleichung liefert also eine obere Schranke für die Wahrscheinlichkeit dafür,
daß Abweichungen vom Erwartungswert auftreten, die größer oder gleich c sind.
Man beachte:
P (|X − E(X)| ≥ c) = 1 − P (|X − E(X)| < c)
= 1 − P (E(X) − c < X < E(X) + c)
Daraus ergibt sich folgende Abschätzung für c > 0:
P (|X − E(X)| < c) = P (E(X) − c < X < E(X) + c) ≥ 1 −
V ar(X)
c2
Beispiel: Es sei X ∼ N (µ, σ 2 ) und c = 2σ.
Es gilt:
E(X) = µ
V ar(X) = σ 2
und
Aus der Tschebyscheffschen Ungleichung erhält man:
P (|X − µ| ≥ 2σ) ≤
σ2
1
= = 0.25
2
4σ
4
Die Tschebyscheffsche Ungleichung ist hier sehr grob, denn es gilt nach der 2σ–Regel“ (siehe oben):
”
P (|X − µ| ≥ 2σ) = 0.0456 ≈ 0.05
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 77
f(t)
WAHRSCHEINLICHKEIT UND STATISTIK
3.4.6
Summen von Zufallsvariablen
Es seien X1 , X2 , . . . , Xn Zufallsvariablen. Dann gilt:
E(X1 + X2 + . . . + Xn ) = E(X1 ) + E(X2 ) + . . . + E(Xn )
Frage: Gilt eine entsprechende Formel auch für die Varianz ?
Unabhängigkeit der Zufallsvariablen X1 , X2 , . . . , Xn
praktisch: Die Werte kommen ohne gegenseitige Beeinflussung zustande.“
”
mathematisch: Produktformel
Für i = 1, . . . , n sei
Ai =
”
Xi ≤ xi “
mit vorgegebenen Werten x1 , x2 , . . . , xn .
Forderung: Die Ereignisse A1 , . . . , An sollen vollständig unabhängig sein !
Dies bedeutet:
P (A1 ∩ . . . ∩ An ) = P (A1 ) · . . . · P (An )
Seite 78
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
Für die sogenannte gemeinsame Verteilungsfunktion F(X1 ,...,Xn ) (x1 , . . . , xn ) gilt also:
F(X1 ,...,Xn ) (x1 , . . . , xn ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn )
= P (A1 ∩ . . . ∩ An )
= P (A1 ) · . . . · P (An )
= P (X1 ≤ x1 ) · P (X2 ≤ x2 ) · . . . · P (Xn ≤ xn )
= FX1 (x1 ) · FX2 (x2 ) · . . . · FXn (xn )
wobei (x1 , x2 , . . . , xn ) ∈ Rn beliebig.
Merkregel:
gemeinsame
Verteilungsfunktion





=





Produkt der einzelnen
Verteilungsfunktionen
Die Zufallsvariablen X1 , X2 , . . . , Xn heißen unabhängig, falls diese Gleichheit gilt.
Wichtig:
Die Annahme der Unabhängigkeit soll immer gemacht werden, wenn die Zufallsvariablen
X1 , X2 , . . . , Xn Beobachtungen beschreiben, die durch Vorgänge ohne gegenseitige Beeinflussung zustande kommen !
Für unabhängige Zufallsvariablen X1 , . . . , Xn gilt:
V ar(X1 + X2 + . . . + Xn ) = V ar(X1 ) + V ar(X2 ) + . . . + V ar(Xn )
sowie
E(X1 · X2 · . . . · Xn ) = E(X1 ) · E(X2 ) · . . . · E(Xn )
Anwendungen
• Binomialverteilung
X1 , . . . , Xn seien unabhängig und Xi ∼ B(1, p) für i = 1, . . . , n.
Es gilt also
P (Xi = 1) = p
und
P (Xi = 0) = 1 − p
wobei
p = Erfolgswahrscheinlichkeit“ ,
”
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
0≤p≤1
Seite 79
WAHRSCHEINLICHKEIT UND STATISTIK
Interpretation:
Xi = 1 , Erfolg
Xi = 0 , kein Erfolg
,
Es gilt:
Y = X1 + . . . + Xn ∼ B(n, p)
Anzahl Erfolge bei n Versuchen“
”
Für i = 1, . . . , n erhält man
E(Xi ) = 0 · (1 − p) + 1 · p = p
E(Xi 2 ) = 02 · (1 − p) + 12 · p = p
V ar(Xi ) = p − p2 = p(1 − p)
Daraus folgt für die B(n, p)–verteilte Zufallsvariable Y :
E(Y ) = E(X1 ) + . . . + E(Xn ) = n · p
V ar(Y ) = V ar(X1 ) + . . . + V ar(Xn ) = n · p · (1 − p)
• Normalverteilung
X1 , . . . , Xn seien unabhängig und E(Xi ) = µi sowie V ar(Xi ) = σi2 für i = 1, . . . , n.
Es folgt:
E(X1 + X2 + . . . + Xn ) = µ1 + µ2 + . . . + µn
V ar(X1 + X2 + . . . + Xn ) = σ12 + σ22 + . . . + σn2
Für eine normalverteilte Zufallsvariable X gilt:
X ∼ N (µ, σ 2 )
=⇒
aX + b ∼ N (aµ + b, a2 σ 2 )
Es gilt sogar: Summen von unabhängigen normalverteilten Zufallsvariablen sind wiederum normalverteilt.
X1 , . . . , Xn unabhängig , X1 ∼ N (µ1 , σ12 ), . . . , Xn ∼ N (µn , σn2 )
=⇒
X1 + . . . + Xn ∼ N (µ1 + . . . + µn , σ12 + . . . + σn2 )
Achtung:
Für großes n gilt die letzte Aussage näherungsweise auch für nicht–
normalverteilte Zufallsvariablen Xi !
Seite 80
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
3.4.7
Weitere Kennzahlen
• Momente
– absolute
– zentrale
• Schiefe
• Exzess
• Median und Quantile
Die Wurzel
p
V AR(X) aus der Varianz von X heisst Standardabweichung oder Streuung von X.
Für den Fall E(X) 6= 0 nennt man den Quotienten
p
V AR(X)
E(X)
Variationskoeffizienten von X.
Wie oben bereits definiert, bezeichnet man
k
E(X ) =
X
xki
i
k
· P (X = xi ) bzw. E(X ) =
Z∞
xk · f (x) dx
−∞
als k–tes Moment der Zufallsvariablen X (X diskret bzw. stetig verteilt).
Darüber hinaus definiert man absolute Momente, zentrale Momente und zentrale absolute
Momente:
E(|X|k ), E([X − E(X)]k ) und E(|X − E(X)|k )
mit
k
E(|X| ) =
X
i
k
E([X − E(X)] ) =
E(|X − E(X)|k ) =
Den Quotienten
k
|xi | · P (X = xi ) bzw.
Z∞
|x|k · f (x) dx
−∞
X
(xi − E(X)) · P (X = xi ) bzw.
X
|xi − E(X)|k · P (X = xi ) bzw.
i
i
k
Z∞
−∞
Z∞
(x − E(X))k · f (x) dx
|x − E(X)|k · f (x) dx
−∞
E[X − E(X)]3 )
p
V AR3 (X)
bezeichnet man als Schiefe von X. Diese Kennzahl bezeichnet die Abweichungen von der Symmetrie. Ist X symmetrisch verteilt, wie z.B. jede normalverteilte Zufallsvariable, so ist die Schiefe gleich 0.
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 81
WAHRSCHEINLICHKEIT UND STATISTIK
Der Quotient
E[X − E(X)]4 )
V AR2 (X)
heißt Exzess von X. Man kann zeigen, dass jede normalverteilte Zufallsvariable den Exzess 3 besitzt.
Analog zu den oben eingeführten Quantilen für Messreihen ist es auch möglich, für Verteilungsfunktionen Quantile zu definieren und einen Median.
Z.B. findet man für eine exponentialverteilte Zufallsvariable mit λ einen Median von x0,5 = ln 2 ≈
0, 6931.
3.5
Zentraler Grenzwertsatz
Lange Summen von unabhängigen Zufallsvariablen sind näherungswei”
se normalverteilt.“
Beachte: Dies gilt auch ohne die Voraussetzung, daß die Summanden selbst normalverteilt sind.
Voraussetzungen
X1 , . . . , Xn
E(Xi ) = µi ,
unabhängig ,
V ar(Xi ) = σi2
für
i = 1, . . . , n
Dann gilt (unter schwachen Zusatzbedingungen) für großes n die Approximation


X1 + . . . + Xn − (µ1 + . . . + µn )
q
P
≤ y  ≈ Φ(y) ,
2
2
σ1 + . . . + σn
y∈R
Interpretation: Eine lange“ Summe X1 + . . . + Xn ist näherungsweise N (µ, σ 2 )–verteilt mit µ =
”
µ1 + . . . + µn und σ 2 = σ12 + . . . + σn2
Anwendung auf die Binomialverteilung
Xi ∼ B(1, p),
i = 1, . . . , n ;
X1 , . . . , Xn unabhängig.
Es gilt:
E(Xi ) = p
und
V ar(Xi ) = p(1 − p)
sowie
Y = X1 + . . . + Xn ∼ B(n, p)
Aus dem Zentralen Grenzwertsatz folgt: Y ist näherungsweise N (np, np(1 − p)) verteilt, d.h.
!
Y − np
P p
≤ y ≈ Φ(y)
Grenzwertsatz von Moivre–Laplace
np(1 − p)
Seite 82
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
Approximation
Y ∼ B(n, p), n groß, p nicht zu klein (sonst Poisson–Approximation !)
P (a ≤ Y ≤ b) ≈ Φ
p
b − np
np(1 − p)
!
−Φ
p
a − np
np(1 − p)
!
graphisch:
f (t) =
a − 0.5
a
√
2π
np
√1
− 12
np(1−p)
b
·e
„
√ t−np
np(1−p)
«2
b + 0.5
Stetigkeitskorrektur
Stetigkeitskorrektur liefert i. allg. eine bessere Näherung:
!
b + 0.5 − np
P (a ≤ Y ≤ b) ≈ Φ p
−Φ
np(1 − p)
a − 0.5 − np
p
np(1 − p)
!
Beispiel: 900 Münzen werden auf den Tisch geworfen.
P( höchstens 480 zeigen die gleiche Seite“) = ?
”
Sei Y = Anzahl Münzen mit Wappen“ nach oben. Dann gilt:
”
Y ∼ B(n, p) mit n = 900
und p =
1
2
also
E(Y ) = np = 450
und
V ar(Y ) = np (1 − p) = 225
Näherungsrechnung:
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 83
WAHRSCHEINLICHKEIT UND STATISTIK
• ohne Stetigkeitskorrektur
P (420 ≤ Y ≤ 480) ≈ Φ
480 − 450
√
225
−Φ
420 − 450
√
225
= Φ(2) − Φ(−2)
= 2 · Φ(2) − 1
= 0.9544
• mit Stetigkeitskorrektur
480.5 − 450
419.5 − 450
√
√
P (420 ≤ Y ≤ 480) ≈ Φ
−Φ
225
225
−61
61
−Φ
= Φ
30
30
= 2 · Φ(2.03) − 1
= 0.9576
Seite 84
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
Kapitel 4
Schließende Statistik
Beschreibende Statistik:
Analyse von Meßreihen
Wahrscheinlichkeitstheorie:
Mathematische Beschreibung von Zufallsexperimenten; dabei wurde stets angenommen, daß
die Verteilungsfunktion F , die das Zustandekommen der Ergebnisse beschreibt, vollständig
bekannt ist.
Schließende Statistik:
Es wird davon ausgegangen, daß die Verteilungsfunktion F (das Zufallsgesetz) nicht
vollständig bekannt ist.
Ziel: Rückschlüsse ziehen auf F auf der Basis vorliegender Beobachtungsdaten (Meßreihen).
Beispiel
Es sei p der relative Anteil der Individuen einer Population, die an einer ganz bestimmten Krankheit
leiden. Wegen des zu großen Populationsumfangs ist ein Untersuchen aller Individuen nicht möglich.
Zur Bestimmung des unbekannten relativen Anteils p wird daher folgendermaßen vorgegangen: Der
Gesamtpopulation wird eine Stichprobe von n Individuen entnommen und es wird festgestellt, wieviele
Individuen innerhalb der Stichprobe an der Krankheit leiden.
Fragen:
• Wie groß ist p ?
−→
Schätzproblem
• Zwischen welchen Grenzen liegt p ?
• Gilt p = 1% ?
4.1
−→
−→
Konfidenzintervall
Testproblem
Empirische Verteilungsfunktion
Meßreihe bzw. Stichprobe
x1 , . . . , xn
wobei
n = Stichprobenumfang
Stochastisches Modell
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 85
WAHRSCHEINLICHKEIT UND STATISTIK
x1 , . . . , xn
Realisation von Zufallsvariablen X1 , . . . , Xn
X1 , . . . , Xn
unabhängig
X1 , . . . , Xn
identisch verteilt mit Verteilungsfunktion F , also
F (x) = P (Xi ≤ x) , i = 1, . . . , n
Problem:
Ziel:
4.1.1
F unbekannt !
Rückschlüsse auf F auf der Basis der vorliegenden Stichprobe !
Zentralsatz der Statistik
Bilde aus der Meßreihe x1 , . . . , xn die empirische Verteilungsfunkion
Fn ( · ; x1 , . . . , xn ) : R → [0, 1]
mit
1
Fn (z; x1 , . . . , xn ) =
(Anzahl der Meßwerte ≤ z)
| {z }
n
vorliegende
Meßreihe
= rel. Häufigkeit der Meßwerte ≤ z
1.0
6
r
....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ..
.......................................................................................................
.........................
.
...............
. ..................
...
.
.
.
.
.
.
.......
...... .
......
.
......
.....
.
.
.
.
.
.....
.
....
. ......
.
.
.
....
.
.
.....
5
1
5
...
... .
... .
...
.
.
..
.
.
.
...
. .....
. .....
......
....
...
... .
... .
.
.
.
.
...
. ......
. .....
.
....
....
... .
.... .
.... .
.
.
...
....
.
.....
.
.....
.....
.
.
.
.
.
..
............
..
........
........ .
.........
...........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..........
...................................................................................................
.
F (z)
r
0.8
F (z; x , . . . , x )
r
0.6
r
0.4
0.2
0.0
r
-
x2
x4
x1
x5
x3
z
Idee
Fn ( · ; x1 , . . . , xn ) ≈
Seite 86
F( · )
| {z }
unbekannte
Verteilungsfunktion
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
betrachte
Fn ( · ;
X1 , . . . , Xn )
|
{z
}
Zufallsvariablen
zufällige Funktion“
”
Frage: Zusammenhang Fn ( · ; X1 , . . . , Xn ) ←→ F (z) ?
Zentralsatz der Statistik (Satz von Glivenko/Cantelli)
zufälliger maximaler Unterschied“ zwischen empirischer Verteilungsfunktion und wahrer Verteilungs”
funktion:
Dn (X1 , . . . , Xn ) = sup |Fn (z; X1 , . . . , Xn ) − F (z)| , n = 1, 2, . . .
z∈R
Es gilt:
P
Interpretation:
lim Dn (X1 , . . . , Xn ) = 0 = 1
(n = Stichprobenumfang)
n→∞
Für geeignet lange Meßreihen x1 , . . . , xn ist die empirische Verteilungsfunktion
Fn ( · ; x1 , . . . , xn ) eine beliebig gute Approximation für die wahre Verteilungsfunktion F .
Problemstellung
Können die Meßwerte x1 , . . . , xn als Realisation von normalverteilten
Zufallsvariablen angesehen werden ?
Graphische Prüfmethode: Wahrscheinlichkeitspapier
Quantitative Prüfmethode: Kolmogoroff–Smirnov–Test
4.1.2
Wahrscheinlichkeitspapier
Φ = Verteilungsfunktion der N(0,1)– Verteilung
Es gilt
1
y = Φ(x) = √
2π
Z
x
t2
e− 2 dt
−∞
Graph von Φ:
100% =
1.0
....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ................................................................................................................
................
...........
........
.......
.
.
.
.
.
....
......
.....
....
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ........
.
.
.
..
.... .
.... .
...
...
.
.
.
.
.
............................................................................................................................................................................................................................
.
.
... ....
.
.
.
.. ...
.
.
... ...
.
.
...
.
.
.
.
.
.
..
.
.
.
.
.
.
..
.
.
.
.
.
.
..
.
.
.
.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....
.
....
..
.
.
.
.
.
.
..
.
.
.
.
.
.
.. .
.
.
.
.
.
.
.. .
.
.
.
.
.
.
...
....
...
.
.
.
.
.
.
.
..
.
.
.
.
.
.
.
..
.
.
.
.
.
.
..
..
.
.
.
.
.
...
....
...
.
.
.
.
.
.
.
..
.
.
.
.
.
.
.
.
...
.
.
.
.
..
.
.
.
.
.
.
.
.
.
. . . . . . . . . . . . . . . . . . . . . .....
.
.
..
....
..... .
.
.
.
.
.
.
.
.
.
...
.
.
.
.
.
.
.
.
.
.
.
.....
.
.
.
.
.
.
.
.
.
.
.
....
.
.
.
.
.
.
.
.
.
.
.........
.
.
.
.....
................
.
.
.
.
...................................................................................
84.1% = 0.841
y
50% =
0.5
15.9% = 0.159
0% =
-
0.0
−3.0
Dr. Torsten-Karl Strempel
−2.0
−1.0
0.0
x 1.0
Stand: 02.06.2004
2.0
3.0
Seite 87
WAHRSCHEINLICHKEIT UND STATISTIK
Idee
Änderung der Skala der y–Achse so, daß sich der Graph von Φ im neuen
Koordinatensystem zu einer Geraden streckt.
Skalaänderung:
v = Φ−1 (y) ,
0<y<1
wobei
Φ−1 = Umkehrfunktion von Φ
Damit gilt für den Graph von Φ im x − v–Koordinatensystem:
v = Φ−1 (Φ(x)) = x
| {z }
=y
also: Graph von Φ im x − v–Koordinatensystem = 1. Winkelhalbierende
Das x − v–Koordinatensystem bezeichnet man als Wahrscheinlichkeitsnetz
v6
84.1% →
1
50% →
0
15.9% →
−1
........
........
.........
.........
.
.
.
.
.
.
.
.
.........
........
.........
.........
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .................
.
.
.
......... .
.........
.
.........
.........
.
........
.
.
.
.
.
.
.
.
.
......
.
.
.
.
.
.
.
.
.
.........
. . . . . . . . . . . . . . . . . . . . . . . . . . . ..................
.
.
......
.
.
.
.
.
.
.
.
.
.
......
.
.
.
.
.
.
.
.
.
.....
.
.
.
.
.
.
.
.
..
.
.
.........
.........
.
.
.
.
.
.
.
.
.
.....
.
.
.
.
.
.
.
.
.
.
. . . . . . . . . . . . . ...............
.
.
...... .
.
.
.
.
.
.
.
.
.
.
.
.........
.........
.
.
.
.
.
.
.
.
.
.
.
......
.
.
.
.
.
.
.
.
.
.
......
.
.
.
.
.
.
.
..
.
.
.
.........
.
.
.
−2.0
−1.5
−1.0
−0.5
0.0
0.5
1.0
1.5
v=x
2.0
x
Achtung
Im Wahrscheinlichkeitsnetz wird die v–Achse mit den entsprechenden Prozentzahlen beschriftet !
Allgemein
Fµ,σ2 = Verteilungsfunktion einer N (µ, σ 2 )–Verteilung
Im x-y–Koordinatensystem:
y = Fµ,σ2 (x) = Φ
Im x-v–Koordinatensystem:
v=Φ
Seite 88
−1
x−µ
σ
x−µ
x−µ
Φ
=
σ
σ
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
Fazit:
Die Verteilungsfunktion einer Normalverteilung ist also im Wahrscheinlichkeitsnetz stets eine Gerade !
Näherungswerte für die Parameter µ und σ 2 einer Normalverteilung:
v
84.1%
50%
setze
v = 0 (entspricht 50%–Linie)
=⇒ x = µ
setze
v = 1 (entspricht 84.1%–Linie) =⇒ x = µ + σ
6
...
...............
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .............................
...........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
....
...............
.
..............
...............
.
...............
.
...............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
.
..............
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ................................
.
.........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
.
.
...............
..............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.......
.
.
..............
.
.
.
.
.
.
.
.
.
.
Fµ,σ2
←−−−−−−−− σ −−−−−−−−→
µ
µ+σ
-
x
Vorgehen
1. Den Graphen der empirischen Verteilungsfunktion zur Meßreihe x1 , . . . , xn in das x−v–Koordinatensystem
(Wahrscheinlichkeitsnetz) eintragen.
2. Die approximierende Näherungsgerade einzeichnen
3. Falls die Abweichungen zwischen dem Graphen der empirischen Verteilungsfunktion (Treppenfunktion) und der Näherungsgeraden nicht zu groß sind: Näherungswerte für µ und σ bestimmen.
Hinweis:
Bei klassierten Daten müssen die summierten relativen Klassenhäufigkeiten als Punkte
über den rechten Klassengrenzen in das Wahrscheinlichkeitsnetz eingetragen werden.
Dann Gerade durch diesen Punkteschwarm legen.
4.1.3
Kolmogoroff–Smirnov–Test
Hypothese H0 :
F = F0
wobei
F0 beliebige stetige Verteilungsfunktion, F0 vorgegeben
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 89
WAHRSCHEINLICHKEIT UND STATISTIK
Beispiel
F0 = Verteilungsfunktion einer Normalverteilung
Also insbesondere
µ und σ 2 vorgegeben
Vorgehen
Berechne
Dn (x1 , . . . , xn ) = sup |Fn (z; x1 , . . . , xn ) − F0 (z)|
= max
Dabei ist













z∈R







|Fn (x(i) ; x1 , . . . , xn ) − F0 (x(i) )| , |Fn ( x(i) − 0 ; x1 , . . . , xn ) − F0 (x(i) )| , i = 1, . . . , n

| {z }




linksseitiger

Grenzwert
x(1) , . . . , x(n)
die geordnete Meßreihe.
1.0
6
r
....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ..
..........................................................................................................
........................
.
..............
. ..................
.....
.
.
.
.
.
.
......
...... .
......
.
......
.....
.
.
.
.
.
....
.
....
. ......
.
.
.
....
.
.
....
5
1
5
...
... .
.... .
...
.
.
.
..
.
.
.
..
. .....
. .....
......
.
....
...
... .
... .
.
.
.
.
...
. ......
. .....
.
.
...
...
.... .
.... .
.... .
.
.
....
.
....
.....
.
.....
.....
.
.
.
.
.
.
............
....
........
........ .
.........
............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
......
.
...................................................................................................
F (z)
r
0.8
F (z; x , . . . , x )
r
0.6
r
0.4
r
0.2
0.0
-
x2
x4
x1
Falls alle Meßwerte verschieden sind, gilt
i
Dn (x1 , . . . , xn ) = max − F0 (x(i) )
n
Entscheidung:
x5
z
x3
i − 1
,
− F0 (x(i) ) , i = 1, . . . , n
n
Hypothese F = F0“ verwerfen, falls
”
Dn (x1 , . . . , xn )
Seite 90
zu groß“ ,
”
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
d. h. falls
Dn (x1 , . . . , xn ) > c
Problem:
Vorgehen:
Wahl von c ?
Bei Gültigkeit der Hypothese H0 (also F = F0 ) soll gelten
P (Dn (X1 , . . . , Xn ) > c) ≈ α ,
wobei 0 < α < 1 vorgegeben.
Interpretation:
Die Wahrscheinlichkeit dafür, die Hypothese zu verwerfen, obwohl sie
wahr ist, d. h. die Wahrscheinlichkeit dafür, die Hypothese fälschlicherweise zu verwerfen (Fehlentscheidung !), soll ≈ α betragen
Die festzulegende Konstante c hängt also vom gewählten α ab:
c = cα
Da α die Wahrscheinlichkeit für eine Fehlentscheidung ist, wird α in der Regel klein gewählt:
α = 1%
oder
α = 5%
Man bezeichnet α als Signifikanzniveau des Tests.
Zur Festlegung von cα benötigt man die Verteilung von Dn (X1 , . . . , Xn ), falls F = F0 gilt.
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 91
WAHRSCHEINLICHKEIT UND STATISTIK
Satz (Kolmogoroff )
X1 , . . . , Xn unabhängige und identisch verteilte Zufallsvariablen mit stetiger Verteilungsfunktion F .
Dann gilt:
√
lim P
n · Dn (X1 , . . . , Xn ) ≤ y = K(y) ,
y∈R
n→∞
wobei K : R −→ [0, 1] gegeben durch

∞

 1 + 2 X(−1)k e−2k2 y2
K(y) =
k=1


0
y>0
Kolmogoroffsche
Verteilungsfunktion
y≤0
Werte von K in Tabellen !
Kolmogoroffsche Verteilungsfunktion
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Bestimmung von cα :
P (Dn (X1 , . . . , Xn ) > cα ) = 1 − P (Dn (X1 , . . . , Xn ) ≤ cα )
√
√
n · Dn (X1 , . . . , Xn ) ≤ n · cα
= 1−P
√
≈ 1 − K( n · cα )
!
= α
Daraus folgt:
√
K( n · cα ) = 1 − α
Vorgehen: α vorgeben, 1 − α berechnen, der Tabelle den Wert für
ermitteln
√
n · cα entnehmen und daraus cα
Beispiel
Vorgabe: α = 5%
√
K( n · cα ) = 1 − 0.05 = 0.95
Seite 92
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
Der Tabelle entnimmt man:
Man erhält:
√
n · cα = 1.36
1.36
cα = √
n
Im Falle n = 100 gilt also cα = 0.136.
Die Entscheidung bei der Durchführung des Kolmogoroff–Smirnov–Tests zum Signifikanzniveau α =
5% lautet also: Falls
1.36
Dn (x1 , . . . xn ) > cα = √
n
wird die Hypothese F = F0“ verworfen, sonst kann gegen H0 nichts eingewendet werden.
”
Beachte:
F0 muß vollständig bekannt sein !
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 93
WAHRSCHEINLICHKEIT UND STATISTIK
Kapitel 5
Simulation und Erzeugung von
Zufallszahlen
Nur Pseudozufallszahlen möglich, da ja ein Algorithmus verwendet wird ...
5.1
Erzeugung von Zufallszahlen mit dem Computer
x = rnd(n), ...
5.2
Prüfung der Gleichverteilung von Zufallszahlen
5.3
Praxisbeispiel - Geografische Verteilung von Anrufen
Geografische Verteilung von Anrufen darstellen
-¿
-¿
-¿
Tortenlösung
exakte“ Lösung
”
Fehlende Anrufe wegen Rundung
5.4
Statistik-Software
Überblick und Beispiele
Untersuchung von Softwarepaketen (auch Shareware und Freeware).
Seite 94
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
5.4.1
MicroSoft Excel
Erste Beispiele (Statistikdaten aus dem Kurs) können mit Excel analysiert werden.
Nutzung der Grundfunktionalitäten zur Berechnung von Mittelwerten, Varianz und Standardabweichung, Korrelation und Regressionsgerade.
Darstellung in Diagrammen und Einfügen von Trendlinien. Vergleich der Trendlinien- Funktionsgleichung mit der zuvor von Hand berechneten Regressionsgeraden.
5.5
Web-Adressen
http://www.bommi2000.de — Wahrscheinlichkeitsrechnen
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 95
WAHRSCHEINLICHKEIT UND STATISTIK
Anhang A
Verteilungsfunktion Φ(x) der
N(0,1)–Verteilung
x
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
0
.5000
.5398
.5793
.6179
.6554
.6915
.7257
.7580
.7881
.8159
.8413
.8643
.8849
.9032
.9192
.9332
.9452
.9554
.9641
.9713
.9772
.9821
.9861
.9893
.9918
.9938
.9953
.9965
.9974
.9981
1
.5040
.5438
.5832
.6217
.6591
.6950
.7291
.7611
.7910
.8186
.8438
.8665
.8869
.9049
.9207
.9345
.9463
.9564
.9649
.9719
.9778
.9826
.9864
.9896
.9920
.9940
.9955
.9966
.9975
.9982
2
.5080
.5478
.5871
.6255
.6628
.6985
.7324
.7642
.7939
.8212
.8461
.8686
.8888
.9066
.9222
.9357
.9474
.9573
.9656
.9726
.9783
.9830
.9868
.9898
.9922
.9941
.9956
.9967
.9976
.9982
3
.5120
.5517
.5910
.6293
.6664
.7019
.7357
.7673
.7967
.8238
.8485
.8708
.8907
.9082
.9236
.9370
.9484
.9582
.9664
.9732
.9788
.9834
.9871
.9901
.9925
.9943
.9957
.9968
.9977
.9983
4
.5160
.5557
.5948
.6331
.6700
.7054
.7389
.7703
.7995
.8264
.8508
.8729
.8925
.9099
.9251
.9382
.9495
.9591
.9671
.9738
.9793
.9838
.9875
.9904
.9927
.9945
.9959
.9969
.9977
.9984
5
.5199
.5596
.5987
.6368
.6736
.7088
.7422
.7734
.8023
.8289
.8531
.8749
.8944
.9115
.9265
.9394
.9505
.9599
.9678
.9744
.9798
.9842
.9878
.9906
.9929
.9946
.9960
.9970
.9978
.9984
6
.5239
.5636
.6026
.6406
.6772
.7123
.7454
.7764
.8051
.8315
.8554
.8770
.8962
.9131
.9279
.9406
.9515
.9608
.9686
.9750
.9803
.9846
.9881
.9909
.9931
.9948
.9961
.9971
.9979
.9985
7
.5279
.5675
.6064
.6443
.6808
.7157
.7486
.7793
.8078
.8340
.8577
.8790
.8980
.9147
.9292
.9418
.9525
.9616
.9693
.9756
.9808
.9850
.9884
.9911
.9932
.9949
.9962
.9972
.9979
.9985
8
.5319
.5714
.6103
.6480
.6844
.7190
.7517
.7823
.8106
.8365
.8599
.8810
.8997
.9162
.9306
.9429
.9535
.9625
.9699
.9761
.9812
.9854
.9887
.9913
.9934
.9951
.9963
.9973
.9980
.9986
9
.5359
.5753
.6141
.6517
.6879
.7224
.7549
.7852
.8133
.8389
.8621
.8830
.9015
.9177
.9319
.9441
.9545
.9633
.9706
.9767
.9817
.9857
.9890
.9916
.9936
.9952
.9964
.9974
.9981
.9986
Weitere Funktionswerte erhält man durch die Beziehung
Φ(−x) = 1 − Φ(x).
Beispiele: Φ(0.93)
= 0.8238
Φ(−0.93) = 1 − 0.8238 = 0.1762
Seite 96
Stand: 02.06.2004
Dr. Torsten-Karl Strempel
WAHRSCHEINLICHKEIT UND STATISTIK
LITERATURVERZEICHNIS
Literaturverzeichnis
[1] Einführung in die Statistik, Lehn, J., Wegmann, H., 2. Auflage, Teubner 1992.
[2] Statistische Methoden und ihre Anwendungen, Kreyszig, E., 7. Auflage, Vandenhoeck
& Ruprecht 1979.
[3] Statistik für Soziologen, Pädagogen, Pschychologen und Mediziner - Band 1 Grundlagen, Clauß, G., Ebener, 5. Auflage, Verlag Harri Deutsch, Thun und Frankfurt am Main
1985.
[4] Statistik, Hartung, J., 9. Auflage, Oldenbourg 1993.
[5] Multivariate Statistik, Hartung, J.; Elpelt, B., Oldenbourg 1984.
[6] Angewandte Statistik, Sachs, L., 7. Auflage, Springer 1992.
[7] So lügt man mit Statistik, Krämer, W., 4. Auflage, Campus 1992.
[8] Denkste ! — Trugschlüsse aus der Welt des Zufalls und der Zahlen, Krämer, W.,
Campus 1995..
[9] Formeln und Hilfen zur höheren Mathematik, Merziger, Mühlbach, Wille, Wirth,
[email protected], www.binomiverlag.de, 4.Auflage 10/2001.
Dr. Torsten-Karl Strempel
Stand: 02.06.2004
Seite 97
Herunterladen