Skript zur Vorlesung Mathematik III Wahrscheinlichkeit und Statistik Sommersemester 2004 BA-Mannheim Kurs: tit02agr E-mail: [email protected] Stand: 02.06.2004 Dozent Dr. Torsten-Karl Strempel E-mail Internet [email protected] www.strempels.de/ba-mannheim Mein besonderer Dank gilt Dr. Holger Grothe, Dr. Stefan Rettig und Dr. Michael Meßollen! Wesentliche Teile dieser Unterlagen wurden von Ihnen erarbeitet und mir freundlicherweise zur Verfügung gestellt. WAHRSCHEINLICHKEIT UND STATISTIK Inhaltsverzeichnis 1 Einleitung 1 1.1 Was ist Statistik? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Warum machen Sie Statistik? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Definitionen und Schreibweisen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3.1 Vektoren und Maße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Darstellung von Ergebnissen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.4.1 Runden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.4.2 Zeichnungen 4 1.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Beschreibende Statistik 5 2.1 Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.2 Stichprobe / Meßreihe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.3 Allgemeine Darstellungsformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.4 Graphische Darstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.4.1 Stabdiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.4.2 Empirische Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.4.3 Histogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.5.1 Arithmetisches Mittel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.5.2 Median . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.5.3 Modalwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.5.4 Weitere Mittelwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.5.5 Spannweite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.5.6 Empirische Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.5.7 Empirische Streuung oder empirische Standardabweichung . . . . . . . . . . . . 16 2.5 Seite 2 Stand: 02.06.2004 Dr. Torsten-Karl Strempel 2.5.8 Gewichtete Zusammenfassung von Varianz und Empirischer Streuung . . . . . 17 2.5.9 Durchschnittliche Mittelwertabweichung . . . . . . . . . . . . . . . . . . . . . . 17 2.5.10 Durchschnittliche Medianabweichung . . . . . . . . . . . . . . . . . . . . . . . . 17 2.5.11 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.5.12 Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Robustheit von Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.6.1 α-gestutztes Mittel: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.6.2 α-windsorisiertes Mittel: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Zweidimensionale Meßreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.7.1 Maßzahlen für zweidimensionale Meßreihen . . . . . . . . . . . . . . . . . . . . 22 2.7.2 Empirische Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.7.3 Empirischer Korrelationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.7.4 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.8 Ergänzungen zur Linearen Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.9 Regression höheren Grades — Least Sqares Fits (LSQ) . . . . . . . . . . . . . . . . . . 32 2.6 2.7 3 Wahrscheinlichkeitstheorie 3.1 Zufallsexperiment und Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.1.1 Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Ergebnis und Ergebnismenge . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Ereignis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Zusammengesetzte Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Axiomensystem von Kolmogoroff . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Rechenregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Laplace – Annahme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Paradoxa der Wahrscheinlichkeitstheorie . . . . . . . . . . . . . . . . . . . . . . 39 Grundlagen der Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.1.3 Das Pascalsche Dreieck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.1.4 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 Bedingte Wahrscheinlichkeiten und Unabhängigkeit . . . . . . . . . . . . . . . . . . . . 43 3.2.1 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 Bedingte Wahrscheinlichkeit von A unter B . . . . . . . . . . . . . . . . . . . . 45 3.1.2 3.2 33 Regel von der vollständigen Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . 45 Formel von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Multiplikationsformel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Pfadregel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . . . 50 Zufallsvariable und Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.3.1 Diskret verteilte Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Geometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 Poisson–Verteilung und Poissonscher Grenzwertsatz . . . . . . . . . . . . . . . 59 Stetig verteilte Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 Rechteckverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 Weilbullverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 Erwartungswert, Varianz und weitere Kennzahlen . . . . . . . . . . . . . . . . . . . . . 69 3.4.1 Erwartungswert einer diskret verteilten Zufallsvariable . . . . . . . . . . . . . . 69 3.4.2 Erwartungswert einer stetig verteilten Zufallsvariable . . . . . . . . . . . . . . . 71 3.4.3 Varianz einer Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.4.4 Rechenregeln für Erwartungswerte . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.4.5 Tschebyscheffsche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 3.4.6 Summen von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 3.4.7 Weitere Kennzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 3.2.2 3.3 3.3.2 3.4 3.5 4 Schließende Statistik 4.1 85 Empirische Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 4.1.1 Zentralsatz der Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 4.1.2 Wahrscheinlichkeitspapier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 4.1.3 Kolmogoroff–Smirnov–Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 WAHRSCHEINLICHKEIT UND STATISTIK 5 Simulation und Erzeugung von Zufallszahlen 94 5.1 Erzeugung von Zufallszahlen mit dem Computer . . . . . . . . . . . . . . . . . . . . . 94 5.2 Prüfung der Gleichverteilung von Zufallszahlen . . . . . . . . . . . . . . . . . . . . . . 94 5.3 Praxisbeispiel - Geografische Verteilung von Anrufen . . . . . . . . . . . . . . . . . . . 94 5.4 Statistik-Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 5.4.1 MicroSoft Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 Web-Adressen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 5.5 A Verteilungsfunktion Φ(x) der N(0,1)–Verteilung 96 Literatur 97 Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite i WAHRSCHEINLICHKEIT UND STATISTIK Kapitel 1 Einleitung 1.1 Was ist Statistik? Z.B. www.net-lexikon.de Statistik, eine angewandte Disziplin der Mathematik, ist die Analyse & Interpretation von Daten mit Mitteln der Wahrscheinlichkeitstheorie. Sie beschäftigt sich mit • Versuchsplanung / Erhebungsvorbereitung (Erhebungskonzept, Fragebogenentwicklung, Stichprobenziehung), • Datengewinnung / Erhebung (von Stichproben) / Nutzung von Betriebsdaten, • Aufbereitung (Datenprüfungen, Typisierungen / Merkmalszusammenfassungen / Reduktion), • Auswertung (Tabellierung, Modellierung, Hoch- und Fehlerrechnung, Wahrscheinlichkeit, Fehler 1. und 2. Art, Schätzen und Testen) sowie • Ergebnispräsentation (Tabellen, Grafiken, Ergebnisinterpretation). Methoden der beschreibenden Statistik (deskriptive Statistik) verdichten quantitative Daten zu Tabellen, graphischen Darstellungen und Kennzahlen. Umgangssprachlich werden auch die Ergebnisse der deskriptiven Statistik als Statistik bezeichnet: Bevlkerungsstatistik, Unfallstatistik, Handelsstatistik. Methoden der schließenden Statistik liefern Werkzeuge zum Umgang mit Unsicherheit, die auf unvollständiger Information beruht, wie sie typischerweise nach der Erhebung einer Stichprobe vorliegt. Die verwendeten Verfahren haben einen deutlichen Bezug zur Stochastik. Whrend sich die univariate Statistik mit der Beschreibung der Verteilung eines Untersuchungsmerkmals beschäftigt, wird in der multivariaten Statistik die gemeinsame Verteilung von mehreren Untersuchungsmerkmalen betrachtet. Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 1 WAHRSCHEINLICHKEIT UND STATISTIK 1.2 Warum machen Sie Statistik? • Grundlage (informations-)technischer Verfahren • Beurteilung der Aussagekraft von Ergebnissen • Berücksichtigung realer“ Einflüsse ” • Planung wirkungvoller Simulationen Statistische Aussagen sollten immer kritisch betrachtet werden! oder Traue nie einer Statistik, die Du nicht selbst gefälscht hast ...“ ” • So lügt man mit Statistik Krämer, W. 4. Auflage, Campus 1992 • Denkste ! — Trugschlüsse aus der Welt des Zufalls und der Zahlen Krämer, W. Campus 1995. 1.3 Definitionen und Schreibweisen Das Script hält sich an gängige Mathematische Konventionen und verwendet gängige Schreibweisen. Es kann allerdings im Einzelfall sein, dass eine Definition oder Schreibweise von anderen Autoren, Software oder Taschenrechnern anders benutzt wird. Im Einzelfall wird hierauf im Script hingewiesen. In den Übungen und der Klausur sind aber immer die im Script verwendeten Definitionen anzuwenden (z.B. Berechnung der Varianz). Die grundsätzlichen mathematischen Schreibweisen werden hier vorausgesetzt und nur im Einzelfall zur Sicherheit aufgeführt. Intervalle Zur Darstellung von Intervallen gibt es verschiedene Schreibweisen. Im Script verwenden wir die nachfolgende: • [a, b] geschlossenes Intervall, dass die Unter- und die Obergrenze mit einbezieht. • (a, b] halboffenes Intervall, dass nur die Obergrenze mit einbezieht. • [a, b) halboffenes Intervall, dass nur die Untergrenze mit einbezieht. • (a, b) offenes Intervall, dass die Unter- und die Obergrenze nicht mit einbezieht. (a, b) wird z.B. auch als ]a, b[ geschrieben usw.. Seite 2 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK 1.3.1 Vektoren und Maße Möchte man Messreihen vergleichen, so kann man verschiedene Maße definieren. Geht man zunächst davon aus, dass die Messreihen {x1 , . . . , xn } und {y1 , . . . , yn } die gleiche Anzahl von Messwerten (n) enthalten, dann kann man die Summe der paarweisen Abstände als Kriterium definieren. Fasst man die Messreihen als Punkte in einem n-dimensionalen Vektorraum Rn, dann ist der Abstand gerade die Länge des Verbindungsvektors xy. ~ Diese Länge kann man in verschiedenen Normen betrachten. Definition 1.1 Ein Maß k~x, ~y k heißt Norm, wenn gilt: a) b) c) positiv definit symmetrisch Dreiecksungleichung k~x, ~y k ≥ 0 k~x, ~y k = k~y , ~xk k~x, ~y k + k~y , ~zk ≥ k~x, ~zk Definition 1.2 p-Norm v u n uX p kxyk ~ p=t |xi − yi |p i=1 a) 2-Norm (Euklidischer Abstand) v u n uX 2 kxyk ~ 2 = |xy| ~ =t (xi − yi )2 i=1 a) 1-Norm (Betragssumme, Taxinorm) kxyk ~ 1= n X i=1 |xi − yi | a) unendlich-Norm (Maximaler Abstand in einer Komponente) kxyk ~ ∞ = max |xi − yi | i=1···n Normierung des Abstandes bzgl. der Dimension / der Anzahl der Messwerte Skalarprodukt und Winkel Bei Unterschiedlicher Anzahl von Messwerten Fitten einer Theoretischen Kurve und Bestimmung der Parameter (z.B. a,b). Dann Vergleich der Parameter-Vektoren mit den oben definierten Normen 1.4 Darstellung von Ergebnissen Ergebnisse sind hervorzuheben und in geschlossener Form darzustellen, z.B.: - Geradengleichung hinschreiben nicht y=ax+b, a=1,12, b=2,23 - a¿b weil ... ggf. Doppelt unterstreichen oder einen Kasten drumrum. Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 3 WAHRSCHEINLICHKEIT UND STATISTIK 1.4.1 Runden Ergebnisse sind immer in Dezimalschreibweise anzugeben, es sei denn, in der Aufgabe wird es anders gefordert. Bei der Beschreibung von Messreihen macht eine Angabe mit der Genauigkeit der Rechner keinen Sinn! Als Faustformel sollten die Ergebnisse immer auf eine Stelle mehr gerundet werden, als die Messwerte haben. Um diese Genauigkeit zu erhalten, müssen die Zwischenschritte natürlich mit höherer Genauigkeit durchgeführt werden. D.h. erst zum Schluss runden! 1.4.2 Zeichnungen Zeichnungen müssen mit Lineal und dünnen Stiften angefertigt werden. Skalierungen und Achsenabschnitte sind so zu wählen, dass der betrachtete Auschnitt des Koordinatensystems möglicht unverzerrt und in ausreichender Größe dargestellt wird. Seite 4 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK Kapitel 2 Beschreibende Statistik Die deskriptive Statistik oder auch beschreibende Statistik dient dazu, Daten unter bestimmten Aspekten zu beschreiben und die in den Daten vorliegenden Informationen auf ihren - für eine gegebene Fragestellung - wesentlichen Kern zu reduzieren. Die wichtigsten Verfahren der deskriptiven Statistik sind Gegenstand dieses Kapitels. Zunächst werden einige für die deskriptive Statistik grundlegende Begriffe eingeführt und an Beispielen erläutert. Definition 2.1 Unter einer Menge M verstehen wir eine Gesamtheit gleichartiger Individuen (oder Objekte oder Ereignisse), an denen ein oder mehrere Merkmale beobachtet werden können. Jedes Individuum i heißt Element der Menge (i ∈ M ). Bemerkung 2.2 Man bezeichnet o.g. Menge aus Definition 2.1 auch mit Beobachtungsmenge, die Individuen auch mit Beobachtungseinheiten und die Merkmale mit Beobachtungsmerkmalen bzw. Eigenschaften oder Sachverhalten. Beispiel 2.3 Menge M Element 1 Element 2 .. . Element n charakterisierbar durch eine Variable X (Zufallsgröße) Untersuchtes Merkmal Beispiel 2.4 M1 : Schulklasse, bestehend aus n Schülern Schüler 1 x1 = 169 Schüler 2 x2 = 175 Körperlänge .. . .. . (in cm) Schüler n xn = 160 Beispiel 2.5 M2 : n Würfe mit einem Würfel Wurf 1 Wurf 2 Augenzahl .. . Wurf n Dr. Torsten-Karl Strempel x1 x2 xn = 5 = 2 .. . = 3 Stand: 02.06.2004 Seite 5 WAHRSCHEINLICHKEIT UND STATISTIK Definition 2.6 Unter einer Zufallsgröße oder Zufallsvariablen X versteht man die Funktion X = X(i), i = 1, 2, . . . , n, die für alle Elemente i ∈ M definiert ist und jedem Element i einen Zahlenwert xi eindeutig zuordnet. Definition 2.7 Eine Zufallsvariable X heißt stetig oder kontinuierlich, wenn sie jeden beliebigen Wert eines bestimmten Intervalls annehmen kann. Man nennt X eine diskrete Zufallsvariable, wenn sie nur endlich viele Werte oder abzählbar unendlich viele Werte der reellen Zahlengeraden annehmen kann. Beispiel 2.8 Die beiden Beispiele aus Beispiel 2.4 und Beispiel 2.5 lassen bereits o.g. zwei Typen von Zufallsvariablen erkennen: die stetige Zufallsvariable (Beispiel 2.4) und die diskrete Zufallsvariable (Beispiel 2.5). 2.1 Merkmale Die Ergebnisse xi , die bei der Beobachtung eines Merkmals auftreten können, heißen Merkmalsausprägungen. Man unterscheidet vier verschiedene Merkmalsausprägungen der xi : • qualitative Merkmale z.B. Geschlecht, Familienstand, Religionszugehörigkeit, Wohnort • Rangmerkmale z.B. Grad des Interesses am technischen Fortschritt • quantitativ–diskrete Merkmale z.B. Anzahl defekter Stücke in einem Los, Augenzahl beim Würfeln Merkmalsausprägungen entstehen in der Regel durch Zählen • quantitativ–stetige Merkmale z.B. Körperlänge, Temperatur, Druck, Spannung Merkmalsausprägungen entstehen in der Regel durch Messen Bemerkung 2.9 Im weiteren werden wir uns vornehmlich mit quantitativen Merkmalen befassen. 2.2 Stichprobe / Meßreihe Definition 2.10 Die Menge aller gleichartigen Individuen (oder Objekte oder Ereignisse) bildet die Grundgesamtheit G. Entnimmt man dieser Menge G eine zufällige Auswahl von n Elementen, so erhält man eine Stichprobe. Definition 2.11 Die für eine bestimmte Untersuchung zufallsmäßig aus G ausgewählten Individuen (oder Objekte oder Ereignisse) bilden eine Stichprobe aus der Menge G. Die Anzahl n der in der Stichprobe auftretenden Zahlenwerte der Zufallsvariablen X wird Umfang der Stichprobe genannt. Seite 6 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK Das wichtigste Ziel aller statistischen Untersuchungen besteht darin, von den besonderen Verhältnissen einer gerade vorliegenden Stichprobe zu allgemeinen Aussagen zu gelangen. Definition 2.12 Die Menge der quantitativen Merkmalsausprägungen {xi } = {x1 , . . . , xn } der einzelnen Individuen i = 1 . . . n nennt man Meßreihe. Erhebt man in einer Stichprobe von einer Grundgesamtheit gleichzeitig mehrere Merkmale (z.B. Körpergröße, Gewicht, Alter, usw.), dann werden diese als mehrere eindimensionale Meßreihen betrachtet. {X, Y, . . .} = {{x1 , . . . , xn }, {y1 , . . . , yn }, . . .} Diese kann man dann sowohl getrennt beurteilen (Mittelwerte, Streuung, usw.) als auch Abhängigkeiten voneinander zu untersuchen (z.B. Korrelation Körpergröße-Gewicht, Alter-Ruhepuls, usw.): (X, Y ) = {(x1 , y1 ), . . . , (xn , yn )} 2.3 Allgemeine Darstellungsformen Die beschreibende Statistik verfolgt, wie eingangs schon erwähnt, lediglich das Ziel, die Untersuchungsergebnisse darzustellen. Dazu ist es nicht zweckmäßig und oft auch nicht möglich, alle Meßwerte oder Beobachtungen im einzelnen mitzuteilen. Es gilt vielmehr, das Gefundene sinnvoll zusammenzufassen, um das Wesentliche klar und verständlich in komprimierter Form zum Ausdruck zu bringen. Die statistische Beschreibung kann in drei verschiedenen Formen erfolgen: • in Tabellen, • als graphische Darstellung, • mit charakteristischen Maßzahlen, z.B.: x̄(arithmetisches Mittel), s(Streuung). Beispiel 2.13 Die Mathematikleistung von 34 Schülern einer Klasse sollen an Hand der Zensuren beschrieben werden. Die einfachste Form ist es, für jeden Schüler die Note anzugeben: Schüler (Nr.) Zensur 1 3 2 2 3 4 ... ... 34 1 Obige Darstellung bezeichnet man auch als Meßreihe oder Urliste. Abkürzend (und davon werden wir in Zukunft häufig gebrauch machen) kann man eine Meßreihe auch darstellen als 3 2 4 ... 1 Diese Form kann jedoch bei großen Meßreihen unübersichtlich sein. Deshalb kann die Meßreihe auch komprimiert in Form einer Tabelle angegeben werden: Zensur 1 2 3 4 5 Häufigkeit 3 12 15 3 1 Dr. Torsten-Karl Strempel oder Zensur Häufigkeit Stand: 02.06.2004 1 3 2 12 3 15 4 3 5 1 Seite 7 WAHRSCHEINLICHKEIT UND STATISTIK Diese Darstellung trägt auch den Namen Häufigkeitsverteilung. In dem angeführten Beispiel will der Untersuchende feststellen, wie eine Variable (die Mathematikzensur) in der Schulklasse verteilt ist. Einer solchen Fragestellung liegt eine monovariable Verteilung zugrunde (auch eindimensionale, univariable oder univariate Verteilung genannt). Mit diesen werden wir uns im nächsten Abschnitt intensiv beschäftigen. Will man dagen den Zusammenhang zwischen zwei Variablen erfassen, dann handelt es sich um bivariable (zweidimensionale oder bivariate) Verteilungen. Diese werden wir in Kapitel ?? behandeln. Beispiel 2.14 Der Zusammenhang zwischen der Physik- und Mathematiknote die jeder Schüler aus Beispiel 2.13 erhält, soll beschrieben werden. Zensur in Mathematik 2.4 5 4 3 2 1 Zensur in Physik 1 2 3 4 5 1 2 1 4 9 2 2 9 1 2 1 4 14 10 4 2 1 3 15 12 3 34 Graphische Darstellungen Auf Grund von Häufigkeitstabellen kann man gewisse Besonderheiten der Verteilung erkennen. Das Verständniss solcher Tabellen setzt freilich voraus, daß der Leser Zahlbegriffe richtig in Mengenvorstellungen umsetzt. Bei wenigen, kleinen und ganzen Zahlen gelingt dies auch (meistens) mühelos. Bei z.B. gebrochenen oder großen Zahlen ist die richtige Vorstellung der damit bezeichneten Menge oft schwierig und kann dadurch leicht zu Misinterpretationen führen. Diese Nachteile werden durch die graphische Darstellung vermieden. Eine graphische Darstellung ist das geometrische Bild einer Menge von Daten oder eines mathematischen Zusammenhangs. Numerische Werte stehen in eindeutigem Zusammenhang mit Punkten, Strecken, Flächen oder Körpern. Bei einer Häufigkeitsverteilung wird die Häufigkeit eines Meßwerts durch eine Fläche repräsentiert. Diese anschauliche Darstellungstechnik erspart dem Betrachter die Umsetzung von Zahlen in angemessene Mengenvorstellungen. Die graphische Darstellung unterscheidet sich von der Tabelle nur in ihrer Form. Inhaltlich vermitteln beide dieselben Informationen. Die Art und Weise der Darstellung hängt davon ab, welche Daten beschrieben werden sollen. 2.4.1 Stabdiagramm Stabdiagramme finden Anwendung bei quantitativ–diskreten Merkmalen und zeigen die relative Häufigkeit innerhalb der beobachteten Meßreihe. Seite 8 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK Beispiel 2.15 Anzahl defekter Stücke in Losen aus jeweils 1000 gleichartigen Bauteilen. Gegeben sei folgende Urliste: 3 1 0 0 2 2 0 5 4 7 0 1 6 9 0 4 2 1 0 2 n = 20 Die primäre Tafel (d.h. die Liste mit geordneten Größen) ist dann 0 0 0 0 0 0 1 1 1 2 2 2 2 3 4 4 5 6 7 9 n = 20 Daraus ergibt sich folgende Tabelle Anzahl defekter Stücke absolute Häufigkeit relative Häufigkeit in % 0 6 30 1 3 15 2 4 20 3 1 5 4 2 10 5 1 5 6 1 5 7 1 5 8 0 0 9 1 5 Das zugehörige Stabdiagramm ist dann für die relative Häufigkeit in %: 40 30 s relative Häufigkeit 20 [%] s s 10 0 0 1 ↑ | | h | | ↓ s s s s s s s 2 3 4 5 6 7 8 9 10 Anzahl defekter Stücke Bemerkung 2.16 Die Darstellung einer Meßreihe durch ein Stabdiagramm ist bei quantitativ– stetigen Merkmalen im allgemeinen nicht sinnvoll, da meist alle Werte x1 , ..., xn verschieden, d.h. alle Stäbe hätten Höhe n1 . (Denken Sie an die Körpergröße: spätestens wenn wir diese nicht in cm sondern in mm messen, dann gibt es (sehr wahrscheinlich) nicht zwei aus Ihrer Gruppe, die eine identische Größe haben) Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 9 WAHRSCHEINLICHKEIT UND STATISTIK 2.4.2 Empirische Verteilungsfunktion Definition 2.17 Für x ∈ R bezeichne G(x) die Anzahl der Werte in der Meßreihe, die kleiner oder gleich der Zahl x sind. G(x) heißt Summenhäufigkeit und, falls n die Gesamtzahl der Meßwerte bezeichnet, H : R → [0, 1] 1 H(x) = · G(x) n relative Summenhäufigkeit an der Stelle x. Die dadurch definierte Funktion H : R → [0, 1] heißt empirische Verteilungsfunktion. Es handelt sich dabei um eine Treppenfunktion, deren Sprungstellen die Werte der Meßreihe sind. Die jeweiligen Sprunghöhen sind die relativen Häufigkeiten der Meßwerte in der Meßreihe. Beispiel 2.18 Fortsetzung Beispiel 2.15 1.0 s .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . s 0.9 s s 0.8 0.7 s s s 0.6 H(x) 0.5 s 0.4 0.3 0.2 0.1 0.0 s ↑ | h | ↓ empirische Verteilungsfunktion 0 1 2 3 4 5 6 7 8 9 10 Anzahl defekter Stücke Bemerkung 2.19 Die empirische Verteilungsfunktion spielt eine entscheidende Rolle in der Schließenden Statistik. In der Verteilungsfunktion werden (in der Regel) keine Klassen gebildet! Seite 10 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK 2.4.3 Histogramm Histogramme finden Anwendung bei quantitativen Merkmalen. Dazu wird der Wertebereich der Meßwerte in k Klassen eingeteilt: (a0 , a1 ], (a1 , a2 ], . . . , (ak−1 , ak ]. Wir tragen Rechtecke über den einzelnen Klassen ab, wobei: Breite eines Rechtecks = Klassenbreite Höhe eines Rechtecks = relative Klassenhäufigkeit Klassenbreite Fazit: Die Fläche des Rechtecks entspricht der relativen Klassenhäufigkeit. Dazu ein Beispiel: Beispiel 2.20 200 Nietkopfdurchmesser [mm] x1 , . . . , x200 , alle im Intervall (14.10, 14.60] = (14.10, 14.15] ∪ (14.15, 14.20] ∪ . . . ∪ (14.55, 14.60] | {z } Klassen Es ergab sich folgende Tabelle: Nr. 1 2 3 4 5 6 7 8 9 10 Klasse (14.10, 14.15] (14.15, 14.20] (14.20, 14.25] (14.25, 14.30] (14.30, 14.35] (14.35, 14.40] (14.40, 14.45] (14.45, 14.50] (14.50, 14.55] (14.55, 14.60] absolute Klassenh. 2 4 12 23 39 42 36 24 12 6 200 relative Klassenh. 0.010 0.020 0.060 0.115 0.195 0.210 0.180 0.120 0.060 0.030 1.000 relative Klassenhäufigkeit Klassenbreite 0.2 0.4 1.2 2.3 3.9 4.2 3.6 2.4 1.2 0.6 20.0 Das zugehörige Histogramm ist dann rel. Klassenhäufigkeit Klassenbreite 5.0 4.0 3.0 2.0 1.0 0.0 14.1 14.2 14.3 14.4 14.5 14.6 14.7 Nietkopfdurchmesser Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 11 WAHRSCHEINLICHKEIT UND STATISTIK Es gilt stets: Histogrammfläche = k X i=1 Klassenbreite · relative Klassenhäufigkeit =1 Klassenbreite Bemerkung 2.21 Nicht die Höhen, sondern die Flächen der Histogrammrechtecke charakterisieren die relativen Klassenhäufigkeiten. Wichtig insbesondere bei nicht äquidistanten Klasseneinteilungen ! 2.5 Maßzahlen In dem Bemühen, eine Gesamtheit von Beobachtungen knapp zu charakterisieren, sucht man nach Zahlenwerten, die alle Daten zu repräsentieren vermögen, so daß wir darauf verzichten können, diese selbst mitzuteilen. Die beschreibende Statistik hat derartige Maßzahlen definiert.Sie lassen sich in zwei große Gruppen gliedern: a) Mittelwerte zur Kennzeichnung der Lage einer Verteilung auf der Abzissenachse und b) Streuungswerte zur Kennzeichnung der Breite der Verteilung. Die Streuungswerte haben die Aufgabe, die Variabilität des gemessenen Merkmals zu beschreiben. Das ist wichtig, da selbst solche Verteilungen, die bezüglich ihres Mittelwerts völlig übereinstimmen, stark voneinander abweichen können: Bemerkung 2.22 Die Angabe einer Streuungsmaßzahl sollte immer in Bezug auf eine Lagemaßzahl erfolgen. Lagemaßzahlen 2.5.1 Arithmetisches Mittel Definition 2.23 Das arithmetische Mittel x̄ (Durchschnittswert, Mittel, engl.: arithmetic mean, arithmetic average) einer Meßreihe x1 , .., xn ist deren Summe geteilt durch ihre Anzahl: n x̄ = x1 + x2 + x3 + · · · + xn 1X = xi n n i=1 Bemerkung 2.24 x̄ ist im allgemeinen kein beobachteter Wert. x x4 x7 x1 x2 .... ... .. x5 x6 x3 -x Eigenschaften des arithmetischen Mittels 1. Wird zu allen xi einer Meßreihe dieselbe Zahl addiert, so vergrößert sich auch das arithmetische Mittel um diese Zahl. Dasselbe gilt für die Subtraktion. Seite 12 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK 2. Die Summe der Abweichungen aller Meßwerte von ihrem arithmetischen Mittel ist Null. n X (xi − x̄) = 0. (2.25) i=1 Dieser Satz ist bei der Bestimmung von Streuungsmaßen sehr wichtig. 3. Die Summe der Quadrate der Abweichungen aller Meßwerte von ihrem Mittelwert n P i=1 (xi − x̄)2 ist kleiner als die Summe der Quadrate der Abweichungen aller Meßwerte von einem beliebigen n P anderen Wert der Verteilung (xi − xk )2 . i=1 Mit anderen Worten: Die Summe der Abweichungsquadrate (SAQ) ist für das arithmetische Mittel ein Minimum. 2.5.2 Median Definition 2.26 Der Median x̃ (Zentralwert, Stellungmittel, mittelster Wert, engl.: median) ist derjenige Wert einer geordneten Rangreihe x(1) ≤ x(2) ≤ x(3) ≤ · · · ≤ x(n) der Meßwerte, der die Reihe halbiert, d.h. für n ungerade x n + 1! 2 x̃ = „n« x für n gerade 2 Bemerkung 2.27 a) x̃ ist stets ein beobachteter Meßwert ! b) Mindestens 50% der Meßwerte sind ≤ x̃ und mindestens 50% der Meßwerte sind ≥ x̃. Beispiel 2.28 n=7 x(1) x(2) x(3) x(1) x(2) x(3) x̃ = x(4) x(5) x(6) x̃ = x(4) x(5) x(6) x(7) -x n=8 x(7) x(8) -x Bemerkung 2.29 Die Summe der absoluten Abweichungen aller Meßwerte xi von ihrem Median x̃ ist ein Minimum. Sie ist kleiner als die Summe der absoluten Abweichungen aller Meßwerte xi von einem beliebigen anderen Wert xk , xk 6= x̃. n X i=1 Dr. Torsten-Karl Strempel |xi − x̃| < n X i=1 |xi − xk | Stand: 02.06.2004 , xk 6= x̃. Seite 13 WAHRSCHEINLICHKEIT UND STATISTIK Bemerkung 2.30 Achtung: Einige Programme und Taschenrechner definieren den Median für den Fall einer geraden Anzahl von Messwerten als den Mittelwert von zwei Messwerten: x̃ = 2.5.3 1 " x n − 1 # + x" n + 1 # 2 2 2 Modalwert Definition 2.31 Der Modalwert x̃m ist der in einer Messreihe am häufigsten vorkommende Messwert. Gibt es mehrere häufigste Messwerte in einer Messreihe, so unterscheidet man danach, ob diese in der geordneten Messreihe benachbart sind oder nicht. Im ersten Fall bildet man das arithmetische Mittel der benachbarten Modalwerte. Im zweiten Fall muss man alle Modalwerte angeben und spricht, z.B. im Fall von 2 Werten von einer 2-gipfligen Verteilung. 2.5.4 Weitere Mittelwerte Definition 2.32 Das geometrische Mittel x̄G (engl.: geometric mean) einer Meßreihe x1 , .., xn ist die n-te Wurzel aus dem Produkt der Meßwerte: √ x̄G = n x1 · x2 · x3 · · · xn Das geometrische Mittel ist nur sinnvoll für Meßreihen, die nur Meßwerte xi > 0 enthalten. Es spielt für multiplikativ verknüpfte Größen eine Rolle, z.B. um einen mittleren Zinssatz über eine Finanzierungsdauer zu berechnen. Zur Berechnung verwendet man allerdings zweckmäßiger Weise das arithmetische Mittel der logarithmierten Werte, um Rundungsfehler aufgrund großer Zahlen zu vermeiden: n G lg x̄ lg x1 + lg x2 + lg x3 + · · · + lg xn 1X = = lg xi n n i=1 Definition 2.33 Das harmonische Mittel x̄H (engl.: harmonic mean) einer Meßreihe x1 , .., xn ist die Summe Ihrer Kehrwerte dividiert durch 1/n: x̄H = n 1 x1 + 1 x2 + 1 x3 ··· + 1 xn = n n P 1 i=1 xi Definition 2.34 Das gewichtete Mittel x̄g wird z.B. dazu verwendet die Mittelwerte x̄1 , .., x̄k verschiedener Messreihen zusammen zufassen, wenn diese eine unterschiedliche Anzahl von Messwerten n1 , .., nk haben: k P n i · xi n1 · x̄1 + n2 · x̄2 + n3 · x̄3 · · · + nk · x̄k x̄g = = i=1 k n1 + n2 + n3 + · · · + nk P ni i=1 Seite 14 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK Streuungsmaßzahlen -x x kleine Streuung: Lagemaßzahl hat hohe Aussagekraft -x x große Streuung: Lagemaßzahl hat geringe Aussagekraft 2.5.5 Spannweite Wir erhalten ersten Aufschluß über die Streuung der Meßwerte, indem wir die extremen Meßwerte betrachten. Je stärker diese voneinander abweichen, desto größer ist offenbar die Streuung. Auf dieser überlegung beruht die Definition der Spannweite (Variationsweite, engl.: range): Definition 2.35 Die Spannweite d ist die Differenz zwischen dem größten und dem kleinsten Meßwert einer Verteilung. d = xmax − xmin . Beispiel 2.36 Gegeben sei eine geordneten Meßreihe x(1) ≤ x(2) ≤ x(3) ≤ · · · ≤ x(n) . Dann ist d = xn − x1 . ←−−−−−−−−−−−−−−−−−−−−− d −−−−−−−−−−−−−−−−−−−−−→ x(1) x(n) -x Besser als die Spannweite kennzeichnen diejenigen Maßzahlen die Streuung, die den Abstand jeder einzelnen Messung vom Mittelwert zugrunde legen. Dieser Abstand (xi − x̄) ist für extreme Meßwerte groß. Je dichter die Meßwerte um den Mittelwert liegen, desto kleiner werden die ihnen zugeordneten Abweichungen. Es liegt also nahe, die Summe all dieser Abweichungen als Streuungsmaß zu verwenden. Da jedoch die Summe der Abweichungen aller Meßwerte von ihrem arithmetischen Mittel Null ist (siehe Eigenschaften auf Seite 12, Formel 2.25), gehen wir zwei andere Wege: 1. Wir betrachten die absoluten Beträge der Abweichungen |xi − x̄|. 2. Wir betrachten das Quadrat der Abweichungen (xi − x̄)2 . Der erste Weg führt zur durchschnittlichen Abweichung; der zweite Weg führt zur Varianz und zur Standardabweichung. Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 15 WAHRSCHEINLICHKEIT UND STATISTIK 2.5.6 Empirische Varianz Definition 2.37 Die empirische Varianz ist die Summe der Abweichungsquadrate (SAQ) aller Meßwerte einer Verteilung von ihrem arithmetischen Mittel, dividiert durch die um 1 verminderte Anzahl der Messungen. Die Varianz einer Stichprobe wird mit s2 bezeichnet. n s2 = 1 X (xi − x̄)2 n−1 i=1 1 und n−1 1 ! Die spezielle Wahl hat bei weiteren Berechnungen Vorteile, da sich der Vorfaktor dann bei nicht n Ableitungen herauskürzt. Bemerkung 2.38 Die empirische Varianz ist eine definierte Größe, der Vorfaktor ist Achtung: Teilweise wird diese Größe in Programmen oder Taschenrechnern anders definiert, z.B. Excel verwendet den Vorfaktor n1 . Für die Berechnung der Varianz sind viele Formeln entwickelt worden. Eine davon ist: n s2 = 1 X (xi − x̄)2 n−1 i=1 = = 1 n−1 n X (x2i − 2x̄xi + x̄2 ) i=1 n X 1 ( n−1 i=1 x2i − 2x̄ n X xi + |i=1 {z } =nx̄ = n X 1 ( n−1 i=1 x2i − nx̄2 ) n X x̄2 ) |i=1{z } nx̄2 Bemerkung 2.39 Die o.g. Formeln sind anfällig gegen Rundungsfehler, da bei ihrer Berechnung große Zahlen auftreten! 2.5.7 Empirische Streuung oder empirische Standardabweichung Definition 2.40 Die empirische Standardabweichung (mittlere quadratische Abweichung) ist die Quadratwurzel aus der Varianz. Sie wird mit s bezeichnet. v v u u n n √ u 1 X u 1 X 2 2 t t (xi − x) = s = ( x2i − nx̄2 ) s= n−1 n−1 i=1 i=1 Bemerkung 2.41 v = s/x̄ wird als Variationskoeffizient bezeichnet. Weitere Streuungsmaßzahlen, die im Vergleich zur Standardabweichung weniger empfindlich auf extrem hohe bzw. niedrige Werte in der Meßreihe reagieren: Seite 16 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK 2.5.8 Gewichtete Zusammenfassung von Varianz und Empirischer Streuung Hat man mehrere Stichproben mit unterschiedlichem Umfang, deren Mittelwerte gleich sind, dann kann man die Varianz wie folgt gewichtet zusammenfassen: s2 = k s21 (n1 − 1) + s22 (n2 − 1) + s23 (n3 − 1) + · · · + s2k (nk − 1) 1 X 2 = si (ni − 1) n−k n−k i=1 und 2.5.9 v u u s=t k 1 X 2 si (ni − 1) n−k i=1 Durchschnittliche Mittelwertabweichung n 1X dx = |xi − x̄| n i=1 Dabei ist |y| = 2.5.10 y −y falls falls y≥0 y<0 Durchschnittliche Medianabweichung n 1X dx̃ = |xi − x̃| n i=1 Neben den bisher besprochenen Maßzahlen betrachtet man noch die 2.5.11 Quantile Definition 2.42 Sei x1 , x2 , . . . , xn eine Meßreihe. Ist p ∈ R eine reele Zahl mit 0 < p < 1, so ist das p-Quantil xp gegeben durch xp = x([np+1]) x(np) falls np nicht ganzzahlig falls np ganzzahlig wobei [a] für a ∈ R die größte ganze Zahl, die nicht größer als a ist, bezeichnet: [a] = größte ganze Zahl ≤ a und x(1) , x(1) , . . . , x(n) die zugehörige geordnete Meßreihe bezeichnet. Beispiel 2.43 [3.5] = 3, [0.7] = 0 Ein p-Quantil ist also ein Meßwert mit der Eigenschaft: Mindestens 100 · p% der Meßwerte sind ≤ xp und mindestens 100 · (1 − p)% der Meßwerte sind ≥ xp . Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 17 WAHRSCHEINLICHKEIT UND STATISTIK Beispiel 2.44 p = 0.1, n = 20 ⇒ n · p = 2 ganzzahlig -x x(2) = x0.1 x(20) 0.1–Quantil Beispiel 2.45 p = 0.2, n = 21 ⇒ n · p = 4.2 nicht ganzzahlig, [4.2 + 1] = [5.2] = 5 -x x(1) x(5) = x0.2 x(21) 0.2–Quantil Bemerkung 2.46 Es gilt: x0.5 = x̃ , d.h. das 0.5–Quantil ist gerade der Median der Meßreihe. Bemerkung 2.47 Spezielle p-Quantile haben eigene Bezeichnungen: x0.25 = unteres Quartil x0.75 = oberes Quartil Ein mit Hilfe von Quantilen definiertes Streuungsmaß ist der Quartilabstand: q = x0.75 − x0.25 Zwischen x0.25 und x0.75 liegen die mittleren 50% der Meßwerte. Beispiel 2.48 n = 16 ⇒ n · 0.25 = 4 und n · 0.75 = 12 ⇒ q = x(12) − x(4) ←−−−−−−−−−− q −−−−−−−−−−→ x(1) Seite 18 x(4) = x0.25 x(12) = x0.75 Stand: 02.06.2004 -x x(16) Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK 2.5.12 Boxplots Ein weiteres Mittel zur graphischen Veranschauung des Datenmaterials sind die Boxplots, die sich insbesondere zum Vergleich von Meßreihen eignen. Beispiel 2.49 Es sei n = 16. x(1) x(4) x(8) x(12) x(16) -x .... ... .. ... ... ... ... r x(1) x0.25 x̃ = x0.5 r x0.75 x x(16) ←− untere 25% −→←−−−−−−−−− mittlere 50% −−−−−−−−−→←−−−− obere 25% −−−−→ Speziell bei symmetrischem Datenmaterial ergibt sich folgender Boxplot: x̃ − x0.25 ≈ x0.75 − x̃ .... ... .. ... ... ... .... r x(1) 2.6 x0.25 r x0.75 x ≈ x̃ x(n) Robustheit von Maßzahlen Neben den klassischen Verfahren der beschreibenden Statistik, die sich auf arithmetisches Mittel und Streuung stützen, haben in den letzten Jahren sogenannte robuste“ Verfahren an Bedeutung gewon” nen. Um die Ideen, die den sogenannten robuste“ Verfahren zugrunde liegen, wenigstens anzudeuten, ” hier ein Beispiel: Beispiel 2.50 Haltungsnote beim Skispringen (siehe [1]) Bewertungen durch fünf Schiedsrichter, wobei die niedrigste und die höchste Bewertung gestrichen wird. Werden z.B. von den fünf Schiedsrichtern die Haltungsnoten 16, 5, 17, 0, 16, 5, 17, 5, 19, 0 erteilt, so hat sich der 5. Schiedsrichter (z.B. aus Voreingenommenheit) nach oben vergriffen ohne jedoch die Haltungsnote dadurch wesentlich zu beeinflussen. Er hätte den Sprung auch mit 20,0 bewerten können, es hätte sich trotzdem 16, 5 + 17, 0 + 17, 5 = 51, 0 als Haltungsnote ergeben. Man erkennt, daß die Haltungsnote in einem gewissen Sinne robust“ ist ” gegenüber parteiischer oder irrtümlicher Über- bzw. Unterbewertung einzelner Schiedrichter. Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 19 WAHRSCHEINLICHKEIT UND STATISTIK Beispiel 2.51 Ausreißerempfindlichkeit bei Messreihen Messreihe x1 , . . . , x5 13, 12, 14, 11, 10 13, 12, 14, 11, 100 arithmetisches Mittel x̄ 12 30 Median x̃ 12 13 Das Beispiel zeigt, daß der Median weniger ausreißerempfindlich“ ist als das arithmetische Mittel. ” Diese Überlegungen führen zu den folgenden robustenMittelwerten: Sei wieder x1 , . . . , xn eine Messreihe und 0 < α < 0, 5. Dann unterteilen wir die zugehörige geordnete Messreihe in drei Gruppen von Messwerten: x(1) , . . . , x(k) , | {z } k−Elemente x(k+1) , . . . , x(n−k) , | {z } (n−2k)−Elemente x(n−k+1) , . . . , x(n) , | {z } k−Elemente so dass die linke Gruppe die k = [n · α] kleinsten und die rechte Gruppe die k größten Werte enthält. Streicht man die extremen Werte und bildet man den Mittelwert der in der mittleren Gruppe verbliebenen Werte, so erhält man das 2.6.1 α-gestutztes Mittel: x̄α = 1 x(k+1) + · · · + x(n−k) n − 2k Ersetzt man statt dessen jeden der extremen Werte durch den nächstgelegenen Wert in der mittleren Gruppe, so ergibt sich das 2.6.2 α-windsorisiertes Mittel: wα = 1 k · x(k+1) + x(k+1) + · · · + x(n−k) + k · x(n−k) n Man erkennt, dass sich für n · α < 1 dieses Mittel nicht vom arithmetischen Mittel (x̄ = x̄α = wα ) und für n · α ≥ n−1 2 nicht vom Median (x̃ = x̄α = wα ) unterscheidet. Beispiel 2.52 Durchschnittsalter einer Fussballmanschaft (siehe [1]) In der Sportzeitung war zu lesen: Die Mannschaft B mit dem geringeren Durchschnittsalter gewann ” das Spiel“ . A B 39 22 20 23 22 24 22 23 21 22 20 23 33 22 22 25 22 23 21 22 22 24 In der Mannschaft A hat der Torwart das Alter 39 und der Libero ist 33 Jahr alt. Außer diesen beiden Spielern der Mannschaft A ist keiner älter als der jüngste Spieler der Mannschaft B! Seite 20 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK Mannschaft A B x̄ 24,0 23,0 x̄0,1 22,8 22,9 x̄0,2 21,7 22,9 x̃ 22 23 w0,1 23,5 22,9 w0,2 21,6 22,9 Wird das Durchschnittsalter aufgrund des arithmetischen Mittels x̄ oder des 10%-windsorisierten Mittels angegeben, so ist die Mannschaft A die ältere, während sich bei den anderen Mittelwertbildungen jeweils B als die ältere ergibt. Bemerkung 2.53 Die vorgestellten robusteren“ Maßzahlen können als Spezialfälle von gewichteten ” Mittelwerten (s.o.) betrachtet werden, wobei die Gewichte geeignet gewählt wurden. 2.7 Zweidimensionale Meßreihen Bei zweidimensionalen Meßreihen (x1 , y1 ), . . . , (xn , yn ) werden zwei Merkmalswerte jeweils an derselben Beobachtungseinheit (z.B. einer Person) erhoben. Auch zweidimensionale Verteilungen lassen sich graphisch und in Tabellenform darstellen. Für die Tabellenform gaben wir schon ein Beispiel: Beispiel 2.14 Der Zusammenhang zwischen der Physik- und Mathematiknote die jeder Schüler aus Beispiel 2.13 erhält, soll beschrieben werden. Zensur in Mathematik 5 4 3 2 1 Zensur in Physik 1 2 3 4 5 1 2 1 4 9 2 2 9 1 2 1 4 14 10 4 2 1 3 15 12 3 34 Vorstehende Tabelle wird auch Mehrfeldertafel oder Kontigenztafel genannt. Bemerkung 2.54 Bei quantitativen Merkmalen erhält man eine Kontingenztafel durch eine Klasseneinteilung. Beispiel 2.55 Wurmbefall bei Zuchtpferden x = Rassenzugehörigkeit y = Wurmbefall (qualitatives Merkmal) (Rangmerkmal) Kontingenztafel: y gering mittel stark Dr. Torsten-Karl Strempel Rasse 1 28 9 13 50 x Rasse 2 19 6 14 39 Rasse 3 17 35 20 72 Stand: 02.06.2004 64 50 47 161 Seite 21 WAHRSCHEINLICHKEIT UND STATISTIK Zur graphischen Darstellung einer zweidimensionalen Verteilung kann man (unter anderem) ein rechtwinkeliges Koordinatensystem mit zwei Achsen verwenden und sodann für jedes (xi , yi )-Wertepaar einen Punkt in dieses System einzeichnen. Das so entstandene Diagramm nennt man Punktediagramm (oder auch Streuungs- oder Korrelationsdiagramm). Beispiel 2.56 Fortsetzung Beispiel 2.14 Das zugehörige Punktdiagramm (Zusammenhang zwischen Mathematik- und Physikzensur) ist: u 5 uu 4 Mathematik- 3 zensur Y uu 2 1 uu 1 u uuu uuu uu u uuu uuu uuu u uuu uuu u 2 3 4 Physikzensur X 5 In vorstehender Abbildung sind die Häufigkeiten fxy durch die Anzahl der Punkte dargestellt. Aus der Verteilung der Punkte im Punktdiagramm kann man - wie aus der Verteilung der Häufigkeiten fxy in der Kontingenztabelle - schon erahnen, daß ein Zusammenhang zwischen den beiden Variablen besteht. Die Vermutung ist, daß Schüler, die gute Mathematikzensuren besitzen auch gute Physikzenzuren besitzen. Allgemein fragt man sich, ob es einen Zusammenhang zwischen X und Y gibt (d.h. ob die Datenpaare korrelieren). Um diese Frage beantworten zu können, betrachten wir zuerst einmal 2.7.1 Maßzahlen für zweidimensionale Meßreihen Als die wichtigsten Maßzahlen zur Kennzeichnung eindimensionaler Verteilungen haben wir Mittelwert und Streuung kennengelernt. Jetzt sollen Maßzahlen zur Kennzeichnung zweidimensionaler Verteilungen besprochen werden. Das sind Korrelations- und Kontingenzkoeffizienten. Ein Koeffizient ist eine Zahl, die in Physik und Technik zur Kennzeichnung von Materialeigenschaften verwendet wird (z.B. informiert der Ausdehnungskoeffizient über den Grad, in dem sich ein Stoff bei Erwärmung ausdehnt). Korrelations- und Kontingenzkoeffizienten informieren über den Grad des Zusammenhangs zwischen zwei Variablen. Sind die Variablen intervallskaliert (die Merkmale also meßbar), dann wird ihr Zusammenhang durch einen Korrelationskoeffizienten bestimmt. Sind die Variablen dagegen nominal skaliert (entstammen die Merkmale also qualitativ verschiedenen Gegenstandsklassen), dann wird ihr Zusammenhang durch einen Kontingenzkoeffizienten ausgedrückt. Wir werden uns im Folgenden nur mit dem Korrelationskoeffizienten beschäftigen. Gegeben sei also eine zweidimensionale Meßreihe (x1 , y1 ), . . . , (xn , yn ) Seite 22 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK für zwei Merkmale x und y. Wir können die Varianz (siehe Definition 2.37) der jeweiligen eindimensionalen Meßreihen angeben: n 1X ⇒ x̄ = xi n x1 , . . . , xn s2x , i=1 1 = n−1 n y1 , . . . , yn ⇒ ȳ = 2.7.2 1X yi n n X (xi − x̄)2 v u u sx = t , i=1 v u u sy = t n s2y = , i=1 1 X (yi − ȳ)2 n−1 , i=1 n 1 X (xi − x̄)2 n−1 i=1 n 1 X (yi − ȳ)2 n−1 i=1 Empirische Kovarianz Definition 2.57 Der Ausdruck n sxy = 1 X (xi − x̄)(yi − ȳ) n−1 i=1 wird als empirische Kovarianz bezeichnet. Diese Ausdrücke lassen sich vereinfachen zu . n s2x = = = 1 n−1 i=1 n X i=1 2.7.3 sxy = = n 1 n n n X X X X xi · xi − xi · x̄ − x̄ · xi + x̄ · x̄ = n − 1 i=1 i=1 i=1 | {z } | {z } | {z } i=1 =x̄·nx̄ =x̄·nx̄ =nx̄·x̄ 1 n−1 n X i=1 x2i − nx̄ 2 ! 1 X (xi − x̄)(yi − ȳ) n−1 i=1 x2i − xi · x̄ − x̄ · xi + x̄2 | = n 1 X (xi − x̄)(xi − x̄) n−1 {z =−nx̄·x̄ } = 1 n−1 n X i=1 (xi · yi − xi · ȳ − x̄ · yi + x̄ · ȳ) n X n n n 1 X X X x · y − xi · ȳ − x̄ · yi + x̄ · ȳ i i n − 1 i=1 i=1 i=1 i=1 | {z } | {z } | {z } =ȳ·nx̄ =x̄·nȳ =nx̄·ȳ {z | 1 n−1 n X i=1 xi yi − nx̄ · ȳ ! =−nx̄·ȳ } Empirischer Korrelationskoeffizient Liegen für beide Variablen metrische Daten vor, dann können wir den Grad ihres Zusammenhangs durch den Maßkorrelationskoeffizienten r beschreiben. Definition 2.58 Der empirische Korrelationskoeffizient r einer zweidimensionalen Meßreihe (xi , yi ), i = 1, . . . , n, ist definiert durch sxy r = sx · sy Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 23 WAHRSCHEINLICHKEIT UND STATISTIK wobei sx v u u = t 1 · n−1 n X i=1 x2i − nx̄2 ! v u u = t und sy 1 · n−1 Der Korrelationskoeffizient ist eine dimensionslose Größe: n X i=1 yi2 − nȳ 2 ! n P xi yi − nx̄ · ȳ xi yi − nx̄ · ȳ i=1 i=1 s s r = s = n n n s n P P P P 2 1 1 2 2 2 2 2 2 2 xi − nx̄ · n−1 yi − nȳ xi − nx̄ · yi − nȳ n−1 1 n−1 n P i=1 i=1 i=1 i=1 1 Man erkennt, dass sich die Vorfaktoren n−1 herauskürzen, so dass auch die mit dem Vorfaktor berechneten Größen sx , sy , sxy zum gleichen Ergebnis führen. 1 n Aus der Cauchy-Schwarzschen Ungleichung folgt, daß er nur Werte zwischen −1 und 1 annehmen kann, es gilt: −1 ≤ r ≤ 1 r=-1 besagt: Zwischen den beiden Variablen besteht ein ausgeprägtes Gegensatzverhältnis, das heißt: hohe Meßwerte von x treten stets mit niedrigen y Werten auf. r=+1 drückt einen positiven, streng linearen Zusammenhang beider Variablen aus: Hohen xi sind hohe yi zugeordnet. r=0 besagt: Beide Variablen stehen in keinem statistischen Zusammenhang miteinander, sondern streuen unabhängig voneinander. Interpretation von sxy : n sxy = 1 X (xi − x)(yi − y) n−1 i=1 y y 6 6 r>0 r<0 −m +m −m y y +m −m −m +m - - x x Seite 24 +m x x Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK viele Produkte positiv, wenige Produkte negativ ⇒ sxy > 0 positive Korrelation viele Produkte negativ, wenige Produkte positiv ⇒ sxy < 0 negative Korrelation Interpretation: |r| ist ein Maß für die Tendenz“ zu einem linearen Zusammenhang der x- und y” Werte. Der Korrelationskoeffizient lässt sich auch geometrisch deuten. Betrachtet man die Messreihen xi und yi als Vektoren in einem mehrdimensionalen Vektorraum, dann kann man sx und sy als Länge dieser Vektoren und sxy als Skalarprodukt auffassen (wir führen eine Transformation durch, so dass x̄ = ȳ = 0 ist): |~x · ~y | r = = cos φ |~x| · |~x| wobei φ der von den beiden Vektoren eingeschlossene Winkel ist. Wir können folglich der Größe von r die Stärke des Zusammenhangs, dem Vorzeichen von r den Richtungssinn des Zusammenhangs entnehmen. 6 r=1 r ...... ...... ....... ...... . . . . . ...... ....... ...... ....... ....... . . . . . . ....... ...... ...... ....... ...... . . . . . ..... ....... ....... ....... ....... . . . . . ...... ....... ...... ....... ....... . . . . . . r r r r 6...........r.............. . r r = −1 ...... ....... ....... ....... ....... ....... ....... ...... ....... ....... ....... ....... ....... ....... ....... ....... ...... ...... ....... ...... ....... ....... ....... ...... r r r r r - r r - |r| = 1: Meßwerte liegen auf einer Geraden Bemerkung 2.59 Es sei ausdrücklich darauf hingewiesen, daß dazu folgende Bedingungen vorliegen müssen: 1. der Zusammenhang zwischen X und Y ist linear und 2. beide Variablen sind normal (siehe Kapitel 3.3.2) verteilt. Ist die erste Vorraussetzung nicht gegeben, dann kann sich zum Beispiel r = 0 ergeben und dennoch ein (freilich nichtlinearer) Zusammenhang zwischen beiden Variablen bestehen. Ist die zweite Bedingung nicht erfüllt, dann bildet der Koeffizient den Zusammenhang möglicherweise falsch ab. Die Beurteilung des Zusammenhangs zwischen den Werten +1 und −1 liegt im persönlichen Ermes” sen des Betrachters“. Betrachten wir nochmals die geometrische Deutung, so kann man den Vektor y~ in zwei Komponenten ~yx und y~x0 parallel und senkrecht zu ~x zerlegen. Man kann somit z.B. definieren, dass ein Zusammenhang gegeben ist, solange der zwischen ~x und ~ y eingeschlossene Winkel kleiner als 45◦ ist, also 1 r = cos 45◦ = √ ≈ 0, 7071... 2 Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 25 WAHRSCHEINLICHKEIT UND STATISTIK Beispiel 2.60 Stichprobenumfang n = 9; Meßreihe (x1 , y1 ), . . . , (x9 , y9 ) Summe xi -2 -1 0 1 2 2 2 3 4 11 xi 2 4 1 0 1 4 4 4 9 16 43 yi -3 -7 0 -2 0 2 4 3 0 -3 yi 2 9 49 0 4 0 4 16 9 0 91 x = xi yi 6 7 0 -2 0 4 8 9 0 32 Man erhält: r= Punktediagramm: y = sx = sy = sxy = 11 9 3 1 − =− 3 v9 u 2 ! u1 11 t 43 − 9 = 1.922 8 9 v u 2 ! u1 1 t 91 − 9 − = 3.354 8 3 1 11 1 32 − 9 − = 4.458 8 9 3 4.458 = 0.692 1.922 · 3.354 r 4 r positive Korrelation r 2 r 0 −2 r r r r −4 −6 −8 2.7.4 r −3 −2 −1 0 1 2 3 4 5 Lineare Regression Beispiel 2.61 Gegeben sei die zweidimensionale Meßreihe (x1 , y1 ), . . . , (x30 , y30 ) wobei x das Alter gesunder Männer und y den systolischer Blutdruck bezeichnet. Die Meßreihe sei Alter Blutdruck 16 110 25 123 42 144 52 174 45 131 36 109 57 153 63 185 28 127 36 135 43 158 48 149 52 163 67 175 69 195 Alter Blutdruck 48 196 19 124 41 123 58 175 67 183 37 117 21 116 38 146 66 193 46 142 48 127 23 118 42 128 63 168 45 136 Seite 26 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK Das zugehörige Punktediagramm ist: Alter und systolischer Blutdruck bei gesunden Männern 200 s s 180 s s 160 s s 140 s s 120 s s s s s s s s s s s s Blutdruck [mbar] s s s s s s s s s s 100 0 10 20 30 40 50 60 70 80 Alter [Jahre] Die Regressionslinie ist eine Kurve, welche den Punkteschwarm am besten repräsentiert. Wir beschränken uns im folgenden auf den häufigsten Sonderfall: die Regressionsgerade: y = ax + b. Am besten entspricht eine Gerade dem Punkteschwarm, wenn die Summe der Abweichungen jedes einzelnen Punktes von ihr ein Minimum wird. Die Abweichungen werden gewöhnlich in zwei verschiedene Richtungen bestimmt: parallel zur Ordinatenachse (parallel zur y-Achse) oder zur Abzissenachse (parallel zur x-Achse). Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 27 WAHRSCHEINLICHKEIT UND STATISTIK 6 ... .... .... ... . . . . .... ... ... .... ... . . .... ... .... .... ... . . .... ... .... .... ... . . ... .... ... .... ... . . .... ... .... .... ... . . .. .... .... .... ... . . . .. .... .... .... ... . . . .... ... .... .... ... . . .... ... .... ... .... . . .. .... ... .... ... . . . i . ... ... .... .... ... . . .... ... .... .... ... . . .. .... .... .... ... . . . ... ... .... ... .... . . .... ... .... ... ... . . . ... ax + b s ↑ | | | r | | | s↓ s yi - xi Bemerkung 2.62 Die ri sind ri = yi − (axi + b) , i = 1, . . . , n und heißen Residuen. Beide Arten der Distanzbestimmung führen, wenn der Korrelationskoeffizient r 6= 1 ist, zu verschiedenen Regressionslinien G. Wir beschäftigen uns zunächst mit der Minimierung der Abstandssummen parallel zur Ordinatenachse (y-Achse). Definition 2.63 Eine Regressionsgerade ist eine Gerade G, für welche die Summe der Quadrate der Abweichungen aller Punkte ein Minimum bildet. Das auf Gauss zurückgehende Verfahren zur Bestimmung der Regressionsgeraden nennt man daher Methode der kleinsten Quadratsummen“. ” Methode der kleinsten Quadrate“: ” n n X X ! S(a, b) = ri2 = (yi − axi − b)2 = minimal i=1 |i=1 {z } Summe der vertikalen Abstandsquadrate Seite 28 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK Obige Gleichung habe die Lösung: â, b̂. Dann ist die Regressionsgerade ( Schluß von x auf y“) gegeben ” durch y = âx + b̂. Die Lösungen â, b̂ erhält man mittels folgender Formeln: â = n X i=1 xi yi − n · x̄ · ȳ n X i=1 x2i − nx̄2 = sxy empirische Kovarianz 2 = empirische Varianz sx b̂ = ȳ − âx̄ Bemerkung 2.64 Der Punkt (x̄, ȳ) liegt stets auf der Regressionsgeraden, wegen y = âx + (ȳ − âx̄) = â(x − x̄) + ȳ Bemerkung 2.65 Wie man erkennt, sind die Steigung â und der Achsenabschnitt b̂ dabei unabhängig davon, wie die Varianz bzw. Kovarianz definiert sind und ob diese z.B. mit Excel mit 1 dem Vorfaktor n1 anstelle von n−1 berechnet wurden! Beispiel 2.66 Fortsetzung Beispiel 2.60 x= 11 , 9 1 y=− , 3 sx = 1.922, sxy = 4.458 Daraus folgt: â = 4.458 = 1.207 1.9222 , 1 11 b̂ = − − 1.207 · = −1.809 3 9 Beispiel 2.67 Fortsetzung Beispiel 2.61 Alter – Blutdruck bei gesunden Männern; aus den Daten ergibt sich â = 1.493 , b̂ = 80.7 Faustformel: Blutdruck ≈ 1.5 · Alter + 80 Diese Approximation kann zur Prognose herangezogen werden. Punktediagramm mit Regressionsgerade: Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 29 WAHRSCHEINLICHKEIT UND STATISTIK Alter und systolischer Blutdruck bei gesunden Männern 200 ... .... .... .... ... . . . .. .... .... ... .... . . . .... ... .... ... .... . . . .... ... .... .... ... . . . . .... ... .... .... ... . . .. .... .... .... .... . . ... .... .... ... .... . . . .... ... .... .... ... . . . .... .... .... ... .... . . ... ... .... ... .... . . . . .... ... .... .... ... . . ... .... .... ... .... . . . .. .... .... .... .... . . . . .... ... ... .... .... . . .. .... .... .... .... . . ... .... .... ... .... . . . ... .... .... .... ... . . . . .... .... .... s s s 180 s s 160 Blutdruck [mbar] s 140 s s s 120 s s s s s 0 10 s s s s s s s s s 100 s s s s s s s 20 30 40 50 60 70 80 Alter [Jahre] Bemerkung 2.68 Wir haben im Allgemeinen zwei Regressionsgeraden 1. Schluß von x auf y Prinzip: Summe der quadrierten senkrechten Abstände minimal ! 2. Schluß von y auf x Prinzip: Summe der quadrierten waagrechten Abstände minimal ! Die Geraden fallen genau dann zusammen, falls s2y sxy = s2x sxy , s2xy =1 s2x · s2y , d.h. falls Seite 30 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK 2.8 Ergänzungen zur Linearen Regression Die Bestimmung einer Regressionsgeraden, um den Zusammenhang zwischen zwei eindimensionalen Messreihen zu beschreiben, kann in mehreren Richtungen erweitert werden: • Wie wir gesehen haben, wird es im allgemeinen zwei verschiedene Regressionsgeraden geben, je nachdem, ob man die Messwerte einer Messreihe A in Abhängigkeit von Messreihe B beschreibt oder umgekehrt. Exakt“ wäre die Bestimmung einer Geraden, in dem man die Abstände zu den ” Messwerten senkrecht zur Geraden annimmt. Dadurch ergibt sich folgende Summe, die minimiert werden muss: n X ∆= ... i=1 Wie man erkennt, liefert dies ein sehr viel komplexeres Minimierungsproblem, das im allgemeinen nicht geschlossen lösbar ist und nicht auf ein lineares Gleichungssystem führt. Man bezeichnet das Verfahren deshalb auch als nichtlineare Regression. • Häufig ist es so, dass nur stückweise ein linearer Zusammenhang besteht (z.B. Kennlinien von Verstärkern im Arbeitsbereich) oder das dem Zusammenhang prinzipiell eine andere Funktion zugrunde liegt. Man kann dementsprechend versuchen anstelle eines linearen Zusammenhangs (oder eines Polynoms vom Grad 1) einen polynomialen Zusammenhang höheren Grades zu bestimmen. Dies wird nachfolgend ausführlicher betrachtet. • Führt man diese Überlegungen konsequent weiter, dann stellt sich die Frage, wie man allgemein einen Satz von Funktionen zur Beschreibung heranziehen kann. Hier gibt es zwei Möglichkeiten: a) Man transformiert die Messwerte mit der Umkehrfunktion der Funktion, die aus Polynomen hervorgeht, z.B.: y = a ∗ exp b · x = exp ã + b · x −→ ỹi = ln yi und dann kann man eine Regressionsgerade für die Messreihen xi und ỹi bestimmen. b) Man führt den nachfolgend erläuterten Formalismus anstelle der Monome p(x) = xp mit den gewünschten Basisfunktionen durch. Verwendet man z.B. die Funktionen fp (x) = cos(px)+ isin(px), dann liefert das obige Verfahren die Fourierkoeffizienten. Wie schon beim Korrelationskoeffizienten gibt es auch hier eine geometrische Deutung bzw. Analogie: Gram-Schmidt-Verfahren ... • Eine weitere Verallgemeinerung führt schließlich auf die Beschreibung von Messwerten, die von mehreren anderen Größen abhängen (vgl. Excel Tabellenfunktion RGP): y(x1 , . . . , xn ) = a00 +a01 x11 + a02 x12 + · · · + a0n xdn +aij x1i + a02 x12 + · · · + a0n xdn Natürlich kann es auch zu einer Kombination dieser Fälle kommen . . .. Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 31 WAHRSCHEINLICHKEIT UND STATISTIK 2.9 Regression höheren Grades — Least Sqares Fits (LSQ) Die oben beschriebene Methode der kleinsten Fehlerquadrate (engl. Least Sqares Fit) zur Bestimmung einer Regressionsgeraden kann verallgemeinert werden, um Messreihen durch Polynome und andere Funktionen zu approximieren. Dies soll hier kurz erläutert werden. Seien wieder xi und yi zwei Messreihen mit je n Messwerten und es besteht die Vermutung, dass ein polynomialer Zusammenhang besteht in der Form: y(x) = a0 + a1 x1 + a2 x2 + · · · + ad xd Setzt man nun also die Messwerte in diese Gleichung ein, dann erhält man ein lineares für n > d überbestimmtes Gleichungssystem X~a = y~: 1 1 . .. | x11 x12 .. . 1 x1n x21 x22 .. . ··· ··· .. . x2n · · · {z a0 a1 a2 . .. xd1 xd2 · .. . xdn n Zeilen, d+1 Spalten } y1 y2 y3 . .. = a | {zd } y | {zn } d+1 Zeilen, 1 Spalte n Zeilen, 1 Spalte Um eine Lösung für dieses Gleichungssystem zu finden multiplizieren wir mit der transponierten Matrix AT : a0 1 1 1 · · · 1 1 x11 x21 · · · xd1 a 1 x11 x12 x13 · · · x1n 1 x12 x22 · · · xd2 a2 . · . · .. .. .. .. .. .. .. .. . .. . . . . .. . . . . .. xd1 xd2 xd3 · · · xdn 1 x1n x2n · · · xdn a | {z } | {z } | {zd } d+1 Zeilen, n Spalten n Zeilen, d+1 Spalten d+1 Zeilen, 1 Spalte 1 x11 = ... | xd1 ··· ··· .. . 1 x12 .. . 1 x13 .. . xd2 xd3 · · · {z 1 x1n · .. . xdn d+1 Zeilen, n Spalten } y1 y2 y3 . .. y | {zn } n Zeilen, 1 Spalte Damit hat man ein lineares Gleichungssystem mit d+ 1 Gleichungen und genauso vielen Unbekannten. Dieses können wir nun mit dem bekannten Gauss-Algorithmus lösen. Allerdings hat die Matrix AT · A besondere Eigenschaften, sie ist symmetrisch und positiv definit, d.h. sie enthält nur Elemente größer gleich 0. Deshalb verwendet man zur Lösung in der Praxis die sog. Cholesky-Zerlegung. Dieses hat den Vorteil, dass die Lösung effizienter (schneller) und genauer(geringere Rundungsfehler) durchgeführt werden kann. Seite 32 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK Kapitel 3 Wahrscheinlichkeitstheorie Die Wahrscheinlichkeitsrechnung geht vom Begriff des zufälligen Ereignisses aus. Definition 3.1 Ein zufälliges Ereignis ist ein Ereignis, das bei einem unter bestimmten Bedingungen durchgeführten Versuch eintreten kann, aber nicht notwendig eintreten muß. Zufälligkeiten beeinflussen Experimente und damit auch Meßergebnisse; die Versuchsergebnisse sind in diesen Fällen meist nicht reproduzierbar. Mögliche Ursachen sind z.B.: • technische Variabilität (keine zwei Untersuchungsgegenstände in ihrerStruktur völlig gleich) • Änderung der Versuchsbedingungen (z.B. Ort und Zeit der Messung) • Meßfehler (Störeffekte überlagern den wahren Wert) Die Daten (z.B. in einer Meßreihe) können also mit einer Streuung behaftet sein (Restvariabilität). Definition 3.2 Vorgänge, bei denen das Ergebnis nicht aus den Versuchsbedingungen vorhersagbar ist, heißen stochastische Vorgänge oder Zufallsexperimente. Beispiel 3.3 • Messung des Spannungszustands einer Werkstoffprobe in einem Zugversuch (Probenvariabilität + Meßfehler) • Anteil des Kupfergehalts in Bodenproben (räumliche Variabilität) • Verkehrsdichte an einer Kreuzung (Variabilität durch Zeitpunkt der Messung + Meßfehler) • Bestimmung der Nährstoffkonzentration im Ablauf von Abwasserbehandlungsanlagen (variierende Versuchsbedingungen [Industrie, Landwirtschaft, Haushalte] + zeitliche Abhängigkeiten + Meßfehler) • monatliche Bestimmung der Biomasse in einem Wald (variierende Versuchsbedingungen [Klima] + Probleme der Stichprobenauswahl) • Glücksspiele (Würfeln, Roulette, Lotto, . . . ) Die Wahrscheinlichkeitstheorie beschäftigt sich mit der mathematischen Beschreibung von Zufallsexperimenten. Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 33 WAHRSCHEINLICHKEIT UND STATISTIK 3.1 3.1.1 Zufallsexperiment und Wahrscheinlichkeit Grundbegriffe Ergebnis und Ergebnismenge Definition 3.4 Bei der Durchführung eines Zufallsexperiments erhalten wir ein Ergebnis ω. Dieses Ergebnis ω entstammt einem Wertebereich, den wir die Ergebnismenge Ω nennen, d.h. ω ∈ Ω. ω nennen wir auch Elementarereignis. Beispiel 3.5 1. Würfelwurf: Ω = {1, 2, 3, . . . , 6} 2. Werfen zweier unterscheidbarer Würfel: Ω = {(i, j) | i, j = 1, . . . , 6} = {(1, 1), (1, 2), (2, 1), . . .} 36 Elemente 3. Werfen zweier nicht unterscheidbarer Würfel: Ω = {(i, j) | i, j = 1, . . . , 6 ; i ≤ j} = {(1, 1), (1, 2), (2, 2), (1, 3), . . .} Ω = {ω ∈ R | ω ≥ 0} = R+ 4. Lebensdauer eines Systems: 5. Gerät defekt oder intakt: 21 Elemente Ω = {0, 1} , 0= b defekt, 1 = b intakt Ereignis Definition 3.6 Unter einem Ereignis A verstehen wir eine Teilmenge von Ω (A ⊂ Ω). Bemerkung 3.7 Sprechweise: Ereignis A tritt ein, falls Ergebnis ω ∈ A beobachtet wird. Beispiel 3.8 Nummerierung bezogen auf Beispiel 3.5 1. A = {1, 3, 5} beim Würfelwurf 2. A = {(1, 1), (1, 2), (2, 1)} ” ” ungerade Zahl“ Summe ≤ 3“ 3. A = {(1, 1), (1, 2), (2, 2), (1, 3), (2, 3), (3, 3)} 4. A = {ω ∈ R | ω > 100} = (100, ∞) 5. A = {0} Seite 34 ” ” ” beide Augenzahlen ≤ 3“ länger als 100 Stunden“ Gerät defekt“ Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK Zusammengesetzte Ereignisse Es seien A und B Ereignisse A oder B“ : ” mindestens eines tritt ein ⇔ ω ∈A∪B A und B“ : ” beide treten gleichzeitig ein ⇔ Ac , nicht A“ : ” komplementäres Ereignis ∅: leere Menge; unmögliches Ereignis Ω: sicheres Ereignis A∩B =∅ : unvereinbare oder disjunkte Ereignisse {ω}, ω ∈ Ω : Elementarereignis ω ∈A∩B Sei A1 , A2 , . . . eine Folge von Ereignissen ∞ \ i=1 ∞ [ i=1 Ai : alle Ereignisse gleichzeitig“ ” Ai : mindestens eines davon“ ” Frage: Wie groß ist die Wahrscheinlichkeit dafür, daß die Betriebsdauer eines Gerätes exakt 100 Stunden beträgt ? Antwort: praktisch = 0 besser: Wie groß ist die Wahrscheinlichkeit dafür, daß die Betriebsdauer eines Gerätes zwischen 90 und 100 Stunden liegt ? also: Wahrscheinlichkeit für das Eintreten des Ereignisses A = [90, 100] Fazit: Ereignisse haben Wahrscheinlichkeiten ! Definition 3.9 Die (stochastische) Wahrscheinlichkeit eines zufälligen Ereignisses A ⊂ Ω ist gleich dem festen Wert, dem die relative Häufigkeit fnA bei wachsender Zahl n der Versuche zustrebt. P (A) = fA n für n → ∞. P (A) = Wahrscheinlichkeit von A ⊂ Ω Bemerkung 3.10 Der Buchstabe P stammt vom lateinischen Wort probabilitas (Wahrscheinlichkeit). P (A) gibt uns eine Bewertung des Ereignisses A nach dem Grad, wie sehr mit seinem Eintreten zu rechnen ist. Mit P ({ω}) bezeichnen wir die Wahrscheinlichkeit, daß das Elementarereignis ω eintritt. Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 35 WAHRSCHEINLICHKEIT UND STATISTIK Axiomensystem von Kolmogoroff Axiom I : Jedem zufälligen Ereignis A ist eine bestimmte Zahl P (A) zugeordnet, die der Ungleichung 0 ≤ P (A) ≤ 1 genügt. Diese Zahl heißt die Wahrscheinlichkeit für das Ereignis A. Axiom II : Die Wahrscheinlichkeit des sicheren Ereignisses ist gleich 1. Axiom III: Die Wahrscheinlichkeit der Vereinigung (der Summe) von endlich vielen oder abzählbar unendlich vielen zufälligen Ereignissen, die einander wechselseitig ausschliessen (siehe Definition 3.16), ist gleich der Summe der Wahrscheinlichkeiten dieser Ereignisse (Additionssatz). P (A1 ∪ A2 ∪ · · · ∪ Ak ) = P (A1 ) + P (A2 ) + · · · P (Ak ) ! k k [ X ⇐⇒ P Ai P (Ai ) = i=1 i=1 Bemerkung 3.11 Die linke Seite der Gleichung von Axiom III wird gelesen: P von A1 oder A2 ” oder . . . oder Ak .“ Der Inhalt der Axiome werden wir an einigen Beispielen erläutern: Beispiel 3.12 Beispiel zu Axiom I Aus einer Urne mit 30 weißen und 10 schwarzen Kugeln, die sich in Größe, Oberflächenbeschaffenheit und Gewicht gleichen, wird eine Kugel entnommen. Das zufällige Ereignis ist A1 : Die Kugel ist schwarz. Die Wahrscheinlichkeit des Zutreffens dieses Ereignisses ist P (A1 ) = 10 = 0.25. 40 Beispiel 3.13 Beispiel zu Axiom II Die Kugel wird einer Urne mit 40 schwarzen Kugeln entnommen. Das zufällige Ereignis ist A2 : Die Kugel ist schwarz. Die Wahrscheinlichkeit des Zutreffens dieses Ereignisses ist P (A2 ) = 40 = 1. 40 Aus den Axiomen I und II folgt der Satz: Satz 3.14 Die Wahrscheinlichkeit des unmöglichen Ereignisses ist gleich 0. Beispiel 3.15 Die Kugel wird wiederum aus einer Urne mit 40 schwarzen Kugeln gezogen. Das zufällige Ereignis ist A3 : Die Kugel ist rot. Die Wahrscheinlichkeit des Zutreffens dieses Ereignisses ist 0 P (A3 ) = = 0. 40 Um den Sinn des Axioms III verständlich zu machen, müssen wir definieren, was wir unter einander ausschließenden Ereignissen verstehen: Definition 3.16 Zwei Ereignisse A1 und A2 heißen einander ausschließende Ereignisse, wenn beide nicht gleichzeitig eintreten können. Seite 36 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK Beispiel 3.17 Beispiel zu Axiom III Zufallsexperiment: Einmaliges Werfen eines idealen Würfels. Die beiden einander aussschließenden Ereignisse seien: Ereignis A1 : Augenzahl 3; Ereignis A2 : Augenzahl 4. Wie hoch ist die Wahrscheinlichkeit bei einem Wurf eine 3 oder eine 4 zu würfeln, also P (A1 ∪ A2 ) ? 1 P (A1 ) = ; 6 1 6 P (A2 ) = Die Wahrscheinlichkeit der Vereinigung beider Ereignisse (A1 ∪ A2 ) ergibt sich als P (A1 ∪ A2 ) = 1 1 1 + = = P (A1 ) + P (A2 ). 6 6 3 Das Axiom III ist die Verallgemeinerung dieses Sachverhalts; es bezieht sich nicht nur auf zwei, sondern auf k Ereignisse, die einander ausschließen. Aus den Axiomen lassen sich weitere Sätze ableiten. Diese seien hier in Form von Rechenregeln dargestellt. Dabei bezeichne Ac das zu A komplementäre Ereignis (z.B. bei einem Münzwurf sei A: das Wappen liegt oben; dann ist Ac das Ereignis: das Wappen liegt nicht oben (also die Zahl liegt oben)). Rechenregeln • P (Ac ) = 1 − P (A) • P (∅) = 0 • A ⊂ B ⇒ P (A) ≤ P (B) • Wahrscheinlichkeit des zusammengesetzten Ereignisses A1 oder A2“: ” P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) • Wahrscheinlichkeit des zusammengesetzten Ereignisses A1 oder A2 oder A3“: ” P (A1 ∪ A2 ∪ A3 ) = P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 ) • allgemein: Wahrscheinlichkeit für die Vereinigung endlich vieler Ereignisse A1 oder A2 oder · · · ” oder An“ X X P (A1 ∪ . . . ∪ An ) = P (Ai ) − P (Ai ∩ Aj ) 1≤i≤n + X 1≤i<j<k≤n 1≤i<j≤n P (Ai ∩ Aj ∩ Ak ) − . . . + (−1)n+1 P (A1 ∩ . . . ∩ An ) Zum Beweis vorstehender Regel siehe dazu im Abschnitt ?? auf Seite ??. Bisher haben wir die Wahrscheinlichkeit P immer intuitiv gewusst“. Diese Annahme müssen wir aber ” mathematisch konkretisieren. Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 37 WAHRSCHEINLICHKEIT UND STATISTIK 3.1.2 Laplace – Annahme Annahme 3.18 Falls Ω = {ω1 , . . . , ωn } eine endliche Menge ist und alle Elementarereignisse {ωi }, i = 1, .., n, die gleiche Wahrscheinlichkeit haben, so gilt: 1, P ({ωi }) = n i = 1, .., n Bemerkung 3.19 Aus der Laplace-Annahme folgt für ein Ereignis A ⊂ Ω: P (A) = Anzahl der Elemente in A |A| = n |Ω| Dabei bezeichnet |A| bzw. |Ω| die Mächtigkeit der Menge A bzw. Ω (siehe Seite 40). Interpretation P (A) = Anzahl der für A günstigen Ergebnisse Anzahl der möglichen Ergebnisse Beispiel 3.20 • Werfen eines Würfels: Ω = {1, 2, 3, 4, 5, 6} 3 1 P ( ungerade Zahl“) = P ({1, 3, 5}) = = ” 6 2 • Werfen zweier unterscheidbarer Würfel Ω = {1, . . . , 6} × {1, . . . , 6} = {(i, j) | i, j = 1, . . . , 6} Es gilt bei Laplace-Annahme P ( mindestens eine 6“) = P ({(1, 6), (2, 6), . . . , (6, 6), (6, 5), . . . , (6, 1)}) ” 11 = 36 • Achtung: Werfen zweier nicht unterscheidbarer Würfel Ω = {(i, j)|i, j = 1, . . . , 6 ; i ≤ j} 21 Elemente bei Laplace-Annahme: 1 21 Die Laplace-Annahme ist hier nicht gerechtfertigt! Während das Ergebnis (1, 1) nur dann auftritt, wenn beide Würfel eine Eins anzeigen, kommt das Ergebnis (1, 2) durch zwei verschiedene Würfelkonstellationen zustande. Diese Festlegung von P entspricht also nicht mehr der LaplaceAnnahme, da die Elementarereignisse unterschiedliche Wahrscheinlichkeiten besitzen. P ({(1, 1)}) = • 3 Würfel werden geworfen; Ereignisse: Seite 38 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK A = Summe beträgt 12“ ” B = Summe beträgt 13“ ” C = Summe beträgt 11“ ” Mögliche Augenzahlen: für A : für B : für C : 1+5+6 1+6+6 1+4+6 2+4+6 2+5+6 1+5+5 2+5+5 3+4+6 2+3+6 3+3+6 3+5+5 2+4+5 Ω = {(i, j, h) : i, j, h = 1, ..., 6}; 3+4+5 4+4+5 3+3+5 4+4+4 3+4+4 |Ω| = 6 · 6 · 6 = 216 Anzahl der Möglichkeiten: |A| = 6 + 6 + 3 + 3 + 6 + 1 |B| = 3 + 6 + 6 + 3 + 3 |C| = 6 + 3 + 6 + 6 + 3 + 3 Bei Laplace-Annahme gilt: P (A) = 25 216 P (B) = 21 216 P (C) = 27 216 • Werfen von 4 unterscheidbaren Münzen Ω = {(i, j, k, l) : i, j, k, l = 0, 1} = {0, 1} × {0, 1} × {0, 1} × {0, 1} wobei 0 = b Wappen, 1 = b Zahl. Es gilt |Ω| = 24 = 16 Es sei A = mindestens einmal Wappen“ ” Aus der Laplace-Annahme folgt P (A) = 1 − P (Ac ) = 1 − P ({(1, 1, 1, 1)}) = 1 − 1 15 = 16 16 Paradoxa der Wahrscheinlichkeitstheorie Trotz dieser sehr einfachen Vorschrift für die Berechnung von Wahrscheinlichkeiten unter der LaplaceAnnahme können bei der Wahl einer mathematischen Beschreibung für einen zufallsabhängigen Vorgang noch Probleme auftreten. Dies zeigen wir an einem Beispiel: Beispiel 3.21 In einem Speisewagen gibt es 5 Tische mit je 4 Plätzen. Bevor der Speisewagen öffnet, nimmt der Kellner im Zug die Platzreservierungswünsche der Fahrgäste entgegen. Gleich die ersten beiden Fahrgäste, die er unabhängig voneinander anspricht, lassen sich einen Platz reservieren. Wie groß ist (unter geeigneter Laplace-Annahme) die Wahrscheinlichkeit, daß die beiden am gleichen Tisch sitzen werden, wenn der Kellner die Reservierung zufällig vornimmt? Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 39 WAHRSCHEINLICHKEIT UND STATISTIK 1. Lösung: Betrachten wir die Situation nach der ersten Reservierung. Der Kellner wählt für den zweiten Fahrgast mit gleicher Wahrscheinlichkeit einen der fünf Tische aus. Mit Wahrscheinlichkeit 15 wird dies der Tisch sein, an dem auch der erste Fahrgast sitzen wird. 2. Lösung: Betrachten wir die Situation wieder nach der ersten Reservierung. Der Kellner wählt für den zweiten Fahrgast mit gleicher Wahrscheinlichkeit einen der noch freien 19 Plätze aus. Mit 3 Wahrscheinlichkeit 19 wird dies einer der drei noch freien Plätze am Tisch des ersten Fahrgastes sein. Auf den ersten Blick scheint es unverständlich daß sich zwei verschiedene Wahrscheinlichkeiten, nämlich 0.20 und 0.16 ergeben. Man spricht in solchen Fällen von Paradoxa der Wahrscheinlichkeitstheorie. Solche Paradoxa beruhen darauf, daß die Beschreibung des zufallsabhängigen Vorgangs nicht präzise genug ist. So ist in unserem Beispiel unklar, ob die zufällige Reservierung durch die Laplace-Annahme für die Wahl des Tisches oder des Platzes beschrieben werden soll. Grundlagen der Kombinatorik Definition 3.22 Wenn wir |Ω| schreiben, wobei Ω eine endliche Menge bezeichnet, dann sprechen wir von der Mächtigkeit der Menge Ω, d.h. also von der Anzahl der in ihr erhaltenen Elementen. Sei beispielsweise Ω = {1, 2, 3, 4}, dann ist |Ω| = 4, da Ω vier Elemente enthält. • Es sei |Ω1 | = n1 und |Ω2 | = n2 . Dann gilt (Kreuzprodukt): Ω1 × Ω2 = {(ω1 , ω2 ) : ω1 ∈ Ω1 , ω2 ∈ Ω2 }. |Ω1 × Ω2 | = • |Ω| = n ; n1 · n2 . k∈N Unter einer geordneten Probe aus Ω von k Elementen mit Wiederholungen bzw. mit Zurücklegen versteht man ein k-Tupel (x1 , . . . , xk ) mit Komponenten xi ∈ Ω, i = 1, . . . , k. Anzahl = nk Begründung: Möglichkeiten • |Ω| = n ; 1. Platz n 2. Platz n ... ... k. Platz n insgesamt nk k≤n Unter einer geordneten Probe aus Ω von k Elementen ohne Wiederholung bzw. ohne Zurücklegen versteht man ein k-Tupel (x1 , . . . , xk ) mit paarweise verschiedenen Komponenten xi ∈ Ω, i = 1, . . . , k. Anzahl = n · (n − 1) · . . . · (n − k + 1) Begründung: Möglichkeiten Seite 40 1. Platz n 2. Platz n−1 Stand: 02.06.2004 ... ... k. Platz n − (k − 1) Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK Spezialfall: n = k n · (n − 1) · . . . · 2 · 1 = n! Permutationen Beispiel 3.23 Es sei n = 3. Permutationen 123 , 132 , 213 , 231 , 312 , 321 Anzahl Permutationen 1 · 2 · 3 = 3! = 6 • |Ω| = n ; k≤n Unter einer ungeordneten Probe aus Ω von k Elementen ohne Wiederholungen versteht man eine k-elementige Teilmenge von Ω. n Anzahl der k-elementigen Teilmengen von Ω k Anzahl der geordneten Proben: n · (n − 1) · . . . · (n − k + 1) da ungeordnet: je k! viele der geordneten Proben sind gleich, also n · (n − 1) · . . . · (n − k + 1) k! Durch Erweiterung des Bruches erhält man n k n · (n − 1) · . . . · (n − k + 1) (n − k) · . . . · 1 n! · = =: k! (n − k) · . . . · 1 k!(n − k)! n k nennt man Binomialkoeffizient. n = Anzahl der k–elementigen Teilmengen aus einer n–elementigen Menge“ ” k n! = k! (n − k)! Beispiel 3.24 Es sei n = 4 und k = 2. Anzahl der 2-elementigen Teilmengen einer 4-elementigen Menge: 4 4! 4·3·2·1 = =6 = 2!2! 2·1·2·1 2 Aufzählung der Teilmengen: 3.1.3 {1, 2}, {1, 3}, {1, 4}, {2, 3}, {2, 4}, {3, 4} ⊂ {1, 2, 3, 4} Das Pascalsche Dreieck --------------------------------------------------------------------------------------------------------------------------------Definition und Hinweise zum Ablesen verschiedener Zahlen --------------------------------------------------------------------------------------------------------------------------------- Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 41 WAHRSCHEINLICHKEIT UND STATISTIK 3.1.4 Zufallsvariablen (siehe auch Kapitel 3.3) Bei vielen Zufallsexperimenten tritt als Versuchsergebnis unmittelbar ein Zahlenwert auf. Oft ist aber nicht das genaue Ergebnis ω von Interesse, sondern nur ein damit verbundener Zahlenwert. Beispiel 3.25 Deutsche KFZ werden nach Hubraum besteuert. Dabei gibt es Hubraumklassen. Im Allgemeinen ist es nicht von Interesse, wieviel Hubraum ein KFZ hat, sondern wieviel Steuer pro Jahr dafür entrichtet werden muss, d.h. in welcher Hubraumklasse das KFZ ist. Ähnlich geht es bei der Einteilung der KFZ bei den Versicherern in Typklassen nicht darum, wieviel Leistung in kW das KFZ besitzt, sondern darum, wieviel Versicherungsbeitrag man zu entrichten hat. Wir sind also oft nur an einer Zufallsvariablen interessiert, die das genau Ergebnis ω auf einen Zahlenwert abbildet. Jedem Ergebnis ω wird eine reelle Zahl X(ω) zugeordnet. Die Zuordnungsvorschrift ist eine Abbildung: X :Ω→R W1 W2 X(W2) X(W1) Von besonderem Interesse sind Ereignisse der Form X = k“. Mit ” A = {ω ∈ Ω : X(ω) = k} gilt P (X = k) = P (A) Beispiel 3.26 Augensumme beim Wurf zweier unterscheidbarer Würfel. Ergebnismenge des Zufallsexperiments: Ω = {1, . . . , 6} × {1, . . . , 6} = {(i, j) | i, j = 1, . . . , 6} 36 Elemente Zufallsvariable X = Summe der Augenzahlen also X: Ω → R (i, j) 7→ i + j Wertebereich von X : {2, 3, . . . , 12}. Seite 42 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK Die Verteilung von X unter der Laplace-Annahme ist: P (X = 2) = P ({(1, 1)}) = P (X = 3) = P ({(1, 2), (2, 1)}) = P (X = 4) = P ({(1, 3), (2, 2), (3, 1)}) = P (X = 5) = P ({(1, 4), (2, 3), (3, 2), (4, 1)}) = P (X = 6) = P ({(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}) = P (X = 7) = P ({(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}) = P (X = 8) = P (X = 6) = P (X = 9) = P (X = 5) = P (X = 10) = P (X = 4) = P (X = 11) = P (X = 3) = P (X = 12) = P (X = 2) = 1 36 2 36 3 36 4 36 5 36 6 36 5 36 4 36 3 36 2 36 1 36 Das zugehörige Stabdiagramm ist: 6 36 s 5 36 s 4 36 P (X = k) s 3 36 s s 2 36 1 36 s s s s s 2 s 3 4 5 6 7 8 9 10 11 12 k Es gilt: 12 X P (X = k) = 1 = P (Ω) k=2 3.2 Bedingte Wahrscheinlichkeiten und Unabhängigkeit In Definition 3.9 auf Seite 35 hatten wir die Wahrscheinlichkeit P (A) eines Ereignisses A definiert. Zur Erinnerung: Definition 3.9 Die (stochastische) Wahrscheinlichkeit eines zufälligen Ereignisses A ⊂ Ω ist gleich dem festen Wert, dem die relative Häufigkeit fnA bei wachsender Zahl n der Versuche zustrebt. P (A) = Dr. Torsten-Karl Strempel fA n für n → ∞. Stand: 02.06.2004 Seite 43 WAHRSCHEINLICHKEIT UND STATISTIK Bemerkung 3.27 Vorstehende Definition lässt folgende Interpretation zu P (A) ≈ relative Häufigkeit des Eintretens von A in langen Serien gleicher, getrennter Versuche Beispiel 3.28 Wir erwarten bei einer Serie von Münzwürfen, daß Zahl und Wappen gleichhäufig auftreten: 1 P ( Wappen“) = P ( Zahl“) = ” ” 2 Bei Serien von Münzwürfen (in den USA) wurden folgende relative Häufigkeiten ermittelt: Buffon Pearson 3.2.1 n nWappen relative Häufigkeit 4040 24000 2048 12012 0.5069 0.5005 ≈ 1/2 ≈ 1/2 Bedingte Wahrscheinlichkeiten Wiederholen wir ein Zufallsexperiment n-mal unter den gleichen Bedingungen und tritt in der Reihe der Versuchsdurchführungen das Ereignis A genau nA -mal ein, das Ereignis B genau nB -mal und das A∩B die relative Häufigkeit des Ereignis A ∩ B ( A und B gleichzeitig“) genau nA∩B -mal, so ist nn B ” Eintretens von A in der Serie der Versuchsdurchführungen, bei denen das Ereignis B eintritt. Bei dieser Überlegung greifen wir aus der ganzen Versuchsserie nur jene Versuchsdurchführungen heraus, die der Bedingung B tritt ein“ genügen. Man spricht deshalb auch von der bedingten Häufigkeit von ” A unter der Bedingung B. Beispiel 3.29 Gegeben seien zwei Ereignisse A und B Serie: A A B B A A B B A A B A B wobei nA = Anzahl Versuche mit A nB = Anzahl Versuche mit B nA∩B = Anzahl Versuche mit A und B gleichzeitig In der obigen Serie: n = 12, nA = 7, nB = 6, nA∩B = 4 Die Wahrscheinlichkeit für A unter der Bedingung, daß B eintritt (d. h. zähle nur die Versuche, in denen B eintritt) ist durch die offensichtlich geltende Gleichung: nA∩B nA∩B /n = nB nB /n Seite 44 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK gegeben. In der obigen Serie: 4 nA∩B = , nB 6 nA∩B 4 1 = = , n 12 3 nB 6 1 = = n 12 2 Es gilt: Bedingte Wahrscheinlichkeit von A unter B Definition 3.30 Sind A und B Ereignisse mit A, B ∈ Ω. Gilt P (B) > 0, so heißt P (A|B) = P (A ∩ B) P (B) die bedingte Wahrscheinlichkeit von A unter der Bedingung B. In der obigen Definition gehen wir davon aus, daß die Wahrscheinlichkeiten der Ereignisse A und A∩B bekannt sind, so daß wir die bedingte Wahrscheinlichkeit P (B|A) berechnen können. In den Anwendungen werden jedoch häufig Experimente durch Angabe gewisser bedingter Wahrscheinlichkeiten beschrieben und die Wahrscheinlichkeit von Ereignissen der Form A ∩ B durch P (A ∩ B) = P (A|B) · P (B) bzw. von A durch P (A) = P (A ∩ B) + P (A ∩ B c ) = P (A|B) · P (B) + P (A|B c ) · P (B c ) berechnet. Allgemein gilt für das Rechnen mit bedingten Wahrscheinlichkeiten die folgende Regel: Regel von der vollständigen Wahrscheinlichkeit Regel 3.31 Die Ereignisse B1 , . . . , Bn seien paarweise unvereinbar (d. h. Bi ∩ Bj = ∅ Ferner sei n S Bi = Ω und P (Bi ) > 0 für für i 6= j). i = 1, . . . , n. i=1 Dann gilt P (A) = n X i=1 Dr. Torsten-Karl Strempel P (A|Bi ) · P (Bi ) Stand: 02.06.2004 Seite 45 WAHRSCHEINLICHKEIT UND STATISTIK Beweis: n X i=1 P (A|Bi ) · P (Bi ) = = n X P (A ∩ Bi ) i=1 n X i=1 = P P (Bi ) · P (Bi ) (nach Definition 3.30) P (A ∩ Bi ) n [ ! (A ∩ Bi ) i=1 = P A ∩ = P (A) ! Bi | i=1{z } n [ =Ω Bemerkung 3.32 (Verallgemeinerung) Es sei B1 , B2 , . . . eine Folge von paarweise unvereinbaren Ereignissen mit 0 ∞ S Bi = Ω und P (Bi ) > i=1 für i = 1, 2, . . . Dann gilt P (A) = ∞ X i=1 P (A|Bi ) · P (Bi ) Beispiel 3.33 32 Karten (Skat), 4 Asse, 2 Karten ziehen (ohne Zurücklegen der ersten Karte); Wie groß ist (unter der Laplace-Annahme für die einzelnen Züge) die Wahrscheinlichkeit, beim zweiten Zug ein As zu ziehen? Ereignisse: B1 = B2 = A = Seite 46 ” ” ” kein As beim 1. Zug“ As beim 1. Zug“ As beim 2. Zug“ Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK Laplace-Annahme: P (B1 ) = 28 , 32 P (B2 ) = 4 , 32 P (A|B1 ) = 4 , 31 P (A|B2 ) = 3 31 Mit der Regel von der vollständigen Wahrscheinlichkeit gilt: P (A) = P (A|B1 ) · P (B1 ) + P (A|B2 ) · P (B2 ) = 4 28 3 4 1 · + · = 31 32 31 32 8 Formel von Bayes Regel 3.34 Unter den Vorraussetzungen von Regel 3.31 gilt im Fall P (A) > 0 P (Bi |A) = P (A ∩ Bi ) P (A|Bi ) · P (Bi ) = n X P (A) P (A|Bk ) · P (Bk ) k=1 für i = 1, . . . , n. Beispiel 3.35 Ein Würfel wird geworfen. Anschliessend wirft man so viele Münzen wie der Würfel Augen zeigt. Wir betrachten die Ereignisse: A: Alle Münzen zeigen Wappen“ und ” Bi : der Würfel zeigt i Augen“. ” Unter der Laplace-Annahme für die Teilexperimente gilt P (Bi ) = 1 1 und P (A|Bi ) = i , 6 2 i = 1, . . . , 6. Damit erhalten wir aus Regel 3.31 1 1 1 1 1 1 1 63 21 + + + + + = = P (A) = · 6 2 4 8 16 32 64 6 · 64 128 und für die bedingte Wahrscheinlichkeit von Bi unter der Bedingung A P (Bi |A) = P (A|Bi ) · P (Bi ) 128 1 1 = · · , P (A) 21 2i 6 i = 1, . . . , 6. Interpretation: Wird nach Abschluß dieses Versuchs nur darüber informiert, daß alle Münzen Wappen zeigen, daß also das Ereignis A eingetreten ist, und soll man das Würfelergebnis raten, so hat man mit dem Tipp i = 1 (es wurde nur eine Münze geworfen) die größte Chance P (B1 |A) ≈ 12 , richtig zu raten. D.h. in etwa der Hälfte der Fälle, in denen am Ende des Versuchs alle Münzen Wappen zeigen, wird nur eine Münze geworfen. Eine weitere leicht zu beweisende Regel ist die folgende Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 47 WAHRSCHEINLICHKEIT UND STATISTIK Multiplikationsformel Regel 3.36 (Multiplikationsformel) Seien A1 , . . . , An Ereignisse mit P (A1 ∩ . . . ∩ An−1 ) > 0. Dann gilt: P (A1 ∩ . . . ∩ An ) = P (A1 ) · P (A2 |A1 ) · P (A3 |A2 ∩ A1 ) · . . . · P (An |A1 ∩ . . . ∩ An−1 ). Beweis: P (A1 ) · P (A2 |A1 ) · P (A3 |A1 ∩ A2 ) · . . . . . . · P (An−1 |A1 ∩ . . . ∩ An−2 ) · P (An |A1 ∩ . . . ∩ An−1 ) P (A1 ∩ A2 ) P (A1 ∩ A2 ∩ A3 ) · · ... P (A1 ) P (A1 ∩ A2 ) P (A1 ∩ . . . ∩ An−1 ) P (A1 ∩ . . . ∩ An ) ... · · P (A1 ∩ . . . ∩ An−2 ) P (A1 ∩ . . . ∩ An−1 ) = P (A1 ) · = P (A1 ∩ . . . ∩ An ) Beispiel 3.37 Wir fragen nach der Wahrscheinlichkeit, daß unter n ≤ 365 zufällig ausgewählten Personen, keine zwei am selben Tag Geburtstag haben: P ( keine 2 Personen haben am selben Tag Geburtstag“) = ? ” Sei A1 = A2 = ” ” 2. Person hat anderen Geburtstag als 1. Person“ 3. Person hat anderen Geburtstag als 1. und 2. Person“ A3 = 4. Person hat anderen Geburtstag als 1., 2. und 3. Person“ ” .. . Ak−1 = k–te Person hat anderen Geburtstag als 1., 2., . . . , (k − 1)–te Person“ ” .. . An−1 = ” n–te Person hat anderen Geburtstag als alle vorher“ P (A1 ∩ . . . ∩ An−1 ) = ? P (A1 ) = P (A2 |A1 ) = P (A3 |A1 ∩ A2 ) = 364 365 363 365 362 365 .. . P (An−1 |A1 ∩ . . . ∩ An−2 ) = Seite 48 365 − (n − 1) 365 − n + 1 = 365 365 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK Die Multiplikationsformel liefert: P (A1 ∩ . . . ∩ An−1 ) = 364 · 363 · . . . · (365 − n + 1) 365n−1 = 365 · 364 · . . . · (365 − n + 1) 365n n 5 20 30 50 60 (Laplace-Annahme) P (A1 ∩ . . . ∩ An−1 ) 0.973 0.589 0.294 0.030 0.006 Man erkennt, daß man bereits bei 50 bis 60 zufällig zusammengekommenen Personen fast sicher sein kann, mindestens zwei mit gleichem Geburtstag dabei zu haben. Eine Anwendung der Multiplikationsformel ist die Graphische Methode (Pfadregel) Die Pfadregel erlaubt es, die Multiplikationsformel graphisch darzustellen. Dies soll an Beispielen veranschaulicht werden. Beispiel 3.38 32 Karten (Skat), 4 Asse, 2 Karten ziehen (ohne Zurücklegen der 1. Karte) P ( As beim 2. Zug“) = ? ” Pfaddiagramm (Baumdiagramm): 28/32 4/32 kein As As 1. Zug 27/31 4/31 28/31 3/31 kein As As kein As As also 2. Zug 3 4 4 28 1 P ( As beim 2. Zug“) = · + · = ” 31 32 31 32 8 Beispiel 3.39 Werfen von 3 Münzen X = Anzahl Münzen mit Wappen sichtbar Pfaddiagramm: Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 49 WAHRSCHEINLICHKEIT UND STATISTIK 1/2 1/2 Z 1/2 1/2 1/2 Z 1/2 1. Münze W W 1/2 1/2 Z 1/2 W 1/2 1/2 Z W Z W Z X=0 X=1 X=1 X=2 X=1 1/2 W Z X=2 X=2 2. Münze 1/2 W 3. Münze X=3 also P (X = 0) = 1 2 · P (X = 1) = 3 · P (X = 2) = 3 · P (X = 3) = 1 2 · 1 2 1 8 1 8 1 2 · 1 2 · 1 2 = = = = 1 8 3 8 3 8 1 8 bei n Münzen: P (X = k) = 3.2.2 n n 1 · k 2 k = 0, . . . , n (Binomialverteilung, siehe Kapitel 3.3.1 S.58) Unabhängigkeit von Ereignissen Beispiel 3.40 32 Karten (Skat), 4 Asse, 2 Züge mit Zurücklegen der 1. Karte und gutem Durchmischen; die Asse seien die Karten mit den Nummern 1, 2, 3 und 4. Ergebnismenge: Ω = {1, 2, 3, 4, . . . , 31, 32} × {1, 2, 3, 4, . . . , 31, 32} 322 Elemente Ereignisse: A = {1, 2, 3, 4} × {1, 2, . . . , 32} B = {1, 2, . . . , 32} × {1, 2, 3, 4} A ∩ B = {1, 2, 3, 4} × {1, 2, 3, 4} 1. Karte ein As“ ” 2. Karte ein As“ ” zweimal As“ ” Unter der Laplace-Annahme ergibt sich also: P (A) = P (A ∩ B) = 4 · 32 1 = = P (B) 322 8 16 1 = 322 64 Damit haben wir die bedingten Wahrscheinlichkeiten: Seite 50 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK P (A|B) = P (B|A) = P (A∩B) P (B) P (B∩A) P (A) = = 8 64 8 64 = = 1 8 1 8 = P (A) = P (B) ” ” B hat keinen Einfluß auf A“ A hat keinen Einfluß auf B“ Hier stimmen also die bedingten Wahrscheinlichkeiten mit den ( unbedingten“) überein. Insbesonder ” gilt: ⇔ Also: P (A ∩ B) = P (A|B) · P (B) = P (B|A) · P (A) = P (A) · P (B) ” getrennte Versuchsteile bestimmten das Eintreten von A und B“ Intuitiv ist klar, daß die beiden Ereignisse A und B aus dem vorstehenden Beispiel völlig unabhängig voneinander eintreten, da ja durch das Mischen zwischen zwei Zügen das Ergebnis des ersten Zuges ohne Einfluß auf das Ergebnis des zweiten Zuges ist. Diese aufgrund der Versuchsdurchführung des Experiment gegebene Unabhängigkeit“ der Ereignisse A und B beschreiben wir nun mathematisch: ” Definition 3.41 Zwei Ereignisse A und B heißen (stochastisch) unabhängig, falls P (A ∩ B) = P (A) · P (B) gilt. Immer, wenn aufgrund der Versuchanordnung die Annahme gerechtfertigt erscheint, daß das Eintreten eines Ereignisses A völlig ohne Einfluß ist auf das Eintreten eines Ereignisses B, werden wir bei der mathematischen Beschreibung die Wahrscheinlichkeiten P (A), P (B) und P (A ∩ B) so wählen, daß P (A ∩ B) = P (A) · P (B) gilt. Bemerkung 3.42 Sind die Ereignisse A und B unabhängig, so sind es auch die Ereignisse A und B c , die Ereignisse Ac und B sowie die Ereignisse Ac und B c , denn aus P (A) · P (B) folgt P (A) · P (B c ) = P (A) · (1 − P (B)) = P (A) − P (A) · P (B) = P (A) − P (A ∩ B) = P (A ∩ B c ) und entsprechend P (Ac ) · P (B) = P (Ac ∩ B) und mit der Regel P (A ∪ B) = P (A) + P (B) − P (A ∩ B) P (Ac ) · P (B c ) = (1 − P (A)) · (1 − P (B)) = 1 − P (A) − P (B) + P (A) · P (B) = 1 − P (A) − P (B) + P (A ∩ B) = 1 − P (A ∪ B) = P (Ac ∩ B c ) Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 51 WAHRSCHEINLICHKEIT UND STATISTIK Definition 3.43 n Ereignisse A1 , . . . , An heißen vollständig unabhängig, falls für jede nichtleere Teilmenge {i1 , i2 , . . . , ik } von {1, . . . , n} P (Ai1 ∩ Ai2 ∩ . . . Aik ) = P (Ai1 ) · P (Ai2 ) · . . . · P (Aik ) gilt. Bemerkung 3.44 Man beachte, daß im allgemeinen die Unabhängigkeit von A1 , . . . , An nicht aus der Unabhängigkeit von je zwei Ereignissen folgt. Beispiel 3.45 Ω = {1, 2, 3, 4}, P ({i}) = 41 , i = 1, . . . , 4, Laplace-Annahme; Sei A = {1, 2}, B = {1, 3}, Es gilt: P (A ∩ B) = C = {2, 3} 1 1 1 = · = P (A) · P (B) 4 2 2 ebenso: P (A ∩ C) = P (A) · P (C) P (B ∩ C) = P (B) · P (C) aber: P (A ∩ B ∩ C) = 0 6= P (A) · P (B) · P (C) ” 3.3 A, B, C paarweise unabhängig, aber nicht vollständig unabhängig“ Zufallsvariable und Verteilungsfunktion In Kapitel 3.1.4 hatten wir den Begriff der Zufallsvariable schon motiviert und benutzt. Dabei hatten wir den wichtigen Fall der Ereignisse der Form X = k“angeführt, d.h. wir hatten uns für Ereignisse ” der Form {ω ∈ Ω : X(ω) = k} interessiert. Natürlich können wir auch Ereignisse der Form {ω ∈ Ω : X(ω) ∈ I} für ein beliebiges Intervall I ∈ R betrachten. Dabei verstehen wir unter einem Intervall eine Teilmenge von R von der Form {x ∈ R : a < x ≤ b}, {x ∈ R : a ≤ x ≤ b}, usw. aber auch Halbachsen“, wie etwa {x ∈ R : x ≤ b}, oder ” {x ∈ R : a < x}. Diese Betrachtung ist allgemeiner, da insbesondere die einelementigen Teilmengen ({x ∈ R : X(ω) = k}) zu den Intervallen gehören. Für die Wahrscheinlichkeit des Ereignisses {ω ∈ Ω : X(ω) ∈ I} schreiben wir abkürzend P (X ∈ I) und entsprechend P (a < X ≤ b), P (a ≤ X ≤ b), P (X = a), usw. Die Wahrscheinlichkeiten solcher Ereignisse lassen sich mit Hilfe der in folgender Definition erklärten Verteilungsfunktion berechnen: Definition 3.46 Sei X eine Zufallsvariable. Dann heißt die Abbildung F : R → [0, 1] mit F (x) = P (X ≤ x), x ∈ R, Verteilungsfunktion der Zufallsvariable X. Seite 52 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK Bemerkung 3.47 Wir benutzen die Abkürzungen: F (x + 0) = F (x − 0) = F (−∞) = F (∞) = lim F (x + h), lim F (x − h), h>0,h→0 h>0,h→0 lim F (x) x→−∞ und lim F (x) x→∞ Bemerkung 3.48 In der beschreibenden Statistik (also im Kapitel 2) haben wir schon über die empirische Verteilung, die durch die Angabe der absoluten Häufigkeiten zu den verschiedenen Klassen der Variablenwerte xi gekennzeichnet wurde, gesprochen. Ersetzt man die absoluten Häufigkeiten durch die relativen Häufigkeiten, so gelangt man zur Definition der empirischen Verteilungsfunktion (siehe Definition 2.17). Im Folgenden beschäftigen wir uns mit theoretischen Verteilungen, die die Erwartungswerte eines Experiments beschreiben. Für die Verteilungsfunktion einer Zufallsvariable gelten folgende Sätze: Satz 3.49 Ist F die Verteilungsfunktion einer Zufallsvariable X,so gilt: (i) F ist monoton wachsend. (ii) F ist rechtsseitig stetig, d.h. F (x) = F (x + 0) für alle x ∈ R. (iii) F (−∞) = lim F (x) = 0 und F (∞) = lim F (x) = 1. x→−∞ x→∞ Zur Veranschaulichung des vorstehenden Satzes betrachten wir das folgende Bild: F(x) 1 0 x Abbildung 3.1: F ist monoton wachsend, rechtseitig stetig und lim F (x) = 0, lim F (x) = 1 x→∞ Dr. Torsten-Karl Strempel x→−∞ Stand: 02.06.2004 Seite 53 WAHRSCHEINLICHKEIT UND STATISTIK Bemerkung 3.50 • F ist eine Treppenfunktion, falls X eine diskret verteilte Zufallsvariable ist. F(x) 1 0 x Abbildung 3.2: Diskret verteilte Zufallsvariable: Treppenfunktion • F ist eine stetige Funktion (keine Sprünge“), falls X stetig verteilt mit Dichte f ist. ” Zx F (x) = f (t)dt −∞ Beachte: Das Integral hängt nur von der oberen Grenze ab! F(x) 1 0 x Abbildung 3.3: Stetig verteilte Zufallsvariable: stetige Funktion Satz 3.51 Ist F die Verteilungsfunktion der Zufallsvariable X,so gilt für a, b ∈ R, a < b: (i) P (a < X ≤ b) = F (b) − F (a) (ii) P (X = a) = F (a) − F (a − 0) = F (a) − lim h>0,h→0 F (a − h) (iii) P (a ≤ X ≤ b) = F (b) − F (a) + P (X = a) (iv) P (a ≤ X < b) = F (b − 0) − F (a − 0) = lim h>0,h→0 F (b − h) − lim h>0,h→0 F (a − h) (v) P (X > a) = 1 − F (a) Seite 54 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK 3.3.1 Diskret verteilte Zufallsvariable Die im Folgenden dargestellten diskreten Zufallsvariablen entsprechen den quantitativ-diskreten Merkmalen der beschreibenden Statistik. Diskret verteilte Zufallsvariablen finden ihre Anwendung meistens beim Zählen. Wir behandeln drei Fälle von diskreten Zufallsvariablen • geometrisch–verteilte Zufallsvariable (siehe Seite 56) • binomial–verteilte Zufallsvariable (siehe Seite 58) • Poisson–verteilte Zufallsvariable (siehe Seite 59) Definition 3.52 Eine Zufallsvariable heißt diskret–verteilt (oder diskret), wenn ihr Wertevorrat endlich oder abzählbar unendlich ist. Die Verteilungsfunktion einer diskreten Zufallsvariablen X ist durch die Angabe der Werte x1 , x2 , . . . und der Wahrscheinlichkeiten P (X = x1 ), P (X = x2 ), . . . festgelegt. Dies stellt man oft in Form einer Wertetabelle dar: Werte xi Wahrscheinlichkeit P (X = xi ) Dabei sind p1 , p2 , . . . nichtnegative Zahlen mit P x1 p1 x2 p2 x3 p3 ... ... = 1. Die Verteilungsfunktion F ist in diesem Falle i eine Treppenfunktion mit Sprungzielen X1 , x2 , . . . und zugehörigen Sprunghöhen p1 , p2 , . . .. 1.0 F (X) s .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... . . . . . . . . . . . . . . . . . k . . . . . . . . . . . . . . . . . . . . . . . i . . . . . . . . . . . . . . . . . . . s s s s p s 0.5 s s p s 0.0 Dr. Torsten-Karl Strempel xi xk Stand: 02.06.2004 X Seite 55 WAHRSCHEINLICHKEIT UND STATISTIK Bemerkung 3.53 Die im Folgenden behandelten diskreten Zufallsvariablen entsprechen den quantitativdiskreten Merkmalen der beschreibenden Statistik. Geometrische Verteilung Definition 3.54 Sei 0 < p < 1. Eine diskrete Zufallsvariable X mit P (X = i) = p · (1 − p)i−1 , i = 1, 2, 3, . . . , heißt geometrisch verteilt mit dem Parameter p. Eine geometrisch verteilte Zufallsvariable eignet sich zur Beschreibung des folgenden Experiments: Beispiel 3.55 Warten auf die erste 6“ beim Würfeln. ” Es sei X = Anzahl der benötigten Würfe. Unter der Annahme, daß die einzelnen Würfe ohne gegenseitige Beeinflussung erfolgen (Unabhängigkeitsannahme), gilt: X=1 X=2 X=3 X=4 =6 =6 =6 =6 1/6 1/6 1/6 <6 5/6 <6 1/6 <6 5/6 <6 5/6 5/6 ....... Daraus folgt: P (X = 1) = 1 6 5 1 P (X = 2) = · 6 6 2 5 1 P (X = 3) = · 6 6 3 5 1 P (X = 4) = · 6 6 Es gilt also für i = 1, 2, 3, . . . 1 P (X = i) = · 6 Seite 56 usw i−1 5 6 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK Bemerkung 3.56 (Verallgemeinerung: Warten auf den ersten Erfolg“ ) ” Es sei p = Erfolgswahrscheinlichkeit pro Experiment und X = Anzahl der benötigten Versuche bis zum 1. Erfolg Falls die einzelnen Experimente sich nicht gegenseitig beeinflussen (Unabhängigkeitsannahme), ergibt sich obige Formel: P (X = i) = p (1 − p)i−1 , i = 1, 2, 3, . . . Es gilt: ∞ X i=1 ∞ ∞ X X i−1 P (X = i) = p · (1 − p) =p· (1 − p)i = p · i=1 |i=0 {z } 1 =1 1 − (1 − p) geometrische Reihe (Beachte: P (Ω) = 1 !) Beispiel 3.57 Würfelwurf X = Anzahl der Versuche bis zur ersten 6 Gesucht ist die Wahrscheinlichkeit für das Ereignis A = erste 6 spätestens beim 3. Wurf“ ” Man erhält: P (X ≤ 3) = = = Dabei wurde benutzt: n X i=0 Dr. Torsten-Karl Strempel qi = i−1 3 X 1 5 P (X = i) = · 6 6 i=1 i=1 3 5 1− 2 i X 1 5 1 6 = · 5 6 6 6 i=0 1− 6 91 = 0.4213 216 3 X 1 − q n+1 1−q für Stand: 02.06.2004 q>0 Seite 57 WAHRSCHEINLICHKEIT UND STATISTIK Binomialverteilung Definition 3.58 Sei 0 < p < 1 und n ∈ N. Eine Zufallsvariable X mit P (X = k) = n · pk · (1 − p)n−k , k k = 0, 1, . . . , n heißt binomialverteilt mit den Parametern n und p (kurz: B(n, p)-verteilt). Eine binomial verteilte Zufallsvariable eignet sich zur Beschreibung des folgenden Experiments: Bemerkung 3.59 Ein Zufallsexperiment wird n-mal wiederholt, ohne daß sich die einzelnen Versuchsdurchführungen gegenseitig beinflussen (Unabhängigkeitsannahme). Das Ereignis A sei vorgegeben; Erfolg“ = A tritt ein“ ” ” X = Anzahl Experimente mit A ( Anzahl Erfolge“) ” Die Ergebnismenge ist: Ω = {(ω1 , ω2 , . . . , ωn ) | ωi ∈ {0, 1}} wobei ωi = 0 , kein Erfolg ωi = 1 , Erfolg Die Zufallsvariable X sei definiert als: X : Ω −→ N (ω1 , ω2 , . . . , ωn ) 7→ Anzahl i mit ωi = 1 Es sei p = P (A) = Erfolgswahrscheinlichkeit pro Experiment, 0≤p≤1 und ω = (ω1 , ω2 , . . . , ωn ) ∈ Ω mit X(ω) = k k Erfolge“ ” Dann gilt aufgrund der Unabhängigkeitsannahme: P ({ω}) = pk |{z} k Erfolge Es gibt insgesamt obige Formel: n k · (1 − p)n−k | {z } n − k Mißerfolge solcher ω mit X(ω) = k (Anzahl Serien mit genau k Erfolgen). Daraus folgt n P (X = k) = · pk · (1 − p)n−k , k Seite 58 Stand: 02.06.2004 k = 0, 1, . . . , n Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK Es gilt: n X P (X = k) = k=0 n X n k k=0 pk (1 − p)n−k = (p + (1 − p))n = 1 (P (Ω) = 1 !) Dabei wurde die binomische Formel benutzt: n (a + b) = n X n k=0 k ak · bn−k Beispiel 3.60 3 Würfe eines Würfels X = Anzahl der Sechsen“ ” Es gilt: X ∼ B(n, p) also mit n=3 und p= k 3−k 3 1 5 P (X = k) = · · , k 6 6 Die Formel liefert: P (X P (X P (X P (X = 0) = 1) = 2) = 3) = =3 =3 = Insgesamt gilt: 3 X 1 6 1 2 6 1 3 6 5 3 6 5 2 6 5 6 P (X = k) = k=0 = = = = 125 216 75 216 15 216 1 216 1 , 6 k = 0, 1, 2, 3 = 0.5787 = 0.3472 = 0.0694 = 0.0046 216 =1 216 Bemerkung 3.61 Problem: Die Berechnung von P (X = k) bei großem n ! Poisson–Verteilung und Poissonscher Grenzwertsatz Definition 3.62 Sei λ > 0. Eine Zufallsvariable mit P (X = i) = λi −λ ·e , i! i = 0, 1, 2, . . . , λ>0 heißt Poisson-verteilt mit Parameter λ (Verteilung für die Anzahl des Auftretens seltener Ereignisse.). Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 59 WAHRSCHEINLICHKEIT UND STATISTIK Eine poisson verteilte Zufallsvariable eignet sich zur Beschreibung des folgenden Experiments: Bemerkung 3.63 In einer Telefonzentrale wird an einem normalen Vormittag die Anzahl der innerhalb einer Zeitspanne t ankommenden Telefongespräche ermittelt. λ hat dann die Bedeutung der mittleren Anzahl“ der Gespräche pro Zeiteinheit t. ” Beispiel 3.64 In einer empirischen Untersuchung ist die Anzahl der Soldaten eines preußischen Kavallerieregiments ermittelt, die innerhalb eines Jahres an den Folgen eines Huftritts starben. Für 10 Regimenter wurden über einen Zeitraum von 20 Jahren die entsprechenden Zahlen ermittelt: Anzahl der Todesfälle beobachtete Häufigkeit Als mittlere Anzahl “ erhält man ” 4 P i=0 i·fi 200 0 109 1 65 2 22 3 3 4 1 = 0.61. Wir berechnen die Wahrscheinlichkeiten, mit der eine mit dem Parameter λ = 0.61 poisson verteilte Zufallsvariable X die Werte 0, . . . , 4 annimmt und erhalten: P (X = 0) = e−0.61 = 0.543 P (X = 1) = 0.61 · e−0.61 = 0.331 P (X = 2) = 0.612 2! P (X = 3) = 0.613 3! P (X = 4) = 0.614 4! · e−0.61 = 0.101 · e−0.61 = 0.021 · e−0.61 = 0.003 Diese Wahrscheinlichkeiten vergleichen wir mit den den relativen Häufigkeiten, die im Experiment ermittelt wurden: Anzahl Todesfälle beob. rel. Häufigkeit Wahrscheinlichkeit 0 0.545 0.543 1 0.325 0.331 2 0.110 0.10 3 0.015 0.021 4 0.005 0.003 Bemerkung 3.65 Es gilt: ∞ X P (X = i) = e−λ i=0 wegen ex = ∞ X xi i=0 i! ∞ X λi i=0 i! = e−λ eλ = 1 (Reihenentwicklung der Exponentialfunktion) Satz 3.66 (Poissonscher Grenzwertsatz) Sei X1 , X2 , . . . eine Folge von Zufallsvariablen Xn sei B(n, pn )-verteilt, n = 1, 2, . . ., und es gelte für ein λ > 0 lim n · pn = λ. n→∞ Dann gilt lim P (Xn = k) = n→∞ Seite 60 λk −λ ·e , k! für k = 0, 1, 2, . . . Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK Beweis: Sei 0 ≤ k ≤ n P (Xn = k) n k p (1 − pn )n−k k n = = = −→ n→∞ npn n 1 − k n(n − 1) · . . . · (n − k + 1) npn n k! n (1 − pn )k n 1 k−1 →λ z}|{ 1· 1− · ... · 1 − (npn )k npn n n · · 1 − k k! } n (1 − pn ) | {z | {z } k →1 λ | {z } → k! →e−λ λk −λ e k! Approximation von Binomialwahrscheinlichkeiten X ∼ B(n, p) , Dann gilt mit λ = n · p P (X = k) ≈ wobei n groß und p klein λk −λ ·e k! für k = 0, 1, . . . , n Beispiel 3.67 Es werden 200 Personen zufällig gewählt. Der Anteil der Personen mit Blutgruppe AB in der Bevölkerung betrage 2%. Sei X = Anzahl herausgegriffener Personen mit Blutgruppe AB Es gilt X ∼ B(200, 0.02) Mit λ = 200 · 0.02 = 4 erhält man näherungsweise nach dem Poissonschen Grenzwertsatz: P (X > 3) = 1 − P (X ≤ 3) 3 X λk −4 ≈ 1−e k! k=0 32 −4 = 1−e 1+4+8+ 3 71 = 1 − e−4 · 3 = 0.5665 Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 61 WAHRSCHEINLICHKEIT UND STATISTIK f(t) t x Flacheninhalt = F(x) = P(X < x) Abbildung 3.4: Dichtefunktion 3.3.2 Stetig verteilte Zufallsvariable Definition 3.68 Eine Zufallsvariable X heißt stetig verteilt mit der Dichte f , falls sich ihre Verteilungsfunktion F durch eine nichtnegative Funktion f : R → R in der folgenden Weise schreiben lässt: Zx F (x) = P (X ≤ x) = f (t)dt −∞ Insbesondere gilt Z∞ f (t)dt = 1 Gesamtfläche −∞ f(t) Flache = 1 t Abbildung 3.5: Dichtefunktion: Flächeninhalt 1 Bemerkung 3.69 Es sei X eine stetig verteilte Zufallsvariable mit Dichte f . Dann gilt (vgl. Satz 3.51): • P (X = c) = 0 für beliebiges c • P (a < X ≤ b) = F (b) − F (a) = • P (X ≤ b) = F (b) = Seite 62 Rb Rb a f (t)dt = P (a ≤ X ≤ b) f (t)dt = P (X < b) −∞ Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK f(t) Flache = P(a < X < b) 0 t a b Abbildung 3.6: Dichtefunktion einer stetigen Zufallsvariable: P (a < X ≤ b) = P (a ≤ X ≤ b) f(t) Flache = P(X > a) 0 t a Abbildung 3.7: Dichtefunktion einer stetigen Zufallsvariable: P (X > a) = P (X ≥ a) • P (X > a) = 1 − F (a) = R∞ a f (t)dt = P (X ≥ a) • P (|X| ≤ c) = P (−c ≤ X ≤ c) = Rc −c f (t)dt = F (c) − F (−c) Rechteckverteilung Definition 3.70 Sei −∞ < a < b < ∞. X heißt rechteckverteilt im Intervall [a, b] (R(a, b)verteilt), falls X stetig verteilt ist mit der Dichte f , gegeben durch 1 für a < t < b f (t) = b−a 0 sonst Die zugehörige Verteilungsfunktion F ergibt sich zu für x ≤ a 0 x−a für a < x < b F (x) = b−a 1 für x ≥ b Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 63 WAHRSCHEINLICHKEIT UND STATISTIK f(t) Flache = P(|X| < c) 0 t -c 0 c Abbildung 3.8: Dichtefunktion einer stetigen Zufallsvariable: P (|X| ≤ c) = F (c) − F (−c) f(t) 1/(b-a) t a b Abbildung 3.9: Rechteckverteilung Bemerkung 3.71 Rechteckverteilte Zufallsvariablen eignen sich zur Beschreibung von Vorgängen, bei denen die Ergebnisse nur Zahlen eines bestimmten Intervalls [a, b] sein können und die Chance, das das Ergebnis in ein bestimmtes Teilintervall fällt, lediglich durch dessen Länge bestimmt ist. Beispiel: Ermittlung der Wartezeit eines Fahrgastes auf den nächsten Zug, wenn der Fahrgast zu einem zufälligen Zeitpunkt einen Bahnsteig betritt an dem alle 5 Minuten ein Zug eintrifft. Exponentialverteilung Definition 3.72 Sei λ > 0. X heißt exponentialverteilt mit dem Parameter λ (kurz: Ex(λ)verteilt), falls X stetig verteilt ist mit der Dichte f : 0 für t < 0 f (t) = λe−λt für t ≥ 0 und Verteilungsfunktion F : F (x) = 0 für x < 0 . −λx für x ≥ 0 1−e Eine exponential verteilte Zufallsvariable eignet sich zur Beschreibung folgender Experimente Bemerkung 3.73 a) In einer Telefonzentrale wird die Zeitspanne zwischen zwei Telefonanrufen ermittelt. Seite 64 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK b) In einem Call-Center wird die Dauer der einzelnen Gespräche ermittelt. c) Beschreibung der Lebensdauer von Geräten wenn die Defekte in erster Linie durch äußere Einflüsse und nicht durch Verschleiß verursacht werden. 1 0.9 0.8 0.7 f(x) 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.5 1 1.5 2 2.5 x 3 3.5 4 4.5 5 Abbildung 3.10: Dichte der Exponentialverteilung mit Parameter λ = 1.0 1 0.9 0.8 0.7 F(x) 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.5 1 1.5 2 2.5 x 3 3.5 4 4.5 5 Abbildung 3.11: Verteilungsfunktion der Exponentialverteilung mit Parameter λ = 1.0 Beispiel 3.74 Die Lebensdauer eines Geräts (in Wochen) sei durch eine Ex(λ)-verteilte Zufallsvariable T beschrieben. Bezeichnet F die Verteilungsfunktion von T , so gilt: P (T ≤ 5|T ≥ 2) Dr. Torsten-Karl Strempel = P (T ≤ 3) Stand: 02.06.2004 = F (3). Seite 65 WAHRSCHEINLICHKEIT UND STATISTIK Begründung: P (T ≤5,T ≥2) P (T ≥2) P (T ≤ 5|T ≥ 2) = (nach Definition 3.30) = P (2≤T ≤5) 1−P (T <2) = F (5)−F (2) 1−F (2) = 1−e−5λ −(1−e−2λ ) e−2λ = e−2λ −e−5λ e−2λ = 1 − e−3λ = F (3) = P (T ≤ 3). Interpretation: Wenn das Gerät am Ende der zweiten Woche (Bedingung T ≥ 2) noch intakt ist, so ist die Wahrscheinlichkeit P (T ≤ 5|T ≥ 2) für einen Defekt innerhalb der nächsten drei Wochen ebenso groß wie die Wahrscheinlichkeit P (T ≤ 3) für einen Defekt innerhalb der ersten drei Wochen. Bei einem Gerät mit Abnutzungserscheinungen müßte die Wahrscheinlichkeit für das Auftreten eines Defekts im Laufe der Zeit immer größer werden. Die Exponentialverteilung ist ein Spezialfall der Weilbullverteilung Definition 3.75 Sei α > 0 und β > 0. X heißt Weilbull-verteilt mit dem Parametern α und β, falls X stetig verteilt ist mit der Dichte f : f (t) = 0 α·β· und Verteilungsfunktion F : F (x) = β tβ−1 e−αt 0 β 1 − e−αx für t < 0 für t ≥ 0 für x < 0 . für x ≥ 0 Bemerkung 3.76 Die Exponentialverteilungen sind spezielle Weilbullverteilungen mit β = 1. Eine Weilbull-verteilte Zufallsvariable eignet sich zur Beschreibung des folgenden Experiments: Bemerkung 3.77 Beschreibung der Lebensdauer von Geräten mit Abnutzungserscheinungen. Normalverteilung Definition 3.78 Sei µ ∈ R und σ > 0. Eine Zufallsvariable X heißt normalverteilt mit den Parametern µ und σ 2 (kurz: N (µ, σ 2 )-verteilt), falls X stetig verteilt ist mit der Dichte 1 −(t − µ)2 − 1 1 f (t) = √ e 2σ 2 = √ e 2 σ 2π σ 2π Seite 66 Stand: 02.06.2004 t−µ σ 2 . Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -6 -4 -2 0 2 4 6 8 10 12 14 16 x Abbildung 3.12: Dichten der Normalverteilungen mit Parametern µ = 0.0, σ = 1.0 bzw. µ = 5.0, σ = 4.0 0.4 0.35 0.3 f(x) 0.25 0.2 0.15 0.1 0.05 0 -4 -3 -2 -1 0 x 1 2 3 4 Abbildung 3.13: Dichte der Standard-Normalverteilung Normalverteilte Zufallsvariablen werden z.B. häufig dann verwendet, wenn man Meßvorgänge beschreiben möchte, bei denen Ungenauigkeiten zu zufälligen Schwankungen der Meßergebnisse führen. Bemerkung 3.79 Für µ = 0 und σ 2 = 1 heißt X auch standard-normalverteilt. In diesem Fall ist die Dichte: 1 − t2 1 f (t) = √ e 2 2π und die Verteilungsfunktion 1 Φ(x) = √ 2π Dr. Torsten-Karl Strempel Zx 1 2 e− 2 t dt −∞ Stand: 02.06.2004 Seite 67 WAHRSCHEINLICHKEIT UND STATISTIK 1 0.9 0.8 0.7 F(x) 0.6 0.5 0.4 0.3 0.2 0.1 0 -4 -3 -2 -1 0 x 1 2 Abbildung 3.14: Verteilungsfunktion Standard-Normalverteilung 3 4 der Da das Integral nicht geschlossen lösbar ist, wird Φ in einer Tabelle angegeben (siehe Anhang A). Die Dichte f ist eine gerade Funktion, deshalb folgt Φ(−x) = 1 − Φ(x) für alle x ∈ R. Standardisierung Sei jetzt X wieder eine N (µ, σ 2 )-verteilte Zufallsvariable mit beliebigen µ ∈ R und σ > 0 und Verteilungsfunktion Fµ,σ2 (x). Mit der Substitution u = t−µ σ ergibt sich für die zugehörige Verteilungsfunktion: P (X ≤ x) = Fµ,σ2 (x) = 1 √ σ 2π Zx 1 e− 2 ( t−µ 2 σ ) dt −∞ x−µ Zσ 1 2 1 √ e− 2 u σdu σ 2π −∞ x−µ = Φ σ = Ihre Werte lassen sich also mit Hilfe einer Tabelle der Funktion Φ berechnen. Wegen b−µ a−µ Pµ,σ2 (a < X ≤ b) = Fµ,σ2 (b) − Fµ,σ2 (a) = Φ −Φ σ σ besitzt die Zufallsvariable U = X−µ σ , die man auch Standardisierung von X nennt, die Verteilungsfunktion Φ und ist daher N (0, 1)-verteilt. Seite 68 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK Beispiel 3.80 ” 2σ–Regel“ P (|X − µ| ≤ 2σ) = P (µ − 2σ ≤ X ≤ µ + 2σ) = Fµ,σ2 (µ + 2σ) − Fµ,σ2 (µ − 2σ) µ + 2σ − µ µ − 2σ − µ = Φ −Φ σ σ = Φ(2) − Φ(−2) = 2Φ(2) − 1 = 0.9544 ≈ 95% D.h., daß Abweichungen von µ, die größer als 2σ sind, bei normalverteilten Zufallsvariablen nur mit einer Wahrscheinlichkeit von 5% auftreten. 3.4 Erwartungswert, Varianz und weitere Kennzahlen Beschreibende Statistik • Meßreihen • Kennzahlen: – Lageparameter – Streuungsparameter Wahrscheinlichkeitstheorie • Verteilungen von Zufallsvariablen • Kennzahlen: – Erwartungswert (Mitte der Verteilung) – Varianz (Breite der Verteilung) – Momente (Abweichungen von Standardverteilung und Symmetrie) 3.4.1 Erwartungswert einer diskret verteilten Zufallsvariable Verteilung von X gegeben als Wertetabelle: Werte xi Wahrscheinlichkeit P (X = xi ) x1 p1 x2 p2 x3 p3 ... ... Erwartungswert von X Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 69 WAHRSCHEINLICHKEIT UND STATISTIK E(X) = X i xi · P (X = xi ) gewichtete Summe“ ” falls die Reihe absolut konvergent ist, d.h. falls X |xi | · P (X = xi ) i existiert! Beispiele • X ∼ B 3, 12 , also 3 3 1 3 1 P (X = k) = · = · k 2 k 8 bzw. , k = 0, 1, 2, 3 P (X = 0) = 1 8 P (X = 1) = 3 8 P (X = 2) = 3 8 P (X = 3) = 1 8 Erwartungswert von X: E(X) = 0 · P (X = 0) + 1 · P (X = 1) + 2 · P (X = 2) + 3 · P (X = 3) = 0· = 3 3 1 1 +1· +2· +3· 8 8 8 8 12 3 = 8 2 • X Poisson–verteilt mit Parameter λ > 0 , also P (X = i) = λi −λ e i! , i = 0, 1, 2, . . . Erwartungswert von X: E(X) = ∞ X i=0 i· ∞ ∞ X X λi −λ λi−1 −λ λi −λ e =λ e =λ e =λ i! (i − 1)! i! i=1 i=0 | {z } =1 Transformationen Es sei h : R −→ R beliebig. Dann gilt E(h(X)) = X i Seite 70 h(xi ) · P (X = xi ) Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK falls die Reihe absolut konvergent ist ! Anwendungen • h(x) = x2 E(X 2 ) = X i Beispiel: X ∼ B 3, 12 x2i · P (X = xi ) E(X 2 ) = 0 · P (X = 0) + 1 · P (X = 1) + 4 · P (X = 2) + 9 · P (X = 3) = 0· = 1 3 3 1 +1· +4· +9· 8 8 8 8 24 =3 8 • h(x) = xk , k ∈ N E(X k ) = X i xki · P (X = xi ) k–tes Moment der Zufallsvariable X in diesem Sinne: E(X) = 1. Moment (Erwartungswert) 2 = 2. Moment 3 = 3. Moment E(X ) E(X ) ... 3.4.2 Erwartungswert einer stetig verteilten Zufallsvariable Es sei X eine stetig verteilte Zufallsvariable mit Dichte f Erwartungswert von X E(X) = Z∞ x · f (x) dx −∞ Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 71 WAHRSCHEINLICHKEIT UND STATISTIK falls der Integrand absolut integrierbar ist, d.h. falls Z∞ |x| · f (x) dx −∞ existiert ! Beispiel: X exponentialverteilt mit Parameter λ > 0 ; Dichte: f (x) = 0 λe−λx x<0 x≥0 Erwartungswert von X (durch partielle Integration): E(X) = Z∞ x · f (x)dx = −∞ = = 1 λx · − λ ∞ −λx −xe 0 Z∞ 0 ∞ −λx e 0 + Z∞ λxe−λx dx − Z∞ 0 1 e−λx dx λ· − λ e−λx dx 0 1 −λx ∞ = (0 − 0) − e λ 0 = −(0 − 1 1 )= λ λ Transformationen Es sei h : R −→ R stetig. Dann gilt E(h(X)) = Z∞ h(x) · f (x) dx −∞ falls der Integrand absolut integrierbar ! Anwendungen • h(x) = x2 2 E(X ) = Z∞ x2 · f (x) dx −∞ Beispiel: X exponentialverteilt mit Parameter λ > 0 Seite 72 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK 2 E(X ) = Z∞ 2 x · f (x)dx = −∞ = 1 λx · − λ 2 2 = (0 − 0) + λ = λx2 e−λx dx 0 ∞ −λx e 0 Z∞ |0 Z∞ − Z∞ 0 1 2λx · − λ e−λx dx λxe−λx dx {z =E(X) } 2 2 1 2 · E(X) = · = 2 λ λ λ λ • h(x) = xk , k ∈ N (stetige Funktion) k E(X ) = Z∞ xk · f (x) dx −∞ k–tes Moment der Zufallsvariable X in diesem Sinne: E(X) = 1. Moment (Erwartungswert) 2 = 2. Moment 3 = 3. Moment E(X ) E(X ) ... 3.4.3 Varianz einer Zufallsvariable Es sei h(x) = [x − E(X)]2 quadratische Abweichung von E(X)“ ” Varianz von X V ar(X) = E(h(X)) = E([X − E(X)]2 ) | {z } feste Zahl mittlere (erwartete) quadratische Abweichung vom Erwartungswert E(X)“ ” Es gilt Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 73 WAHRSCHEINLICHKEIT UND STATISTIK • im Falle einer diskret verteilten Zufallsvariable X V ar(X) = X [xi − E(X)]2 · P (X = xi ) i • im Falle einer stetig verteilten Zufallsvariable X mit Dichte f V ar(X) = Z∞ [x − E(X)]2 · f (x) dx −∞ Beispiele • Sei X = Augenzahl beim Würfelwurf Es gilt P (X = i) = 1 6 , i = 1, 2, . . . , 6 Erwartungswert von X: E(X) = 1 · 1 1 1 1 1 7 + 2 · + . . . + 6 · = (1 + 2 + . . . + 6) = · 21 = = 3.5 6 6 6 6 6 2 Varianz von X: V ar(X) = [1 − 3.5]2 · = 1 1 1 + [2 − 3.5]2 · + . . . + [6 − 3.5]2 · 6 6 6 1 · [−2.5]2 + [−1.5]2 + [−0.5]2 · 2 6 = 1 25 + 9 + 1 · 3 4 = 35 = 2.917 12 • Für X ∼ N (µ, σ 2 ) gilt: E(X) = µ und V ar(X) = σ 2 Merke: Mitte der Verteilung“ −→ E(X) ” Breite der Verteilung“ −→ V ar(X) , oder besser ” p V ar(X) (Streuung) Seite 74 Stand: 02.06.2004 Dr. Torsten-Karl Strempel f(t) WAHRSCHEINLICHKEIT UND STATISTIK 3.4.4 Rechenregeln für Erwartungswerte Bei der Berechnung von Erwartungswerten können folgende Regeln angewandt werden: • Es sei X eine diskret verteilte Zufallsvariable. Gilt für ein µ ∈ R P (X = µ − t) = P (X = µ + t) für alle t ≥ 0 Verteilung symmetrisch zu µ“ ” dann ist E(X) = µ , falls der Erwartungswert existiert. Interpretation: Erwartungswert = Symmetriepunkt Beispiele – X ∼ B(3, 12 ). Für µ = 3 2 gilt: P (X = 3 3 − t) = P (X = + t) , 2 2 also: E(X) = t≥0 3 2 (vgl. Berechnung oben) Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 75 WAHRSCHEINLICHKEIT UND STATISTIK – Sei X = Augenzahl beim Würfelwurf Verteilung von X ist symmetrisch zu µ = 3.5, also E(X) = 3.5 (vgl. Berechnung oben) • Es sei X eine stetig verteilte Zufallsvariable mit Dichte f . Gilt für ein µ ∈ R f (µ − t) = f (µ + t) für alle t ≥ 0 , dann ist E(X) = µ , falls der Erwartungswert existiert. Beispiel: X ∼ N (µ, σ 2 ) (Normalverteilung); Dichte: 1 − e 2 1 f (x) = √ σ 2π x−µ σ 2 Hier gilt f (µ − t) = f (µ + t) , t ≥ 0 , und man kann zeigen, daß E(X) existiert, also E(X) = µ Interpretation: µ ist die Mitte der Verteilung“ ! ” • Es seien a, b ∈ R. Dann gilt: E(aX + b) = aE(X) + b V ar(aX + b) = a2 V ar(X) • Die Varianz einer Zufallsvariable X kann mit folgender Formel berechnet werden: V ar(X) = E X 2 − [E(X)]2 Beispiele – Es sei X ∼ B(3, 12 ). Dann gilt (siehe oben): E(X) = Daraus folgt: Seite 76 3 , 2 E(X 2 ) = 3 2 3 12 − 9 3 V ar(X) = 3 − = = 2 4 4 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK – Es sei X exponentialverteilt mit Parameter λ > 0. Dann gilt (siehe oben): E(X) = 1 λ E(X 2 ) = , Daraus folgt: 2 V ar(X) = 2 − λ 3.4.5 2 λ2 2 1 1 = 2 λ λ Tschebyscheffsche Ungleichung Zusammenhang zwischen Erwartungswert E(X) und Varianz V ar(X) einer Zufallsvariable X: P (|X − E(X)| ≥ c) ≤ V ar(X) , c2 für c > 0 Die Tschebyscheffsche Ungleichung liefert also eine obere Schranke für die Wahrscheinlichkeit dafür, daß Abweichungen vom Erwartungswert auftreten, die größer oder gleich c sind. Man beachte: P (|X − E(X)| ≥ c) = 1 − P (|X − E(X)| < c) = 1 − P (E(X) − c < X < E(X) + c) Daraus ergibt sich folgende Abschätzung für c > 0: P (|X − E(X)| < c) = P (E(X) − c < X < E(X) + c) ≥ 1 − V ar(X) c2 Beispiel: Es sei X ∼ N (µ, σ 2 ) und c = 2σ. Es gilt: E(X) = µ V ar(X) = σ 2 und Aus der Tschebyscheffschen Ungleichung erhält man: P (|X − µ| ≥ 2σ) ≤ σ2 1 = = 0.25 2 4σ 4 Die Tschebyscheffsche Ungleichung ist hier sehr grob, denn es gilt nach der 2σ–Regel“ (siehe oben): ” P (|X − µ| ≥ 2σ) = 0.0456 ≈ 0.05 Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 77 f(t) WAHRSCHEINLICHKEIT UND STATISTIK 3.4.6 Summen von Zufallsvariablen Es seien X1 , X2 , . . . , Xn Zufallsvariablen. Dann gilt: E(X1 + X2 + . . . + Xn ) = E(X1 ) + E(X2 ) + . . . + E(Xn ) Frage: Gilt eine entsprechende Formel auch für die Varianz ? Unabhängigkeit der Zufallsvariablen X1 , X2 , . . . , Xn praktisch: Die Werte kommen ohne gegenseitige Beeinflussung zustande.“ ” mathematisch: Produktformel Für i = 1, . . . , n sei Ai = ” Xi ≤ xi “ mit vorgegebenen Werten x1 , x2 , . . . , xn . Forderung: Die Ereignisse A1 , . . . , An sollen vollständig unabhängig sein ! Dies bedeutet: P (A1 ∩ . . . ∩ An ) = P (A1 ) · . . . · P (An ) Seite 78 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK Für die sogenannte gemeinsame Verteilungsfunktion F(X1 ,...,Xn ) (x1 , . . . , xn ) gilt also: F(X1 ,...,Xn ) (x1 , . . . , xn ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn ) = P (A1 ∩ . . . ∩ An ) = P (A1 ) · . . . · P (An ) = P (X1 ≤ x1 ) · P (X2 ≤ x2 ) · . . . · P (Xn ≤ xn ) = FX1 (x1 ) · FX2 (x2 ) · . . . · FXn (xn ) wobei (x1 , x2 , . . . , xn ) ∈ Rn beliebig. Merkregel: gemeinsame Verteilungsfunktion = Produkt der einzelnen Verteilungsfunktionen Die Zufallsvariablen X1 , X2 , . . . , Xn heißen unabhängig, falls diese Gleichheit gilt. Wichtig: Die Annahme der Unabhängigkeit soll immer gemacht werden, wenn die Zufallsvariablen X1 , X2 , . . . , Xn Beobachtungen beschreiben, die durch Vorgänge ohne gegenseitige Beeinflussung zustande kommen ! Für unabhängige Zufallsvariablen X1 , . . . , Xn gilt: V ar(X1 + X2 + . . . + Xn ) = V ar(X1 ) + V ar(X2 ) + . . . + V ar(Xn ) sowie E(X1 · X2 · . . . · Xn ) = E(X1 ) · E(X2 ) · . . . · E(Xn ) Anwendungen • Binomialverteilung X1 , . . . , Xn seien unabhängig und Xi ∼ B(1, p) für i = 1, . . . , n. Es gilt also P (Xi = 1) = p und P (Xi = 0) = 1 − p wobei p = Erfolgswahrscheinlichkeit“ , ” Dr. Torsten-Karl Strempel Stand: 02.06.2004 0≤p≤1 Seite 79 WAHRSCHEINLICHKEIT UND STATISTIK Interpretation: Xi = 1 , Erfolg Xi = 0 , kein Erfolg , Es gilt: Y = X1 + . . . + Xn ∼ B(n, p) Anzahl Erfolge bei n Versuchen“ ” Für i = 1, . . . , n erhält man E(Xi ) = 0 · (1 − p) + 1 · p = p E(Xi 2 ) = 02 · (1 − p) + 12 · p = p V ar(Xi ) = p − p2 = p(1 − p) Daraus folgt für die B(n, p)–verteilte Zufallsvariable Y : E(Y ) = E(X1 ) + . . . + E(Xn ) = n · p V ar(Y ) = V ar(X1 ) + . . . + V ar(Xn ) = n · p · (1 − p) • Normalverteilung X1 , . . . , Xn seien unabhängig und E(Xi ) = µi sowie V ar(Xi ) = σi2 für i = 1, . . . , n. Es folgt: E(X1 + X2 + . . . + Xn ) = µ1 + µ2 + . . . + µn V ar(X1 + X2 + . . . + Xn ) = σ12 + σ22 + . . . + σn2 Für eine normalverteilte Zufallsvariable X gilt: X ∼ N (µ, σ 2 ) =⇒ aX + b ∼ N (aµ + b, a2 σ 2 ) Es gilt sogar: Summen von unabhängigen normalverteilten Zufallsvariablen sind wiederum normalverteilt. X1 , . . . , Xn unabhängig , X1 ∼ N (µ1 , σ12 ), . . . , Xn ∼ N (µn , σn2 ) =⇒ X1 + . . . + Xn ∼ N (µ1 + . . . + µn , σ12 + . . . + σn2 ) Achtung: Für großes n gilt die letzte Aussage näherungsweise auch für nicht– normalverteilte Zufallsvariablen Xi ! Seite 80 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK 3.4.7 Weitere Kennzahlen • Momente – absolute – zentrale • Schiefe • Exzess • Median und Quantile Die Wurzel p V AR(X) aus der Varianz von X heisst Standardabweichung oder Streuung von X. Für den Fall E(X) 6= 0 nennt man den Quotienten p V AR(X) E(X) Variationskoeffizienten von X. Wie oben bereits definiert, bezeichnet man k E(X ) = X xki i k · P (X = xi ) bzw. E(X ) = Z∞ xk · f (x) dx −∞ als k–tes Moment der Zufallsvariablen X (X diskret bzw. stetig verteilt). Darüber hinaus definiert man absolute Momente, zentrale Momente und zentrale absolute Momente: E(|X|k ), E([X − E(X)]k ) und E(|X − E(X)|k ) mit k E(|X| ) = X i k E([X − E(X)] ) = E(|X − E(X)|k ) = Den Quotienten k |xi | · P (X = xi ) bzw. Z∞ |x|k · f (x) dx −∞ X (xi − E(X)) · P (X = xi ) bzw. X |xi − E(X)|k · P (X = xi ) bzw. i i k Z∞ −∞ Z∞ (x − E(X))k · f (x) dx |x − E(X)|k · f (x) dx −∞ E[X − E(X)]3 ) p V AR3 (X) bezeichnet man als Schiefe von X. Diese Kennzahl bezeichnet die Abweichungen von der Symmetrie. Ist X symmetrisch verteilt, wie z.B. jede normalverteilte Zufallsvariable, so ist die Schiefe gleich 0. Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 81 WAHRSCHEINLICHKEIT UND STATISTIK Der Quotient E[X − E(X)]4 ) V AR2 (X) heißt Exzess von X. Man kann zeigen, dass jede normalverteilte Zufallsvariable den Exzess 3 besitzt. Analog zu den oben eingeführten Quantilen für Messreihen ist es auch möglich, für Verteilungsfunktionen Quantile zu definieren und einen Median. Z.B. findet man für eine exponentialverteilte Zufallsvariable mit λ einen Median von x0,5 = ln 2 ≈ 0, 6931. 3.5 Zentraler Grenzwertsatz Lange Summen von unabhängigen Zufallsvariablen sind näherungswei” se normalverteilt.“ Beachte: Dies gilt auch ohne die Voraussetzung, daß die Summanden selbst normalverteilt sind. Voraussetzungen X1 , . . . , Xn E(Xi ) = µi , unabhängig , V ar(Xi ) = σi2 für i = 1, . . . , n Dann gilt (unter schwachen Zusatzbedingungen) für großes n die Approximation X1 + . . . + Xn − (µ1 + . . . + µn ) q P ≤ y ≈ Φ(y) , 2 2 σ1 + . . . + σn y∈R Interpretation: Eine lange“ Summe X1 + . . . + Xn ist näherungsweise N (µ, σ 2 )–verteilt mit µ = ” µ1 + . . . + µn und σ 2 = σ12 + . . . + σn2 Anwendung auf die Binomialverteilung Xi ∼ B(1, p), i = 1, . . . , n ; X1 , . . . , Xn unabhängig. Es gilt: E(Xi ) = p und V ar(Xi ) = p(1 − p) sowie Y = X1 + . . . + Xn ∼ B(n, p) Aus dem Zentralen Grenzwertsatz folgt: Y ist näherungsweise N (np, np(1 − p)) verteilt, d.h. ! Y − np P p ≤ y ≈ Φ(y) Grenzwertsatz von Moivre–Laplace np(1 − p) Seite 82 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK Approximation Y ∼ B(n, p), n groß, p nicht zu klein (sonst Poisson–Approximation !) P (a ≤ Y ≤ b) ≈ Φ p b − np np(1 − p) ! −Φ p a − np np(1 − p) ! graphisch: f (t) = a − 0.5 a √ 2π np √1 − 12 np(1−p) b ·e „ √ t−np np(1−p) «2 b + 0.5 Stetigkeitskorrektur Stetigkeitskorrektur liefert i. allg. eine bessere Näherung: ! b + 0.5 − np P (a ≤ Y ≤ b) ≈ Φ p −Φ np(1 − p) a − 0.5 − np p np(1 − p) ! Beispiel: 900 Münzen werden auf den Tisch geworfen. P( höchstens 480 zeigen die gleiche Seite“) = ? ” Sei Y = Anzahl Münzen mit Wappen“ nach oben. Dann gilt: ” Y ∼ B(n, p) mit n = 900 und p = 1 2 also E(Y ) = np = 450 und V ar(Y ) = np (1 − p) = 225 Näherungsrechnung: Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 83 WAHRSCHEINLICHKEIT UND STATISTIK • ohne Stetigkeitskorrektur P (420 ≤ Y ≤ 480) ≈ Φ 480 − 450 √ 225 −Φ 420 − 450 √ 225 = Φ(2) − Φ(−2) = 2 · Φ(2) − 1 = 0.9544 • mit Stetigkeitskorrektur 480.5 − 450 419.5 − 450 √ √ P (420 ≤ Y ≤ 480) ≈ Φ −Φ 225 225 −61 61 −Φ = Φ 30 30 = 2 · Φ(2.03) − 1 = 0.9576 Seite 84 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK Kapitel 4 Schließende Statistik Beschreibende Statistik: Analyse von Meßreihen Wahrscheinlichkeitstheorie: Mathematische Beschreibung von Zufallsexperimenten; dabei wurde stets angenommen, daß die Verteilungsfunktion F , die das Zustandekommen der Ergebnisse beschreibt, vollständig bekannt ist. Schließende Statistik: Es wird davon ausgegangen, daß die Verteilungsfunktion F (das Zufallsgesetz) nicht vollständig bekannt ist. Ziel: Rückschlüsse ziehen auf F auf der Basis vorliegender Beobachtungsdaten (Meßreihen). Beispiel Es sei p der relative Anteil der Individuen einer Population, die an einer ganz bestimmten Krankheit leiden. Wegen des zu großen Populationsumfangs ist ein Untersuchen aller Individuen nicht möglich. Zur Bestimmung des unbekannten relativen Anteils p wird daher folgendermaßen vorgegangen: Der Gesamtpopulation wird eine Stichprobe von n Individuen entnommen und es wird festgestellt, wieviele Individuen innerhalb der Stichprobe an der Krankheit leiden. Fragen: • Wie groß ist p ? −→ Schätzproblem • Zwischen welchen Grenzen liegt p ? • Gilt p = 1% ? 4.1 −→ −→ Konfidenzintervall Testproblem Empirische Verteilungsfunktion Meßreihe bzw. Stichprobe x1 , . . . , xn wobei n = Stichprobenumfang Stochastisches Modell Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 85 WAHRSCHEINLICHKEIT UND STATISTIK x1 , . . . , xn Realisation von Zufallsvariablen X1 , . . . , Xn X1 , . . . , Xn unabhängig X1 , . . . , Xn identisch verteilt mit Verteilungsfunktion F , also F (x) = P (Xi ≤ x) , i = 1, . . . , n Problem: Ziel: 4.1.1 F unbekannt ! Rückschlüsse auf F auf der Basis der vorliegenden Stichprobe ! Zentralsatz der Statistik Bilde aus der Meßreihe x1 , . . . , xn die empirische Verteilungsfunkion Fn ( · ; x1 , . . . , xn ) : R → [0, 1] mit 1 Fn (z; x1 , . . . , xn ) = (Anzahl der Meßwerte ≤ z) | {z } n vorliegende Meßreihe = rel. Häufigkeit der Meßwerte ≤ z 1.0 6 r ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... .. ....................................................................................................... ......................... . ............... . .................. ... . . . . . . ....... ...... . ...... . ...... ..... . . . . . ..... . .... . ...... . . . .... . . ..... 5 1 5 ... ... . ... . ... . . .. . . . ... . ..... . ..... ...... .... ... ... . ... . . . . . ... . ...... . ..... . .... .... ... . .... . .... . . . ... .... . ..... . ..... ..... . . . . . .. ............ .. ........ ........ . ......... ........... . . . . . . . . . . . . . . . .......... ................................................................................................... . F (z) r 0.8 F (z; x , . . . , x ) r 0.6 r 0.4 0.2 0.0 r - x2 x4 x1 x5 x3 z Idee Fn ( · ; x1 , . . . , xn ) ≈ Seite 86 F( · ) | {z } unbekannte Verteilungsfunktion Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK betrachte Fn ( · ; X1 , . . . , Xn ) | {z } Zufallsvariablen zufällige Funktion“ ” Frage: Zusammenhang Fn ( · ; X1 , . . . , Xn ) ←→ F (z) ? Zentralsatz der Statistik (Satz von Glivenko/Cantelli) zufälliger maximaler Unterschied“ zwischen empirischer Verteilungsfunktion und wahrer Verteilungs” funktion: Dn (X1 , . . . , Xn ) = sup |Fn (z; X1 , . . . , Xn ) − F (z)| , n = 1, 2, . . . z∈R Es gilt: P Interpretation: lim Dn (X1 , . . . , Xn ) = 0 = 1 (n = Stichprobenumfang) n→∞ Für geeignet lange Meßreihen x1 , . . . , xn ist die empirische Verteilungsfunktion Fn ( · ; x1 , . . . , xn ) eine beliebig gute Approximation für die wahre Verteilungsfunktion F . Problemstellung Können die Meßwerte x1 , . . . , xn als Realisation von normalverteilten Zufallsvariablen angesehen werden ? Graphische Prüfmethode: Wahrscheinlichkeitspapier Quantitative Prüfmethode: Kolmogoroff–Smirnov–Test 4.1.2 Wahrscheinlichkeitspapier Φ = Verteilungsfunktion der N(0,1)– Verteilung Es gilt 1 y = Φ(x) = √ 2π Z x t2 e− 2 dt −∞ Graph von Φ: 100% = 1.0 ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ................................................................................................................ ................ ........... ........ ....... . . . . . .... ...... ..... .... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ........ . . . .. .... . .... . ... ... . . . . . ............................................................................................................................................................................................................................ . . ... .... . . . .. ... . . ... ... . . ... . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .... . .... .. . . . . . . .. . . . . . . .. . . . . . . . .. . . . . . . . ... .... ... . . . . . . . .. . . . . . . . .. . . . . . . .. .. . . . . . ... .... ... . . . . . . . .. . . . . . . . . ... . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..... . . .. .... ..... . . . . . . . . . . ... . . . . . . . . . . . ..... . . . . . . . . . . . .... . . . . . . . . . . ......... . . . ..... ................ . . . . ................................................................................... 84.1% = 0.841 y 50% = 0.5 15.9% = 0.159 0% = - 0.0 −3.0 Dr. Torsten-Karl Strempel −2.0 −1.0 0.0 x 1.0 Stand: 02.06.2004 2.0 3.0 Seite 87 WAHRSCHEINLICHKEIT UND STATISTIK Idee Änderung der Skala der y–Achse so, daß sich der Graph von Φ im neuen Koordinatensystem zu einer Geraden streckt. Skalaänderung: v = Φ−1 (y) , 0<y<1 wobei Φ−1 = Umkehrfunktion von Φ Damit gilt für den Graph von Φ im x − v–Koordinatensystem: v = Φ−1 (Φ(x)) = x | {z } =y also: Graph von Φ im x − v–Koordinatensystem = 1. Winkelhalbierende Das x − v–Koordinatensystem bezeichnet man als Wahrscheinlichkeitsnetz v6 84.1% → 1 50% → 0 15.9% → −1 ........ ........ ......... ......... . . . . . . . . ......... ........ ......... ......... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ................. . . . ......... . ......... . ......... ......... . ........ . . . . . . . . . ...... . . . . . . . . . ......... . . . . . . . . . . . . . . . . . . . . . . . . . . . .................. . . ...... . . . . . . . . . . ...... . . . . . . . . . ..... . . . . . . . . .. . . ......... ......... . . . . . . . . . ..... . . . . . . . . . . . . . . . . . . . . . . . ............... . . ...... . . . . . . . . . . . . ......... ......... . . . . . . . . . . . ...... . . . . . . . . . . ...... . . . . . . . .. . . . ......... . . . −2.0 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 v=x 2.0 x Achtung Im Wahrscheinlichkeitsnetz wird die v–Achse mit den entsprechenden Prozentzahlen beschriftet ! Allgemein Fµ,σ2 = Verteilungsfunktion einer N (µ, σ 2 )–Verteilung Im x-y–Koordinatensystem: y = Fµ,σ2 (x) = Φ Im x-v–Koordinatensystem: v=Φ Seite 88 −1 x−µ σ x−µ x−µ Φ = σ σ Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK Fazit: Die Verteilungsfunktion einer Normalverteilung ist also im Wahrscheinlichkeitsnetz stets eine Gerade ! Näherungswerte für die Parameter µ und σ 2 einer Normalverteilung: v 84.1% 50% setze v = 0 (entspricht 50%–Linie) =⇒ x = µ setze v = 1 (entspricht 84.1%–Linie) =⇒ x = µ + σ 6 ... ............... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ............................. ........... . . . . . . . . . . . . . . . .... ............... . .............. ............... . ............... . ............... . . . . . . . . . . . . . . ... . .............. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ................................ . ......... . . . . . . . . . . . . . . . ........... . . . . . . . . . . . . . . . ........ . . . . . . . . . . . . . . ... . . ............... .............. . . . . . . . . . . . . . . . . .......... . . . . . . . . . . . . . . . ......... . . . . . . . . . . . . . . ....... . . .............. . . . . . . . . . . Fµ,σ2 ←−−−−−−−− σ −−−−−−−−→ µ µ+σ - x Vorgehen 1. Den Graphen der empirischen Verteilungsfunktion zur Meßreihe x1 , . . . , xn in das x−v–Koordinatensystem (Wahrscheinlichkeitsnetz) eintragen. 2. Die approximierende Näherungsgerade einzeichnen 3. Falls die Abweichungen zwischen dem Graphen der empirischen Verteilungsfunktion (Treppenfunktion) und der Näherungsgeraden nicht zu groß sind: Näherungswerte für µ und σ bestimmen. Hinweis: Bei klassierten Daten müssen die summierten relativen Klassenhäufigkeiten als Punkte über den rechten Klassengrenzen in das Wahrscheinlichkeitsnetz eingetragen werden. Dann Gerade durch diesen Punkteschwarm legen. 4.1.3 Kolmogoroff–Smirnov–Test Hypothese H0 : F = F0 wobei F0 beliebige stetige Verteilungsfunktion, F0 vorgegeben Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 89 WAHRSCHEINLICHKEIT UND STATISTIK Beispiel F0 = Verteilungsfunktion einer Normalverteilung Also insbesondere µ und σ 2 vorgegeben Vorgehen Berechne Dn (x1 , . . . , xn ) = sup |Fn (z; x1 , . . . , xn ) − F0 (z)| = max Dabei ist z∈R |Fn (x(i) ; x1 , . . . , xn ) − F0 (x(i) )| , |Fn ( x(i) − 0 ; x1 , . . . , xn ) − F0 (x(i) )| , i = 1, . . . , n | {z } linksseitiger Grenzwert x(1) , . . . , x(n) die geordnete Meßreihe. 1.0 6 r ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... .. .......................................................................................................... ........................ . .............. . .................. ..... . . . . . . ...... ...... . ...... . ...... ..... . . . . . .... . .... . ...... . . . .... . . .... 5 1 5 ... ... . .... . ... . . . .. . . . .. . ..... . ..... ...... . .... ... ... . ... . . . . . ... . ...... . ..... . . ... ... .... . .... . .... . . . .... . .... ..... . ..... ..... . . . . . . ............ .... ........ ........ . ......... ............ . . . . . . . . . . . . . . . . ...... . ................................................................................................... F (z) r 0.8 F (z; x , . . . , x ) r 0.6 r 0.4 r 0.2 0.0 - x2 x4 x1 Falls alle Meßwerte verschieden sind, gilt i Dn (x1 , . . . , xn ) = max − F0 (x(i) ) n Entscheidung: x5 z x3 i − 1 , − F0 (x(i) ) , i = 1, . . . , n n Hypothese F = F0“ verwerfen, falls ” Dn (x1 , . . . , xn ) Seite 90 zu groß“ , ” Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK d. h. falls Dn (x1 , . . . , xn ) > c Problem: Vorgehen: Wahl von c ? Bei Gültigkeit der Hypothese H0 (also F = F0 ) soll gelten P (Dn (X1 , . . . , Xn ) > c) ≈ α , wobei 0 < α < 1 vorgegeben. Interpretation: Die Wahrscheinlichkeit dafür, die Hypothese zu verwerfen, obwohl sie wahr ist, d. h. die Wahrscheinlichkeit dafür, die Hypothese fälschlicherweise zu verwerfen (Fehlentscheidung !), soll ≈ α betragen Die festzulegende Konstante c hängt also vom gewählten α ab: c = cα Da α die Wahrscheinlichkeit für eine Fehlentscheidung ist, wird α in der Regel klein gewählt: α = 1% oder α = 5% Man bezeichnet α als Signifikanzniveau des Tests. Zur Festlegung von cα benötigt man die Verteilung von Dn (X1 , . . . , Xn ), falls F = F0 gilt. Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 91 WAHRSCHEINLICHKEIT UND STATISTIK Satz (Kolmogoroff ) X1 , . . . , Xn unabhängige und identisch verteilte Zufallsvariablen mit stetiger Verteilungsfunktion F . Dann gilt: √ lim P n · Dn (X1 , . . . , Xn ) ≤ y = K(y) , y∈R n→∞ wobei K : R −→ [0, 1] gegeben durch ∞ 1 + 2 X(−1)k e−2k2 y2 K(y) = k=1 0 y>0 Kolmogoroffsche Verteilungsfunktion y≤0 Werte von K in Tabellen ! Kolmogoroffsche Verteilungsfunktion 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 Bestimmung von cα : P (Dn (X1 , . . . , Xn ) > cα ) = 1 − P (Dn (X1 , . . . , Xn ) ≤ cα ) √ √ n · Dn (X1 , . . . , Xn ) ≤ n · cα = 1−P √ ≈ 1 − K( n · cα ) ! = α Daraus folgt: √ K( n · cα ) = 1 − α Vorgehen: α vorgeben, 1 − α berechnen, der Tabelle den Wert für ermitteln √ n · cα entnehmen und daraus cα Beispiel Vorgabe: α = 5% √ K( n · cα ) = 1 − 0.05 = 0.95 Seite 92 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK Der Tabelle entnimmt man: Man erhält: √ n · cα = 1.36 1.36 cα = √ n Im Falle n = 100 gilt also cα = 0.136. Die Entscheidung bei der Durchführung des Kolmogoroff–Smirnov–Tests zum Signifikanzniveau α = 5% lautet also: Falls 1.36 Dn (x1 , . . . xn ) > cα = √ n wird die Hypothese F = F0“ verworfen, sonst kann gegen H0 nichts eingewendet werden. ” Beachte: F0 muß vollständig bekannt sein ! Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 93 WAHRSCHEINLICHKEIT UND STATISTIK Kapitel 5 Simulation und Erzeugung von Zufallszahlen Nur Pseudozufallszahlen möglich, da ja ein Algorithmus verwendet wird ... 5.1 Erzeugung von Zufallszahlen mit dem Computer x = rnd(n), ... 5.2 Prüfung der Gleichverteilung von Zufallszahlen 5.3 Praxisbeispiel - Geografische Verteilung von Anrufen Geografische Verteilung von Anrufen darstellen -¿ -¿ -¿ Tortenlösung exakte“ Lösung ” Fehlende Anrufe wegen Rundung 5.4 Statistik-Software Überblick und Beispiele Untersuchung von Softwarepaketen (auch Shareware und Freeware). Seite 94 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK 5.4.1 MicroSoft Excel Erste Beispiele (Statistikdaten aus dem Kurs) können mit Excel analysiert werden. Nutzung der Grundfunktionalitäten zur Berechnung von Mittelwerten, Varianz und Standardabweichung, Korrelation und Regressionsgerade. Darstellung in Diagrammen und Einfügen von Trendlinien. Vergleich der Trendlinien- Funktionsgleichung mit der zuvor von Hand berechneten Regressionsgeraden. 5.5 Web-Adressen http://www.bommi2000.de — Wahrscheinlichkeitsrechnen Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 95 WAHRSCHEINLICHKEIT UND STATISTIK Anhang A Verteilungsfunktion Φ(x) der N(0,1)–Verteilung x 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 0 .5000 .5398 .5793 .6179 .6554 .6915 .7257 .7580 .7881 .8159 .8413 .8643 .8849 .9032 .9192 .9332 .9452 .9554 .9641 .9713 .9772 .9821 .9861 .9893 .9918 .9938 .9953 .9965 .9974 .9981 1 .5040 .5438 .5832 .6217 .6591 .6950 .7291 .7611 .7910 .8186 .8438 .8665 .8869 .9049 .9207 .9345 .9463 .9564 .9649 .9719 .9778 .9826 .9864 .9896 .9920 .9940 .9955 .9966 .9975 .9982 2 .5080 .5478 .5871 .6255 .6628 .6985 .7324 .7642 .7939 .8212 .8461 .8686 .8888 .9066 .9222 .9357 .9474 .9573 .9656 .9726 .9783 .9830 .9868 .9898 .9922 .9941 .9956 .9967 .9976 .9982 3 .5120 .5517 .5910 .6293 .6664 .7019 .7357 .7673 .7967 .8238 .8485 .8708 .8907 .9082 .9236 .9370 .9484 .9582 .9664 .9732 .9788 .9834 .9871 .9901 .9925 .9943 .9957 .9968 .9977 .9983 4 .5160 .5557 .5948 .6331 .6700 .7054 .7389 .7703 .7995 .8264 .8508 .8729 .8925 .9099 .9251 .9382 .9495 .9591 .9671 .9738 .9793 .9838 .9875 .9904 .9927 .9945 .9959 .9969 .9977 .9984 5 .5199 .5596 .5987 .6368 .6736 .7088 .7422 .7734 .8023 .8289 .8531 .8749 .8944 .9115 .9265 .9394 .9505 .9599 .9678 .9744 .9798 .9842 .9878 .9906 .9929 .9946 .9960 .9970 .9978 .9984 6 .5239 .5636 .6026 .6406 .6772 .7123 .7454 .7764 .8051 .8315 .8554 .8770 .8962 .9131 .9279 .9406 .9515 .9608 .9686 .9750 .9803 .9846 .9881 .9909 .9931 .9948 .9961 .9971 .9979 .9985 7 .5279 .5675 .6064 .6443 .6808 .7157 .7486 .7793 .8078 .8340 .8577 .8790 .8980 .9147 .9292 .9418 .9525 .9616 .9693 .9756 .9808 .9850 .9884 .9911 .9932 .9949 .9962 .9972 .9979 .9985 8 .5319 .5714 .6103 .6480 .6844 .7190 .7517 .7823 .8106 .8365 .8599 .8810 .8997 .9162 .9306 .9429 .9535 .9625 .9699 .9761 .9812 .9854 .9887 .9913 .9934 .9951 .9963 .9973 .9980 .9986 9 .5359 .5753 .6141 .6517 .6879 .7224 .7549 .7852 .8133 .8389 .8621 .8830 .9015 .9177 .9319 .9441 .9545 .9633 .9706 .9767 .9817 .9857 .9890 .9916 .9936 .9952 .9964 .9974 .9981 .9986 Weitere Funktionswerte erhält man durch die Beziehung Φ(−x) = 1 − Φ(x). Beispiele: Φ(0.93) = 0.8238 Φ(−0.93) = 1 − 0.8238 = 0.1762 Seite 96 Stand: 02.06.2004 Dr. Torsten-Karl Strempel WAHRSCHEINLICHKEIT UND STATISTIK LITERATURVERZEICHNIS Literaturverzeichnis [1] Einführung in die Statistik, Lehn, J., Wegmann, H., 2. Auflage, Teubner 1992. [2] Statistische Methoden und ihre Anwendungen, Kreyszig, E., 7. Auflage, Vandenhoeck & Ruprecht 1979. [3] Statistik für Soziologen, Pädagogen, Pschychologen und Mediziner - Band 1 Grundlagen, Clauß, G., Ebener, 5. Auflage, Verlag Harri Deutsch, Thun und Frankfurt am Main 1985. [4] Statistik, Hartung, J., 9. Auflage, Oldenbourg 1993. [5] Multivariate Statistik, Hartung, J.; Elpelt, B., Oldenbourg 1984. [6] Angewandte Statistik, Sachs, L., 7. Auflage, Springer 1992. [7] So lügt man mit Statistik, Krämer, W., 4. Auflage, Campus 1992. [8] Denkste ! — Trugschlüsse aus der Welt des Zufalls und der Zahlen, Krämer, W., Campus 1995.. [9] Formeln und Hilfen zur höheren Mathematik, Merziger, Mühlbach, Wille, Wirth, [email protected], www.binomiverlag.de, 4.Auflage 10/2001. Dr. Torsten-Karl Strempel Stand: 02.06.2004 Seite 97