Skript Stochastik Beschreibende Statistik, Wahrscheinlichkeitsrechnung, Schlieÿende Statistik Andreas Zeh-Marschke Version 6.0 - 019 Dipl.-Mathematiker Andreas Zeh-Marschke M.Sc. Praktische Informatik Tauberring 16 b, 76344 Eggenstein-Leopoldshafen E-Mail Andreas(at)Zeh-Marschke.de Homepage http://www.Zeh-Marschke.de Impressum Copyright: (Version: Layout und Satz: c 2001 - 2017 6.0 - 019 - 24.06.2017) Andreas Zeh-Marschke Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen und so weiter in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz- Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürfen. 2 Version 6.0 - 019 24.06.2017 Inhaltsverzeichnis 1. Grundlagen 13 1.1. Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Datenuntersuchung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.3. Merkmale 18 1.4. Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 1.5. Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 I. Beschreibende Statistik 31 2. 33 3. 4. Univariate Daten 2.1. Darstellung univariater Daten . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.2. Mittelwerte 40 2.3. Streuungsmaÿe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.4. Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.5. Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bivariate Daten 61 3.1. Darstellungen bivariater Daten . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Zusammenhangsanalyse 61 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.3. Regressionsrechnung 3.4. Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.5. Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 Zeitreihen 83 4.1. Zeitreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.2. Bestandsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 4.3. Indexzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 4.4. Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 4.5. Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 II. Wahrscheinlichkeitsrechnung 5. Kombinatorik 101 103 5.1. Permutationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 5.2. Kombinationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 Version 6.0 - 019 24.06.2017 3 Inhaltsverzeichnis 6. 7. 8. 5.3. Binomialkoezienten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 5.4. Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 5.5. Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 Grundlagen der Wahrscheinlichkeitsrechnung 6.1. Zufallsexperiment und Ereignis 6.2. Zusammen gesetzte Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . 121 6.3. Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 6.4. Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . 115 135 7.1. Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 7.2. Parameter von Zufallsvariablen 7.3. Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 7.4. Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 Spezielle Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 138 147 8.1. Diskrete Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 8.2. Stetige Gleichverteilung 8.3. Binomialverteilung 8.4. Hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 150 8.5. Geometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 8.6. Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 8.7. Exponentialverteilung 8.8. Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 8.9. Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 8.10. Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 III. Schlieÿende Statistik 9. 115 167 Schlieÿende Statistik 169 9.1. Parameterschätzung 9.2. Intervallschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 9.3. Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 9.4. Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 9.5. Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 A. Tabellen 175 A.1. Basisdaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 A.2. Tabelle der Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 177 Namensliste 179 Abkürzungen 181 4 Version 6.0 - 019 24.06.2017 Inhaltsverzeichnis Literatur 183 Index 185 Version 6.0 - 019 24.06.2017 5 Abbildungsverzeichnis 1.1. Beispiel ordinal messbares Merkmal - Noten bei einer Klausur . . . . . . . 23 2.1. Beispiel: nominal messbares Merkmal - Kreisdiagramm . . . . . . . . . . . 36 2.2. Beispiel: ordinal messbares Merkmal - Alter . . . . . . . . . . . . . . . . . 36 2.3. Beispiel: Notenverteilung - grasche Darstellung . . . . . . . . . . . . . . . 37 2.4. Beispiel: Summenhäugkeit - Alter . . . . . . . . . . . . . . . . . . . . . . 40 4.1. Bestandsentwicklung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 6.1. Zwei Komponenten hintereinander 6.2. Mehrere Komponenten hintereinander 6.3. Zwei Komponenten parallel . . . . . . . . . . . . . . . . . . . . . . . . . . 123 6.4. Drei Komponenten parallel . . . . . . . . . . . . . . . . . . . . . . . . . . 124 6.5. Mehrere Komponenten parallel 6.6. Aggregat aus drei Komponenten 6.7. Bauplan Radio 7.1. Verteilung Zeitbedarf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 . . . . . . . . . . . . . . . . . . . . . . 121 . . . . . . . . . . . . . . . . . . . . 122 . . . . . . . . . . . . . . . . . . . . . . . . 125 . . . . . . . . . . . . . . . . . . . . . . . 126 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 Version 6.0 - 019 24.06.2017 7 Tabellenverzeichnis 1.1. Beispieldaten: Noten einer Klausur 1.2. Beispiel nominal messbarer Merkamle 1.3. Beispiel: ordinal messbares Merkmal - Noten bei einer Klausur . . . . . . 23 1.4. Beispiel ordinal messbares Merkmale . . . . . . . . . . . . . . . . . . . . . 24 1.5. Beispiel kardinal messbare Merkmale . . . . . . . . . . . . . . . . . . . . . 25 1.6. Klassen bei Körpergröÿe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.1. Eigenschaften absolute und relative Häugkeiten . . . . . . . . . . . . . . 34 2.2. Beispiel: Häugkeitsverteilung Alter . . . . . . . . . . . . . . . . . . . . . 35 2.3. Beispiel: Tabelle Familienstand 2.4. Beispiel: Notenverteilung - tabellarische Darstellung . . . . . . . . . . . . 36 2.5. Häugkeitstabelle - horizontal . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.6. Häugkeitstabelle - vertikal . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.7. Beispiel: Körpergröÿe gruppiert . . . . . . . . . . . . . . . . . . . . . . . . 38 2.8. Beispiel: Summen- und Resthhäugkeit Alter . . . . . . . . . . . . . . . . 39 2.9. Beispielsrechnung geometrisches Mittel . . . . . . . . . . . . . . . . . . . . 45 3.1. Zwei-dimensionale Häugkeitstabelle . . . . . . . . . . . . . . . . . . . . . 63 3.2. Beispiel: Körpergröÿe-Gewicht-Tabelle 63 3.3. Beispiel Häugkeitsverteilung 3.4. Bedingte Verteilung von 3.5. Beispiel Häugkeitsverteilung 3.6. Bedingte Verteilung von . . . . 66 3.7. Beispiel zwei-dimensionale Verteilung . . . . . . . . . . . . . . . . . . . . . 69 3.8. Tabelle für Beispiel 3.3.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 3.9. Aufgabe zwei-dimensionale Häugkeitsverteilung . . . . . . . . . . . . . . 76 3.10. Aufgabe zwei-dimensionale Häugkeitsverteilung . . . . . . . . . . . . . . 76 4.1. Beispiel: gleitender Durchschnitt 3. Ordnung . . . . . . . . . . . . . . . . . 84 4.2. Beispiel: Gleitender Durchschnitt 4. Ordnung 85 4.3. Bestandsveränderungen 4.4. Bestandsverlauf Produkt A . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5. Bestandsverlauf Produkt B . . . . . . . . . . . . . . . . . . . . . . . . . . 90 4.6. Energiepreisentwicklung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 4.7. Energiemengenentwicklung . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 4.8. Verfügbares Einkommen private Haushalte . . . . . . . . . . . . . . . . . . 96 Version 6.0 - 019 24.06.2017 Y Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . (links) beziehungsweise von X 22 35 65 . . . . 66 . . . . . . . . . . . . . . . . . . . . . . . . . 66 (links) beziehungsweise von X (rechts) 13 (rechts) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 90 9 Tabellenverzeichnis 4.9. Bestandsveränderung Vorrat . . . . . . . . . . . . . . . . . . . . . . . . . . 97 4.10. Umsatz- und Preisentwicklung . . . . . . . . . . . . . . . . . . . . . . . . . 97 5.1. Einführungsbeispiel Kombinatorik 5.2. Zusammenfassung Permutationen und Kombinationen 6.1. Beispiel 6.1.18 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 6.2. Wahrscheinlichkeit bei zwei Ereignissen . . . . . . . . . . . . . . . . . . . . 120 6.3. Beispiel 6.1.19 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 6.4. Verfügbarkeiten Komponenten vom Radio 7.1. diskrete, endliche Wahrscheinlichkeitsverteilung . . . . . . . . . . . . . . . 136 7.2. Wahrscheinlichkeitsverteilung 8.1. Beispiel 8.2. Beispiel: Fahrzeugzählung 8.3. Beispiel: Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 8.4. Beispiel: Brenndauer Glühbirnen 9.1. Untersuchungsparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 9.2. Parameter in Abhängigkeit von der Güte . . . . . . . . . . . . . . . . . . . 171 9.3. Beispiel: Stichprobenexperiment . . . . . . . . . . . . . . . . . . . . . . . . 172 9.4. Fehler 1. und 2. Art B(4; 0, 5)-Verteilung A.1. Basisdatensatz 10 . . . . . . . . . . . . . . . . . . . . . . 103 . . . . . . . . . . . 109 . . . . . . . . . . . . . . . . . . 127 . . . . . . . . . . . . . . . . . . . . . . . . . 143 . . . . . . . . . . . . . . . . . . . . . . . . . . 150 . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 . . . . . . . . . . . . . . . . . . . . . . . 158 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 Version 6.0 - 019 24.06.2017 Tabellenverzeichnis Vorwort Die Stochastik ist das Teilgebiet der Mathematik, das sich mit Häugkeiten und Wahr- scheinlichkeiten befasst. Zur Stochastik gehören die Teilbereiche beschreibende Statistik, Kombinatorik (wobei die Kombinatorik im Grunde zu den mathematischen Grundlagen gehört), Wahrscheinlichkeitsrechnung und schlieÿende Statistik. Dieses Skript entstand aus Vorlesungen zum Thema Statistik, welche ich seit 2001 an der Dualen Hochschule Baden-Württemberg Karlsruhe (ehemalige Berufsakademie Karlsruhe) und an der Hochschule Karlsruhe - Technik und Wirtschaft (ehemalige Fachhochschule Karlsruhe) in verschiedenen Studiengängen halte. Der Umfang der Vorlesung (inklusive Übungen) umfasst dabei etwa 30 Stunden. Dies zeigt, dass nur ein kleiner Umfang der Stochastik behandelt werden kann. Insbesondere die schlieÿende Statistik wird nur sehr kurz behandelt. Mit jedem neuen Kurs zur Statistik gibt es neue Anregungen und Änderungen, die ich in das Skript einarbeite. Ab und an steht auch gröÿere Überarbeitung an. Ursprüngliche Basis der Vorlesung stellten die Bücher von Schwarze dar (siehe Schwarze 2001, Schwarze 1997, Schwarze 1999). Inzwischen habe ich auch weitere Bücher herangezogen, die mir interessante Anregungen gegeben haben. Dies sind insbesondere Fahrmeir 2003b, Fahrmeir 2003a, Fischer 2005 und Henze 2003. Weitere Bücher die den Umfang sehr gut abdecken sind Wewel 2011 und Röÿler und Ungerer 2011. Neben dieses speziellen Fachbüchern sind auch umfassendere Werke sehr anregend: Eichholz und Vilkner 2002 und insbesondere das sehr umfassende Werk Arens u. a. 2008. Statistiken müssen stets kritisch betrachtet werden, da es leicht zu falschen Interpretation führen kann. Hier nde ich das Buch Lügen mit Zahlen (Bosbach und Kor 2011) sehr lesenswert. Ich befürchte, dass das Skript nicht frei von Fehlern und Unklarheiten ist. Daher bin ich dankbar für jede Anregung und Hinweis, damit ich in einer nächsten Version das Skript hoentlich verbessern kann. Auch gibt es ausreichend viele Stellen, die aus- oder umgebaut werden sollten. Die Arbeit wird mir nicht ausgehen. Ich danke der aufregenden, reizvollen, interessanten Aufgabe und allen, die mich unterstützt haben. Andreas Zeh-Marschke Eggenstein-Leopoldshafen, 24.06.2017 Version 6.0 - 019 24.06.2017 11 Kapitel 1. Grundlagen Zuerst (Abschnitt 1.1) wird anhand einiger Beispiele Fragestellungen und Anwendungsmöglichkeiten der Stochastik erläutert. Einige Beispiele, leider nicht alle, werden im Rahmen dieses Skripts weiter behandelt. Danach (Abschnitt 1.2) wird der Ablauf einer statistischen Untersuchung erläutert. Dabei werden auch verschiedene Quellen von Daten dargelegt. Anschlieÿend (Abschnitt 1.3) werden einige statistische Grundbegrie eingeführt, die in allen Abschnitten benötigt werden. Speziell der Begri Merkmal wird präzisiert. 1.1. Einführung Die Stochastik umfasst die Teilbereiche mathematische Statistik, Kombinatorik, Wahr- scheinlichkeitsrechnung und schlieÿende Statistik. Dazu zuerst einige Beispiele, welche verschiedene Anwendungsmöglichkeiten verdeutlichen. Beispiele von Anwendungsmöglichkeiten 1.1.1 Beispiel (Noten einer Klausur). Die tabellarische Verteilung der Noten einer Klausur (siehe Tabelle 1.1) beschreibt das Ergebnis in einer Klausur. Note sehr gut gut befriedigend ausreichend mangelhaft Anzahl 2 10 11 3 3 Tabelle 1.1.: Beispieldaten: Noten einer Klausur Es sind die Daten für ein Beispiel der beschreibenden Statistik. Dabei sind auch weitere Daten, die daraus gewonnen werden von Interesse. Welchen Mittelwert haben die Ergebnisse? Wie sind die Daten gestreut? Version 6.0 - 019 24.06.2017 13 1.1. Einführung 1.1.2 Beispiel (Bevölkerungsstatistik). Die Verteilung der Bevölkerung nach Alters- jahrgängen und getrennt nach Männern und Frauen ist die berühmte Bevölkerungspyramide, die schon längst, bei uns in Deutschland, ein Pilz ist. Die Frage nach dem durchschnittlichen Alter von Männer oder Frauen gehört zur beschreibenden Statistik, die Frage der Lebenserwartung von Männern oder Frauen eines bestimmten Jahrgangs gehört zur schlieÿenden Statistik und ist für Lebensversicherungen von Bedeutung. Die grasche Darstellung der Bevölkerungspyramide für Deutschland kann auf den Seiten des Statistisches Bundesamt (http://www.destatis.de) nachgesehen werden. Durch Volkszählungen werden verschiedene Merkmale für die Einwohner, nicht nur Alter und Geschlecht, gesammelt. Aus diesen Angaben können Informationen gewonnen werden, die für Planungen und Entscheidungen als Basis dienen. 1.1.3 Beispiel (Umsatz). Die Statistik für den Umsatz einer Unternehmung enthält die Umsätze einzelner Artikel oder Gruppen von Artikeln, aufgegliedert nach Perioden. Dieser Teil der beschreibenden Statistik ist Basis für Entscheidungen in Unternehmen. 1.1.4 Beispiel (Auslastung von Mitarbeitern). Die Statistik für die Auslastung ei- ner Abteilung enthält die verbuchten Stunden der Mitarbeiter je Projekt. Hierzu können dann vielfältige Auswertungen erfolgen, die dann wiederum Basis für operative Entscheidungen sind. 1.1.5 Beispiel (Zahlenkombinationen). Wie viele möglichen Zahlenkombinationen gibt es bei der Ziehungen der Lottozahlen (6 aus 49)? Dies ist eine Frage der Kombinatorik. Die Frage, wie wahrscheinlich ein Sechser im Lotto ist, führt direkt zur Wahrscheinlichkeitsrechnung. 1.1.6 Beispiel (Aktienkurs). Der Verlauf der Aktienkurse über einen längeren Zeit- raum ist ein Beispiel für eine Zeitreihe, ein Beispiel einer bivariaten beschreibenden Statistik. Mittels verschiedener statistischer Kennzahlen, werden dann Prognosen für den zukünftigen Kursverlauf erstellt, was zur schlieÿenden Statistik (manchmal wohl auch etwas zur Spekulation) gehört. 1.1.7 Beispiel (Verkehrszählung). Durch eine Zählung des Verkehrs werden Aussa- gen zur Dichte des Verkehrs und der dadurch bedingten Belastung beispielsweise eines Verkehrsknotenpunktes erfasst. Damit erhalten Verkehrsplaner wertvolle Informationen, um Entscheidungen zu treen. 1.1.8 Beispiel (Sonntagsfrage). Bei der Sonntagsfrage wird eine Prognose für das Wahlverhalten und damit für das Wahlergebnis erstellt. Aus einer Stichprobe (die befragten Wähler) wird eine Aussage über den Wahlausgang erstellt. Manchmal stimmt die Prognose, aber nicht immer. Es gibt dazu den passenden Spruch Prognosen sind schwierig, besonders wenn sie die Zukunft betreen.. Dieser Spruch oder Zitat wird mehreren Personen zugesprochen. Das heiÿt, es ist unklar, wer diese zutreende Bemerkung erstellt hat. 14 Version 6.0 - 019 24.06.2017 Kapitel 1. Grundlagen 1.1.9 Beispiel (Versuchsauswertung). Bei einem physikalischen Experiment wird der Zusammenhang zweier Messgröÿen erfasst. Es soll der Zusammenhang zwischen den Messgröÿen beschrieben werden. Dies führt zur Regressionsrechnung, einem Teil der beschreibenden Statistik. 1.1.10 Anmerkung. Diese Beispiele zeigen, dass die Statistik an vielen Stellen auf- tritt. Zum Teil werden vorhandene Daten verdichtet, komprimiert dargestellt, damit der Überblick bewahrt bleibt. In anderen Bereichen werden Daten als Entscheidungsgrundlage aufbereitet oder Prognosen erstellt. Probleme mit Statistiken 1.1.11 Anmerkung. Im Volksmund gibt es drei Formen der Lüge: die Notlüge, die ge- meine Lüge und die Statistik. Manchmal sagt man auch Traue keiner Statistik, die du nicht selber gefälscht hast. Dies zeigt deutlich, dass das Vertrauen in die Statistik nicht das Beste ist. Es zeugt jedoch auch davon, dass beim Lesen und der Interpretation von Statistiken viele Fehler gemacht werden können. Das Lesen und das Interpretieren von Statistiken ist daher stets sorgsam durchzuführen. An einigen Stellen werden solche Beispiele angeführt. Daher müsste der obige Spruch korrekter lauten: bei der du nicht die Rahmenbedingungen kennst. Traue keiner Statistik, Lesenswert für die Beleuchtung der Möglichkeiten der Manipulation mit Statistiken ist das Buch Bosbach und Kor 2011. Hier sind viele Beispiele aufgeführt, die teilweise lustig sind, aber in der Regel nachdenklich machen. 1.2. Datenuntersuchung In diesem Abschnitt wird beleuchtet, wie man zu Daten kommt. Dazu werden zuerst (Abschnitt 1.2) der Prozess zur Erfassung von Daten erläutert. Anschlieÿend (Abschnitt 1.2) wird die Erhebung von Daten und Probleme bei der Erhebung von Daten beschrieben. Anschlieÿend (Abschnitt 1.2) werden einige Quellen von Daten aufgeführt. Datenerfassungsprozess 1.2.1 Anmerkung. Eine statistische Untersuchung gliedert sich idealtypisch in fünf Phasen. 1. In der Phase Planung wird der Untersuchungsgegenstand klar und eindeutig de- niert. Es ist zu klären, welche Informationen erhoben werden sollen, um ein Entscheidungsproblem zu lösen. Version 6.0 - 019 24.06.2017 15 1.2. Datenuntersuchung statistische Masse oder Grundgesamtheit ist. Dann ist zu klären, welche Merkmale (für eine Klärung des Begries Merk- Hierbei ist festzulegen, welches die mal, siehe Abschnitt 1.3) erhoben werden sollen. Darüber hinaus ist zu klären, mit welchem bung Erhebungsverfahren die Daten erhoben werden. Wird eine VollerheStichprobe. In dieser Planungsphase werden auch gemacht oder nur eine die organisatorischen und technischen Fragen geklärt. Datenerhebung werden nach einer sorgfältigen Vorbereitung die Primärerhebung werden die Daten unmittelbar durch Experiment, Beobachtung oder Befragung erfasst. Bei einer Sekundärerhebung greift man auf bereits vorhandene Daten zurück. Hierbei können auf amtliche oder nicht-amtliche Daten zurückgegrien werden. 2. In der Phase Daten erfasst. Bei einer Werden die Daten durch eine Befragung von Personen erfasst, so ist die Wahl der Fragestellung sehr sorgfältig zu wählen, um nicht durch die Fragestellung die Antworten zu beeinussen und somit das Ergebnis zu beeinussen. 3. In der Phase Datenaufbereitung werden die gewonnenen Daten aufbereitet. Hier- zu gehört auch die Prüfung der Daten, das Erkennen unplausibler Daten, die gegebenenfalls aus der weiteren Untersuchung ausgeschlossen werden. Zur Datenaufbereitung gehören auch Darstellungen von Daten, zum Beispiel in tabellarischer Form oder als Häugkeitsverteilungen. Auch grasche Darstellungen der Daten gehören zur Datenaufbereitung. 4. In der Phase Datenauswertung oder auch statistische Analyse werden mittels mathematischer Verfahren Analysen der Daten durchgeführt. Hierbei werden Kenndaten, wie beispielsweise der Mittelwert, ermittelt, welche die Daten charakterisieren. In dieser Phase helfen oftmals Tabellenkalkulationsprogramme oder spezielle und mächtige statistische Programme. 5. In der Phase Interpretation und Dokumentation werden die gewonnenen Daten im Kontext der Anwendung interpretiert und beurteilt. Ebenso wird die Datenuntersuchung dokumentiert, damit die Ergebnisse nachvollziehbar sind und für spätere Untersuchungen noch zur Verfügung stehen. Datenerhebung 1.2.2 Anmerkung. Bei der Datenerhebung kann es verschiedene Herausforderungen Vollerhebung durchgeführt werden oder kann nur eine Stichprobe, das heiÿt ein Ausschnitt aus geben. Können alle Elemente der Grundgesamtheit erfasst werden, also eine der Grundgesamtheit erhoben werden. Wenn nur eine Stichprobe erhoben werden kann, wie können oder müssen die Elemente der Stichprobe ausgewählt werden, damit wirklich auch Aussagen für die Grundgesamtheit gewonnen werden können. Wie kann aus dem Daten der Stichprobe, die mittels der 16 beschreibenden Statistik gewonnen werden, Version 6.0 - 019 24.06.2017 Kapitel 1. Grundlagen auf Daten der Grundgesamtheit geschlossen werden. Dies ist Aufgabe der Statistik . schlieÿenden Für die Datenerhebung gibt es auch noch weitere Fragestellungen. Es ist leider nicht immer möglich, oder nicht immer sinnvoll oder wirtschaftlich, alle Daten für die Untersuchung heranzuziehen. 1.2.3 Beispiel (Lebensdauer von Glühbirnen). In einer Fabrik, in der Glühbirnen hergestellt werden, soll statistisch untersucht werden, wie lange die Glühbirnen halten. Dazu können beispielsweise die Glühbirnen betrieben werden, bis sie kaputt sind. Nach dieser Untersuchung ist eine Verwendung der Glühbirnen nicht mehr möglich. Daher soll durch Untersuchung nur eines Teils der Produktion auf die Qualität gefolgert werden. Aus der Untersuchung eines Teiles der Produktion wird somit auf die gesamte Produktion geschlossen. 1.2.4 Beispiel (Gewicht von Mehltüten). In einer Fabrik wird Mehl in 1kg-Beutel verpackt. Um die Genauigkeit der Füllmengen zu überprüfen, wird nur ein Teil der verpackten Beutel gewogen. Durch die Messung wird das Produkt nicht zerstört, es wäre jedoch nicht wirtschaftlich, alle Packungen zu wiegen. Aus den Daten der untersuchten Packungen wird auf die Genauigkeit der Füllmengen geschlossen. 1.2.5 Beispiel (Sendeplatz). Für viele Entscheidungen auch in Unternehmen werden vielfältige statistische Daten benötigt. Soll im Marketing der Sendeplatz für einen Werbespot ermittelt werden, so ist wichtig zu wissen, welche Personen zu welchen Zeiten welche Sendungen ansehen! Dazu werden Daten von ausgewählten Haushaltungen untersucht. 1.2.6 Anmerkung. Bei diesen Beispielen wird aus der Untersuchung auf einer Stich- probe Aussagen über die Gesamtheit gemacht. Dies ist ein Teil der schlieÿenden Statistik, die weiter später betrachtet wird. Für Aussagen zur schlieÿenden Statistik wird die Wahrscheinlichkeitsrechnung benötigt, die hierzu eingeführt wird. In vielen Fällen werden die Daten für die Statistik selber erhoben. Hierzu gibt es viele, fast unzählige Beispiele für Sachverhalte, die von Interesse sind, über die Aussagen getroen werden: • Kunden einer Firma, • Qualität der Produktion • Qualität von Dienstleistungen (zum Beispiel die Pünktlichkeit bei Zügen) • Kaufverhalten der Kunden • Durchschnitt der Noten bei einer Klausur • Studiendauer an einer Universität • ... Version 6.0 - 019 24.06.2017 17 1.3. Merkmale Neben diesen Statistiken, welche durch Firmen oder Institutionen selber erstellt werden, gibt es auch ozielle Statistiken. Bekannte Vertreter für statistische Daten sind hierfür: • Inationsrate • Arbeitslosigkeit und Beschäftigung • Daten zu Wirtschaft und Ausbildung • Bevölkerung • Wahlergebnisse • ... Datenquellen 1.2.7 Anmerkung. Es gibt viele amtliche und nicht-amtliche Stellen, welche Daten be- reitstellen. Diese oziellen Statistiken werden beispielsweise vom Statistischen Amt der EU (http://epp.eurostat.ec.europa.eu), vom Statistischen Bundesamt in Deutsch- land (http://www.destatis.de) oder auch von den Landesämtern für Statistik der einzelnen Bundesländer (beispielsweise http://www.statiatik-bw.de) geführt. Daneben gibt es ozielle Statistiken von Institutionen für spezielle Fragestellungen, wie beispielsweise die statistischen Daten der Deutschen Bundesbank (http://www.bundesbank.de) oder Daten der Bundesagentur für Arbeit (http://www.arbeitsagentur.de). Daneben gibt es auch nicht-amtliche Statistiken, auf deren Basis weitere Auswertungen durchgeführt werden können. So gibt es Statistiken von Wirtschaftsforschungsinstitute, wie beispielsweise vom Deutsches Institut für Wirtschaftsforschung Berlin (DIW) (http://www.diw.de) oder das Institut für Weltwirtschaft (IfW) in Kiel (http://www.uni-kiel.de/IfW/), von Markt- und Meinungsforschungsinstituten (bei- spielsweise Institut für Demoskopie Allensbach (IfD) (http://www.ifd-allensbach.de) oder der Gesellschaft für Konsum-, Markt- und Absatzforschung (GfK) aus Nürnberg (http://www.gfk.com) oder von Wirtschaftsverbänden (Beispiel Deutsche Industrieund Handelskammern (http://www.ihk.de) oder vom Deutsche Gewerkschaftsbund (http://www.dgb.de). Dies sind nur einige wenige Beispiele für Quellen von Daten. 1.3. Merkmale In diesem Abschnitt wird genauer untersucht, welche Gegenstände in der Statistik untersucht werden. Zuerst wird die statische Masse betrachtet. Dann werden die einzelnen 18 Version 6.0 - 019 24.06.2017 Kapitel 1. Grundlagen Einheiten der Untersuchungen beleuchtet. Was für unterschiedliche Typen von Untersuchungsgegenständen gibt es? Abschlieÿend werden einzelne Daten zu Klassen zusammengefasst. Massen und Einheiten 1.3.1 Anmerkung. Bei statistischen Untersuchungen werden bestimmte Objekte be- trachtet. Dies können • Personen (Einwohner, Studierende, Beschäftigte, Kunden, • Gegenstände (Lagerpositionen, Produkte, Konten, Wohnungen, • Ereignisse (Unfall, Geburt, Kauf, • Einheiten (Unternehmen, Haushalte, Familien, Verwaltungsbezirke. . . .) . . .), . . .), oder . . .) sein. 1.3.2 Beispiel. Bei einer Volkszählung werden alle Einwohner befragt. Jeder Einzel- ne ist aufgefordert, Daten über sich herauszugeben: Alter, Familienstand, höchster Abschluss in der Schule, Beruf, Entfernung zur Arbeitsstätte, Einkommen, Anzahl der Kinder, ... und viele weitere Daten. Die gesamte Bevölkerung wird hierbei gefragt. Jeder einzelne Einwohner ist eine Einheit der Untersuchung. Die Daten der einzelnen Einwohner werden aggregiert. Es werden Informationen für die gesamte Bevölkerung gesammelt, um daraus Aussagen über die Bevölkerung als Ganzes zu treen. 1.3.3 Denition (Einheit, Merkmal, Masse). Ein einzelnes Objekt einer statistischen Untersuchung heiÿt eine statistische Einheit. Sie ist Trägerin der Informationen, der Eigenschaften, der statistischen Merkmale, für die man sich bei der Untersuchung interessiert. Die Gesamtheit der statistischen Einheiten, welche für die Untersuchung von Bedeutung sind, heiÿt statistische Masse. Sie ist im Hinblick auf das Ziel der Untersuchung durch sachliche, räumliche und zeitliche Kriterien identiziert beziehungsweise abgegrenzt. Hierzu einige weitere Beispiele für statistische Massen und statistische Einheiten und Daten, welche erhoben werden können. 1.3.4 Beispiel. Bei der Untersuchung der Projekte in einer Abteilung für Softwareent- wicklung ist jedes einzelne Projekt eine statistische Einheit, die Gesamtzahl der Projekte der Entwicklungsabteilung ist die statistische Masse. Daten, welche untersucht werden können sein: Anzahl Mitarbeiter, Budget, Ist-Kosten, Ist-Stunden, Rest-Stunden, Datum Auslieferung, . . .. Bei diesem Beispiel kann man sich bezüglich der untersuchten Projekte genauer Fragen, welche Projekte untersucht werden. Alle derzeit aktiven Projekte, alle Projekte, welche Version 6.0 - 019 24.06.2017 19 1.3. Merkmale im aktuellen Jahr aktiv waren? Zur Identikation der statistischen Einheiten, zur Entscheidung, ob sie zur statistischen Masse gehören sind sachliche, räumliche und zeitliche Kriterien entscheidend. 1.3.5 Beispiel. Bei der Untersuchung des Produktionsvolumen in einer Station zur Ab- füllung von Getränken in Flaschen kann jede einzelne Flasche eine statistische Einheit sein, wenn untersucht wird, welches Getränk in welcher Füllmenge in jeder einzelnen Flasche ist. 1.3.6 Beispiel. Bei der Untersuchung der Studierenden einer Hochschule sind die ein- zelnen Studierenden, welche zu einem bestimmten Zeitpunkt an der Hochschule sind die statistischen Einheiten. Die Gesamtzahl der Studierenden zum untersuchten Zeitpunkt sind die statistische Masse. Untersuchte Daten können sein: Studiengang, Semester, Alter, Herkunftsland, 1.3.7 Beispiel. . . .. Bei der Produktion eines Produktes oder bei der Anlieferung eines Pro- duktes ist jedes einzelne Produkt eine statistische Einheit. Die Gesamtmenge der Produktion oder Anlieferungen sind die statistische Masse. Hierbei ist eine zeitliche Abgrenzung sicherlich wichtig: die Produktion / Anlieferung an einem Tag, in einer Woche, . . .. Un- tersucht werden kann hier die Qualität des Produktes, ist sie in Ordnung oder nicht. Bei diesem Beispiel, welches in der Qualitätssicherung in einem Unternehmen gebraucht wird, ist es in der Regel so, dass nicht die Gesamtheit der Produktion oder Anlieferung überprüft wird, sondern nur ein kleiner Teil. Auch bei der Volkszählung in Deutschland im Jahr 2011 wird nur ein Teil (circa 10%) der gesamten Bevölkerung befragt. 1.3.8 Denition (Stichprobe). Wird bei einer statistischen Untersuchung nur ein Teil der interessierenden statistischen Masse erfasst, dann heiÿt dieser Teil 1.3.9 Anmerkung. Stichprobe. Die Aussagen in der beschreibenden Statistik beziehen sich immer nur auf den Umfang, der untersucht wird. Eine Übertragung von Ergebnissen auf die Obermenge ist eine Aufgabe der schlieÿenden Statistik. Gerade wieder bei der Aufgabe der Qualitätssicherung ist es jedoch wichtig von der untersuchten Stichprobe auf die gesamte statistische Masse zu schlieÿen. Bei einer groÿen Anlieferung von Waren soll durch eine Stichprobe entschieden werden, ob die Qualität in Ordnung ist und die gesamte Anlieferung angenommen wird oder wieder zurück gesendet wird. 1.3.10 Denition (Bestandsmasse, Ereignismasse). Statistische Einheiten einer statistischen Masse können für einen gewissen Zeitraum permanent zur statistischen Masse gehören (beispielsweise die Einwohner in einem Ort), andere statistische Einheit sind Ereignisse (zum Beispiel Geburt oder Tod, Zuzug oder Wegzug). Für die statistische Masse kann es eine Unterscheidung in Bestandsmasse und Ereignismasse geben. Eine statistische Masse, deren Einheiten für ein gewisses Zeitintervall zur Masse gehört, heiÿt 20 Bestandsmasse. Die Anzahl der Einheiten, die zu einer Bestandsmasse zu einem Version 6.0 - 019 24.06.2017 Kapitel 1. Grundlagen Bestand. Ein Ereignis, welche eine Veränderung zu einem bestimmten Zeitpunkt charakterisiert, heiÿt Ereignis. Eine statistische Masse, bestimmten Zeitpunkt gehören, heiÿt deren Einheiten Ereignisse sind, die zu einem bestimmten Zeitpunkt auftreten, heiÿt Ereignismasse. Die durchfahrenden Fahrzeuge an einem Messpunkt, die Unfälle an einer Kreuzung, die Prüfungen an einer Hochschule sind Beispiele für Ereignismassen. Merkmale und Skalen 1.3.11 Denition (Merkmal, Merkmalsträger, Merkmalsausprägung). Bei der Untersuchung der einzelnen Einheiten einer statistischen Untersuchung interessiert man sich meist nur für einzelne Eigenschaften, für bestimmte Merkmale. Eine bei einer statistischen Untersuchung interessierende Eigenschaft einer statistischen Merkmal. Die statistische Einheiten heiÿen auch Merkmalsträger. Die möglichen Werte, die ein Merkmal annehmen kann, heiÿen Merkmalsausprägungen. Einheit heiÿt Eine bei einer statistischen Untersuchung an einer bestimmten statistischen Einheit festgestellte Merkmalsausprägung heiÿt tungswert. 1.3.12 Beispiel. Merkmalswert, Beobachtung oder Beobach- Bei der Statistik über die Bevölkerung, bei der die einzelnen Personen befragt werden, werden verschiedene Eigenschaften abgefragt. • Merkmal: Geschlecht; Merkmalsausprägungen: männlich, weiblich • Merkmal: Familienstand; Merkmalsausprägungen: ledig, verheiratet, geschieden, getrennt lebend, verwitwet. • Merkmal: Anzahl der Kinder; Merkmalsausprägungen: eine ganze Zahl, gröÿer oder gleich 0. • Merkmal: Einkommen; Merkmalsausprägungen: eine reelle Zahl 1.3.13 Anmerkung. Es werden jetzt verschiedenen Merkmale genauer untersucht und betrachtet. Dabei wird insbesondere beleuchtet, welche Merkmalsausprägungen vorkommen können. Version 6.0 - 019 24.06.2017 21 1.3. Merkmale Nominalskala 1.3.14 Denition (Nominalskala, dichotomes Merkmal). Es gibt Merkmale, bei denen nur festgestellt werden kann, ob ein Merkmalsträger eine bestimmte Eigenschaft hat oder nicht, beziehungsweise welche von mehreren Eigenschaften ein Merkmalsträger hat. Ein Ordnung der Daten kann nicht angegeben werden. Denition. Eine Skala, deren Skalenwerte nur nach dem Kriterium gleich oder verschieden geordnet werden können, heiÿt Nominalskala. Ein Merkmal, dessen Werte nur auf einer Nominalskala gemessen werden können, heiÿt nominal messbar, das Merkmal heiÿt auch qualitatives Merkmal. Besitzt ein Merkmal nur zwei verschiedene Merkmalsausprägungen, dann ist es ein chotomes Merkmal. 1.3.15 Beispiel. di- In der Tabelle 1.2 sind Beispiele für nominal messbare Merkmale an- gegeben Merkmal Merkmalsausprägungen Geschlecht männlich, weiblich Familienstand ledig, verheiratet, verwitwet, getrennt lebend, geschieden Qualität okay, nicht okay Tabelle 1.2.: Beispiel nominal messbarer Merkamle Für diese Merkmalsausprägungen kann jeweils nur angegeben werden, ob eine Eigenschaft zutrit oder nicht. Die Merkmale Geschlecht und Qualität, mit den gegebenen Merkmalsausprägungen, sind dichotome Merkmale. 1.3.16 Anmerkung. Es gibt keine natürliche Ordnung bei den Ausprägungen eines nominal messbaren Merkmals. Weitere Beispiele hierfür sind unter anderem: Religion, 1 Beruf, Studiengang, Abstammung . 1 Bei der US-amerikanischen Volkszählung im Jahre 2000 wurde bei der Frage nach der Abstammung keine Vorgaben gegeben. In das Feld konnte jeder Befragte selber eintragen, was er oder sie wollte. Es wurden somit keinerlei Vorgaben gemacht, die eventuell die Befragten manipuliert hätten. Dies ist ein Beispiel für die Möglichkeit, eine Antwort der befragten Person nicht bereits durch vorgegebene Antworten zu leiten! Quelle: http://www.census.gov/prod/2004pubs/c2kbr-35.pdf 22 Version 6.0 - 019 24.06.2017 Kapitel 1. Grundlagen Ordinalskala 1.3.17 Denition (Ordinalskala). Vielfach können die Ausprägungen eines Merkma- les in eine natürliche Reihenfolge gebracht werden, in eine Ordnung. Ein Beispiel hierfür sind Klausurnoten, die geordnet werden können. Die Note sehr gut ist besser als gut, gut ist besser als befriedigend, befriedigend ist besser als ausreichend und ausreichend ist besser als mangelhaft. Denition. Eine Skala, deren Skalenwerte in einer natürlichen Reihenfolge geordnet werden können, heiÿt Ordinalskala oder Rangskala. Ein Merkmal, dessen Werte auf einer Rang- oder Ordinalskala gemessen werden können, heiÿt ordinal messbar, das Merkmal heiÿt auch intensitätsmäÿiges Merkmal. 1.3.18 Beispiel. In der Tabelle 1.3 sind die Noten einer Klausur tabellarisch dargestellt. Die ausgeschriebenen Noten werden hierbei durch den Zahlenwert dargestellt, der hinter der Note steht. Note 1 2 3 4 5 Anzahl 2 10 11 3 3 Tabelle 1.3.: Beispiel: ordinal messbares Merkmal - Noten bei einer Klausur 1.3.19 Anmerkung. Bei einem ordinal messbaren Merkmal werden in der Regel die Elemente in der natürlichen Ordnung angegeben. In der Abbildung 1.1 über die Noten bei einer Klausur werden die Daten in der Reihenfolge von der besten zur schlechtesten Note dargestellt. Anzahl 12 10 8 6 4 2 1 2 3 4 5 Note Abbildung 1.1.: Beispiel ordinal messbares Merkmal - Noten bei einer Klausur Version 6.0 - 019 24.06.2017 23 1.3. Merkmale 1.3.20 Beispiel. In der Tabelle 1.4 sind einige Beispiele für ordinal messbare Merkmale aufgeführt. Merkmal Merkmalsausprägungen Zensur sehr gut, gut, befriedigend, ausreichend, mangelhaft Güteklasse A, B, C, D Tabelle 1.4.: Beispiel ordinal messbares Merkmale Die Reihenfolge gibt hierbei keine Auskunft über den absoluten Wert der Ausprägung. Es ist nur eine Reihenfolge ausgedrückt. Kardinalskala 1.3.21 Denition (Kardinalskala). Bei den Noten kann nur gesagt werden, dass die Leistung mit gut besser ist als die Leistung mit befriedigend. Es kann jedoch nicht gesagt, dass die Leistung doppelt so gut ist. In vielen Fällen sind die Merkmalsausprägungen nicht nur anordenbar, mit den Werten kann auch gerechnet werden. Den Merkmalsausprägungen sind reelle Zahlen zugeordnet. Denition. Eine Skala, deren Skalenwerte reelle Zahlen sind, heiÿt Kardinalskala oder metrische Skala. Ein Merkmal, dessen Werte auf einer Kardinalskala oder metrischen Skala gemessen werden können, heiÿt kardinal messbar oder metrisch messbar, das Merkmal heiÿt quantitatives Merkmal. Eine metrische Skala, die keinen natürlicher Nullpunkt und keine natürliche Einheit besitzt, heiÿt Intervallskala. Eine metrische Skala, die einen natürlicher Nullpunkt, aber keine natürliche Einheit besitzt, heiÿt Verhältnisskala. Eine metrische Skala mit einem natürlicher Nullpunkt und einer natürlichen Skala heiÿt Absolutskala. Bei einer Intervallskala können Abstände (Intervalle) verglichen werden. 1.3.22 Beispiel (Intervallskala). Eine Temperatur von 10 Grad Celcius ist 5 Grad höher als eine Temperatur von 5 Grad Celsius. Die Erhöhung ist genauso groÿ, wie der Abstand zwischen -10 Grad Celcius und -15 Grad Celsius. 1.3.23 Beispiel (Verhältnisskala). Bei einer Verhätnisskala können Verhältnisse zwi- schen Werten verglichen werden. 24 Version 6.0 - 019 24.06.2017 Kapitel 1. Grundlagen Eine Temperatur von 290 Grad Kelvin ist um 3,6 % höher als eine Temperatur von 280 Grad Kelvin. 1.3.24 Beispiel (Absolutskala). 1.3.25 Beispiel. Anzahl der Packstücke in einer Kiste. In der Tabelle 1.5 sind einige Beispiele von kardinal messbaren Merk- malen aufgeführt. Merkmal Merkmalsausprägungen Skala Körpergröÿe x cm Verhältnisskala Anzahl Kinder 0, 1, 2, 3, ... Absolutskala Füllmenge der Flasche x,xx l Verhältnisskala Entfernung x,xx km Verhältnisskala Gröÿe eines Grundstückes x,xx ar Verhältnisskala Temperatur x Celcius Intervallskala Intervallskala Längengrad Tabelle 1.5.: Beispiel kardinal messbare Merkmale Hier lassen sich noch viele weitere Beispiele nden. Bei diesen Beispielen kann es noch Unterschiede geben, je nachdem ob ein natürlicher Nullpunkt und eine natürliche Einheit existiert. • Für den Längengrad gibt es keinen natürlichen Nullpunkt und auch keine natürliche Einheit, aber Abstände können miteinander verglichen werden. • Entfernungen haben einen natürlichen Nullpunkt, die Länge 0. Es existiert jedoch keine natürliche Einheit. Es gibt viele Einheiten. Man kann die Entfernung in km, in m, in cm, in Meilen, . . . angeben. Beim Vergleich zweier Werte bleibt stets das Verhältnis gleich, egal, in welcher Einheit gemessen wird. • Bei einer Stückzahl (zum Beispiel bei einer Stückliste), existiert ein natürlicher Nullpunkt und eine natürliche Einheit. Skalentransformation 1.3.26 Denition (Skalentransformation). Bei der Erfassung und Aufbereitung sta- tistischer Daten werden die Werte einer Skala manchmal in Werte einer anderen Skala transformiert. Ein bekanntes Beispiele hierfür ist die Transformation von Temperaturen zwischen Grad Celsius, Grad Fahrenheit und Grad Kelvin. Mit der Transformation können Berechnungen vereinfacht werden. Version 6.0 - 019 24.06.2017 25 1.3. Merkmale Denition. Die Übertragung von Skalenwerten in die Werte einer anderen Skala, wobei die Ordnungseigenschaften der Skala erhalten bleiben heiÿt eine Skalentransformation. 1.3.27 Beispiel (Skalentransformation Nominalskala). Die Werte männlich und weiblich des Merkmals Geschlecht bei einer Nominalskale, kann transformiert werden in die Werte 0 und 1. Dies ist eine Verschlüsselung der Daten, die einer Skalentransformation entspricht. 1.3.28 Beispiel (Skalentransformation Ordinalskala). gut, . . ., mangelhaft in die Noten 1, 2, . . . , 5 Die Schulnoten sehr gut, ist eine Skalentransformation, da die Ordnungseigenschaft erhalten bleibt. 1.3.29 Beispiel (Skalentransformation Kardinalskala). Für eine Kardinalskala beziehungsweise metrische Skala ist nur eine lineare Transformation zulässig. Sind xi die Werte einer Kardinalskala, dann können diese nur mit Hilfe einer Gleichung der Form yi = dxi + e in die Werte yi einer anderen Skala übertragen werden, wobei Bei einer Verhältnisskale ist dabei e = 0, bei einer Absolutskala, ist d=1 d > 0 gilt. e = 0. und Die Transformation der Temperatur von Grad Fahrenheit in Grad Celsius erfolgt mittels der linearen Transformation C = 5 9F − 160 9 . 1.3.30 Beispiel (Skalentransformation Kardinalskala). Bei der Untersuchung des Gewichtes von Packungen mit Mehl mit dem Soll-Gewicht von 1kg interessiert man sich X (Gewicht der Packung) Y (Abweichung vom Soll-Gewicht). Es wird hierbei Y = X − 1kg angewendet. nur für die Abweichung vom diesem Soll. Statt dem Merkmal interessiert man sich für das Merkmal die lineare Transformation Diskrete und stetige Merkmale 1.3.31 Denition (diskrete und stetige Merkmale). Die Anzahl der unterschiedli- chen Merkmalsausprägungen eines quantitativen Merkmals kann sehr hoch sein. Bei der Körpergröÿe kann jede positive reelle Zahl eine Merkmalsausprägung sein. Bei der Anzahl der Packstücke in einer Kiste jedoch nur die natürlichen Zahlen, inklusive der Null. Dies führt zur nachfolgenden Denition. Denition (diskrete und stetige Merkmale). Ein quantitatives Merkmal heiÿt diskretes Merkmal , wenn es nur endlich viele oder abzählbar unendliche viele Merkmalsausprägungen besitzt. Ein quantitatives Merkmal heiÿt stetiges Merkmal , wenn es überabzählbar viele Merkmalsausprägungen hat. 26 Version 6.0 - 019 24.06.2017 Kapitel 1. Grundlagen Da bei stetigen Merkmalen die Anzahl der Merkmalsausprägungen überabzählbar ist, führt dies zu einen Einteilung der Merkmalsausprägungen in Klassen, einer Klassierung, die im nachfolgenden Abschnitt 1.3 genauer erläutert wird. Klassierung 1.3.32 Anmerkung. Bei Merkmalen, wie beispielsweise der Körpergröÿe oder dem Ein- kommen ist die Darstellung jeder einzelnen Merkmalsausprägung nicht sinnvoll oder nicht machbar. Es gibt zu viele Ausprägungen oder die Darstellung ist zu unübersichtlich. Daher werden benachbarte Merkmalsausprägungen zu Klassen zusammen gefasst. Eine Klasse Kj und die obere Klassengrenze untere Klassengrenze x∗j−1 ∗ xj . Hierbei ist eindeutig festzulegen, welche der Klas- wird dabei durch zwei Werte charakterisiert. Die sengrenzen zur Klasse gehört, welche nicht. Es zählt entweder die untere Klassengrenze zur Klasse von x∗j−1 bis unter x∗j oder die obere Klassengrenze über x∗j−1 bis x∗j zur Klasse. Die Klassenbreite ist einfach die Dierenz der Klassengrenzen x∗j − x∗j−1 . Manchmal ist die Klassenbreite bei allen Klassen gleich breit. Dies ist jedoch nicht immer sinnvoll. Die Anzahl der Klassen sollte dabei nicht zu klein, aber auch nicht zu groÿ sein. Dies hängt jeweils von der Thematik ab. Wenn beispielsweise das Lebensalter betrachtet wird, dann wird das Alter in Jahren betrachtet und es wird der untere Wert betrachtet. Für statistische Untersuchungen wird oftmals die Klassenmitte (x∗j + x∗j−1 )/2 herangezogen. Dies basiert auf der Annahme, dass die Daten in der Klasse gleichmäÿig verteilt sind. Die Randklassen, also die erste Klasse, mit den niedersten Werten, und die letzte Klasse, mit den höchsten Werten, sind problematisch. Gibt es eine untere beziehungsweise obere Grenze oder bleiben die Grenzen oen. Bei oenen Grenzen, wie ist dann der Repräsentant der Klasse zu bestimmen? 1.3.33 Beispiel (Körpergröÿe). Mit den Daten aus dem Basisdatensatz (Tabelle A.1) ergibt sich mit der Klasseneinteilung mit einer Klassenbreite von 5 cm die Verteilung (siehe Tabelle 1.6) 1.3.34 Beispiel (Haushaltseinkommen). Bei der Betrachtung des monatliches Net- toeinkommens durch das Statistische Bundesamt werden folgende Klassen gebildet: e • unter 1.300 • von 1.300 e bis unter 2.600 e • von 2.600 e bis unter 3.600 e • von 3.600 e bis unter 5.000 e • von 5.000 e bis unter 18.000 Version 6.0 - 019 24.06.2017 e 27 1.4. Aufgaben von ... bis unter ... Anzahl 150 - 155 1 155 - 160 0 160 - 165 2 165 - 170 5 170 - 175 6 175 - 180 7 180 - 185 3 185 - 190 4 190 - 195 1 Tabelle 1.6.: Klassen bei Körpergröÿe 1.4. Aufgaben 1.4.1 Aufgabe (Durchschnittsalter). hebung Führen Sie die Phasen Planung und Datener- für die Bestimmung des Durchschnittsalters der in einem Raum anwesenden Personen durch? 1.4.2 Aufgabe (Körpergröÿen). Führen Sie die Phasen Planung und Datenerhebung für die Bestimmung der durchschnittliche Körpergröÿe in cm der in einem Raum anwesenden Personen durch. 1.4.3 Aufgabe. Finden Sie weitere Beispiele für statistische Massen, statistische Ein- heiten und Daten, die erhoben werden. 1.4.4 Aufgabe. Finden Sie weitere Beispiele für Bestandsmassen und Ereignismassen. 1.4.5 Aufgabe. Geben Sie zu den folgenden Merkmalen mögliche Merkmalsausprägun- gen an: Haarfarbe, Einkommen, Note einer Klausur, Gewicht, Studiengang und Herkunftsland. 1.4.6 Aufgabe. Finden Sie weitere Merkmale für statistische Einheiten und dazugehö- rige Merkmalsausprägungen. 1.4.7 Aufgabe. Finden Sie weitere nominal messbare Merkmale 1.4.8 Aufgabe. Finden Sie weitere ordinal messbare Merkmale. 1.4.9 Aufgabe. Finden Sie weitere metrisch messbare Merkmale, sowohl mit Intervalls- kala, Verhältnisskala und Absolutskala. 28 Version 6.0 - 019 24.06.2017 Kapitel 1. Grundlagen 1.5. Lösungen 1.5.1 Lösung. zu Aufgabe 1.4.1 - 1.5.2 Lösung. zu Aufgabe 1.4.2 - 1.5.3 Lösung. zu Aufgabe 1.4.3 - 1.5.4 Lösung. zu Aufgabe 1.4.4 - 1.5.5 Lösung. zu Aufgabe 1.4.5 - 1.5.6 Lösung. zu Aufgabe 1.4.6 - 1.5.7 Lösung. zu Aufgabe 1.4.7 - 1.5.8 Lösung. zu Aufgabe 1.4.8 - 1.5.9 Lösung. zu Aufgabe 1.4.9 - Version 6.0 - 019 24.06.2017 29 Teil I. Beschreibende Statistik Der erste Teil befasst sich mit der beschreibenden Statistik. Hier werden, wie der Titel es besagt, Daten beschrieben. Hierbei werden die Daten auf unterschiedliche Art und Weise beschrieben. Zum einem werden einfache Auistungen und Darstellungen der Daten wiedergegeben. Bei der Darstellung der Daten stechen natürlich Graken, die heutzutage mit Leichtigkeit mit Hilfe eines Tabellenkalkulationsprogrammes oder mit Hilfe spezieller statistischer Softwaresysteme erstellt werden können, hervor. Neben der Darstellung werden statistische Parameter berechnet, welche Informationen zu den Daten wiedergeben. Lage- und Streuungsmaÿe sind dabei wichtige Kenndaten, die mit Hilfe weniger Informationen einen Eindruck von den Daten liefern kann. Die Interpretation der Daten ist jedoch stets mit Vorsicht zu betrachten. Hierbei kann es zu Fehl- oder sogar Falschinterpretationen kommen. Im Kapitel 2 werden statistische Untersuchungen bei nur einem einzigen Merkmal behandelt. Danach erfolgt im Kapitel 3 die Betrachtung, wenn zwei Merkmale gemeinsam betrachtet werden. Dabei ist auch die Untersuchung wichtig, welche Abhängigkeiten es zwischen den Merkmalen gibt. Auf die Untersuchung von Multivariaten Daten, also wenn auch mehr als zwei Merkmale betrachtet werden, wird verzichtet, die Betrachtung wird hierbei nicht einfacher. Im Kapitel 4 werden spezielle bivariate Daten betrachtet, nämlich Daten bei denen das einen Merkmal die Zeit ist, wobei es auch hier nur ein kurzes Blitzlicht in die reiche Materie ist. Version 6.0 - 019 24.06.2017 31 Kapitel 2. Univariate Daten In diesem Teil wird die beschreibende Statistik für ein Merkmal erläutert. Es werden verschiedene Darstellungen gezeigt und wichtige Parameter der beschreibenden Statistik, Lageparameter oder Mittelwerte und Streuungsparameter eingeführt. 2.1. Darstellung univariater Daten statistische Reihe 2.1.1 Denition (statistische Reihe). Die Daten von Beobachtungen bei einer sta- tistischen Erhebung bilden zuerst eine Reihe von Daten, einen Datenstrom. Dies ist der Ausgangspunkt für die Untersuchung und Auswertung. Dies kann am Basisdatensatz (siehe Tabelle A.1) gesehen werden. Denition. Werden die Werte der Beobachtungen, die für eine statistische Untersu- chung erhoben sind, nacheinander aufgeschrieben, so erhält man eine statistische Reihe. Werden die Daten geordnet, so heiÿt sie eine geordnete Reihe , ansonsten heiÿt sie ungeordnete Reihe. Eine statistische Reihe von Beobachtungen zu einem bestimmten Phänomen, die für aufeinander folgende Zeitpunkte oder Zeitintervalle erhoben werden, heiÿt Zeitreihe. 2.1.2 Beispiel. Aus dem Basisdatendatensatz (siehe Tabelle A.1) ergibt sich für das Alter der Befragten Personen die ungeordnete Reihe: 19, 20, 20, 20, 20, 21, 21, 23, 25, 20, 20, 22, 23, 20, 20, 20, 21, 20, 23, 21, 20, 21, 19, 19, 21, 22, 18, 25, 54. Daraus ergibt sich die geordnete Reihe: 18, 19, 19, 19, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 21, 21, 21, 21, 21, 21, 22, 22, 23, 23, 23, 25, 25, 54 der Beobachtungen. 2.1.3 Anmerkung. spiel ist X Es sei X ein Merkmal, das untersucht werden soll. Im obigen Bei- das Merkmal Alter. Wenn n werden, so werden die Beobachtungen mit (i Beobachtungen zu diesem Merkmal erfasst x1 , x2 , . . . , xn bezeichnet, oder kurz mit xi , = 1, . . . , n). Version 6.0 - 019 24.06.2017 33 2.1. Darstellung univariater Daten Häugkeitstabellen 2.1.4 Denition (absolute und relative Häugkeit). Beobachtungen mit der sel- ben Merkmalsausprägung können zusammen gefasst werden. Denition. Es sei X ein Merkmal mit den Merkmalsausprägungen xj (j = 1, . . . , m). Die Anzahl der Beobachtungen mit der Merkmalsausprägung xj heiÿt absolute Häugkeit der Merkmalsausprägung und wird mit h(xj ) bezeichnet. Der relative (prozentuale) Anteil der absoluten Häugkeit h(xj ) einer Merkmalsausprägung xj an der Gesamtanzahl n der Beobachtungen heiÿt relative Häugkeit f (xj ). Es gilt f (xj ) = h(xj )/n. Die absolute Häugkeit h(xj ) j = 1, . . . , m jeder Merkmalsausprägung xj kann in n der Beobachtungen gesetzt werden. Die Gesamtanzahl Pm h(x sich durch n = j ). j=1 für Beziehung zu der Gesamtanzahl n der Beobachtungen ergibt 2.1.5 Anmerkung. Für die absoluten und relativen Häugkeiten gelten (bei n Beob- achtungen) die Eigenschaften, die in der Tabelle 2.1 aufgeführt sind. absolute Häugkeiten relative Häugkeiten ∀j = 1, . . . , m : h(xj ) ≥ 0 ∀j = 1, . . . , m : f (xj ) ≥ 0 Pm Pm j=1 h(xj ) = n j=1 f (xj ) = 1 Tabelle 2.1.: Eigenschaften absolute und relative Häugkeiten 2.1.6 Denition (Häugkeitsverteilung). Wie können die Dtaen dargestellt wer- den? Denition. Die geordneten Merkmalsausprägungen und die zugehörigen (absoluten und relativen) Häugkeiten ergeben die Verteilung oder Häugkeitsverteilung des betreffenden Merkmales. Die Häugkeitsverteilung werden oftmals in tabellarischer Form erstellt. 34 Version 6.0 - 019 24.06.2017 Kapitel 2. Univariate Daten xj h(xj ) f (xj ) 18 19 20 21 22 23 24 25 54 1 3 11 6 2 3 0 2 1 3,4% 10,3% 37,9% 20,7% 6,9% 10,3% 0,0% 6,9% 3,4% Tabelle 2.2.: Beispiel: Häugkeitsverteilung Alter 2.1.7 Beispiel. Die obige Verteilung des Alters (siehe Beispiel 2.1.2) aus der Befragung von 29 Personen kann auch folgendermaÿen, in tabellarischer Form (siehe Tabelle 2.2) dargestellt werden. Hinweis: Einige (mögliche) Merkmalsausprägungen sind nicht aufgeführt, da es keine Beobachtungen dafür gibt. Einige Merkmalsausprägungen sind aufgeführt, obwohl keine Beobachtung dafür gibt (Beispiel: xj = 24). Der Wert 24 ist mit aufgeführt, da somit die Werte von 18 bis 25 lückenlos aufgeführt sind. Zwischen dem Wert 25 und dem extremen Wert 54 sind keine Merkmalsausprägungen aufgeführt. 2.1.8 Beispiel. Für 120 Personen ergibt sich folgende Häugkeitsverteilung für das Merkmal Familienstand, siehe Tabelle 2.3. Familienstand ledig verheiratet geschieden absolute Häugkeit 12 5 3 relative Häugkeit 60% 25% 15% Tabelle 2.3.: Beispiel: Tabelle Familienstand Grasche Darstellungen 2.1.9 Anmerkung. Neben der Darstellung von Daten mit Hilfe von Tabellen gibt es auch viele Möglichkeiten, die Daten grasch darzustellen. Hierzu gibt es verschiedene Arten von Diagrammen: Balkendiagramm, Liniendiagramm, Flächendiagramm, Kreisdiagramm und noch weitere Varianten. Mit Hilfe eines Tabellenkalkulationsprogramms, eines speziellen Statistikprogrammes oder aber auch mit Hilfe von Präsentationsprogrammen, kann man derartige Diagramme leicht und automatisiert erhalten. 2.1.10 Beispiel (nominal messbares Merkmal - Geschlecht). Das Geschlecht der Personen aus dem Basisdatensatz (siehe A.1) ist ein nominal messbares Merkmal. Es gibt keine Ordnung der Daten. Diese Daten werden oftmals in einem Kreisdiagramm dargestellt. In der Abbildung 2.1 sind die Daten aus dem Basisdatensatz für das Merkmal Geschlecht als Kreisdiagramm grasch dargestellt. 2.1.11 Beispiel (ordinal messbares Merkmal - Alter). Die Verteilung des Merk- mals Alter aus dem Basisdatensatz (siehe Tabelle A.1) kann mittels eines Balkendiagramms (siehe Abbildung 2.2) dargestellt werden. Version 6.0 - 019 24.06.2017 35 2.1. Darstellung univariater Daten m w Abbildung 2.1.: Beispiel: nominal messbares Merkmal - Kreisdiagramm Anzahl 12 10 8 6 4 2 18 19 20 21 22 23 24 ... 25 54 Alter Abbildung 2.2.: Beispiel: ordinal messbares Merkmal - Alter 2.1.12 Beispiel. Für die Statistik über das Ergebnis einer Klausur (siehe A.1) sind die Noten der einzelnen Klausuren das entscheidende Merkmal. Die erzielten Punkte sind ein anderes Merkmal, jedoch für diesen Fall jetzt nicht relevant. Es haben insgesamt 28 Personen an der Klausur teilgenommen, die einzelnen Ergebnisse sind (sortiert nach der Note): 1; 1; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 5; 5 und 5. Diese können in einer Häugkeitsverteilung tabellarisch dargestellt werden (siehe Tabelle 2.4) oder auch grasch dargestellt werden (siehe Abbildung 2.3). Anhand der Tabelle oder auch der Grak kann man sehen, dass zwei Personen eine 1 geschrieben haben, während leider drei Personen die Klausur nicht bestanden haben. Die Breite die Balken kann frei gewählt werden, es ist nur eine Frage der Anschaulichkeit. 2.1.13 Denition (Häugkeitstabelle). In der Häugkeitsverteilung sind oftmals nicht alle möglichen Merkmalsausprägungen enthalten, sondern nur die tatsächlich vor- Note 1 2 3 4 5 absolute Häugkeit 2 10 11 3 3 Tabelle 2.4.: Beispiel: Notenverteilung - tabellarische Darstellung 36 Version 6.0 - 019 24.06.2017 Kapitel 2. Univariate Daten Anzahl 12 10 8 6 4 2 1 2 3 4 5 Note Abbildung 2.3.: Beispiel: Notenverteilung - grasche Darstellung kommenden. Die tabellarische Darstellung einer Häugkeitsverteilung erfolgt in einer so genannten Häugkeitstabelle. Dies kann horizontal oder vertikal aufgebaut werden. Im nachfolgenden ist ein vertikales und horizontales Beispiel aufgeführt. Es sei X ein Merkmal mit den Merkmalsausprägungen luten Häugkeiten sei gegeben durch h(xj ). xj (j = 1, . . . , m). Die relative Häugkeiten sind Die abso- f (xj ). Die Häugkeitsverteilung kann horizontal (siehe Tabelle 2.5) oder vertikal (siehe Tabelle 2.6) dargestellt werden. Merkmalsausprägung absolute Häugkeit relative Häugkeit x1 h(x1 ) f (x1 ) x2 h(x2 ) f (x2 ) ... ... ... xj h(xj ) f (xj ) ... ... ... xm h(xm ) f (xm ) Tabelle 2.5.: Häugkeitstabelle - horizontal Merkmalsausprägung absolute Häugkeit relative Häugkeit x1 x2 h(x1 ) h(x2 ) f (x1 ) f (x2 ) . . . . . . . . . xj h(xj ) f (xj ) . . . . . . . . . xm h(xm ) f (xm ) Tabelle 2.6.: Häugkeitstabelle - vertikal 2.1.14 Denition (Skalen). Für die grasche Darstellung einer Häugkeitsverteilung gibt es verschiedene Möglichkeiten. Bei einer Version 6.0 - 019 24.06.2017 Nominalskala gibt es keine natürliche 37 2.1. Darstellung univariater Daten Körper- 150 155 160 165 170 175 180 185 190 195 gröÿe - - - - - - - - - - cm 154 159 164 169 174 179 184 189 194 199 Anzahl 1 0 2 5 7 6 3 4 0 1 Tabelle 2.7.: Beispiel: Körpergröÿe gruppiert Ordnung der Merkmalsausprägungen. Für die Darstellung wählt man meistens Kreisoder Flächendiagramme. Bei einer Ordinalskala kann man die Häugkeitsverteilung grasch als Linien- oder als Balkendiagramm darstellen. Hierbei werden meistens auf der waagrechten Achse die geordneten Merkmalsausprägungen abgetragen. Bei einer Kardinalskala muss zwischen diskreten und stetigen Merkmalen unterschie- den werden. Häugkeitstabelle und grasche Darstellung der Häugkeitsverteilung eines diskreten Merkmales können in gleicher Weise erfolgen wie bei einem ordinal messbaren Merkmal. 2.1.15 Anmerkung. Bei einem stetigen Merkmal können Klassen gebildet werden. Ab- solute und relative Häugkeiten sind dann Häugkeiten einer Klasse. Sie werden meist als rechteckige Flächen über den Klassen der Merkmalsausprägungen grasch dargestellt. Dabei wird unterstellt, dass die zu einer Klasse gehörigen Beobachtungen gleichmäÿig über die Klasse verteilt sind. In der graschen Darstellung können die Klassen so gewählt werden, dass die Breite stets gleich ist. Es kann jedoch auch unterschiedliche Breiten gewählt werden. Für den Vergleich sind dann die Flächen der Balken relevant, nicht jedoch die Höhen der Balken. Im Basisdatensatz sind auch Daten für die Körpergröÿe hinterlegt. Eine grasche Darstellung der Daten mit den einzelnen Körpergröÿe ist nicht aussagekräftig. Die Daten werden jedoch gruppiert. Hier wird die Variante gewählt, dass die Breite der Gruppen jeweils gleich groÿ sind - jeweils 5 cm. Die erste Gruppe ist im Gröÿenbereich 150 cm 154 cm. Die weiteren Gruppen sind 155 cm - 159 cm, 160 cm - 164 cm, . . . , 194 cm 199 cm. Die Daten werden jetzt auf diese Gruppen aufgeteilt. Dies ist in der Tabelle 2.7 dargestellt. Jetzt können die Daten wieder grasch dargestellt werden, mit Balken der gleichen Breite. Summen- und Resthäugkeit 2.1.16 Denition (Summenhäugkeit). Für viele Fragestellungen ist die Summen der Beobachtungen bis zu einem bestimmten Wert gesucht. Beispielsweise bei der Unter- 38 Version 6.0 - 019 24.06.2017 Kapitel 2. Univariate Daten suchung des bereits geleisteten Aufwands für ein Projekt interessiert in erster Linie die Summe der bisher geleisteten Stunden. Denition. Die einer Merkmalsausprägung eines ordinal oder metrisch messbaren Merkmales zugeordnete Häugkeit aller Beobachtungen, die diese Merkmalsausprägungen nicht überschreiten, heiÿt Summenhäugkeit. Für die absolute Summenhäugkeit gilt: H(xj ) = X h(xk ) (2.1) f (xk ) (2.2) xk ≤xj Für die relative Summenhäugkeit gilt: F (xj ) = X xk ≤xj Sind die Merkmalsausprägungen geordnet x1 < x2 < . . . < xm , dann gilt H(xj ) = j X h(xk ) und F (xj ) = f (xk ) (2.3) k=1 k=1 2.1.17 Beispiel. j X Für die Verteilung des Alters aus dem Basisdatensatz (siehe Tabelle A.1) sind die absolute und relative Häugkeitsverteilung in der Tabelle 2.8 zu nden. Eine entsprechende grasche Darstellung ist in Abbildung 2.4 dargestellt. xj h(xj ) H(xj ) f (xj ) F (xj ) 18 19 20 21 22 23 25 54 1 3 11 6 2 3 2 1 1 4 15 21 23 26 28 29 3,4% 10,3% 37,9% 20,7% 6,9% 10,3% 6,9% 3,4% 3,4% 13,8% 51,7% 72,4% 79,3% 89,7% 96,6% 100% Tabelle 2.8.: Beispiel: Summen- und Resthhäugkeit Alter 2.1.18 Denition (Restsummenhäugkeit). Neben den Summen können auch Restsummen betrachtet werden. Denition. Die einer Merkmalsausprägung eines ordinal oder metrisch messbaren Merkmales zugeordnete Häugkeit aller Beobachtungen, die diese Merkmalsausprägungen überschreiten, heiÿt Restsummenhäugkeit. Version 6.0 - 019 24.06.2017 39 2.2. Mittelwerte Anzahl 28 24 20 16 12 8 4 18 19 20 21 22 23 24 25 ... 54 Alter Abbildung 2.4.: Beispiel: Summenhäugkeit - Alter Es sei n die Gesamtzahl der Beobachtungspunkte. Für die absolute Restsummenhäugkeit gilt: HR(xj ) = X h(xk ) = n − H(xj ) (2.4) xk >xj Für die relative Restsummenhäugkeit gilt: F R(xj ) = X f (xk ) = 1 − F (xj ) (2.5) xk >xj 2.2. Mittelwerte Eine erste wichtige Kenngröÿe für eine statistische Masse sind Lageparameter und Mittelwerte. Es gibt dabei verschiedenen Möglichkeiten der Denition, was unter einem Mittelwert zu verstehen ist. Modus 2.2.1 Denition (Modus). Die erste Art von Mittelwert ist der häugste Wert. Dies ist für alle Merkmale auch für nominal messbare Merkmale möglich. 40 Version 6.0 - 019 24.06.2017 Kapitel 2. Univariate Daten Denition. Die Merkmalsausprägung, die am häugsten vorkommt, wird häugster Wert, dichtester Wert, Modalwert oder Modus genannt und wird mit xD bezeich- net. Es gilt h(xD ) = maxj∈{1,...,n} (h(xj )). Gibt es mehrere Ausprägungen mit der gröÿten Häugkeit, dann gibt es entsprechend viele häugste Werte, und es gilt: xD ∈ {xk | h(xk ) = 2.2.2 Beispiel. häugste Wert, 2.2.3 Beispiel. (2.6) Bei der Beispiel des Alters (siehe Tabelle 2.2) ist der Modalwert, der 20. Beim Beispiel der Klausurnoten (siehe Tabelle 2.4) ist der Modalwert, der häugste Wert, die Note 2.2.4 Beispiel. max (h(xj ))} j∈{1,...,n} 3. Beim Beispiel der Körpergröÿe (siehe Tabelle 2.7) ist der Modalwert, der häugste Wert, die Gruppe mit der Gröÿe 170cm − 174cm. Median 2.2.5 Denition (Median). Für nominal messbare Merkmale ist der häugste Wert der einzig sinnvolle Mittelwert. Für andere Merkmale können neben dem Modalwert noch weitere Mittelwerte bestimmt werden. Denition. Jede Merkmalsausprägung eines wenigstens ordinal messbaren Merkmales, welches die geordnete Reihe der Beobachtungen in zwei gleich groÿe Teile zerlegt, heiÿt Zentralwert oder Median und wird mit xZ bezeichnet. Es gilt xZ = xk mit F (xk−1 ) < 0, 5 und F (xk ) ≥ 0, 5. Gibt es n Beobachtungspunkte und ist n eine ungerade Zahl, dann gibt es genau einen mittleren Wert. Dieser hat die Ordnungsnummer geraden Anzahl von Beobachtungen gilt n+1 2 und es gilt xZ = x n2 . xZ = x n+1 . 2 Bei einer Median und Modus können übereinstimmen, müssen aber nicht! 2.2.6 Beispiel. wert 20, Beim Beispiel des Alters (siehe Tabelle 2.2) ist der Median, der Zentral- also gleich dem Modus. Version 6.0 - 019 24.06.2017 41 2.2. Mittelwerte 2.2.7 Beispiel. Note 3, Beim Beispiel der Klausurnoten (siehe Tabelle 2.4) ist der Median die also ungleich dem Median. 2.2.8 Beispiel. Beim Beispiel der Körpergröÿe (siehe Tabelle 2.7) ist der Median die Gruppe mit der Gröÿe 170cm − 174cm, auch wieder gleich dem Median. p-Quantil 2.2.9 Denition (Quantil). Neben der Zerlegung in zwei Teile, können die Beobach- tungen auch in mehr Teile zerlegt werden. Diese macht jedoch erst bei gröÿeren Datenmengen einen Sinn. Denition. Jeder Merkmalswert xp mit 0 < p < 1 einer Verteilung für den mindestens ein Anteil p der Daten kleiner oder gleich xp und mindestens ein Anteil 1 − p gröÿer oder gleich xp ist, heiÿt p-Quantil . 2.2.10 Anmerkung. Der Median ist das 50%-Quantil (x0,5 ). Zwei weitere wichtigen Quantilen sind das untere Quartil x0,25 und das oberes Quartil x0,75 . Bei der Zerlegung einer Datenmenge in Quartilen werden das untere Quartil, der Median und das obere Quartil angegeben. Es gibt auch die Dezile, mit den Quantilen 10%, 20%, . . . 90%. Wichtig (beispielsweise für die Behandlung von Ausreiÿern) sind die Quantilen bei 5% und 95%. 2.2.11 Beispiel. Beim Beispiel des Alters (siehe Tabelle 2.2) gilt (der Zentralwert) und 2.2.12 Beispiel. x0,5 = 3 x0,75 = 22. Beim Beispiel der Klausurnoten (siehe Tabelle 2.4) gilt (der Zentralwert) und 2.2.13 Beispiel. x0,25 = 20, x0,5 = 20 x0,25 = 2, x0,75 = 3. x0,25 = 165cm− x0,75 = 180cm − 184cm. Beim Beispiel der Körpergröÿe (siehe Tabelle 2.7) gilt 169cm, x0,5 = 170cm − 174cm 2.2.14 Anmerkung. (der Zentralwert) und Bei einer Befragung ist es durchaus möglich, dass nicht jede Ant- wort korrekt ist. Bewusst oder unwissentlich können Antworten gegeben werden, die Ausreiÿer sind. Bei der Abfrage des Alters kann jemand das Alter nicht in Jahren, sondern in Tagen angeben. Hier kann eine Bereinigung der Daten hilfreich sein. Hierzu können die Daten bis zum 0,05-Quantil und die Daten ab dem 0,95-Quantil aus der weiteren Berechnung eliminiert werden. Damit werden potenziellen Ausreiÿer entfernt. 42 Version 6.0 - 019 24.06.2017 Kapitel 2. Univariate Daten arithmetisches Mittel 2.2.15 Denition (arithmetisches Mittel). Das arithmetische Mittel häugsten verwendete Mittelwert und der Wert, der landläug mit dem x ist der am Durchschnitt bezeichnet wird. Die Ermittlung des arithmetischen Mittelwertes ist nur sinnvoll für Merkmale, die auf einer metrischen Skala gemessen werden können. Denition. Gegeben sei ein metrisches Merkmal X . Für die n Beobachtungen xi mit i = 1, . . . , n, ergibt sich das (einfache) arithmetische Mittel zu n x = x1 + x2 + · · · + xn 1X = xi n n . (2.7) i=1 Sind für das Merkmal X die Merkmalsausprägungen xj (j=1,. . . ,m) mit den absoluten Häugkeiten h(xj ) und den relativen Häugkeiten f (xj ) gegeben, so errechnet sich das (gewogene) arithmetische Mittel durch m x = x1 h(x1 ) + x2 h(x2 ) + · · · + xm h(xm ) 1X = xj h(xj ) h(x1 ) + h(x2 ) + · · · + h(xm ) n (2.8) j=1 mit n = h(x1 ) + h(x2 ) + · · · + h(xm ), beziehungsweise x = x1 f (x1 ) + x2 f (x2 ) + · · · + xm f (xm ) = m X xj f (xj ) (2.9) j=1 Alle drei Mittelwerte stellen den selben Wert dar. Im ersten Fall werden die Beobachtungen einzeln herangezogen, im zweiten Fall werden gleiche Werte zusammengezogen, im dritten Fall wird bei den zusammen gesetzten Werte die relativen Häugkeiten genommen. Die Division durch n, die Anzahl der Beobachtungen, wird im dritten Fall direkt bei den Beobachtungen durchgeführt, denn es gilt 2.2.16 Beispiel. Beim Beispiel des Alters (siehe Tabelle 2.2) gilt x= 2.2.17 Beispiel. f (xj ) = h(xj )/n. 1 (1 · 18 + 3 · 19 + . . . + 1 · 54) = 22 29 (2.10) Beim Beispiel der Klausurnoten (siehe Tabelle 2.4) gilt x= Version 6.0 - 019 24.06.2017 1 (2 · 1 + 12 · 2 + . . . + 4 · 5) = 2, 66 29 (2.11) 43 2.2. Mittelwerte 2.2.18 Beispiel. Beim Beispiel der Körpergröÿe (siehe Tabelle 2.7) ist zuerst zu klären, wie eine Berechnung überhaupt durchgeführt werden kann, da das Rechnen mit Gruppen unhandlich ist. Für jede Gruppe wird ein Repräsentant ausgewählt. Bei den Körpergröÿen kann jeweils die Gruppenmitte ausgewählt werden. Es gilt dann x= 1 (1 · 152cm + 2 · 162cm + . . . + 1 · 197cm) = 174, 76cm 29 (2.12) getrimmter Mittelwert 2.2.19 Denition (getrimmter Mittelwert). Das arithmetische Mittel reagiert empndlich auf Ausreiÿer und Extremwerte. Der Median ist gegenüber Ausreiÿern und Extremwerte sehr robust. Daher kann man herangehen und einen Teil der Beobachtungswerte, die extremen Werte, zu eliminieren, also aus der Berechnung zu entfernen. Mt einem vorgegebenen Werte, beispielsweise α = 0, 05 werden dann die α% Werte, die am kleinsten beziehungsweise am gröÿten sind aus der Berechnung entfernt. Denition. Gegeben sei ein metrisches Merkmal X . Für die tungen xi mit i = 1, . . . , n, r ≈ n · α zu xgα = ergibt sich das α-getrimmte (sortierten) BeobachMittel (0 ≤ α ≤ 0, 5) mit n n−r X xr+1 + xr+2 + · · · + xn−r 1 = xi n − 2r n − 2r . (2.13) i=r+1 Für α = 0 entspricht dies genau dem arithmetischen Mittel (xg0,0 entspricht der Mittelwerte dem Median (xg0,5 2.2.20 Beispiel. r=1 (damit eigentlich xg0,05 = Für α = 0, 5 = xZ ). Beim Beispiel des Alters (siehe Tabelle 2.2) gilt mit dann mit der Wahl Wird = x). α = 0, 05 und α = 0, 035). 1 (3 · 19 + . . . + 2 · 25) = 20, 96 . 27 (2.14) r = 2 (und damit α = 0, 07) gewählt, dann werden nur 25 Werte in die Berechnung xg0,05 = 20, 88. einbezogen. Es ergibt sich dann geometrisches Mittel 2.2.21 Anmerkung. Hat man es mit zeitlich aufeinander folgenden Zuwächsen, Wachs- tumsraten oder ähnlichen (multiplikativen) Steigerungen zu tun, dann ist das arithmetische Mittel nicht der sachlich richtige Durchschnittswert, sondern das geometrische Mittel. 44 Version 6.0 - 019 24.06.2017 Kapitel 2. Univariate Daten 2.2.22 Beispiel. Bei einer Sparkasse konnte man bei einer Geldanlage, mit einem jähr- lich wachsenden Zins lesen: im 1. Jahr 3% Zins, im 2. Jahr 4% Zins, im 3. Jahr 5% Zins und im 4. Jahr 6% Zins, durchschnittlicher Zins: 4,5%. Ist das auch der eektive Zins, das heiÿt der konstante Zinssatz mit dem am Ende das selbe nanzielle Ergebnis kommt? In der folgenden Tabelle 2.9 sind die Wertsteigerung für 3 verschiedene Fälle aufgeführt. Im ersten Fall ist es die Zinsreihe der Sparkasse, mit jährlich steigendem Zins. Beim Fall 2 ist der Zins jährlich 4,5%, während im Fall 3 der jährliche Zins 4,494% ist. Jahr 0 1 2 3 4 Fall 1 1000,00 1030,00 1071,20 1124,76 1192,2456 Fall 2 1000,00 1045,00 1092,03 1141,17 1192,5186 Fall 3 1000,00 1044,94 1091,90 1140,97 1192,2447 Tabelle 2.9.: Beispielsrechnung geometrisches Mittel 2.2.23 Denition (geometrisches Mittel). Das geometrisches Mittel ist ein Mittel- wert für multiplikative Gröÿen. Denition. Gegeben sei ein metrisches Merkmal X . Für die n Beobachtungspunkte xi (i = 1, . . . , n) ergibt sich das einfache xG = √ n geometrische Mittel zu x1 · x2 · . . . · xn v u n uY n = t xi (2.15) i=1 Sind für das Merkmal X die Merkmalsausprägungen xj (j=1,. . . ,m) mit den absoluten Häugkeiten h(xj ) und den relativen Häugkeiten f (xj ) gegeben, so errechnet sich das gewogene geometrische Mittel durch xG q n h(x ) h(x ) h(x ) = x1 1 · x2 2 · . . . · xm m v um m m Y Y uY h(xj ) h(xj )/n f (x ) n t = xj = xj = xj j i=1 i=1 (2.16) i=1 mit n = h(x1 ) + h(x2 ) + · · · + h(xm ). Version 6.0 - 019 24.06.2017 45 2.2. Mittelwerte harmonisches Mittel 2.2.24 Beispiel. Ein PKW legt von einer Strecke 1 6 mit einer Geschwindigkeit von 100 km 1 km h , 3 mit einer Geschwindigkeit von 80 h und den Rest mit einer Geschwindigkeit von km 50 h zurück. Mit welcher (konstanten) Geschwindigkeit würde er die gesamte Strecke in der gleichen Zeit bewältigen? Diese Frage führt zum harmonische Mittel. Es gilt: v= s s1 + s2 + s3 = = t t1 + t2 + t3 s s1 v1 s2 v2 + + s3 v3 = 1 s1 sv1 + s2 sv2 + (2.17) s3 sv3 Das Einsetzen der konkreten Zahlen aus dem Beispiel ergibt. v= 1 1 6·100 + 1 3·80 + 1 2·50 = 1 1 600 + 1 240 + 2.2.25 Denition (harmonisches Mittel). 1 100 = 600 = 63, 16 1 + 2, 5 + 6 (2.18) Das harmonische Mittel ist der Kehrwert vom Mittelwert von Kehrwerten. Denition. Gegeben sei ein metrisches Merkmal X . Für die n Beobachtungspunkte xi (i = 1, . . . , n) ergibt sich das einfache harmonische Mittel zu xH = 1 x1 n + ··· + 1 xn n = Pn (2.19) 1 i=1 xi Sind für das Merkmal X die Merkmalsausprägungen xj (j = 1, . . . , m) mit den absoluten Häugkeiten h(xj ) und den relativen Häugkeiten f (xj ) gegeben, so errechnet sich das gewogene harmonische Mittel durch xH = P m n h(xj ) j=1 xj 2.2.26 Beispiel. 1, 4142 und xH = x1 = 1 und x2 = 2, 4 = 3 = 1, 3333. Es seien 2 1+1/2 2.2.27 Anmerkung. = P m 1 j=1 (2.20) f (xj ) xj dann gelten x = 1, 5, xG = √ 1·2 = Für die Durchschnitte von n Beobachtungen gilt allgemein stets x ≥ xG ≥ xH . 46 Version 6.0 - 019 24.06.2017 Kapitel 2. Univariate Daten Transformationen 2.2.28 Satz. Es ergibt sich nun die Frage, wie sich Mittelwerte verhalten, wenn eine Transformation durchgeführt wird. Satz. Es sei X ein metrisch messbares Merkmal mit dem arithmetischen Mittel x. Durch eine lineare Transformation Y = bX + a wird das Merkmal Y deniert. Dann gilt für das arithmetische Mittel y des Merkmales Y : y = bx + a. Das bedeutet, dass das arithmetische Mittel die Transformation mitmacht. y= n n n i=1 i=1 i=1 1X 1X 1X yi = (bxi + a) = b xi + a = bx + a n n n (2.21) 2.3. Streuungsmaÿe Wenn man die rechte Hand in eine Flüssigkeit mit 100 Grad Celsius steckt und die linke Hand in eine Flüssigkeit mit -40 Grad Celsius, dann ist dies im Mittel angenehme 30 Grad Celsius. Trotzdem ist dies alles andere als angenehm. Ein Mittelwert allein ist nicht ausreichend für die Beschreibung von Daten. Denn mit dem Mittelwert allein kann noch nicht entschieden werden, ob die Beobachtungen eng oder weit um diesen Mittelwert sind. Daher werden einige weitere Kennzahlen ermittelt, welche die Streuung der Beobachtungen beschreibt. Spannweite 2.3.1 Denition (Spannweite). Die Entfernung zwischen maximalem und minimalem Wert ist eine erste Orientierung. Denition. Gegeben seien n Beobachtungen (i=1,. . . ,n) eines metrisch messbaren Merkmales X. Die Dierenz zwischen gröÿtem Beobachtungswert und kleinstem Beobachtungswert heiÿt Spannweite w der Verteilung des Merkmales. Version 6.0 - 019 24.06.2017 xi 47 2.3. Streuungsmaÿe 2.3.2 Beispiel. X gegeben: Es seien folgende Beobachtungen eines metrisch messbaren Merkmales 0, 7; 1, 6; 2, 5; 3, 2; 1, 6; 2, 4; 2, 8. Berechnen Sie für diese Werte die Spannweite. w = 3, 2 − 0, 7 = 2, 5 2.3.3 Beispiel. Bei der Beispiel des Alters (siehe Tabelle 2.2) ist die Spannweite wird der Extremwert 2.3.4 Beispiel. (2.22) 54 entfernt, dann ist die Spannweite nur 36, 7. Beim Beispiel der Körpergröÿe (siehe Tabelle 2.7) ist die Spannweite 35cm. Quartilsabstand 2.3.5 Denition (Quartilsabstand). Die Spannweite gibt die Dierenz zwischen den extremen Werten wieder. Der Quartilsabstand untersucht einen anderen Abstand. Denition. Der Abstand zwischen dem 1. Quartil (x0.25 ) und dem 3. Quartil (x0.75 ) ist der Quartilsabstand. In diesem Bereich sind mindestens 50% der Daten, also die Groÿteil der Daten. 2.3.6 Beispiel. Beim Beispiel des Alters (siehe Tabelle 2.2) gilt (der Zentralwert) und x0,75 = 22. x0,25 = 20, x0,5 = 20 Der Quartilsabstand ist 2, von 20 bis 22. Von den Daten sind 19 der 29 Beobachtungen, also etwa 66% in diesem Bereich. mittlere absolute Abweichung 2.3.7 Denition (mittlere absolute Abweichung). Bei der Spannweite werden von den Beobachtungen nur zwei Werte in die weitere Untersuchung einbezogen, die anderen Werte bleiben unberücksichtigt. Bei der mittleren absoluten Abweichung werden alle Beobachtungen in die Berechnung der Streuung mit einbezogen. Denition. Gegeben seien n Beobachtungen xi (i=1,. . . ,n) eines metrisch messbaren Merkmales X und der Zentralwert xZ . Das arithmetische Mittel aus den absoluten Abweichungen der Beobachtungen xi vom Zentralwert xZ heiÿt mittlere absolute Abweichung d. n 1X d = |xi − xZ | n (2.23) i=1 48 Version 6.0 - 019 24.06.2017 Kapitel 2. Univariate Daten Gegeben sei eine Häugkeitsverteilung eines metrisch messbaren Merkmales X, dessen Ausprägungen xj (j=1,. . . ,m) mit den absoluten Häugkeiten h(xj ) und den relativen Häugkeiten f (xj ) auftreten. Das gewogene arithmetische Mittel aus den absoluten Abweichungen der Merkmalsausprägungen xj vom Zentralwert xZ heiÿt mittlere absolute Abweichung d: d = m m X 1X |xj − xZ |h(xj ) = |xj − xZ |f (xj ) n j=1 (2.24) j=1 Die mittlere absolute Abweichung wird auch mit MAA abgekürzt. Statt die mittlere absolute Abweichung vom Zentralwert zu nehmen, kann auch die mittlere absolute Abweichung auf andere Mittelwerte bezogen werden, beispielsweise auf das arithmetische Mittel. 2.3.8 Beispiel. Es seien folgende Beobachtungen eines metrisch messbaren Merkmales 0, 7; 1, 6; 2, 5; 3, 2; 1, 6; 2, 4; 2, 7. Für das arithmetische Mittel gilt x = 2, 1. Der Zentralwert ist gegeben durch xZ = 2, 4. Damit gilt in Bezug auf den Zentralwert X gegeben: d= 1, 7 + 0, 8 + 0, 1 + 0, 8 + 0, 8 + 0, 0 + 0, 3 = 0, 6429 7 (2.25) und in Bezug auf das arithmetische Mittel d= 2.3.9 Anmerkung. 1, 4 + 0, 5 + 0, 4 + 1, 1 + 0, 5 + 0, 3 + 0, 6 = 0, 6857 7 (2.26) Die auf den Zentralwert bezogene mittlere absolute Abweichung ist kleiner als jede auf einen anderen Wert bezogene mittlere absolute Abweichung. 2.3.10 Beispiel. Abweichung 2, 34 2.3.11 Beispiel. Bei der Beispiel des Alters (siehe Tabelle 2.2) ist die mittlere absolute (mit allen 29 Werten) und ohne den Extremwert. Beim Beispiel der Klausurnoten (siehe Tabelle 2.4) ist die mittlere absolute Abweichung 2.3.12 Beispiel. 1, 21 0, 79. Beim Beispiel der Körpergröÿe (siehe Tabelle 2.7) ist die mittlere ab- solute Abweichung 7, 24cm. mittlere quadratische Abweichung 2.3.13 Denition (mittlere quadratische Abweichung). Bei der mittleren absolu- ten Abweichung ist jede Abweichung gleich gewichtet. Kleine Abweichungen sollen weniger gewichtet werden als groÿe Abweichungen. Wie kann die Abweichung gewichtet Version 6.0 - 019 24.06.2017 49 2.3. Streuungsmaÿe werden, um diesen Wunsch zu berücksichtigen. Als Gewicht wird der Betrag der Abweichung selbst genommen. Denition. Gegeben seien n Beobachtungen xi (i=1,. . . ,n) eines metrisch messbaren Merkmales X. Das arithmetische Mittel der quadratischen Abweichungen der Beobachtungen xi von ihrem arithmetischen Mittel x heiÿt mittlere quadratische Abweichung oder Varianz s2 des Merkmales X, manchmal auch mit s2X geschrieben. n s2 = 1X (xi − x)2 n (2.27) i=1 Gegeben sei eine Häugkeitsverteilung eines metrisch messbaren Merkmales X, dessen Ausprägungen xj (j=1,. . . ,m) mit den absoluten Häugkeiten h(xj ) und den relativen Häugkeiten f (xj ) auftreten. Das gewogene arithmetische Mittel der quadratischen Abweichungen der Merkmalsausprägungen vom arithmetischen Mittel x heiÿt Varianz s2 oder s2X : s2 = m m X 1X (xj − x)2 h(xj ) = (xj − x)2 f (xj ) n j=1 2.3.14 Anmerkung. (2.28) j=1 Nach den obigen Formeln kann die Varianz erst berechnet werden, wenn das arithmetische Mittel berechnet ist, da die Dierenz zwischen Beobachtungswert und Mittelwert die Gröÿe ist, die zur Berechnung herangezogen wird. Die Formeln können jedoch leicht umgeformt werden, so dass die Berechnung einfacher wird. Es gilt n s2 = n 1X 1X 2 (xi − x)2 = (xi − 2xi x + x2 ) n n i=1 (2.29) i=1 n n n 1X 2 1X 1X 2 = xi − 2x xi + x2 = xi − x2 n n n i=1 i=1 i=1 Wenn die Beobachtungen sequentiell kommen (zum Beispiel Messwerte einer elektronischen Einheit oder Daten aus einer Datei), so können die Daten sequentiell verarbeitet werden. Man summiert die Werte, um den Mittelwert zu erhalten und man summiert die Quadrate der Beobachtungen, um daraus dann die VArianz zu ermitteln. Für Häugkeitsverteilungen gelten analoge Umformungen: s 2 m m X 1X 2 2 = xj h(xj ) − x = x2j f (xj ) − x2 n j=1 2.3.15 Denition (Standardabweichung). (2.30) j=1 Die Varianz hat als Einheit das Quadrat der Einheit der Beobachtungen. 50 Version 6.0 - 019 24.06.2017 Kapitel 2. Univariate Daten Denition. Die positive Quadratwurzel aus der Varianz heiÿt Standardabweichung. Die Standardabweichung hat dieselbe Abweichung wie die Beobachtungen. 2.3.16 Denition (Variatonskoezient). Wenn man mit Einheiten arbeitet, dann sieht man, dass die Standardabweichung die selbe Einheit hat wie die Merkmale selbst. Die Varianz hat das Quadrat der Einheit der Merkmale. Für Vergleichszwecke ist die Varianz nicht aussagekräftig genug. Bei einem Wert von 1 ist eine Varianz von 10 groÿ, bei einem Wert von 1000 jedoch klein. Denition. Für ein metrisch messbares Merkmal X mit dem arithmetischen Mittel x und der Standardabweichung s, heiÿt der Quotient aus s und x der Variationskoezient v, v = xs . Der Variationskoezient ist ohne Einheit. Der Varianzkoezient gibt eine Beziehung von der Standardabweichung zum Mittelwert an. Damit können auch Streuungen von Merkmalen mit verschiedenen Einheiten verglichen werden. 2.3.17 Beispiel. les X gegeben: Es seien folgende Beobachtungen eines metrisch messbaren Merkma- 0, 7; 1, 6; 2, 5; 3, 2; 1, 6; 2, 4; 2, 7. Berechnen Sie die mittlere quadratische Abweichung (Varianz) und die Standardabweichung. Es ist x = 2, 1. Damit gilt 1, 42 + 0, 52 + 0, 42 + 1, 12 + 0, 52 + 0, 32 + 0, 62 = 0, 6114 . 7 s2 = Weiter ist der Variationskoezient 2.3.18 Beispiel. 6, 58/22 = 0, 30. v = 0, 3723. Bei der Beispiel des Alters (siehe Tabelle 2.2) ist die Varianz die Standardabweichung ist 6, 58[Jahre]. 43, 24, Damit ergibt sich als Variationskoezient Wird der Extremwert eliminiert, dann sinkt der Mittelwert auf Die Varianz ist dann (2.31) 20, 86. 3, 5, die Standardabweichung ist 1, 87[Jahre]. Damit ergibt sich für 1, 87/20, 86 = 0, 09, ein deutlich niedrigerer Wert, die Daten den Variationskoezient sind, wenn der Extremwert eliminiert wird, weniger gestreut. 2.3.19 Beispiel. Beim Beispiel der Klausurnoten (siehe Tabelle 2.4) ist die Varianz 1, 14, die Standardabweichung zient 1, 07/2, 66 = 0, 40. Version 6.0 - 019 24.06.2017 1, 07. Da der Mittelwert 2, 66 ist, ist der Variationskoe- 51 2.4. Aufgaben 2.3.20 Beispiel. Beim Beispiel der Körpergröÿe (siehe Tabelle 2.7) ist die Varianz 93, 10, die Standardabweichung beträgt 9, 65[cm]. Beim gegebenen 174, 76cm ergibt sich als Variationskoezient 9, 65/174, 76 = 0, 06. 2.3.21 Anmerkung. Mittelwert von Mittelwert und Standardabweichung sind wichtige Parameter für Kennzeichen statistischer Gröÿen, jedoch nicht die einzigen. Es gibt weitere Kennzeichen, zum Beispiel die Schiefe, die weitere Aussagen über die Daten machen. Weitere Kennzeichen werden hier jedoch nicht weiter vertieft. Transformation 2.3.22 Satz. Eine lineare Transformation Y = bX + a hat die nachfolgende benannten Auswirkungen auf Streuungsmaÿe. Satz. Es seien X und Y metrisch messbare Merkmale, die mittels einer linearen Transformation Y = bX + a zusammenhängen. Dann gelten: Spannweite wY = bwX mittlere absolute Abweichung dY = bdX Varianz s2Y = b2 s2X Standardabweichung sY = bsX 2.4. Aufgaben 2.4.1 Aufgabe. X gegeben: Es seien folgende Beobachtungen eines metrisch messbaren Merkmales 0, 7; 1, 6; 2, 4; 3, 2; 1, 6; 2, 4; 2, 8. Berechnen Sie das arithmetische Mittel, die mittlere absolute Abweichung und die Standardabweichung. 2.4.2 Aufgabe. Bei einer Untersuchung der Anzahl der Besucher pro Tag einer Dienst- stelle ergeben sich bei 120 untersuchten Tagen die folgende absolute Häugkeitsverteilung: Besucher 0 1 2 3 4 5 6 7 8 9 10 Anzahl der Tage 5 4 10 12 20 18 18 12 15 2 4 Berechnen Sie das arithmetische Mittel und die Standardabweichung. 2.4.3 Aufgabe. Aus der Befragung nach dem Alter der Belegschaft eines Betriebes mit 30 Angestellten ergibt sich folgendes Ergebnis: 24, 24, 40, 22, 32, 51, 63, 22, 42, 43, 44, 51, 23, 32, 34, 64, 19, 23, 22, 50, 50, 33, 60, 18, 20, 50, 42, 30, 20 und 41. Daraus ergibt sich in nachfolgende Häugkeitsverteilung mit der Bildung von Klassen: 52 Version 6.0 - 019 24.06.2017 Kapitel 2. Univariate Daten j Altersklasse xj h(xj ) 1 unter 20 18 2 2 20 bis unter 30 25 9 3 30 bis unter 40 35 5 4 40 bis unter 50 45 6 5 50 bis unter 60 55 5 6 60 und mehr 63 3 Berechnen Sie das arithmetische Mittel auf Basis der Beobachtungen und auf Basis der Tabelle. Vergleichen Sie die beiden Werte. 2.4.4 Aufgabe. Eine festverzinsliche Kapitalanlage bringt im 1. Jahr 3% Zins, im 2. Jahr 4% Zins, im 3. Jahr 5% Zins und im 4. Jahr 6% Zins. Berechnen Sie den durchschnittlichen (eektiven) Zinssatz, für diese Anlageform. 2.4.5 Aufgabe. Eine Aktie bringt innerhalb von 5 Jahren die nachfolgenden jährlichen Gewinn / Verluste: +25%, -5%, +15%, -20%, -15%. Berechnen Sie die durchschnittlichen (eektiven) Gewinn oder Verlust für diese Aktie. 2.4.6 Aufgabe. Der Kurs einer Aktie hat sich die in sind den letzten Jahren folgender- maÿen entwickelt: +10%, -20%, +15%, +5%, -10%. Wie hoch ist die durchschnittliche Änderungsrate? 2.4.7 Aufgabe. Die Bevölkerung in einer Stadt hatte innerhalb einiger Jahre die nach- folgenden jährlichen Veränderung in Prozent vom Vorjahreswert: +10, -20, +5, +15, -5 und +10. Wie hoch ist das durchschnittliche jährlich Wachstum? 2.4.8 Aufgabe. Ein Auto hat für typische Verkehrssituationen folgenden Benzinver- brauch: Stadtverkehr: 10l/100km, konstant 120 km/h: 9l/100km, konstant 90 km/h: 7l/100km. Ein Fahrer weiÿ, der er circa 25% seiner jährlichen Gesamtstrecke in der Stadt fährt, circa 50% auf der Autobahn mit 120 km/h und circa 25% auf der Landstraÿe mit 90 km/h. Berechnen Sie den voraussichtlichen Durchschnittsverbrauch. 2.4.9 Aufgabe. Ein Wanderer läuft 1 2 4 einer Strecke mit 7 km/h, 5 mit 6 km/h und den Rest mit 5 km/h. Mit welcher (konstanten) Geschwindigkeit würde er die gesamte Strecke in der gleichen Zeit bewältigen? 2.4.10 Aufgabe. Ein PKW legt 4 Strecken unterschiedlicher Länge mit unterschiedli- chen Geschwindigkeiten zurück. Teilstrecke Länge (in km) Geschwindigkeit (in Version 6.0 - 019 24.06.2017 km h ) 1 2 3 4 30 10 40 20 40 50 80 100 53 2.4. Aufgaben Mit welcher durchschnittlichen Geschwindigkeit würde die Strecke in der selben Zeit zurück gelegt werden? 2.4.11 Aufgabe. Ein PKW legt von einer Strecke 1/6 mit einer Geschwindigkeit von 100 km/h, 1/3 mit einer Geschwindigkeit von 80 km/h und den Rest mit einer Geschwindigkeit von 50 km/h zurück. Mit welcher (konstanten) Geschwindigkeit würde er die gesamte Strecke in der gleichen Zeit bewältigen? 2.4.12 Aufgabe. Gegeben seien drei verschiedene Verteilungen X, Y und Z, die durch die Angabe der relativen Häugkeit deniert sind. X 4 6 8 10 12 14 16 0,05 0,05 0,15 0,5 0,15 0,05 0,05 0,15 0,2 0,3 0,2 0,15 0,1 0,15 0,25 0,4 0,05 Y Z 0,05 Bestimmen Sie jeweils das arithmetische Mittel und die Standardabweichung. 2.4.13 Aufgabe. Für das Gewicht eines Sacks geben sich bei einer Stichprobe folgende Werte, jeweils in kg: 50,2 ; 49,9 ; 50,4 ; 49,8 ; 50,2 ; 50,3 ; 50,7 ; 49,7 ; 50,0 und 50,5. Berechnen Sie den Mittelwert, die Spannweite, die mittlere absolute Abweichung und die Standardabweichung. 2.4.14 Aufgabe. Eine Zählung von Besuchern pro Tag einer Dienststelle ergab für einen gewissen Zeitraum die nachfolgende Verteilung: Besucher 0 1 2 3 4 5 6 7 8 9 Anzahl der Tage 3 7 6 14 15 12 7 9 5 3 Bestimmen Sie das arithmetische Mittel, die mittlere absolute Abweichung, die Varianz und die Standardabweichung. 2.4.15 Aufgabe. Für einen Telefonanschluss verteilen sich die Anzahl der Einheiten für die Telefongespräche gemäÿ der nachfolgenden Tabelle: Einheiten relative Häugkeit 1 2 3 4 5 6 7 8 10% 5% 25% 10% 20% 10% 15% 5% Bestimmen Sie das arithmetische Mittel, die mittlere absolute Abweichung, die Varianz und die Standardabweichung. 2.4.16 Aufgabe. Für das Alter einer Gruppe von Studenten ergibt sich folgende Ver- teilung: Alter Anzahl 54 18 19 20 21 22 23 24 25 26 27 4 7 5 12 16 8 9 4 5 3 Version 6.0 - 019 24.06.2017 Kapitel 2. Univariate Daten Stellen Sie die Häugkeitsverteilung und die Summenhäugkeitsverteilung grasch dar. Bestimmen Sie den Zentralwert, den (arithmetischen) Mittelwert, die mittlere absolute Abweichung und die Standardabweichung. 2.4.17 Aufgabe. Eine Klausur ergab bei 14 Teilnehmern die Noten 1, 4, 2, 5, 2, 2, 3, 4, 2, 1, 5, 2, 3 und 3. (a) Bestimmen Sie den Median und die 4-Quantile. (b) Zeichnen Sie in ein Diagramm die absoluten Häugkeiten und die absoluten Summenhäugkeiten. (c) Bestimmen sie das arithmetische Mittel. (d) Bestimmen Sie die mittlere absolute Abweichung und den Standardabweichung. 2.4.18 Aufgabe. Die Zählung von Gebühren für Gespräche von einem Telefonapparat ergab die nachfolgende Verteilung von Einheiten: Anzahl der Einheiten 1 2 3 4 5 6 7 8 Anzahl der Gespräche 5 6 8 12 11 10 7 5 Bestimmen Sie das arithmetische Mittel, die Varianz und die Standardabweichung für die Gebühren. 2.5. Lösungen 2.5.1 Lösung. zu Aufgabe 2.4.1 1 (0, 7 + 1, 6 + 2, 4 + 3, 2 + 1, 6 + 2, 4 + 2, 8) = 2, 1 7 1 d = (1, 4 + 0, 5 + 0, 3 + 1, 1 + 0, 5 + 0, 3 + 0, 7) = 0, 6857 7 1 2 s = 0, 72 + 1, 62 + 2, 42 + 3, 22 + 1, 62 + 2, 42 + 2, 82 − 2, 12 = 0, 62 7 p s = 0, 62 = 0, 7874 x= Die mittlere absolute Abweichung ist auf das arithmetische Mittel bezogen. 2.5.2 Lösung. zu Aufgabe 2.4.2 5 · 0 + 4 · 1 + 10 · 2 + 12 · 3 + · · · + 4 · 10 600 = =5 5 + 4 + 10 + 12 + · · · + 4 120 5 · 02 + 4 · 12 + 10 ·2 +12 · 32 + · · · + 4 · 102 3680 − 52 = − 52 = 5, 6667 s2 = 5 + 4 + 10 + 12 + · · · + 4 120 s = 2, 3805 x= Version 6.0 - 019 24.06.2017 55 2.5. Lösungen 2.5.3 Lösung. zu Aufgabe 2.4.3 Bei jeder Gruppe wurde ein Repräsentant (xj ) be- stimmt, der als Wert für die Gruppe genommen wird. Damit errechnet sich 2 · 18 + 9 · 25 + 5 · 35 + 6 · 45 + 5 · 55 + 3 · 63 1170 = = 39 30 30 x= Unter Verwendung der exakten Daten erhält man als Mittelwert 2.5.4 Lösung. zu Aufgabe 2.4.4 xG = 2.5.5 Lösung. x = 36, 3. p 4 1, 03 · 1, 04 · 1, 05 · 1, 06 = p 4 1, 1922456 = 1, 044940 zu Aufgabe 2.4.5 xG = p p 5 1, 25 · 0, 95 · 1, 15 · 0, 80 · 0, 85 = 5 0, 928625 = 0, 9853 . Dies entspricht einem durchschnittlichen jährlichen Verlust von 1,47%. 2.5.6 Lösung. zu Aufgabe 2.4.6 q= 2.5.7 Lösung. zu Aufgabe 2.4.7 q= 2.5.8 Lösung. p p 5 1, 10 · 0, 80 · 1, 15 · 1, 05 · 0, 90 = 5 0, 95634 = 0, 99111 p √ 6 6 1, 1 · 0, 8 · 1, 05 · 1, 15 · 0, 95 · 1, 1 = 1.110417 = 1, 0176 zu Aufgabe 2.4.8 x = 0, 25 · 10 + 0, 5 · 9 + 0, 25 · 7 = 8, 75 2.5.9 Lösung. zu Aufgabe 2.4.9 v=P 3 1 f (vj ) j=1 vj 1 = 1/4 7 + 2/5 6 + 7/20 5 = 1 181 1050 1050 = 5, 80 181 = Seine Durchschnittsgeschwindigkeit beträgt 5,80 km/h. 2.5.10 Lösung. zu Aufgabe 2.4.10 v= 2.5.11 Lösung. v= 100 + 1 3 80 + 2.5.12 Lösung. Mittel 56 x = 10 + 10 50 100 40 + 80 + 20 100 = 60, 61 zu Aufgabe 2.4.11 1 1 6 30 40 1 2 50 km = h 1 1 600 + 1 240 + 1 100 km = h 1 2+5+12 1200 km 1200 km km = = 63, 16 h 19 h h zu Aufgabe 2.4.12 Für alle drei Verteilungen gilt für das arithmetische und die Standardabweichung s = 2, 5298. Version 6.0 - 019 24.06.2017 Kapitel 2. Univariate Daten 2.5.13 Lösung. zu Aufgabe 2.4.13 Es wird eine Transformation durchgeführt. Das Merkmal X sei das Gewicht des Sacks, das Merkmal Y sei die Dierenz des Gewichts zu 50 kg: Y = X - 50 kg. yi |ȳ − yi | (ȳ − yi )2 yi2 50,2 0,2 0,03 0,0009 0,04 49,9 -0,1 0,27 0,0729 0,01 3 50,4 0,4 0,23 0,0529 0,16 4 49,8 -0,2 0,37 0,1369 0,04 5 50,2 0,2 0,03 0,0009 0,04 6 50,3 0,3 0,13 0,0169 0,09 7 50,7 0,7 0,53 0,2809 0,49 8 49,7 -0,3 0,47 0,2209 0,09 i xi 1 2 9 50,0 0,0 0,17 0,0289 0,00 10 50,5 0,5 0,33 0,1089 0,25 Σ 501,7 1,7 2,56 0,9210 1,21 ȳ = Spannweite: wX Mittelwert: 1,7 10 = 0,17; x̄ = ȳ + 50 = 50,17 = 50,7 - 49,7 = 1,0 dX = 2,56 10 = 0,256 1,21 0,9210 2 = 0,0921 = Varianz = 10 10 - 0, 17 √ mittlere absolute Abweichung: Standardabweichung = 2.5.14 Lösung. 0, 0921 = 0,3035 zu Aufgabe 2.4.14 Zur Vereinfachung: di = x̄ − xi i xi h(xi ) xi h(xi ) |di | |di |h(xi ) d2i h(xi )d2i x2i h(xi )x2i 1 0 3 0 4,36 13,07 18,99 56,98 0 0 2 1 7 7 3,36 23,51 11,28 78,93 1 7 3 2 6 12 2,36 14,15 5,56 33,36 4 24 4 3 14 42 1,36 19,01 1,84 25,82 9 126 5 4 15 60 0,36 5,37 0,13 1,92 16 240 6 5 12 60 0,64 7,70 0,41 4,95 25 300 7 6 7 42 1,64 11,49 2,70 18,87 36 252 8 7 9 63 2,64 23,78 6,98 62,82 49 441 9 8 5 40 3,64 18,21 13,26 66,32 64 320 10 9 3 27 4,64 13,93 21,55 64,64 81 243 81 353 Σ 150,22 414,62 1953 353 81 = 4,36 150,22 mittlere absolute Abweichung: dX = = 1,85 81 414,62 1953 353 2 2 Varianz: sX = = 5,12 = − ( 81 ) 81 √ 81 Standardabweichung sX = 5, 12 = 2,26 arithmetisches Mittel: 2.5.15 Lösung. x̄ = zu Aufgabe 2.4.15 Zur Vereinfachung: Version 6.0 - 019 24.06.2017 di = x̄ − xi 57 2.5. Lösungen i xi f (xi ) xi · f (xi ) |di | |di | · f (xi ) d2i f (xi ) · d2i x2i f (xi ) · x2i 1 1 0,10 0,10 3,40 0,34 11,56 1,16 1 0,10 2 2 0,05 0,10 2,40 0,12 5,76 0,29 4 0,20 3 3 0,25 0,75 1,40 0,35 1,96 0,49 9 2,25 4 4 0,10 0,40 0,40 0,04 0,16 0,02 16 1,60 5 5 0,20 1,00 0,60 0,12 0,36 0,07 25 5,00 6 6 0,10 0,60 1,60 0,16 2,56 0,26 36 3,60 7 7 0,15 1,05 2,60 0,39 6,76 1,01 49 7,35 8 8 0,05 0,40 3,60 0,18 12,96 0,65 64 3,20 1,00 4,40 Σ Mittelwert: 1,70 3,94 23,30 4, 40 1, 70 2 Varianz = 3, 94 = 23, 30 − 4, 40 √ Standardabweichung = 3, 94 = 1, 98 mittlere absolute Abweichung: 2.5.16 Lösung. zu Aufgabe 2.4.16 Mittelwert: 22, 7 mittlere absolute Abweichung: Varianz = 1, 85 5, 36 Standardabweichung = 2, 32 Graken: Übung! 2.5.17 Lösung. zu Aufgabe 2.4.17 (a) Die 14 Noten werden zuerst der Gröÿe nach geordnet: 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5 und 5. Da es 14 Elemente gibt, ist der Median die Mitte des 7. und 8. Elements, also 2-3. Die 4-Quantile teilen die beiden 7-elementigen Hälften jeweils in zwei Teile zu jeweils 3 Teile. Die 4-Quantile sind somit das 4. Element (2), der Median (2-3) und das 11. Element (4). (b) Übung (c) 14 x= 1 X 1+4+2+5+2+2+3+4+2+1+5+2+3+3 xi = 14 14 i=1 39 = = 2, 79 14 (d) 14 1 X 2 131 xi − x2 = − s = 14 14 i=1 r √ 313 s = s2 = = 1, 26 196 2 58 39 14 2 = 313 = 1, 60 196 Version 6.0 - 019 24.06.2017 Kapitel 2. Univariate Daten 2.5.18 Lösung. i, zu Aufgabe 2.4.18 h(xi ) xi h(xi ) x2i x2i h(xi ) 1 5 5 1 5 2 6 12 4 24 3 8 24 9 72 4 12 48 16 192 5 11 55 25 275 6 10 60 36 360 7 7 49 49 343 64 xi 8 5 40 Summe 64 293 320 1591 8 x= 1X 293 xi h(xi ) = = 4, 58 n 64 i=1 8 1591 293 2 15975 1X 2 2 −( ) = = 3, 90 s = xi h(xi ) − x2 = n 64 64 4096 i=1 r √ 15975 2 s= s = = 1, 97 4096 Version 6.0 - 019 24.06.2017 59 Kapitel 3. Bivariate Daten Im diesem Teil werden Beziehungen zwischen zwei Merkmalen beschreiben. Wie können solche Datenmengen dargestellt werden, welche Parameter beschreiben die Daten. 3.1. Darstellungen bivariater Daten Auch wenn der Schwerpunkt auf bivariate Daten liegt, werden auch multivariate Daten beispielhaft vorgestellt, denn es gibt oftmals auch mehrere Merkmale, die in eine Beziehung zueinander gebracht werden. Es werden bei vielen statistischen Untersuchungen an den statistischen Einheiten gleichzeitig mehrere Merkmale erfasst. Multivariate Daten 3.1.1 Beispiel. Bei einer Volkszählung werden bei den befragten Personen verschiedene Daten erhoben: Geschlecht, Alter, Beruf, Religion, . . . . 3.1.2 Beispiel. Bei einer Untersuchung der Leistungen von Schülern werden die Noten in Mathematik, Deutsch und Englisch erfasst. 3.1.3 Beispiel. Für die Untersuchung der Wirksamkeit eines Düngemittels werden bei einem landwirtschaftlichen Experiment die Daten Einsatz von Dünger (je ha) und Ertrag (je ha) erfasst. 3.1.4 Beispiel. Bei der Untersuchung von Personen wird jeweils die Körpergröÿe und das Gewicht ermittelt. 3.1.5 Anmerkung. Hier werden jedoch nur zwei-dimensionale, also bivariate Daten, untersucht. Für weiter gehende Betrachtungen der mehr-dimensionalen also multivariater Daten kann in der Literatur nachgelesen werden. 3.1.6 Anmerkung. Bei der Betrachtung von zwei Merkmalen gibt es verschiedene Fra- gen, die man sich stellen kann: Version 6.0 - 019 24.06.2017 61 3.1. Darstellungen bivariater Daten 1. Besteht ein Zusammenhang zwischen den Merkmalen? Liegt ein Zusammenhang bei metrisch oder ordinal messbaren Merkmalen vor, dann spricht man von Kontingenz. Korrelation, bei nominal messbaren Merkmalen spricht man von 2. Wie ausgeprägt ist der Zusammenhang zwischen den Merkmalen? Die Stärke des Zusammenhangs wird durch die Berechnung eines koezienten oder Kontingenzkoezienten ermittelt. Korrelations- 3. Von welchem Typ ist der Zusammenhang zwischen den Merkmalen? Durch welche Funktion kann dieser Zusammenhang beschrieben werden? Hierzu wird in einer Regressionsrechnung eine Regressionsfunktion ermit- telt, die den Zusammenhang der Merkmale angibt. Es gibt verschiedene Arten von Zusammenhängen: linear, quadratisch, polynomial und exponentiell, um nur die wichtigsten Zusammenhänge zu nennen. 3.1.7 Anmerkung. Bevor die Berechnungen von statistischen Kenndaten beschrieben werden, werden zuerst noch einige Begrie und Eigenschaften zwei-dimensionaler Verteilungen betrachtet. Zwei-dimensionale Häugkeitstabellen 3.1.8 Denition (absolute und relative Häugkeit). Zuerst werden Häugkeitsta- bellen, die von den univariaten Daten her bekannt sind auf bivariate Daten übertragen. Denition. Gegeben seien die Merkmale X mit den Ausprägungen xj (j = 1,. . . ,m) und Y mit den Ausprägungen yk (k = 1,. . . ,q), die an denselben statistischen Einheiten erhoben werden. Die Anzahl der Beobachtungen, bei denen die Kombinationen (xj ; yk ) der Ausprägungen auftritt heiÿt absolute Häugkeit h(xj ; yk ). Der Anteil der absoluten Häugkeit an der Gesamtzahl n der Beobachtungen heiÿt relative Häugkeit f (xj ; yk ) und es gilt f (xj ; yk ) = n1 h(xj ; yk ). Die Gesamtheit aller Kombinationen von Merkmalsausprägungen mit den dazu gehörenden absoluten oder relativen Häugkeiten heiÿt zwei-dimensionale Häugkeitsverteilung. Paare von Beobachtungen werden im allgemeinen mit (xi ; yi ) (i=1,. . . ,n) bezeichnet, während (xj ; yk ) die Kombination der Merkmalsausprägungen xj und yk (j=1,. . . ,m; k=1,. . . ,q) angibt. 62 Version 6.0 - 019 24.06.2017 Kapitel 3. Bivariate Daten x1 y1 h(x1 ; y1 ) . . . . . . .. xj h(xj ; y1 ) . . . . . . xm h(xm ; y1 ) h(y1 ) ... ... yk h(x1 ; yk ) ... yq h(x1 ; yq ) h(x1 ) . . . . . . . . . .. ... h(xj ; yk ) ... h(xj ; yq ) h(xj ) .. . . . .. . . . . . . h(xm ; yk ) h(yk ) ... h(xm ; yq ) h(yq ) h(xm ) n . . ... . . ... Tabelle 3.1.: Zwei-dimensionale Häugkeitstabelle 3.1.9 Anmerkung. Die tabellarische Darstellung der Häugkeitsverteilung Häugkeitstabelle und hat die Form gemäÿ Tabelle 3.1. heiÿt die zwei-dimensionale Am rechten beziehungsweise am unteren Rand sind die Verteilungen für die Merkmale X beziehungsweise Y, Randverteilungen. Es sind die also die Verteilungen, wenn man sich nur für eines der Merkmale interessiert, nicht jedoch für beide zusammen. Es gelten: h(xj ) = q X h(xj ; yk ) h(yk ) = und h(xj ; yk ) . (3.1) j=1 k=1 3.1.10 Beispiel. q X (Körpergröÿe und Gewicht) Eine Messung von Körpergröÿe und Gewicht bei 200 Personen hat das Ergebnis gemäÿ Tabelle 3.2 geliefert. Als Summen der Spalten beziehungsweise der Zeilen enthält man die Randverteilungen für Körpergröÿe beziehungsweise Gewicht. Körpergröÿe in cm (von ... bis unter ...) Gewicht in kg 150-160 160-170 50 bis u. 60 3 5 60 bis u. 70 4 25 70 bis u. 80 2 10 80 bis u. 90 1 8 90 bis u. 100 0 10 170-180 180-190 190-200 8 3 1 20 40 10 1 80 20 6 2 40 10 16 5 40 2 2 5 11 20 50 80 40 20 200 Tabelle 3.2.: Beispiel: Körpergröÿe-Gewicht-Tabelle Version 6.0 - 019 24.06.2017 63 3.1. Darstellungen bivariater Daten Jede Zeile beziehungsweise Spalte stellt eine ein-dimensionale Häugkeitstabelle für eine bestimmte Gewichtsklasse beziehungsweise Altersgruppe dar. Hier können dann die Kennzahlen der ein-dimensionalen beschreibenden Statistik ermittelt werden. 3.1.11 Anmerkung. Die Häugkeitstabelle zweier metrisch oder ordinal messbarer Korrelationstabelle. Die Häugkeitstabelle zweier nur nominal messbarer Merkmale heiÿt Kontingenztabelle. Merkmale heiÿt In der Häugkeitstabelle können viele Informationen abgelesen werden. Jede einzelne Zeile oder jede einzelne Spalte stellt eine eigene eindimensionale Verteilung dar, die genauso betrachtet werden kann. 3.1.12 Denition (bedingte Verteilung). Ist eine Verteilung eines Merkmals abhän- gig von einem anderen Merkmal? Denition. Gegeben sei die zwei-dimensionale Häugkeitsverteilung der Merkmale X und Y . Die Häugkeitsverteilung des Merkmales X (beziehungsweise Y ), die sich für eine gegebene Ausprägung yk (beziehungsweise xj ) des Merkmales Y (beziehungsweise X ) ergibt, heiÿt bedingte Verteilung oder konditionale Verteilung von X (beziehungsweise Y ) für ein gegebenes yk (beziehungsweise xj ). Die Häugkeiten der bedingten Verteilungen bezeichnet man mit h(xj |Y = yk ) oder kurz h(xj |yk ) und entsprechend f (xj |yk ) (j=1,. . . ,m) (beziehungsweise h(yk |xj ) und f (yk |xj ) (k=1,. . . ,q)). Die absoluten Häugkeiten der bedingten Verteilung können unmittelbar aus der Häugkeitstabelle abgelesen werden. Es gelten h(xj |yk ) = h(xj ; yk ) und h(yk |xj ) = h(xj ; yk ) . (3.2) Die bedingten relativen Häugkeiten erhält man, indem die absoluten beziehungsweise relativen Häugkeiten der entsprechenden Zeile oder Spalte der zweidimensionalen Häugkeitsverteilung durch den zugehörigen Wert der Randverteilung dividiert. Es gelten also: f (xj |yk ) = f (xj ;yk ) f (yk ) = h(xj ;yk ) h(yk ) (3.3) beziehungsweise f (yk |xj ) = 64 f (xj ;yk ) f (xj ) = h(xj ;yk ) h(xj ) . (3.4) Version 6.0 - 019 24.06.2017 Kapitel 3. Bivariate Daten 3.1.13 Beispiel. In der Tabelle 3.2 können die verschiedenen Verteilungen und beding- ten Verteilungen ausgewertet werden. In der Zeile 70 bis u. 80 ist die Personengruppe (mit insgesamt 40 Personen zusammengefasst. In dieser Gruppe gibt es 20 Personen mit einer Körpergröÿe von 170-180. Für die bedingte Häugkeit gilt daher: die relative Häugkeit der Personen mit der Körpergröÿe 170-180 [cm] , unter der Bedingung, dass sie zur Gruppe der Personen mit dem Körpergewicht 70 bis 80 [kg] gehört ist 0,5 = (20 / 40). 3.2. Zusammenhangsanalyse Bei der Betrachtung von zwei Merkmalen ist von Interesse, ob die beiden Merkmale voneinander abhängig sind oder nicht. Gleich hier nochmals ein Hinweis oder eine Warnung: Bei der rein zahlenmäÿigen Betrachtung kann es vorkommen, dass zwei Merkmale eine Abhängigkeit zeigen, die es tatsächlich auf Grund von fachlich-sachlichen Gründen nicht gibt (Beispiel: scheinbare Abhängigkeit der Population von Störchen und der Anzahl der Geburten). Daher muss man hierbei stets den Hintergrund betrachten, um zu entscheiden, ob es tatsächlich eine Abhängigkeit gibt. Wie kann eine Abhängigkeit festgestellt werden. Abhängigkeit 3.2.1 Anmerkung. Gegeben sei zunächst die nachfolgende Häugkeitsverteilung (siehe Tabelle 3.3) für die zwei Merkmale x1 x2 x3 X und Y: y1 y2 y3 y4 2 4 10 4 20 2 8 24 16 50 6 8 6 10 30 10 20 40 30 100 Tabelle 3.3.: Beispiel Häugkeitsverteilung Wie hängen die beiden Merkmale voneinander ab? Sind die beiden Merkmale unabhängig oder abhängig? Dazu wird die Merkmales Merkmal Y X für die verschiedenen Ausprägungen von xj (beziehungsweise yk ) wird die X ) betrachtet (siehe Tabelle 3.4). Merkmalsausprägung Y bedingte Verteilung der relativen Häugkeiten des für die verschiedenen Ausprägungen von (beziehungsweise Version 6.0 - 019 24.06.2017 Y X und entsprechend die für das bestimmt, das heiÿt für jede relative Verteilung von Merkmal 65 3.2. Zusammenhangsanalyse x1 x2 x3 y1 y2 y3 y4 0,1 0,2 0,5 0,2 1,0 0,04 0,16 0,48 0,32 1,0 0,2 0,27 0,2 0,33 1,0 Tabelle 3.4.: Bedingte Verteilung von x1 x2 x3 Y y1 y2 y3 y4 0,2 0,2 0,25 0,13 0,2 0,4 0,6 0,54 0,6 0,4 0,15 0,33 1,0 1,0 1,0 1,0 (links) beziehungsweise von X (rechts) Die bedingte Verteilung der relativen Häugkeiten sind verschieden. Die bedingte Verteilung von X hängt davon ab, welche Ausprägung das Merkmal Y annimmt und um- gekehrt. Man sagt, die beiden Merkmale hängen voneinander ab, das heiÿt, die relative Häugkeit von Y X (beziehungsweise (beziehungsweise X) 3.2.2 Anmerkung. Y ) hängt davon ab, welche konkrete Ausprägung von herangezogen wird. Sei nun die Tabelle 3.5 gegeben, eine zwei-dimensionale Häug- keitsverteilung für die zwei Merkmale x1 x2 x3 X und Y. y1 y2 y3 2 5 3 10 6 15 9 30 4 10 6 20 12 30 18 60 Tabelle 3.5.: Beispiel Häugkeitsverteilung Die bedingten Verteilungen nach y1 x1 x2 x3 y2 Y beziehungsweise y3 0,2 0,5 0,3 1,0 0,2 0,5 0,3 1,0 0,2 0,5 0,3 1,0 Tabelle 3.6.: Bedingte Verteilung von sind in den Tabellen 3.6. x1 x2 x3 Y y1 y2 y3 0,17 0,17 0,17 0,5 0,5 0,5 0,33 0,33 0,33 1,0 1,0 1,0 (links) beziehungsweise von X (rechts) Y ) hängen nicht davon ab, welche Ausprägungen das andere Merkmal Y (beziehungsweise X ) annimmt, das heiÿt die relative Häugkeit einer Merkmalsausprägung von xj (beziehungsweise yk ) hängt nicht davon Die beiden Verteilungen für 66 X X (beziehungsweise für Version 6.0 - 019 24.06.2017 Kapitel 3. Bivariate Daten ab, welche konkrete Merkmalsausprägung von Merkmale X und Y Y (beziehungsweise X) gewählt wird. Die sind voneinander unabhängig. 3.2.3 Denition (abhängig, unabhängig). Bei abhängigen Merkmalen hängen die bedingten Verteilungen der relativen Häugkeiten eines Merkmales davon ab, welche Ausprägung das andere Merkmal annimmt. Bei unabhängigen Merkmalen stimmen alle bedingten Verteilungen der relativen Häugkeiten eines Merkmales überein. Denition. Gegeben sei die zwei-dimensionale Häugkeitsverteilung der beiden Merk- male X und Y. Stimmen alle bedingten Verteilungen der relativen Häugkeiten überein, das heiÿt es gilt f (xj |yk ) = f (xj |yl ) für alle k,l=1,. . . ,q und für alle j=1,. . . ,m oder f (yk |xj ) = f (yk |xh ) für alle j,h=1,. . . ,m und für alle k=1,. . . ,q, dann heiÿen X und Y unabhängig, empirisch unabhängig oder statistisch unabhängig, andernfalls heiÿen sie empirisch abhängig oder statistisch abhängig. Für unabhängige Merkmale sind nicht nur alle bedingten Verteilungen eines Merkmales gleich, sondern sie stimmen mit der entsprechenden Randverteilung überein. Es gelten somit f (xj |yk ) = f (xj ) für k=1,. . . ,q und j=1,. . . ,m , sowie f (yk |xj ) = f (yk ) für j=1,. . . ,m und k=1,. . . ,q. 3.2.4 Satz. Aus der Denition der bedingten relativen Häugkeiten f (xj |yk ) = f (xj ;yk ) f (yk ) (3.5) folgt dann f (xj ) = f (xj ;yk ) f (yk ) (3.6) und damit f (xj )f (yk ) = f (xj ; yk ) . (3.7) Satz. Die relative Häugkeit für das gemeinsame Auftreten der Ausprägungen xj und der Merkmale X und Y stimmt bei unabhängigen Merkmalen mit dem Produkt der entsprechenden relativen Häugkeiten der Randverteilungen überein: yk f (xj ; yk ) = f (xj )f (yk ) (3.8) Für die absoluten Häugkeiten gilt: h(xj ; yk ) = 1 n h(xj )h(yk ) (3.9) Das bedeutet, dass man bei unabhängigen Merkmalen die relativen Häugkeiten der zwei-dimensionalen Verteilung aus den ein-dimensionalen Verteilungen berechnen kann. Version 6.0 - 019 24.06.2017 67 3.2. Zusammenhangsanalyse Parameter zwei-dimensionaler Verteilungen 3.2.5 Denition (Kovarianz). Bei einer zwei-dimensionalen Verteilung können für die Randverteilungen und für die bedingten Verteilungen die Lage- und Streuungsparameter bestimmt werden. Dies sind jeweils Berechnungen für den ein-dimensionalen Fall. Diese können problemlos durchgeführt werden. Für die zwei-dimensionale Verteilung gibt es einen speziellen Parameter, der die beiden Merkmale miteinander verbindet - die Kovarianz. Sie ist die Summe über die Produkte der Dierenzen der Beobachtungen zu den Mittelwerten. Denition. Gegeben seien die beiden gemeinsam auftretenden und metrisch messbaren Merkmale X und Y mit den arithmetischen Mitteln x̄ und ȳ. Die Kovarianz der zweidimensionalen Häugkeitsverteilung ist wie folgt deniert: a) Für Paare von Beobachtungen (xi ; yi ) (i=1,. . . ,n): n sXY = 1X (xi − x̄)(yi − ȳ) n (3.10) i=1 b) Für die zwei-dimensionale Häugkeitsverteilung mit den absoluten Häugkeiten h(xj ; yk ) beziehungsweise den relativen Häugkeiten f (xj ; yk ) j = 1, . . . , m ; k = 1, . . . , q): m sXY = q 1 XX (xj − x̄)(yk − ȳ)h(xj ; yk ) n (3.11) j=1 k=1 beziehungsweise sXY = q m X X (xj − x̄)(yk − ȳ)f (xj ; yk ) . (3.12) j=1 k=1 Manchmal wird die Kovarianz auch mit 3.2.6 Beispiel. Es ist x̄ = 4 und 3.2.7 Satz. 68 COV (X, Y ) bezeichnet. Gegeben sei die zwei-dimensionale Verteilung (siehe Tabelle 3.7). ȳ = 2. Für die Kovarianz ergibt sich sXY = −0, 08. Die Berechnung der Kovarianz lässt sich vereinfachen, denn mit der obigen Version 6.0 - 019 24.06.2017 Kapitel 3. Bivariate Daten y1 = 1 y2 = 2 y3 = 3 y4 = 4 3 9 2 1 15 8 7 2 3 20 4 9 1 1 15 15 25 5 5 50 x1 = 2 x2 = 4 x3 = 6 Tabelle 3.7.: Beispiel zwei-dimensionale Verteilung Formel sind viele Dierenzen zu den Mittelwerten x und y zu bestimmen: n sXY = 1X (xi − x̄)(yi − ȳ) n (3.13) i=1 n 1X = (xi yi − xi ȳ − x̄yi + x̄ȳ) n i=1 n n n 1X 1X 1X xi yi − ȳ xi − x̄ yi + x̄ȳ = n n n i=1 i=1 i=1 n 1X xi yi − x̄ȳ − x̄ȳ + x̄ȳ = n i=1 n 1X = xi yi − x̄ȳ n i=1 Satz. Für die Berechnung der Kovarianz bei zwei gemeinsam auftretenden, metrisch messbaren Merkmalen X und Y mit den arithmetischen Mitteln x̄ und ȳ ergeben sich folgende vereinfachte Formeln zur Berechnung: n sXY = 1X xi yi − x̄ȳ n (3.14) i=1 beziehungsweise m sXY = q 1 XX xj yk h(xj ; yk ) − x̄ȳ n (3.15) j=1 k=1 und sXY = q m X X xj yk f (xj ; yk ) − x̄ȳ . (3.16) j=1 k=1 Version 6.0 - 019 24.06.2017 69 3.3. Regressionsrechnung 3.2.8 Anmerkung. Die Varianz ist ein Maÿ für die Streuung oder Variabilität eines einzelnen, metrisch messbaren Merkmales, die Kovarianz ist ein Maÿ für die gemeinsame Variabilität zweier Merkmale. Haben zwei Merkmale keine Abhängigkeit, das heiÿt gibt es keinen Zusammenhang zwischen den Merkmalen 3.2.9 Denition (Korrelationskoezient). X und Y, dann ist sXY = 0. Die Kovarianz ist jedoch nicht normiert. Durch die Berücksichtigung der Standardabweichungen der Merkmale sich eine weitere Kennzahl, die nur Werte zwischen −1 und 1 X und Y ergibt einnimmt. Denition. Gegeben sei die gemeinsame Verteilung zweier metrisch messbarer Merkmale X und Y , mit der Kovarianz sXY und den Standardabweichung sX und sY . Der Wert rXY = sXY sX · sY (3.17) heiÿt Korrelationskoezient und ist ein Maÿ für die Ausgeprägtheit des Zusammenhangs von X und Y . Es gilt −1 ≤ rXY ≤ 1. Sind die Merkmale unabhängig, dann gilt rXY = 0. Liegen alle Beobachtungspunkte auf einer Geraden, das heiÿt haben sie einen engen Zusammenhang, so gilt rXY = 1 oder rXY = −1. 3.3. Regressionsrechnung 3.3.1 Anmerkung. Bei der Untersuchung von zwei Merkmalen X und Y, die von- einander abhängig sind, ist der weitere Untersuchungsgegenstand die Frage, wie diese Abhängigkeit aussieht. Dazu wird eine Funktion berechnet, welche die Abhängigkeit der beiden Merkmale darstellt. Die Existenz einer statistischen Abhängigkeit ergibt sich aus einem sachlichen Zusammenhang. Ohne eine Kenntnis beziehungsweise Analyse der sachlich-inhaltlichen Hintergründe eines Problems ist es nicht möglich, die Frage des Zusammenhangs von Merkmalen zu erörtern. Sonst werden Zusammenhänge berechnet, die sachlich nicht gerechtfertigt sind. 3.3.2 Denition (Regressionsfunktion). metrisch messbaren Merkmale X und Y Es wird die gemeinsame Verteilung zweier betrachtet, die voneinander abhängig sind. Bei der Regressionsrechnung ist eine Funktion gesucht, die möglichst genau die Beziehung zwischen X und Y beschreibt. Dazu wird eine möglichst einfache Funktion gesucht, die den Zusammenhang beschreibt. Durch Regressionsfunktion einem beobachteten achteten y -Werte x-Wert ŷ ŷ = g(x) wird dabei symbolisiert, dass die nicht den oder die zugehörigen beob- zuordnet, sondern einen auf der Regressionsfunktion liegenden Wert ŷ . 70 Version 6.0 - 019 24.06.2017 Kapitel 3. Bivariate Daten Denition. Gegeben sei die zwei-dimensionale Verteilung der metrisch messbaren, statistisch abhängigen Merkmale X und Y . Eine Funktion ŷ = g(x), welche die Tendenz oder den durchschnittlichen Verlauf der Abhängigkeit des Merkmales Y vom Merkmal X beschreibt, heiÿt y-x-Regressionsfunktion oder manchmal auch nur kurz Regressionsfunktion genannt. 3.3.3 Anmerkung. Der Typ der Regressionsfunktion kann verschiedene Formen an- nehmen. Für die Bestimmung der Regressionsfunktion wird zuerst festgelegt, welche Art der Zusammenhang ist. Dies legt fest, ob der Zusammenhang zwischen den quantitativen Merkmalen durch eine • Gerade: • Parabel: • Potenzfunktion: • Exponentialfunktion: • logistische Funktion: • oder eine andere Funktion y = a + bx y = a + bx + cx2 y = axb y = abx y= (b > 0) k 1+ea+bx (b < 0) bestimmt ist. 3.3.4 Denition (Methode der kleinsten Quadrate). Die Bestimmung der Para- meter der Regressionsfunktion geschieht in den meisten Fällen nach dem Kriterium der kleinsten Quadrate (KQ-Kriterium). Denition. Die Koezienten einer Regressionsfunktion ŷ zur Beschreibung des Zusammenhangs zwischen den Merkmalen X und Y werden so bestimmt, dass die Summe der quatrierten Abweichungen der Beobachtungen yi (i = P 1, . . . , n) von den zugehörigen Werten auf der Regressionsfunktion ŷi = g(xi ), also ni=1 (yi − ŷi )2 , zu einem Minimum wird. n X (yi − ŷi )2 = min = g(x) (3.18) i=1 Die so bestimmte Regressionsfunktion heiÿt Regressionsfunktion nach der Methode der kleinsten Quadrate oder kurz KQ-Regressionsfunktion Hier werden jedoch nur lineare Funktionen berechnet. Version 6.0 - 019 24.06.2017 71 3.3. Regressionsrechnung 3.3.5 Anmerkung. Bei der Berechnung einer linearen y-x-Regressionsfunktion ist der ŷ = a + bx. Nach der Methode der a und b so zu bestimmen, dass die Summe der Quadrate der Abweichungen der y-Koordinaten yi der beobachteten Wertepaare (xi ; yi ) von der durch die Regressionsfunktion bestimmte Koordinaten ŷi = a + bxi ein Minimum wird. Der Abstand der Punkte zur Geraden, das heiÿt parallel zur y-Achse. Bei n Ausgangspunkt eine Regressionsfunktion der Gestalt Kleinsten Quadrate sind die Koezienten Wertepaaren ergibt sich die Funktion n n X X 2 S(a, b) = (yi − ŷi ) = (yi − a − bxi )2 i=1 mit den Unbekannten a b für die S(a, b) ein und stimmen, dass die Funktion (3.19) i=1 Summe. Die Aufgabe ist nun a und b so zu be- Minimum annimmt. Eine notwendige Bedingung für das Minimum ist das Verschwinden der partiellen Ableitungen erster Ordnung von S(a, b) nach a und b. Für die partiellen Ableitungen ergeben sich: n X ∂S(a, b) = 2(yi − a − bxi )(−1) ∂a (3.20) i=1 und n X ∂S(a, b) = 2(yi − a − bxi )(−xi ) ∂b . (3.21) i=1 Diese Ableitungen werden Null gesetzt und man erhält die linearen KQ-Regressionsfunktion Normalgleichungen einer ŷ = a + bx: n X 1. Normalgleichung: yi = na + b i=1 2. Normalgleichung: n X i=1 x i yi = a n X xi (3.22) i=1 n X i=1 xi + b n X x2i (3.23) i=1 Dieses System der Normalgleichungen kann man nach den Regressionskoezienten a und b auösen, denn die Koordinaten (xi , yi ) sind bekannt, die einzig Unbekannten sind a und b. Der so gefundene einzige stationäre Punkt ist ein absolutes Minimum der Funktion. Die partiellen Ableitungen zweiter Ordnung müssen dazu nicht ausgewertet und überprüft werden. 72 Version 6.0 - 019 24.06.2017 Kapitel 3. Bivariate Daten 3.3.6 Satz. Die Lösung des oben gegebenen linearen Gleichungssystem für a und b ergibt die Lösung für die Regressionsgerade. Satz. Für die lineare KQ-Regressionsgerade ŷ zienten a und b berechnet werden mittels: Pn = a + bx können die Regressionskoef- Pn Pn P yi − xi ni=1 xi yi i=1 i=1 P P n ni=1 x2i − ( ni=1 xi )2 2 i=1 xi a= b= (3.24) P Pn Pn xi ni=1 yi xi yi − i=1 i=1 P P n ni=1 x2i − ( ni=1 xi )2 n Aus der 1. Normalgleichung ergibt sich, dass Regressionsfunktion durch den Punkt (x̄; ȳ), ȳ = a + bx̄ (3.25) ist, dass somit die lineare die Koordinaten der Mittelwerte, verläuft. Erweitert man die Quotienten in den Formeln zur Bestimmung der Regressionskoezienten mit 1 , so erhält man für die Koezienten a und n2 P 2 P xi xi yi ȳ − x̄ n a= n s2X b= 3.3.7 Anmerkung. 1 n P b: (3.26) xi yi − x̄ȳ COV (X, Y ) = 2 sX s2X Durch Vertauschung der Rollen von x (3.27) und y erhält man ebenso ei- ne Regressionsfunktion, eine x-y-Regressionsfunktion nach dem Kriterium der Kleinsten Quadrate x̂ = a0 + b0 y . Hierzu wird eine Funktion x̂ = a0 + b0 y untersucht, mit dem Ab- stand parallel zur x-Achse. Analog zu den Berechnungen für die y-x-Regressionsfunktion erhält man dann: Pn Pn P Pn yi ni=1 xi yi xi − i=1 i=1 P P n ni=1 yi2 − ( ni=1 yi )2 2 i=1 yi 0 a = 0 b = n Pn Pn P xi ni=1 yi i=1 P ( ni=1 yi )2 xy − i=1 Pni i 2 n i=1 yi − (3.28) (3.29) Im Regelfall (auÿer wenn alle Punkte auf einer Geraden liegen), stimmen die y-x- und die x-y-Regressionsgerade nicht überein. Sie schneiden sich jedoch im Punkt (x̄ | ȳ). Es ist auch zu beachten, dass die x-y-Regressionsfunktion nicht die mathematische Umkehrfunktion der y-x-Regressionsfunktion ist! Version 6.0 - 019 24.06.2017 73 3.3. Regressionsrechnung 3.3.8 Beispiel. Gegeben sind die folgenden Beobachtungen xi yi 1 2 3 4 4 5 6 7 9 2 3 5 4 6 4 8 7 8 Für die Berechnung der Koezienten werden die benötigten Daten in Form einer Tabelle zusammen gestellt (siehe Tabelle 3.8). xi yi x2i xi yi yi2 1 2 1 2 4 2 3 4 6 9 3 5 9 15 25 4 4 16 16 16 4 6 16 24 36 5 4 25 20 16 6 8 36 48 64 7 7 49 49 49 9 8 81 72 64 41 47 237 252 283 Tabelle 3.8.: Tabelle für Beispiel 3.3.8 Mit den Summen der Spalten ergeben sich die nachfolgenden Werte. Dabei wird teilweise zur Vereinfachung des Schreibens die Grenzen der Summation bei den Summationszeichen P weggelassen. Das heiÿt es steht kurz P statt Pn i=1 . n=9 (3.30) 1X 41 xi = = 4, 5556 x̄ = n 9 (3.31) n i=1 n s2X = 1X 2 1 41 452 xi − x̄2 = 237 − ( )2 = = 5, 5802 n 9 9 81 (3.32) i=1 n ȳ = 1X 47 yi = = 5, 2222 n 9 (3.33) i=1 n s2Y 1X 2 1 47 338 = yi − ȳ 2 = 283 − ( )2 = = 4, 1728 n 9 9 81 (3.34) i=1 74 Version 6.0 - 019 24.06.2017 Kapitel 3. Bivariate Daten n sXY = 1X xi yi − x̄ȳ n (3.35) i=1 1 41 47 341 = 252 − · = = 4, 2099 9 9 9 81 P P P x2i yi − x xy P 2 Pi 2 i i a= n xi − ( xi ) 237 · 47 − 41 · 252 807 = = = 1, 7854 9 · 237 − 412 452 P P P P xi yi − x y P 2 Pi 2 i b= n xi − ( xi ) 9 · 252 − 41 · 47 341 = = = 0, 7544 9 · 237 − 412 452 n Die y-x-Regressionsgerade lautet somit (3.37) ŷ = 1, 7854 + 0, 7544x. P P P yi2 xi − yi xi yi P 2 P n yi − ( yi )2 −241 283 · 41 − 47 · 252 = = −0, 7130 = 2 9 · 283 − 47 338 a0 = (3.36) P P P P xy − y xi Pi i2 Pi n yi − ( yi ) 2 341 9 · 252 − 41 · 47 = = 1, 0089 = 2 9 · 283 − 47 338 b0 = n (3.38) (3.39) x̂ = y = 0, 7067 + 0, 9912x̂. Die x-y-Regressionsgerade (Vertauschung der Rollen von x und y) lautet somit −0, 7130 + 1, 0089y oder (umgestellt auf die übliche Form) Für den Korrelationskoezienten gilt rXY = sXY 341 √ = √ = 0, 8724 sX · sY 452 338 (3.40) 3.4. Aufgaben 3.4.1 Aufgabe. Gegeben sei die zwei-dimensionale Häugkeitstabelle, siehe Tabelle 3.9. Bestimmen Sie, ob die beiden Merkmale abhängig oder unabhängig sind. Version 6.0 - 019 24.06.2017 75 3.4. Aufgaben x1 x2 x3 y1 y2 y3 4 6 10 5 7 8 11 7 2 Tabelle 3.9.: Aufgabe zwei-dimensionale Häugkeitsverteilung x1 x2 x3 y1 y2 y3 y4 20 12 8 4 10 6 4 2 5 3 2 1 Tabelle 3.10.: Aufgabe zwei-dimensionale Häugkeitsverteilung 3.4.2 Aufgabe. Gegeben sei die zwei-dimensionale Häugkeitstabelle, siehe Tabelle 3.10. Bestimmen Sie, ob die beiden Merkmale abhängig oder unabhängig sind. 3.4.3 Aufgabe. Gegeben sind die unabhängigen Merkmale X und Y mit den Vertei- lungen: xj h(xj ) yk h(yk ) x1 x2 x3 8 40 16 y1 y2 y3 y4 8 32 16 8 Bestimmen Sie die zwei-dimensionale Verteilung der absoluten Häugkeit. 3.4.4 Aufgabe. Für die Merkmale xi yi X und Y wurden die folgenden Beobachtungen 2 2 4 4 5 6 6 8 5 7 4 6 4,5 3 5 3 ermittelt. Berechnen Sie eine lineare KQ-Regressionsfunktion ŷ = a + bx. Zeichnen Sie die Datenpunkte und die Regressionsgerade in eine gemeinsame Zeichnung. Bestimmen Sie den Korrelationskoezienten. 3.4.5 Aufgabe. Gegeben sind die unabhängigen Merkmale X und Y mit den Vertei- lungen: 76 Version 6.0 - 019 24.06.2017 Kapitel 3. Bivariate Daten xj h(xj ) x1 x2 x3 x4 24 40 72 16 yk h(yk ) y1 y2 y3 19 76 57 Bestimmen Sie die zwei-dimensionale Verteilung der absoluten Häugkeit. 3.4.6 Aufgabe. Gegeben sind die folgenden Beobachtungen xi yi 1 2 3 4 6 7 8 4 4 3 6 5 9 8 Berechnen Sie die Regressionsgerade. Zeichnen Sie die Punkte und die Gerade in ein Diagramm. Berechnen Sie den Korrelationskoezienten. 3.4.7 Aufgabe. Gegeben sind die folgenden Beobachtungen xi yi 1 3 5 7 7 6 5 6 6 8 Berechnen Sie die (y-x-)Regressionsgerade. Zeichnen Sie die Punkte und die Gerade in ein Diagramm. Berechnen Sie den Korrelationskoezienten. 3.4.8 Aufgabe. Gegeben sind die folgenden Beobachtungen (xi ; yi ): (0;0), (1;1), (2;4), (3;9) und (4;16). Berechnen Sie die Regressionsgerade und den Korrelationskoezienten. Zeichnen Sie die Punkte und die Regressionsgerade in ein Diagramm. 3.4.9 Aufgabe. Gegeben seien die folgenden Beobachtungswerte (xi ; yi ): (1;3), (2;4), (3;7), (5;6), (4;6), (6;5), (7;9) und (8;8). Berechnen Sie die Regressionsgerade nach der Methode der Kleinsten-Quadrate. Zeichnen Sie die Punkte und die Regressionsgerade in ein Diagramm ein. Bestimmen Sie die Kovarianz sXY und den Korrelationskoezienten rXY . 3.4.10 Aufgabe. Der jährliche Umsatz einer Firma hat in den letzten Jahren folgende Entwicklung durchgeführt (Angaben jeweils in Mio. EURO): Jahr Umsatz 1997 1998 1999 2000 2001 2002 4,7 5,6 6,2 7,4 7,6 8,9 Die Firmenleitung geht davon aus, dass sich der Trend für den Umsatz in den nächsten Jahren nicht verändert. Bestimmen Sie die Regressionsgeraden nach der Methode der Kleinsten-Quadrate. Bestimmen Sie eine Prognose für den Umsatz für die Jahre 2003, 2004 und 2008. Version 6.0 - 019 24.06.2017 77 3.5. Lösungen 3.5. Lösungen 3.5.1 Lösung. zu Aufgabe 3.4.1 Ermittlung der relativen Häugkeiten des Merkmals bei xiertem Merkmal Y X: Die relativen Häugkeiten sind unterschiedlich, daher sind die Merkmale X und Y ab- hängig. x1 x2 x3 y1 y2 y3 0,20 0,30 0,50 1,00 0,25 0,35 0,40 1,00 0,55 0,35 0,10 1,00 3.5.2 Lösung. hungsweise X zu Aufgabe 3.4.2 Ermittlung der relativen Häugkeiten von bei xem X beziehungsweise x1 x2 x3 y2 y3 y4 0,45 0,27 0,18 0,09 1,00 0,45 0,27 0,18 0,09 1,00 0,45 0,27 0,18 0,09 1,00 Die relativen Häugkeiten von Merkmal von Y 3.5.3 Lösung. y1 x1 x2 x3 h(yk ) X y1 y2 y3 y4 0,57 0,57 0,57 0,57 0,29 0,29 0,29 0,29 0,14 0,14 0,14 0,14 1,00 1,00 1,00 1,00 X beziehungsweise Y sind unabhängig davon, welches xiert wird. Daher sind die Merkmale X und Y unabhängig. zu Aufgabe 3.4.3 y2 y3 y4 h(xj ) 1 4 2 1 8 5 20 10 5 40 2 8 4 2 16 8 32 16 8 64 3.5.4 Lösung. 78 oder bezie- Y: y1 x1 x2 x3 Y zu Aufgabe 3.4.4 Nachfolgend das Tableau für die Berechnung der Werte Version 6.0 - 019 24.06.2017 Kapitel 3. Bivariate Daten i xi yi x2i x i yi yi2 1 2 5 4 10 25 2 2 7 4 14 49 3 4 4 16 16 16 4 4 6 16 24 36 5 5 4,5 25 22,5 20,25 6 6 3 36 18 9 7 6 5 36 30 25 8 8 3 64 24 9 Σ 37 37,5 201 158,5 189,25 37 = 4, 625 8 201 − 4, 6252 = 3, 7344 = 8 p = 3, 7344 = 1, 9325 x= s2X sX 37, 5 = 4, 6875 8 189, 25 − 4, 68752 = 1, 6836 s2Y = 8 p sY = 1, 6836 = 1, 2975 y= 158, 5 − 4, 625 · 4, 6875 8 = −1, 8672 −1, 8672 = = −0.7447 1, 9325 · 1, 2975 sXY = rXY ŷ = a + bx Pn P Pn 2 xi ni=1 xi yi 201 · 37, 5 − 37 · 158, 5 i=1 i=1 xi Pi=1 yi − Pn = =7 a= n 2 2 8 · 201 − 372 n i=1 xi − ( i=1 xi ) Pn P P xi ni=1 yi n ni=1 xi yi − 8 · 158, 5 − 37 · 37, 5 i=1 Pn Pn = = −0, 5 b= 2 2 8 · 201 − 372 n i=1 xi − ( i=1 xi ) Regressionsgerade Pn Regressionsgerade ŷ = 7 − 0, 5 · x Version 6.0 - 019 24.06.2017 79 3.5. Lösungen 6 H q HH H q HH H HH q H q HH q q H HH H q HH q H H H - 3.5.5 Lösung. zu Aufgabe 3.4.5 Es ergibt sich das nachfolgende Tableau yi \xj y1 y2 y3 x1 x2 x3 x4 Summe 3 5 9 2 19 12 20 36 8 76 9 15 27 6 57 Summe 24 40 72 16 152 3.5.6 Lösung. zu Aufgabe 3.4.6 ŷ = 2, 4623 + 0, 7021 · x rXY = 0, 8318 3.5.7 Lösung. zu Aufgabe 3.4.7 ŷ = 5, 1176 + 0, 2353 · x rXY = 0, 5601 80 Version 6.0 - 019 24.06.2017 Kapitel 3. Bivariate Daten 3.5.8 Lösung. zu Aufgabe 3.4.8 i xi yi x2i x i yi yi2 1 0 0 0 0 0 2 1 1 1 1 1 3 2 4 4 8 16 4 3 9 9 27 81 5 4 16 16 64 256 Σ 10 30 30 100 354 Regressionsgerade 6 q ŷ = a + bx 30 · 30 − 10 · 100 = −2 5 · 30 − 102 5 · 100 − 10 · 30 b= =4 5 · 30 − 102 q a= Regressionsgerade 3.5.9 Lösung. q q q ŷ = −2 + 4 · x - zu Aufgabe 3.4.9 i xi yi x2i x i yi 1 1 3 1 3 9 2 2 4 4 8 16 3 3 7 9 21 49 4 5 6 25 30 36 5 4 6 16 24 36 6 6 5 36 30 25 7 7 9 49 63 81 8 8 8 64 64 64 Summe 36 48 204 243 316 Version 6.0 - 019 24.06.2017 yi2 81 3.5. Lösungen 1X 36 9 xi = = = 4, 5 n 8 2 X 1 204 9 s2X = x2i − x2 = − ( )2 n 8 2 X 1 316 s2Y = yi2 − y 2 = − 62 = n 8 x= 1X 48 yi = =6 n 8 r p 21 21 2 = = 5, 25 sX = sx = = 2, 29 4 4 r q 7 7 = 3, 5 sY = s2Y = = 1, 87 2 2 y= P P P 204 · 48 − 36 · 243 x2i 1044 87 y − x i x i yi P i2 P = = = = 3, 11 8 · 204 − 36 · 36 336 28 n xi − ( xi )2 P P P 8 · 243 − 36 · 48 216 9 n · xi yi − xi yi P 2 P 2 = = = = 0, 64 b= 8 · 204 − 36 · 36 336 14 n xi − ( xi ) P a= Die Regressionsgerade hat die Gleichung ŷ = 3, 11 + 0, 64 · x. 1X 27 243 9 xi yi − x · y = − ·6= = 3, 38 n 8 2 8 sXY 3, 38 = = = 0, 79 sX sY 2, 29 · 1, 87 sXY = rXY 3.5.10 Lösung. zu Aufgabe 3.4.10 Jahr ti xi t2i ti xi 1997 1 4,7 1 4,7 1998 2 5,6 4 11,2 1999 3 6,2 9 18,6 2000 4 7,4 16 29,6 2001 5 7,6 25 38,0 2002 6 8,9 36 53,4 Summe 21 40,4 91 155,5 P P P 91 · 40, 4 − 21 · 155, 5 t2i x − t i t i xi P 2i P = = 3, 913 6 · 91 − 21 · 21 n ti − ( ti )2 P P P n · ti xi − ti xi 6 · 155, 5 − 21 · 40, 4 P 2 P 2 = b= = 0, 806 6 · 91 − 21 · 21 n ti − ( ti ) P a= Die Regressionsgerade hat die Gleichung 2003: 2004: 2008: 82 x̂ = 3, 913 + 0, 806 · ti . x̂ = 3, 913 + 0, 806 · 7 = 9,555. x̂ = 3, 913 + 0, 806 · 8 = 10,361. x̂ = 3, 913 + 0, 806 · 12 =13,585 . Version 6.0 - 019 24.06.2017 Kapitel 4. Zeitreihen In diesem Kapitel werden spezielle bivariate Daten betrachtet. Daten bei der die eine Variable die Zeit ist. Zuerst (Abschnitt 4.1) werden grundlegende Begrie von Zeitreihen erläutert. Im anschlieÿenden Abschnitt 4.2 wird die Bestandsanalyse beleuchtet. Im abschlieÿenden Abschnitt 4.3 werden Indexzahlen betrachtet. 4.1. Zeitreihen 4.1.1 Anmerkung. Die grundlegende Aufgabe der Zeitreihenanalyse ist die Beschrei- bung des Verlaufs der Beobachtungen eines Merkmales für verschiedene Zeitpunkte beziehungsweise Zeitintervalle. Betrachtet man beispielsweise den monatlichen Verbrauch von Strom in den letzten Jahren, so kann man zwei Eigenschaften erkennen. Zum einen gibt es eine periodische Schwankung, im Winter wird mehr Strom benötigt als im Sommer, zum anderen gibt es die langfristige Tendenz eines steigenden Bedarfs an Strom. Es gibt somit bei diesen Untersuchungen periodische beziehungsweise zyklische Schwankungen und eine langfristige Tendenz einer Zeitreihe, die als Trend bezeichnet wird. Es werden nun im weiteren untersucht, wie periodische Schwankungen erfasst und eliminiert können, um den Trend zu ermitteln. 4.1.2 Denition (Gleitender Durchschnitt). Für die Ermittlung des Trends be- steht zuerst die Aufgabe, die periodischen Schwankungen auszuschlieÿen. Das einfachste Verfahren hierzu ist die Bestimmung der Durchschnitt berechnet man aus jeweils gleitenden Durchschnitte. Beim gleitenden k unmittelbar aufeinander folgenden Werten der Zeitreihe das arithmetische Mittel und ordnet diesen Wert einem Zeitpunkt zu. Es werden somit stets k Werte für den Durchschnitt benötigt. Mit jedem neuen Wert wird nachlaufende gleitende Durchschnitte (für den Durchschnitt werden nur zurückliegende Werte berücksichtigt) betrachtet und nicht zentrierte gleitende Durchschnitte (für der älteste Wert aus der Ermittlung des Durchschnittes entfernt. Hier werden den jeweiligen Durchschnitt werden zurückliegende und zeitlich nachfolgende Werte berücksichtigt). Version 6.0 - 019 24.06.2017 83 4.1. Zeitreihen Denition. Gegeben seien T Werte xt ständen der Zeitpunkte. Der für t = k, . . . , T durch: x̄kt = Für t = 1, . . . , k − 1 (t = 1, . . . , T ) einer Zeitreihe mit gleichen Ab- gleitenden Durchschnitt k-ter-Ordnung ist deniert 1 1 (xt−(k−1) + xt−(k−2) + · · · + xt ) = k k t X xi . (4.1) i=t−(k−1) gibt es verschiedene Möglichkeiten. Es können keine Durchschnitte deniert werden oder jeweils t x̄kt 1 1X = (x1 + x2 + · · · + xt ) = xi . t t (4.2) i=1 4.1.3 Beispiel (Gleitender Durchschnitt 3. Ordnung). In der Zeitreihe, die in Ta- belle 4.1 gegeben ist, sind die gleitende Durchschnitte der 3. Ordnung berechnet. Für die ersten beiden Perioden ist kein gleitender Durchschnitt 3. Ordnung berechnet worden. Periode Wert 1 10 2 8 3 12 4 12 5 10 6 14 7 14 8 12 9 16 gleitender Durchschnitt 10+8+12 30 = 3 3 = 10,0 8+12+12 32 = 3 3 = 10,7 12+12+10 34 = 3 3 = 11,3 12+10+14 36 = 3 3 = 12,0 38 10+14+14 = 3 3 = 12,7 14+14+12 40 = 3 3 = 13,3 14+12+16 42 = 3 3 = 14,0 Tabelle 4.1.: Beispiel: gleitender Durchschnitt 3. Ordnung Es ist zu sehen, dass die Werte des gleitenden Durchschnittes einen linearen Verlauf haben. 4.1.4 Beispiel (Gleitender Durchschnitt 4. Ordnung). In der Zeitreihe, die in Ta- belle 4.2 deniert ist, sind die gleitenden Durchschnitte der 4. Ordnung berechnet. Für die ersten drei Perioden wurden keine gleitende Durchschnitte berechnet. Auch hier haben die gleitende Durchschnitte wieder einen linearen Verlauf. 84 Version 6.0 - 019 24.06.2017 Kapitel 4. Zeitreihen Periode Wert 1 4 2 7 3 5 4 3 5 6 6 9 7 7 8 5 gleitender Durchschnitt 4+7+5+3 4 7+5+3+6 4 5+3+6+9 4 3+6+9+7 4 6+9+7+5 4 = = = = = 19 4 21 4 23 4 25 4 27 4 = 4,75 = 5,25 = 5,75 = 6,25 = 6,75 Tabelle 4.2.: Beispiel: Gleitender Durchschnitt 4. Ordnung 4.1.5 Anmerkung. Für die Werte der gleitenden Durchschnitte kann damit eine Re- gressionsanalyse durchgeführt werden. Die Werte sind in der Regel nicht wie bei den gegebenen Beispielen mit einem einfachen linearen Zusammenhang gegeben. Damit kann dann der Trend berechnet werden. Bildet man die Zeitreihe aus den Dierenzen zwischen den Beobachtungswerten und den gleitenden Durchschnitten zu den entsprechenden Zeitpunkten, dann extrahiert man damit die saisonalen Schwankungen, die dann ebenfalls analysiert werden können. Der gleitende Durchschnitt wird beispielsweise bei Aktienkursen eingesetzt. Dort gibt es 20-Tagen-Linien, 30-Tages-Linien, 50-Tages-Linien, 100-Tages-Linien, 200-Tages-Linien und ähnliches. Die x-Tages-Linien sind gleitende Durchschnitte der Ordnung x. 4.2. Bestandsanalyse 4.2.1 Anmerkung. Eine Bestandsmasse ist eine statistische Masse, deren Einheiten für ein gewisses Zeitintervall zur Masse gehört. Zu jeder Bestandsmasse gehört eine da- Ereignismasse, nämlich die Zugänge und die Abgänge. Wird ein um Zugänge und Abgänge ergänzt, dann spricht man von Fort- zu korrespondierende Bestand fortlaufend schreibung. Beispiel für Bestände sind: • Teile in einem Lager, • Anzahl der Lizenzen eines Programmes, die gleichzeitig im Netz aktiv sind. • Entwicklung der Bevölkerung einer Gemeinde. • Die Anzahl der Tiere auf einem Bauernhof. • Konzentration von Stickoxiden in der Atmosphäre. • Besucher eines Tages eines Schwimmbad. Version 6.0 - 019 24.06.2017 85 4.2. Bestandsanalyse • Der Bestand auf einem Konto. • Der Bestand auf einem Konto der Bilanz. 4.2.2 Denition (Bestandsmasse). Die Bestandsanalyse bezieht einen vorgegebenen Zeitraum. Der Anfangszeitpunkt wird mit wird mit tE tA sich immer auf und der Endzeitpunkt bezeichnet. Um zu untersuchen, wie sich der Bestand im Laufe der Zeit ver- ändert, wird der Zeitraum von tA bis tE in m Zeitintervalle unterteilt. Als Grenzen für diese Zeitintervalle setzt man die Zeitpunkte t0 = tA , t1 , ..., tm−1 , tm = tE . In der wei- teren Betrachtung wird davon ausgegangen, dass die Länge der Zeitintervalle identisch sind. Somit hat jedes Zeitintervall die (zeitliche) Länge von ∆t = tE −tA m . Als Bestand bezeichnet man die Anzahl (Häugkeit) der Einheiten zu einem bestimmten Zeitpunkt. Der Bestand zum Zeitpunkt bezeichnet. B0 heiÿt t beziehungsweise tj wird mit Bt beziehungsweise mit Anfangsbestand, Bm heiÿt Endbestand. Bj Denition (abgeschlossene und oene Bestandsmasse). Gilt für eine Bestandsmasse Bt = 0 für t ≤ t0 und für t ≥ tm , dann handelt es sich um eine im Zeitintervall (t0 ; tm ) abgeschlossene Bestandsmasse . Gilt Bt 6= 0 für mindestens ein t ≤ t0 oder t ≥ tm , dann liegt eine im Zeitintervall (t0 ; tm ) oene Bestandsmasse vor. Die Besucher eines Schwimmbades innerhalb eines Tages ist eine abgeschlossene Bestandsmasse, denn vor der Önung und nach Schluss bendet sich kein Besucher im Schwimmbad. Die Einwohner einer Gemeinde dagegen ist eine oene Bestandsmasse. 4.2.3 Denition (Verweildauer). Eine wichtige Kennzahl ist die Dauer, wie lang ein Teil im Bestand ist. Denition (Verweilsdauer). Wenn für eine Einheit der Bestandsmasse, der Zeitpunkt des Zugangs tz und der Zeitpunkt des Abgangs ta bekannt sind, dann heiÿt d = ta − tz die Verweildauer der Einheit. 4.2.4 Denition (Zugang, Abgang). Auch zu den Zu- und Abgängen können statis- tische Kennzahlen ermittelt werden. Denition. Die Anzahl der Einheiten, die zu einem Bestand im Zeitintervall von tj−1 bis tj hinzukommen, heiÿt Zugang zj . Die Anzahl der Einheiten um die ein Bestand im Zeitintervall von tj−1 bis tj verringert wird, heiÿt Abgang aj . 86 Version 6.0 - 019 24.06.2017 Kapitel 4. Zeitreihen Die Summe aller Zugänge zi (i = 1, . . . , j) von t0 bis tj heiÿt Zugangssumme Zj . Die Summe aller Abgänge ai (i = 1, . . . , j) von t0 bis tj heiÿt Abgangssumme Aj . Es gelten Zj = j X zi und Aj = i=1 j X ai (4.3) i=1 Bei einer geschlossenen Bestandsmasse ist die Anzahl der den Bestand durchlaufenden Einheiten gleich der Zugangs- oder der Abgangssumme. Diese Gesamtanzahl wird mit bezeichnet und es gilt Den Bestand Bj Zm = Am = n n. lässt sich mit damit berechnen: Bj = Bj−1 + zj − aj , 4.2.5 Anmerkung. Bj = B0 + Zj − Aj . (4.4) Wenn man sich den Lagerbestand betrachtet und die Zeitintervalle die Tage sind, dann ergibt sich die Frage, wann der Zugang und wann der Abgang durchgeführt wird. Wenn am Anfang 5 Teile vorhanden sind, ein Zugang von 10 Teilen und ein Abgang von ebenfalls 10 Teilen erfolgt, dann sind am Ende wieder 5 Teile vorhanden. Was ist jedoch, wenn der Abgang am morgen, der Zugang erst am Abend ist, dann hat man morgens ein Problem, denn der Bestand beträgt nur 5. Hier wird die Variante betrachtet, dass der Ab- und Zugang erst am Ende einer Periode wirksam ist. 4.2.6 Beispiel. Bei der Untersuchung der Veränderungen der Vorräte in einem Haushalt ergeben sich die in der Tabelle 4.3 dargestellten Veränderungen (Zugang und Abgang) der Bestände an Milchaschen. Die Tage, an denen es keine Bestandsveränderung gibt, sind nicht aufgeführt, für die Berechnung jedoch von Bedeutung. Der Anfangsbestand beträgt 10 Flaschen. Tag 0 3 Zugang Abgang Bestand 6 10 11 12 16 40 10 17 22 20 25 27 29 30 40 20 5 8 12 6 7 10 3 11 14 9 17 14 5 37 25 19 12 2 19 8 34 25 8 14 Tabelle 4.3.: Bestandsveränderungen Es liegt ein oener Bestand vor. 4.2.7 Denition (Zugangsrate, Abgangsrate). Neben den Informationen zum ge- samten Zu- und Abgang ist auch der durchschnittliche Zu- und Abgang von Interesse. Version 6.0 - 019 24.06.2017 87 4.2. Bestandsanalyse Denition. Das arithmetische Mittel der Zugänge zj beziehungsweise der Abgänge aj über alle Perioden hinweg heiÿt Zugangsrate z̄ beziehungsweise Abgangsrate ā: m z̄ = 1 X zi m und ā = i=1 m 1 X ai m (4.5) i=1 Es ist zu beachten, dass alle Zeitintervalle berücksichtigt werden, auch wenn in diesem Zeitintervall keine Bestandsveränderung vorkommt. 4.2.8 Beispiel (Fortsetzung Beispiel 4.2.6). Beim obigen Beispiel der Bestandsfüh- rung der Milchaschen, gibt es 30 Tage (Zeitintervalle). Somit ist sich eine Zugangssumme von z̄ = 120 30 = 4, 00 und ā = 116 30 m = 30. Es ergibt = 116. Damit sind Zm = 120. Die Abgangssumme Am = 3, 87. Das bedeutet, dass täglich durchschnittlich 4,00 Milchaschen hinzukommen und 3,87 Flaschen wegkommen. 4.2.9 Denition (Durchschnittsbestand). Der Bestand schwankt je Periode. Wie sieht der durchschnittliche Bestand aus? Denition. Werden alle Veränderungen vom Bestand zum Ende des Intervalls berücksichtigt, dann gilt für den Durchschnittsbestand m−1 1 X Bj . B̄ = m (4.6) j=0 Achtung: in dieser Summe ist die letzte Bestandssumme nicht enthalten, da gemäÿ der Festlegung die Bestandsveränderung erst zum Ende der Periode wirksam wird. 4.2.10 Denition (mittlere Verweildauer). Wie lange bendet sich ein Teil durch- schnittlich im Bestand? Denition. Für die mittlere Verweildauer d¯ gilt bei einer geschlossenen Bestands- masse, wobei n die Gesamtanzahl der Einheiten, das heiÿt sie Summe der Zugänge beziehungsweise die Summe der Abgänge, ist B̄(tm − t0 ) d¯ = n (4.7) und bei einer oenen Bestandsmasse 2B̄(tm − t0 ) d¯ = Am−1 + Zm−1 88 (4.8) Version 6.0 - 019 24.06.2017 Kapitel 4. Zeitreihen 4.2.11 Denition (Umschlagshäugkeit). Wie oft wird der Bestand umgeschlagen. Denition. Die Umschlagshäugkeit U eines Bestandes in einem Zeitintervall tm − entspricht der mittleren Anzahl von Erneuerungen des Bestandes und es gilt für eine geschlossene Bestandsmasse t0 U= n tm − t0 = ¯ B̄ d (4.9) und für eine oene Bestandsmasse U= tm − t0 Am−1 + Zm−1 = ¯ 2B̄ d 4.2.12 Beispiel (Fortsetzung Beispiel 4.2.6). Für den (4.10) obigen Lagerbestand an Milchaschen ergibt sich somit B̄ = 1 532 (10 + 10 + 10 + 5 + . . . + 25 + 25 + 8) = = 17, 73 30 30 (4.11) Da festgelegt wurde, dass die Veränderungen des Bestandes erst am Ende der jeweiligen Zeitintervalle aktiv werden, dann dürfen die Zu- und Abgänge der letzten Periode nicht berücksichtigt werden. Es gilt dann: d¯ = 2 532 1064 30 30 = = 5, 27 , 100 + 102 202 (4.12) also eine mittlere Verweildauer von 5,27 Tagen. Für das obige Beispiel der Milchaschen ergibt sich U= 100 + 102 = 5, 70 , 2 532 30 (4.13) also eine Umschlagshäugkeit von 5,7. Das bedeutet, dass der Bestand 5,7 mal gefüllt und wieder geleert wird. Die Parameter Zugangsrate, Abgangsrate, Durchschnittsbestand, mittlere Verweildauer und Umschlagshäugkeit sind wichtige Kenngröÿen für eine Bestandsanalyse. 4.2.13 Beispiel. Eine Firma verkauft ein Produkt A. Für einen Zeitraum von 10 Wo- chen werden die Veränderungen am Bestand untersucht (siehe Tabelle 4.4). Der Anfangsbestand des Produktes ist 150 (Produkt A). Es wird angenommen, dass die Veränderungen jeweils zum Ende des Intervalls wirksam werden. Für das Produkt A gilt: B̄ = 1 1370 (150 + 200 + · · · + 70) = = 137 10 10 Version 6.0 - 019 24.06.2017 (4.14) 89 4.2. Bestandsanalyse Woche 0 1 Zugang 3 4 5 6 7 8 9 10 150 Abgang Bestand 2 150 100 10 20 10 30 20 10 10 20 10 200 190 170 160 130 110 100 90 70 60 Tabelle 4.4.: Bestandsverlauf Produkt A Für die mittlere Verweildauer gilt 2 ∗ 137 ∗ 10 2B̄(tm − t0 ) = d¯ = = 7, 21 Am−1 + Zm−1 150 + 230 (4.15) Das heiÿt, dass ein Teil des Produkts eine mittlere Verweildauer im Lager von 7,21 Wochen hat. Für die Umschlagshäugkeit ergibt sich Am−1 + Zm−1 150 + 230 = = 1, 39 2 ∗ 137 2B̄ U= (4.16) Das heiÿt, dass das Lager in dem Zeitraum der 10 Wochen 1,39 mal umgeschlagen wird. 4.2.14 Beispiel. Eine Firma verkauft ein Produkt B. Für einen Zeitraum von 10 Wo- chen werden die Veränderungen am Bestand untersucht (siehe Tabelle 4.5). Der Anfangsbestand des Produktes ist 30 (Produkt B). Es wird angenommen, dass die Veränderungen jeweils zum Ende des Intervalls wirksam werden. Woche 0 Zugang Abgang Bestand 30 1 2 80 200 3 4 5 6 7 300 8 9 100 100 10 100 60 70 80 120 50 60 20 110 60 10 150 80 0 180 130 70 150 140 80 Tabelle 4.5.: Bestandsverlauf Produkt B Für das Produkt B gilt: B̄ = 1 940 (30 + 10 + · · · + 140) = = 94 10 10 (4.17) Für die mittlere Verweildauer gilt 2B̄(tm − t0 ) 2 ∗ 94 ∗ 10 d¯ = = = 1, 30 Am−1 + Zm−1 780 + 670 (4.18) Das heiÿt, dass ein Teil des Produkts eine mittlere Verweildauer im Lager von 1,30 Wochen hat. Für die Umschlagshäugkeit ergibt sich U= Am−1 + Zm−1 780 + 670 = = 7, 71 2 ∗ 94 2B̄ (4.19) Das heiÿt, dass das Lager in dem Zeitraum der 10 Wochen 7,71 mal umgeschlagen wird. 90 Version 6.0 - 019 24.06.2017 Kapitel 4. Zeitreihen 4.2.15 Anmerkung. Bei diesem Beispiel ist das Produkt A ein Langsamdreher, das heiÿt es gibt nicht so viel Bewegung beim Ersatz des Bestandes. Das Produkt B ist dagegen ein Schnelldreher, die Verweildauer im Lager ist nur kurz. 4.3. Indexzahlen Indexzahlen beschreiben die Entwicklung von Werten, die in Zeitreihen dargestellt sind. Bekannte Indizes sind der Verbraucherpreisindex (VPI), der die durchschnittliche Preisentwicklung darstellt, und der Aktienindex DAX (Deutschen Aktienindex). Dieser Abschnitt orientiert sich an Wewel 2011. Grundbegrie 4.3.1 Anmerkung. Voraussetzung für eine Indexberechnung ist eine Zeitreihe für die Daten der Beobachtungen eines Merkmals. Zu einem Zeitreihenwert yt zur Berichtspe- riode t und einem Zeitreihenwert y0 zur Basisperiode 0 gibt es eine Messzahl m0t = yt , y0 (4.20) welche das Verhältnis der Werte zwischen Berichtsperiode und Basisperiode beschreibt. 4.3.2 Beispiel (Energiepreisentwicklung). Ein Industriebetrieb bezieht Energielie- ferungen in Form von Öl, Gas und Elektrizität. Die Preise der Produkte für das Basisjahr 0 und für das Berichtsjahr i 1 t Energie Öl sind in der Tabelle 4.6 dargestellt. Preis Preis Basisjahr Berichtsjahr pi0 pit pit /pi0 0,12 [e/l] 0,30 [e/l] 2,50 0,06 [e/kWh] 0,75 3 0,28 [e/m ] 2 Gas 3 Elektrizität Preismesszahl 0,08 [e/kWh] 3 0,42 [e/m ] 1,50 Tabelle 4.6.: Energiepreisentwicklung Die Preismesszahlen bedeuten, dass der Ölpreis zwischen Basisjahr und Berichtsjahr um den Faktor 2,5, also um 150%, gestiegen ist, der Gaspreis um den Faktor 1,5 (plus 50%). Der Strompreis hat sich um den Faktor 0,75 verändert, ist also um 25% gesunken. 4.3.3 Denition (Indexzahl). Für die verschiedenen Produkte (i = 1, 2, 3) gibt es die verschiedenen Preismesszahlen mi0t = pit /p0t . Version 6.0 - 019 24.06.2017 91 4.3. Indexzahlen Denition. Eine Indexzahl (oder kurz Index) I0t ist ein gewichteter Mittelwert mit den Gewichten gi (i = 1, . . . , n) von gleichartigen Messzahlen mi0t , die sich auf verschiedene Güter i (i = 1, . . . , n), aber jeweils auf dieselbe Basisperiode 0 und dieselbe Berichtsperiode t beziehen I0t = n X gi mi0t . (4.21) i=1 4.3.4 Beispiel (Verbraucherpreisindex). Der Verbraucherpreisindex (VPI) ist ein Index für die Preisentwicklung in Deutschland. Hierzu werden die Preisveränderung für verschiedene Produkte und Dienstleistungen untersucht und ein Index berechnet. Weitere Informationen dazu ndet man bei Statistischen Bundesamt. (siehe https://www.destatis.de/DE/Meta/AbisZ/VPI.html) 4.3.5 Denition (Preisindex, Mengenindex, Wertindex, Umsatzindex). Bezüglich der Art des Index gibt es eine Unterscheidung bezüglich der Veränderungen, die betrachtet werden. Denition. Ein Preisindex beschreibt die durchschnittliche Preisentwicklung einer Gütergruppe. Ein Mengenindex beschreibt die durchschnittliche Mengenentwicklung einer Gütergruppe. Ein Wertindex oder Umsatzindex beschreibt die durchschnittliche Wert- beziehungsweise Umsatzentwicklung. Er beinhaltet somit Preis- und Mengenkomponenten. Indizes 4.3.6 Denition (Preisindex). Warenkorb mit Ein Preisindex Basisperiode 0 n Gütern, die P0t beschreibt Ein Preisindex basiert in der Regel auf einen festen mit einer festen Menge im Warenkorb enthalten sind. die Veränderung des Preises des Warenkorbs zwischen und Berichtsperiode t. Denition. Gegeben seien n Güter mit den festen Gütermengen qi (i = 1, . . . , n) im Warenkorb. Die Preise sind pi0 für die Basisperiode und pit für die Berichtsperiode für (i = 1, . . . , n). Daraus ergibt sich der Preisindex mittels der Preisindex-Formel Pn pit qi P P0t = ni=1 . i=1 p0t qi 92 (4.22) Version 6.0 - 019 24.06.2017 Kapitel 4. Zeitreihen In der Regel werden sich nicht nur Preise ändern, sondern auch der Warenkorb. Diese Anpassungen können berücksichtigt werden. 4.3.7 Denition (Preisindex nach Laspeyres und Preisindex nach Paasche). Preisindizes können verschieden deniert werden. Hier werden der Preisindex nach Laspeyres 1 und nach Paasche2 vorgestellt. Denition. Gegeben seien n Güter. Die Gütermenge in der Basisperiode 0 sei qi0 (i = 1, . . . , n). Die Preise sind pi0 für die Basisperiode und pit für die Berichtsperiode für (i = 1, . . . , n). Daraus ergibt sich der Preisindex nach Laspeyres auf Basis der Gütermengen zur Basisperiode L P0t Pn pit qi0 = Pni=1 . i=1 pi0 qi0 (4.23) Dies kann auch als gewichteter Mittelwert dargestellt werden L P0t = n X giL i=1 Der Preisindex Pn n X pit qi0 pit pit p q Pn i0 i0 . = = Pni=1 p q p pi0 p i=1 i0 i0 i0 i=1 i0 qi0 (4.24) i=1 nach Paasche basiert auf den Gütermengen zur Berichtsperiode P P0t Pn pit qit = Pni=1 . p i=1 i0 qit (4.25) Dies kann als gewichteter harmonischer Mittelwert dargestellt werden 1 = Pn P pit i=1 i=1 gi pi0 P P0t = Pn 1 pi0 Pnpit qit i=1 pit qit pit Pn pit qit = Pni=1 . p i=1 i0 qit 4.3.8 Beispiel (Energiepreisentwicklung (Fortsetzung Beispiel 4.3.2)). (4.26) In der Tabelle 4.7 sind Mengenveränderungen aufgeführt zwischen Basisperiode und Berichtsperiode aufgeführt. Die Preisänderungen sind in der Tabelle 4.6 dargestellt worden. Damit können die Preisindizes berechnet werden. Es gelten 0, 30 · 70.000 + 0, 42 · 10.000 + 0, 06 · 280.000 0, 12 · 70.000 + 0, 28 · 10.000 + 0, 08 · 280.000 42.000 = = 1, 25 33.600 L P0t = 1 2 (4.27) Ernst Louis Étienne Laspeyres (1834 - 1913), deutscher Ökonom Hermann Paasche (1851 - 1925), deutscher Ökonom Version 6.0 - 019 24.06.2017 93 4.3. Indexzahlen i Energie Menge Menge Basisjahr Berichtsjahr Mengenmesszahl qi0 qit qit /qi0 Öl 70.000 [l] 84.000 [l] 1,20 2 Gas 3 10.000 [m ] 3 24.000 [m ] 2,40 3 Elektrizität 280.000 [kWh] 420.000 [kWh] 1,50 1 Tabelle 4.7.: Energiemengenentwicklung und 0, 30 · 84.000 + 0, 42 · 24.000 + 0, 06 · 420.000 0, 12 · 84.000 + 0, 28 · 24.000 + 0, 08 · 420.000 60.480 = = 1, 20 . 50.400 P P0t = (4.28) Je nach verwendeter Indexvariante sind die Preise für Energie zwischen Basisperiode und Berichtsperiode um 25% oder 20% gestiegen. 4.3.9 Denition (Mengenindex). Ein Mengenindex ist ein gewichteter Mittelwerte von Mengenmesszahlen. Es wird die mengenmäÿige Veränderungen eines Warenkorbs betrachtet. Denition. Gegeben seien n Güter mit den festen Preisen pi (i = 1, . . . , n) im Warenkorb. Die Mengen sind qi0 für die Basisperiode und qit für die Berichtsperiode für i = 1, . . . , n. Daraus ergibt sich der Mengenindex mittels der Mengenindex-Formel Pn pi qit Q0t = Pni=1 . i=1 pi qi0 (4.29) 4.3.10 Denition (Mengenindex nach Laspeyres und Mengenindex nach Paasche). In der Regel werden sich nicht nur Preise ändern, sondern auch der Warenkorb. Diese Anpassungen können berücksichtigt werden. Denition. Gegeben seien n Güter. Die Preise in der Basisperiode 0 seien pi0 (i = Die Mengen sind qi0 für die Basisperiode und qit für die Berichtsperiode (i = Daraus ergibt sich der Mengenindex nach Laspeyres auf Basis der Preise zur Basisperiode 1, . . . , n). 1, . . . , n). QL 0t 94 Pn pi0 qit P . = ni=1 i=1 pi0 qi0 (4.30) Version 6.0 - 019 24.06.2017 Kapitel 4. Zeitreihen Der Mengenindex nach Paasche basiert auf den Preisen zur Berichtsperiode QP0t Pn pit qit . = Pni=1 i=1 pit qi0 (4.31) 4.3.11 Beispiel (Energiepreisentwicklung (Fortsetzung Beispiel 4.3.2)). Gemäÿ Tabelle 4.7 und Tabelle 4.6 ergibt sich für den Mengenindex nach Laspeyres 0, 12 · 84.000 + 0, 28 · 24.000 + 0, 08 · 420.000 0, 12 · 70.000 + 0, 28 · 10.000 + 0, 08 · 280.000 50.400 = = 1, 5 . 33.600 QL 0t = (4.32) Für den Mengenindex nach Paasche ergibt sich 0, 30 · 84.000 + 0, 42 · 24.000 + 0, 06 · 420.000 0, 30 · 70.000 + 0, 42 · 10.000 + 0, 06 · 280.000 60.480 = = 1, 44 . 42.000 QP0t = 4.3.12 Denition (Wertindex). (4.33) Bei einem Wert- oder Umsatzindex werden Preis- und Mengenänderungen berücksichtigt. Denition. Gegeben seien n Güter mit den Preisen pi0 in der Basisperiode und pit in der Berichtsperiode (i = 1, . . . , n) im Warenkorb. Die Mengen sind qi0 für die Basisperiode und qit für die Berichtsperiode für i = 1, . . . , n. Daraus ergibt sich der Wertindex mittels der Wertindex-Formel Pn pit qit W0t = Pni=1 . i=1 pi0 qi0 (4.34) 4.3.13 Beispiel (Energiepreisentwicklung (Fortsetzung Beispiel 4.3.2)). Gemäÿ Tabelle 4.7 und Tabelle 4.6 ergibt sich für den Wertindex 0, 30 · 84.000 + 0, 42 · 24.000 + 0, 06 · 420.000 0, 12 · 70.000 + 0, 28 · 10.000 + 0, 08 · 280.000 60.480 = = 1, 8 . 33.600 W0t = Version 6.0 - 019 24.06.2017 (4.35) 95 4.4. Aufgaben Anwendungen 4.3.14 Anmerkung. Wenn es eine ökonomische Zeitreihe (das heiÿt eine Zeitreihe mit ökonomischen Werten) Ytn nominalen Werten. gibt, dann ist dies eine Zeitreihe mit Wenn ein geeigneter Preisindex P0t vorhanden ist, dann kann durch die Division Ytr = auf den realen Wert im Bezug zum Basisjahr 0 gerechnet werden. Dies ist ein Deationierung. Ytn /P0t 4.3.15 Beispiel (reale Einkommensentwicklung). Das Statistische Bundesamt ver- öentlicht Werte zur (nominalen) Einkommensenticklung privater Haushalte. Mit dem Verbraucherpreisindex (VPI) können die Werte auf reale Einkommenswerte deationiert werden, so dass eine reale Einkommensentwicklung dargestellt wird (siehe Tabelle 4.8). Ytn Jahr [Mrd.e] Ytr V P I2005,t [Mrd.e] 2005 1463,7 100,0 1463,7 2006 1493,3 101,6 1469,8 2007 1517,1 103,9 1460,2 2008 1558,1 106,6 1461,6 2009 1560,6 107,0 1458,5 Tabelle 4.8.: Verfügbares Einkommen private Haushalte 4.4. Aufgaben 4.4.1 Aufgabe. Berechnen Sie für die folgende Zeitreihe die gleitende Durchschnitte 3. Ordnung. t xt 4.4.2 Aufgabe. 1 2 3 4 5 6 7 8 9 10 11 12 5 7 3 8 10 6 11 13 9 14 16 12 Berechnen Sie für die folgende Zeitreihe die gleitenden Durchschnitte 4. Ordnung. t xt 4.4.3 Aufgabe. 1 2 3 4 5 6 7 8 9 10 11 12 3 4 6 1 7 8 10 5 11 12 14 9 Bestimmen Sie jeweils den gleitenden Durchschnitt 3. und 4. Ordnung für die nachfolgenden Umsatzangaben einer Firma: Jahr Umsatz 96 1997 1998 1999 2000 2001 2002 4,7 5,6 6,2 7,4 7,6 8,9 Version 6.0 - 019 24.06.2017 Kapitel 4. Zeitreihen 4.4.4 Aufgabe. Der Vorrat Bj für ein Produkt hat sich im Laufe mehrerer Tage wie folgt durch Zu- und Abgänge entwickelt (siehe Tabelle 4.9) (jeweils am Ende eines Tages wirksam!) Der Anfangsbestand betrug 16 Teile. Tag 1 3 4 5 6 8 9 10 Zugang 40 - - - - 20 - - Abgang 10 5 8 22 7 4 12 8 Tabelle 4.9.: Bestandsveränderung Vorrat Zeichnen Sie die Entwicklung des Bestandes. Berechnen Sie den Durchschnittsbestand, die mittlere Verweildauer und die Umschlagshäugkeit. 4.4.5 Aufgabe. Ein Versandhandel führt die Sortimentbereiche Kleidung, Körperpege und Sportartikel. Die Angaben sind in der Tabelle 4.10 dargestellt. Sortimentsbereich Umsatz 2000 [Mio. Kleidung e] Steigerung Steigerung Umsatz Preis 2000 - 2010 2000 - 2010 10,0 64% 4% Körperpege 5,5 100% 17% Sportartikel 4,5 180% 41% Tabelle 4.10.: Umsatz- und Preisentwicklung Berechnen Sie (a) den Umsatzindex (b) den Preisindex W2000,2010 , P2000,2010 nach Laspeyres und Paasche sowie Q2000,2010 nach Laspeyres und Paasche. (c) den Mengenindex 4.4.6 Aufgabe. Ein Unternehmen benötigt zur Herstellung seines Produkts drei Roh- stoe, welche in den Jahren 2000, 2004 und 2008 zu Preisen (pi,t ) in (qi,t ) in t e/t und Mengen beschat, die in der nachfolgenden Tabelle hinterlegt sind. pi,2000 pi,2004 pi,2008 qi,2000 qi,2004 1 3,20 4,00 4,60 5 4,5 5 2 1,60 2,00 2,40 10 12 15 3 21,00 23,00 24,00 2 1,8 2,2 Rohsto i qi,2008 Berechnen Sie (a) die Preisindizes P2000,2004 Version 6.0 - 019 24.06.2017 und P2000,2008 nach Laspeyres und Paasche, 97 4.5. Lösungen Q2000,2004 (b) die Mengenindizes (c) die Wertinidzes W2000,2004 Q2000,2008 und nach Laspeyres und Paasche, W2000,2008 . und 4.5. Lösungen 4.5.1 Lösung. zu Aufgabe 4.4.1 Es ergibt sich der nachfolgende gleitende Durchschnitt t xt x3t 4.5.2 Lösung. t xt x4t 4.5.3 Lösung. 1 2 5 7 - - 3 4 5 6 7 8 3 8 10 6 11 13 9 5 6 7 8 9 10 11 0 Zugang Abgang Bestand 16 11 12 14 16 12 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 3 4 6 1 7 8 10 5 11 12 14 9 - - - 3,5 4,5 5,5 6,5 7,5 8,5 9,5 10,5 11,5 zu Aufgabe 4.4.3 Es ergeben sich nachfolgende gleitende Durchschnitte 1997 1998 1999 2000 2001 2002 4,7 5,6 6,2 7,4 7,6 8,9 U msatz 3 - - 5,5 6,4 7,1 8,0 U msatz 4 - - - 6,0 6,7 7,5 Umsatz Tag 10 zu Aufgabe 4.4.2 Es ergibt sich der nachfolgende gleitende Durchschnitt Jahr 4.5.4 Lösung. 9 zu Aufgabe 4.4.4 Nachfolgend die Entwicklung des Bestands 1 2 3 4 5 6 7 8 9 10 40 - - - - - - 20 - - 60 76 10 - 5 8 22 7 - 4 12 8 46 46 41 33 11 4 4 20 8 0 Für den Verlauf der Bestandsentwicklung, siehe Abbildung 4.1. Durchschnittsbestand B̄ = 1 10 (16 mittlere Verweildauer d¯ = 2·22,9·10 68+60 Umschlagshäugkeit 4.5.5 Lösung. 98 U= 10 3,578 + 46 + 46 + · · · + 20 + 8) = = 458 128 229 10 = 22, 9 = 3, 578 = 2, 795 zu Aufgabe 4.4.5 Einige Daten für die Berechnung Version 6.0 - 019 24.06.2017 Kapitel 4. Zeitreihen 40 30 20 10 1 2 3 4 5 6 7 8 9 10 Abbildung 4.1.: Bestandsentwicklung Sortiment Umsatz Kleidung Umsatz Plus Plus Plus 2000 2010 Umsatz Preis Menge [Me] [Me] 2000-2010 2000-2010 2000-2010 10,0 16,4 64% 4% 57,7 % Körperpege 5,5 11,0 100% 17% 70,9 % Sportartikel 4,5 12,6 180% 41% 98,6 % Summe 20,0 40,0 (a) Umsatzindex W2000,2010 = 40,0 20,0 = 2. (b) L P2000,2010 P P2000,2010 P pi,2010 qi,2000 10, 0 · 1, 04 + 5, 5 · 1, 17 + 4, 5 · 1, 41 =P = pi,2000 qi,2000 10, 0 · 1 + 5, 5 · 1 + 4, 5 · 1 23, 18 = = 1, 159 20, 00 P pi,2010 qi,2010 16, 4 + 11, 0 + 12, 6 =P = 16,4 11,0 12,6 pi,2000 qi,2010 1,04 + 1,17 + 1,41 = 40, 00 = 1, 173 34, 11 Version 6.0 - 019 24.06.2017 99 4.5. Lösungen (c) QL 2000,2010 = = QP2000,2010 = = Es gilt P 16,4 11,0 12,6 p q 1,04 + 1,17 + 1,41 P i,2000 i,2010 = 10, 0 · 1 + 5, 5 · 1 + 4, 5 · 1 pi,2000 qi,2000 34, 11 = 1, 705 20, 00 P p q 16, 4 + 11, 0 + 12, 6 P i,2010 i,2010 = 10, 0 · 1, 04 + 5, 5 · 1, 17 + 4, 5 · 1, 41 pi,2010 qi,2000 40, 00 = 1, 726 23, 18 P L · QP = P P · QL 4.5.6 Lösung. zu Aufgabe 4.4.6 (a) L P2000,2004 = L P2000,2008 = P P2000,2004 = P P2000,2008 = P p q P i,2004 i,2000 pi,2000 qi,2000 P p q P i,2008 i,2000 pi,2000 qi,2000 P p q P i,2004 i,2004 pi,2000 qi,2004 P p q P i,2008 i,2008 pi,2000 qi,2008 86 4 · 5 + 2 · 10 + 23 · 2 = = 1, 162 3, 2 · 5 + 1, 6 · 10 + 21, 0 · 2 74 4, 6 · 5 + 2, 4 · 10 + 24 · 2 95 = = = 1, 284 74 74 83, 4 4 · 4, 5 + 2 · 12 + 23 · 1, 8 = = 1, 168 = 3, 2 · 4, 5 + 1, 6 · 12 + 21, 0 · 1, 8 71, 4 111, 8 4, 6 · 5 + 2, 4 · 15 + 24 · 2, 2 = = 1, 297 = 3, 2 · 5 + 1, 6 · 15 + 21, 0 · 2, 2 86, 2 = (b) P p q P i,2000 i,2004 QL = 2000,2004 pi,2000 qi,2000 P pi,2000 qi,2008 L Q2000,2008 = P pi,2000 qi,2000 P pi,2004 qi,2004 QP2000,2004 = P pi,2004 qi,2000 P pi,2008 qi,2008 P Q2000,2008 = P pi,2008 qi,2000 71, 4 = 0, 965 74 86, 2 = = 1, 165 74 83, 4 = = 0, 970 86 111, 8 = = 1, 177 95 = (c) W2000,2004 W2000,2008 100 P pi,2004 qi,2004 83, 4 =P = = 1, 127 pi,2000 qi,2000 74 P pi,2080 qi,2008 111, 8 =P = = 1, 511 pi,2000 qi,2000 74 Version 6.0 - 019 24.06.2017 Teil II. Wahrscheinlichkeitsrechnung Bei der Wahrscheinlichkeitsrechnung, welche im zweiten Teil betrachtet wird, spielt der Zufall eine Rolle. Hier wird nicht betrachtet, wie die Daten aussehen, sondern wie sie aussehen können. Vorbereitend wird im Kapitel 5 die Kombinatorik behandelt, da deren Ergebnisse für viele Verteilungen wichtig sind. Danach wird im Kapitel 6 die Grundlagen der Wahrscheinlichkeitsrechnung beleuchtet, so wie sie auch am Anfang der Wahrscheinlichkeitsrechnung stand. Es wird jedoch auch die moderne Denition für die Wahrscheinlichkeit wieder gegeben. Im nachfolgenden Kapitel 7 werden erläutert, was Zufallsvariablen sind und wie mit Ihnen gerechnet wird. im Kapitel 8 werden einige spezielle Verteilungen, die immer wieder vorkommen untersucht, wobei dies nur eine Auswahl ist, es gibt noch weitere Verteilungen, die hier nicht genauer untersucht werden können. Version 6.0 - 019 24.06.2017 101 Kapitel 5. Kombinatorik Die Kombinatorik bezeichnet den Zweig der Mathematik und Stochastik, in dem unter- sucht wird, auf welche und auf wie viele verschiedene Arten gewisse Mengen von Dingen angeordnet und zu Gruppen zusammengefasst werden können. 5.0.1 Beispiel. Zuerst ein einfaches, überschaubares Beispiel. Auf wie viele Weisen kann man 2 Elemente aus einer Menge mit 3 Elementen auswählen? Es sei M = {1, 2, 3} eine Menge mit drei Elementen. In der Tabelle 5.1 sind die verschiedenen Möglichkeiten aufgeführt. mit Zurücklegen geordnet ungeordnet (1,1),(1,2),(1,3) {1,1},{1,2},{1,3} (2,1),(2,2),(2,3) {2,2},{2,3},{3,3} (3,1),(3,2),(3,3) ohne Zurücklegen (1,2),(1,3),(2,1) {1,2},{1,3},{2,3} (2,3),(3,1),(3,2) Tabelle 5.1.: Einführungsbeispiel Kombinatorik 5.0.2 Anmerkung. Zwei Sachverhalte sind für die Anzahl der Möglichkeiten von Be- deutung. • Werden die Elemente nach der Auswahl wieder zur Menge zurückgelegt, und stehen sie dadurch wieder für die Auswahl zur Verfügung? • Ist die Reihenfolge der Elemente von Bedeutung? Ist die Reihenfolge von Bedeutung, dann spricht man von einer geordneten Stich- probe oder Permutation, und die Ergebnisse sind Folgen von Elementen, die in runde Klammern gesetzt werden. Spielt die Reihenfolge keine Rolle, dann spricht man von einer ungeordneten Stichprobe oder Kombination, und die Ergebnisse sind Mengen von Elementen, die in Mengenklammern gesetzt werden. Die Denition von Mengen besagt, dass jedes Element in einer Menge nur einmal vorkommt. Wie man an den Beispielen Version 6.0 - 019 24.06.2017 103 5.1. Permutationen sieht, tauchen dort auch Mengen auf, bei denen Elemente doppelt vorkommen. Derartige Gebilde heiÿen Multimengen. Auf Multimengen wird hier jedoch nicht näher eingehen. Im folgenden wird genauer untersucht, wie viele Möglichkeiten es gibt, aus einer Menge n (unterscheidbaren) Elementen k stets n ∈ N und k ∈ N0 . von Elemente auszuwählen. Dabei gelten im folgenden 5.1. Permutationen Bei Permutationen ist die Reihenfolge der Elemente von Bedeutung, wie beispielsweise bei Kennwörtern. Statt Permutation sagt man manchmal auch Variation. Permutationen mit Wiederholungen 5.1.1 Denition (Permutation mit Wiederholung). es k Elemente aus einer Menge von n Wie viele Möglichkeiten gibt Elementen auszuwählen, wenn die Elemente nach der Auswahl wieder zurückgelegt werden und die Reihenfolge von Bedeutung ist. Denition. Es sei M eine Menge mit n Elementen. Eine k-Permutation mit Wie- derholung von 1 ≤ i ≤ k. M ist eine Folge (x1 , . . . , xk ) von k Elementen mit xi ∈ M für Mit P ∗ (n, k) wird die Anzahl der k-Permutationen mit Wiederholung bezeichnet, die aus einer n-elementigen Menge gebildet werden können. ∗ Der hochgestellte Stern ( ) hinter dem P drückt aus, dass Wiederholungen der Elemente möglich sind, das somit die Elemente nach der Auswahl wieder zurück gelegt werden. 5.1.2 Satz. Für das erste Element gibt es n Möglichkeiten. Für das zweite und jedes weitere Element der Reihe gibt es jeweils auch n Möglichkeiten, da das ausgewählte Element immer wieder zurückgelegt wird. Es gibt somit Satz. Die Anzahl P ∗ (n, k) mit n Elementen ist nk Möglichkeiten für die Auswahl. der k-Permutationen mit Wiederholung über einer Menge P ∗ (n, k) = nk Für das Beispiel 5.0.1 am Anfang des Kapitels ergibt sich 104 (5.1) P ∗ (3, 2) = 32 = 9. Version 6.0 - 019 24.06.2017 Kapitel 5. Kombinatorik 5.1.3 Beispiel. Das deutsche Alphabet enthält 26 Buchstaben (ohne Umlaute). Somit ∗ kann man P (26, 4) = 264 = 456.976 verschiedene Worte der Länge 4 bilden, wobei Buchstaben mehrfach vorkommen können. Permutationen ohne Wiederholungen 5.1.4 Denition (Permutation ohne Wiederholung). Jetzt der Fall, wenn die ge- wählten Elemente nicht wieder zurück gelegt werden. eine Menge mit n Elementen und 0 ≤ k ≤ n. Eine kPermutation ohne Wiederholung von M ist eine Folge (x1 , . . . , xk ) mit xi ∈ M mit xi 6= xj für i 6= j , mit 1 ≤ i, j ≤ k. Denition. Es sei M Mit P (n, k) wird die Anzahl der k-Permutationen ohne Wiederholung bezeichnet, die aus einer n-elementigen Menge gebildet werden können. Manchmal wird statt 5.1.5 Satz. P (n, k) auch geschrieben (V wie Variation). Wenn die ausgewählten Elemente nicht mehr zurückgelegt werden, dann gibt es bei der ersten Auswahl (n − 1) Vkn n Möglichkeiten. Bei der zweiten Auswahl jedoch nur noch k -ten Auswahl dann nur noch (n − k + 1) Möglichkeiten der Auswahl. Bei der Möglichkeiten ein Element aus der Menge zu wählen. Somit gibt es n · (n − 1) · . . . · (n − k + 1) (5.2) Möglichkeiten der Auswahl. Satz. Die Anzahl P (n, k) elementigen Menge ist der k-Permutationen ohne Wiederholung über einer n- P (n, k) = k−1 Y (n − i) = i=0 n! (n − k)! Für das Beispiel 5.0.1 am Anfang des Kapitels ergibt sich 5.1.6 Satz. Ein Spezialfall sind die P (3, 2) = (5.3) 3! 1! = 6 1 = 6. n-Permutationen auf einer n-elementigen Menge, das heiÿt die Permutationen, bei denen jedes der Elemente der Menge in der Permutation enthalten ist. Davon gibt es Version 6.0 - 019 24.06.2017 P (n, n) = n! Möglichkeiten. 105 5.2. Kombinationen Satz. Es gibt n! Möglichkeiten, eine Menge mit n Elementen anzuordnen. 5.1.7 Beispiel. kann man Das deutsche Alphabet enthält 26 Buchstaben (ohne Umlaute). Somit P (26, 4) = 26 · 25 · 24 · 23 = 358.800 verschiedene Worte der Länge 4 bilden, wobei Buchstaben nicht mehrfach vorkommen können. 5.1.8 Beispiel. Es gibt 10! = 3.628.800 ≈ 3, 6 · 106 verschiedene Möglichkeiten, 10- stellige Zahlen zu bilden, bei denen jede der 10 Ziern genau einmal vorkommt. Zahlen mit 10 Ziern gibt es 5.1.9 Beispiel. 1010 . Wie viele verschiedene Buchstabenkombinationen der Länge 4 lassen sich aus den Buchstaben ABCC gebildet werden. 4 Buchstaben lassen sich auf 4! = 24 verschiedene Arten darstellen. Der Buchstabe C kommt zwei mal vor. Da die C's nicht unterschieden werden können, kann man diese beiden vertauschen. Es gibt 2! Möglichkeiten für die Vertauschung der Buchstaben C. Damit gibt es nur 4!/2! = 12 Möglichkeiten der Darstellung. 5.1.10 Satz. Diese Überlegungen weiter geführt, führt zum nachfolgenden Satz: Satz. Die Anzahl P (n; n1 , n2 , . . . , nk ) von Permutationen von n Elementen von denen P jeweils n1 , n2 , . . ., nk , 1 ≤ k ≤ n, nicht unterscheidbar sind, so dass ist P (n; n1 , n2 , . . . , nk ) = Qk k i=1 ni =n n! (5.4) i=1 (ni !) Für das obiges Beispiel ergibt sich 5.1.11 Beispiel. P (4; 1, 1, 2) = 4! 1!1!2! = 24 2 = 12. Auf wie viele Arten kann man aus den Buchstaben des Wortes n = 5, n1 = n2 = 2 und n3 = 1. Daher 5! gegeben durch P (5; 2, 2, 1) = 2!2!1! = 30. Worte bilden?. Es ist verschiedenen Worte ist, LOTTO ist die Anzahl der 5.2. Kombinationen Bei den Permutationen spielt die Reihenfolge der Elemente eine Rolle. Wenn die Reihenfolge keine Rolle spielt, dann spricht man von Kombinationen. 106 Version 6.0 - 019 24.06.2017 Kapitel 5. Kombinatorik Kombination ohne Wiederholungen 5.2.1 Denition (Kombination ohne Wiederholung). n gibt es, aus einer Menge von Elementen Teilmengen von Wie k viele Möglichkeiten Elementen auszuwählen. Auf die Reihenfolge der Auswahl kommt es hierbei nicht an. Denition. Es sei M eine Menge mit n Elementen. Eine k-Kombination ohne Wie- derholung über M ist eine Teilmenge von M mit k Elementen ohne Wiederholung. Mit K(n, k) wird die Anzahl der k-Kombination ohne Wiederholung über M bezeichnet Manchmal schreibt man statt 5.2.2 Satz. K(n, k) auch Ckn . Aus den Überlegungen der Permutationen kann die Anzahl der Kombi- P (n, k) geordnete k-Permutationen über einer nP (k, k) = k! Möglichkeiten, die k gezogenen Elemente an- nationen ermittelt werden. Es gibt elementigen Menge. Es gibt zuordnen. Jede dieser Anordnungen ist für die Kombination gleichwertig. (Nebenbemerkung: Diese bilden eine Äquivalenzrelation!). Damit gilt Satz. Die Anzahl K(n, k) mit n Elementen ist der Kombinationen ohne Wiederholung über einer Menge n! K(n, k) = = k!(n − k)! Für das Beispiel am Anfang des Kapitels ergibt sich 5.2.3 Anmerkung. P (n, k)/P (k, k) = K(n, k) Das Symbol der Schreibweise und heiÿt auch n k n k K(3, 2) = (5.5) 3! 2!1! = 6 2 = 3. (ausgesprochen n über k ist eine Vereinfachung Binominalkoezient, was später (siehe Abschnitt 5.3) noch beleuchtet wird. 5.2.4 Beispiel. Beim Lotto 6 aus 49 spielt die Reihenfolge der gezogenen Kugeln keine Rolle. Somit ist es eine Kombination. Es gibt keine Wiederholungen, da die Kugeln nicht wieder zurückgelegt werden. Es gibt K(49, 6) = 49! = 13.983.816 6!43! (5.6) verschiedene Möglichkeiten 6 der 49 Kugeln zu ziehen. Version 6.0 - 019 24.06.2017 107 5.2. Kombinationen Kombination mit Wiederholungen 5.2.5 Denition (Kombination mit Wiederholung). Wenn Wiederholungen zuläs- sig sind, dann wird es etwas komplizierter. Denition. Es sei ne k-Kombination Elementen. M eine Menge mit n Elementen und für k gilt: 0 ≤ k ≤ n. Ei- mit Wiederholung über M ist eine Multimenge von M mit k Mit K ∗ (n, k) wird die Anzahl der k-Kombination mit Wiederholung über M bezeichnet 5.2.6 Satz. K ∗ (n, k) der k -Kombinationen mit Wiederholung über einer n-elementigen Menge zu bestimmen, werden bereits am Anfang die (k − 1) Elemente, die Um die Anzahl im Laufe des Prozesses zurück gelegt werden, zur Menge hinzugefügt. Somit ergibt sich eine k -Kombination ohne Zurücklegen auf einer (n + k − 1)-elementigen Menge. Diese Anzahl der Kombinationen wurde bereits berechnet. Satz. Die Anzahl K ∗ (n, k) elementigen Menge ist von k-Kombinationen mit Wiederholung über einer n- (n + k − 1)! = K (n, k) = K(n + k − 1, k) = k!(n − 1)! ∗ Für das Beispiel 5.0.1 am Anfang des Kapitels ergibt sich 5.2.7 Beispiel. n+k−1 k K ∗ (3, 2) = 4! 2!2! (5.7) = 24 4 = 6. Wie viele Kombinationen kann man mit 4 Würfeln würfeln? Jeder Wür- fel hat die Zahlen 1 bis 6. Statt einmal mit 4 Würfeln zu Würfeln kann man auch mit einem Würfel 4 mal hinter einander würfeln. Es ist somit eine 4-Kombination mit Wiederholung über einer 6-elementigen Menge. Die Anzahl ist somit 9! 4!5! K ∗ (6, 4) = (6+4−1)! 4!(6−1)! = = 126. Zusammenfassung Permutationen und Kombinationen 5.2.8 Anmerkung. Die Zusammenfassung für Permutationen und Kombinationen gibt die Tabelle 5.2. 108 Version 6.0 - 019 24.06.2017 Kapitel 5. Kombinatorik Kombination geordnet ungeordnet P ∗ (n, k) mit Zurücklegen ohne Zurücklegen Permutation P (n, k) = = n! (n−k)! K ∗ (n, k) nk n = k! k = (n+k−1)! k!(n−1)! K(n, k) = = n! k!(n−k)! n+k−1 k n = k Tabelle 5.2.: Zusammenfassung Permutationen und Kombinationen 5.3. Binomialkoezienten 5.3.1 Anmerkung. In diesem Abschnitt werden einige für die Binomialkoezienten zusammengefasst. 5.3.2 Denition (Binomialkoezient). Die Eigenschaften und Ergebnisse Denition des Binomialkoezienten oder genauer eine Denition der Binomialkoezienten lautet: n n! = k k! · (n − k)! (5.8) Wenn dieser Ausdruck auf der rechten Seite betrachtet wird, und einige Zahlen gekürzt werden, dann ergibt sich: n n · (n − 1) · . . . · (n − k + 1) = k 1 · 2 · ... · k (5.9) An dieser Form der Denition kann man erkennen, dass die Binomialkoezienten stets ganze Zahlen sind! 5.3.3 Bemerkung. Einige grundlegende Eigenschaften für die Binomialkoezienten können unmittelbar aus der Denition des Binomialkoezienten abgelesen werden. Es gelten: n n = =1 0 n Version 6.0 - 019 24.06.2017 (5.10) 109 5.3. Binomialkoezienten 5.3.4 Satz. n n = =n 1 n−1 (5.11) n n = k n−k (5.12) Für die Berechnung des Binomialkoezienten gibt es eine rekursive Formel n n−1 n−1 = + . k k k−1 (5.13) 1 Dies führt zum so genannten Pascalschen Dreieck . Für die maschinelle Berechnung ist diese Formel jedoch nicht ideal! Hier ist nun der Beginn des Pascalschen Dreieck dargestellt: 1 1 1 1 1 1 1 3 4 5 6 1 2 3 6 10 15 1 1 4 10 20 1 5 15 1 6 1 Die Rekursionsformel kann schnell und direkt nachgewiesen werden: Satz. Ist k 6= 0 und k 6= n (n ∈ N und k ∈ N0 mit k < n), dann gilt: n n−1 n−1 = + k k k−1 (5.14) Beweis n−1 n−1 (n − 1)! (n − 1)! + = + k k−1 k!(n − k − 1)! (k − 1)!(n − k)! (n − 1)! 1 1 = · + (k − 1)!(n − k − 1)! k n−k (n − 1)! n · = (k − 1)!(n − k − 1)! k · (n − k) n! n = = k!(n − k)! k 1 (5.15) Blaise Pascal, französischer Philosoph, Mathematiker und Physiker, 1623 - 1662 110 Version 6.0 - 019 24.06.2017 Kapitel 5. Kombinatorik 5.3.5 Anmerkung. Für das Produkt (a + b)n n (a + b) = ergibt sich n X n k=0 k an−k bk . (5.16) Dies ist die verallgemeinerte binomische Formel. Daher haben die Koezienten auch ihren Namen. Daraus wiederum ergeben sich: n (1 + x) = n X n k k=0 xk (5.17) und n 2 = n X n k=0 k (5.18) und n X n k 0= (−1) · k (5.19) k=0 Die beiden letzten Eigenschaften können am obigen Pascalschen Dreieck für kleine n einfach nachgerechnet werden. 5.3.6 Anmerkung. Weiter wird auf die Binomialkoezienten nicht eingegangen. 5.4. Aufgaben 5.4.1 Aufgabe. Bestimmen Sie alle Möglichkeiten die Elemente einer Menge mit n = 2, n = 3 n=4 und 5.4.2 Aufgabe. n = 1, anzuordnen. Wie viele verschiedene Buchstabenkombinationen der Länge 9 lassen sich mit den Buchstaben des Wortes STATISTIK bilden? 5.4.3 Aufgabe. Wie viele verschiedene Buchstabenkombinationen der Länge 11 lassen sich aus den Buchstaben des Wortes MISSISSIPPI bilden? 5.4.4 Aufgabe. Ein Passwort besteht aus zwei (von 26 möglichen) Buchstaben gefolgt von vier Ziern, wobei Ziern, aber nicht Buchstaben mehrfach auftreten dürfen. Wie viele verschiedene Passwörter sind möglich? 5.4.5 Aufgabe. Bei 5 Personen, wie viele Möglichkeiten gibt es, dass sich eine Mehrheit (aus 5, 4 oder 3 Personen) bildet? Version 6.0 - 019 24.06.2017 111 5.5. Lösungen 5.4.6 Aufgabe. {0, 1} Wie viele 8-stellige Worte können mit den Elementen der Menge A= gebildet werden. 5.4.7 Aufgabe. Wie viele Zahlenkombinationen kann man mit 1, 2, 3, 4, 5 und 6 Wür- feln würfeln? 5.4.8 Aufgabe. Ein Passwort ist 7 Zeichen lang. Es besteht aus Buchstaben (26 mögli- che Buchstaben) und Ziern. In den ersten drei Zeichen dürfen nur Buchstaben stehen, die sich nicht wiederholen. Die restlichen 4 Stellen sind beliebige Buchstaben oder Ziern, wobei auch die Buchstaben aus den ersten 3 Stellen wiederholt werden dürfen. Wie viele verschiedene Passwörter sind möglich? 5.4.9 Aufgabe. Wie viele verschiedene Möglichkeiten gibt es beim Spiel "6 aus 45"6 Kugeln zu ziehen? 5.4.10 Aufgabe. Bestimmen Sie die Wahrscheinlichkeiten, dass Sie n-mal hintereinan- der die selbe Zahl würfeln. 5.5. Lösungen 5.5.1 Lösung. n n! zu Aufgabe 5.4.1 1 2 3 4 5 1 2 6 24 120 5.5.2 Lösung. zu Aufgabe 5.4.2 Die Anzahl der Möglichkeiten P (9; 3, 2, 2, 1, 1) = 5.5.3 Lösung. 9! = 15.120 3!2!2!1!1! zu Aufgabe 5.4.3 Die Anzahl der Möglichkeiten 11! = 34.650 1! · 4! · 4! · 2! 5.5.4 Lösung. zu Aufgabe 5.4.4 Auswahl der Buchstaben ist eine 2-Permutation ohne Wiederholung auf einer 26elementigen Menge. Die Auswahl der Ziern ist eine 4-Permutation mit Wiederholung auf einer 10-elementigen Menge. P (26, 2) · P ∗ (10, 4) = 26 · 25 · 104 = 6.500.000 112 Version 6.0 - 019 24.06.2017 Kapitel 5. Kombinatorik 5.5.5 Lösung. zu Aufgabe 5.4.5 Eine Mehrheit kann durch 3, 4 oder 5 Personen gebildet werden. Es ist dann jeweils eine i-Kombination ohne Wiederholung über einer 5-stelligen Menge. Für die Gesamtanzahl ergibt sich somit 5 5 5 K(5, 3) + K(5, 4) + K(5, 5) = + + = 10 + 5 + 1 = 16 3 4 5 5.5.6 Lösung. zu Aufgabe 5.4.6 8-Permutation mit Wiederholung über einer 2-elementigen Menge! P ∗ (2, 8) = 28 = 256 5.5.7 Lösung. Wenn man mit zu Aufgabe 5.4.7 i Würfeln würfelt, dann hat man eine i-Kombination mit Wiederholung über einer 6-stelligen Menge. 1 Würfel: 6 K (6, 1) = =6 1 ∗ 2 Würfel: 7 K (6, 2) = = 21 2 ∗ 3 Würfel: 8 K (6, 3) = = 56 3 ∗ 4 Würfel: 9 K (6, 4) = = 126 4 ∗ 5 Würfel: 10 K (6, 5) = = 252 5 ∗ 6 Würfel: K ∗ (6, 6) = 5.5.8 Lösung. 11 = 462 6 zu Aufgabe 5.4.8 Für die ersten drei Stellen ist es eine (geordnete) Permutation von 3 aus 26 Elementen ohne Zurücklegen. Für die hinteren 4 Stellen ist es eine (geordnete) Permutation von 4 aus 36 Elementen mit Zurücklegen. Anzahl der Möglichkeiten: 26.202.009.600 ≈ 2.6 · 1010 P (26, 3) · P ∗ (36, 4) = 26! 4 23! 36 = 26 · 25 · 24 · 364 = Es sind 26.202.009.600 verschiedene Passwörter möglich. Version 6.0 - 019 24.06.2017 113 5.5. Lösungen 5.5.9 Lösung. zu Aufgabe 5.4.9 Die Anzahl ist gegeben durch 5.5.10 Lösung. 45 = 8.145.060. 6 zu Aufgabe 5.4.10 Die Wahrscheinlichkeit 1-mal hintereinander die selbe Zahl zu würfeln ist 1. Die Wahrscheinlichkeit, 2-mal hintereinander die selbe Zahl zu würfeln ist gleich der Wahrscheinlichkeit, dass man im 2. Wurf die Zahl vom 1. Wurf wieder würfelt, also 1 6 . Die Wahr- scheinlichkeit n-mal hintereinander die selbe Zahl zu würfeln ist die Wahrscheinlichkeit, im 2., 3., . . ., (n-1). Wurf jeweils die Zahl vom 1. Wurf zu würfeln, also jeweils 1 6 . Somit beträgt die Wahrscheinlichkeit, n-mal hintereinander die selbe Zahl zu würfeln, somit ( 61 )n−1 . 114 Version 6.0 - 019 24.06.2017 Kapitel 6. Grundlagen der Wahrscheinlichkeitsrechnung Die Wahrscheinlichkeitsrechnung bringt den Zufall und zufällige Ereignisse mit in die Betrachtung. Die Wahrscheinlichkeitsrechnung beschäftigt sich mit zufälligen Ereignissen. Ihre Ergebnisse werden in vielen Bereichen auÿerhalb der Mathematik abgewendet. Prognose für eine Wahl, Qualitätssicherung und Bestimmung von Schätzungen sind nur einige dieser Themen. 6.1. Zufallsexperiment und Ereignis 6.1.1 Denition (Zufallsexperiment, Elementarereignis, Ergebnisraum). Zuerst einige grundlegende Begrie Denition. Ein Zufallsexperiment ist ein beliebig oft und gleichartig wiederholbarer Vorgang mit mindestens zwei möglichen Ergebnissen, bei dem im voraus nicht eindeutig bestimmbar ist, welches Ergebnis eintreten wird. Ein mögliches Ergebnis eines Zufallsexperiments heiÿt Ereignis. Die einzelnen, nicht mehr zerlegbaren und sich gegenseitig ausschlieÿenden Ereignisse eines Zufallsexperiments heiÿen Elementarereignis. Sie werden mit ω1 , ω2 , . . . bezeichnet. Die Menge Ω aller zu einem Zufallsexperiment gehörenden Elementarereignisse heiÿt Ergebnisraum: Ω = {ω1 , ω2 , . . . , ωn } 6.1.2 Beispiel. Der Wurf einer Münze, mit den Seiten fallsexperiment. Es gibt die zwei Elementarereignisse 6.1.3 Beispiel. ω1 (6.1) Zahl und Wappen, ist ein Zahl und ω2 = Wappen. Zu- = Das Würfeln ist ein Zufallsexperiment. Der Ergebnisraum sind die 6 verschiedenen Möglichkeiten für das Ergebnis: Version 6.0 - 019 24.06.2017 Ω = {1, 2, 3, 4, 5, 6}. 115 6.1. Zufallsexperiment und Ereignis 6.1.4 Denition (zusammengesetzte Ereignisse, Durchschnitt). Wie können mehrere Ereignisse verbunden werden. Denition. Es seien A und B zwei Ereignisse in einem Ergebnisraum Ω. Unter dem zusammengesetzten Ereignis A∪B oder A or B der Ereignisse A und B versteht man das Ereignis, das dann eintritt, wenn wenigstens eine der beiden Ereignisse A und B eintritt. Unter dem Durchschnitt A ∩ B oder A and B der Ereignisse A und B versteht man das Ergebnis, das Eintritt, wenn sowohl A als auch B eintritt, wenn also A und B gemeinsam eintreten. 6.1.5 Beispiel. Beim Würfeln sei A das Ereignis, dass eine gerade Zahl gewürfelt wird. A = {2, 4, 6}. B sei das Ereignis, dass die {1, 2, 3}. Damit ist das zusammengesetzte Somit ist ist B = gewürfelte Zahl kleiner 4 ist. Somit Ereignis der Würfel eine gerade Zahl oder ein Zahl kleiner 4 anzeigt: A ∪ B das Ereignis, wenn A ∪ B = {1, 2, 3, 4, 6}. Der Durchschnitt der Ereignisse ist das Ereignis, wenn die gewürfelte Zahl gerade und kleiner 4 ist: A∩B = {2}. 6.1.6 Denition (komplementäre, sichere, unmögliche, disjunkte Ereignisse). Nun einige spezielle Ereignisse. Denition. Es sei A ein Ereignis. Das Ereignis, das genau dann eintritt, wenn A nicht eintritt, heiÿt das zu A komplementäre Ereignis oder Komplementärereignis von A und wird mit Ā bezeichnet. Ein Ereignis, das immer eintritt, heiÿt sicheres Ereignis und wird mit Ω bezeichnet. Ein Ereignis, das nie eintritt, heiÿt unmögliches Ereignis und wird mit ∅ bezeichnet. Gilt für zwei Ereignisse A und B , dass deren Durchschnitt das unmögliche Ereignis ist (A ∩ B = ∅), so heiÿen A und B disjunkte Ereignisse 6.1.7 Beispiel. wird und B Beim Würfeln seien A das Ereignis, dass eine gerade Zahl gewürfelt das Ereignis, dass eine ungerade Zahl gewürfelt wird. Die beiden Ereignisse sind komplementär zueinander. Es gilt somit Ereignis A∪B ist das sichere Ereignis oder ungerade. Der Durchschnitt A∩B Ω, Ā = B und B̄ = A. Das zusammengesetzte denn die gewürfelte Zahl ist entweder gerade der beiden Ereignisse A und B ist das unmögliche Ereignis, da das Ergebnis beim Würfel nicht gleichzeitig gerade und ungerade sein kann. Somit sind A und B auch disjunkte Ereignisse. 6.1.8 Denition (Wahrscheinlichkeit). Nach diesen grundlegenden Denitionen wird nun der Begri der Wahrscheinlichkeit deniert. Es gibt dabei viele verschiedenen Varianten für die Denition. Die Denition geht auf Laplace 1 1 zurück. Pierre Simon Laplace (1749-1827), französischer Naturwissenschaftler 116 Version 6.0 - 019 24.06.2017 Kapitel 6. Grundlagen der Wahrscheinlichkeitsrechnung Denition. Gegeben seien ein Ereignis A eines Zufallsexperiments, die Anzahl der für das Eintreen von A günstigen Fälle (beziehungsweise der zu A gehörenden Elementarereignisse) und die Anzahl aller möglichen Fälle. Für die Wahrscheinlichkeit P (A) für das Eintreten des Ereignissen A gilt dann: P (A) = 6.1.9 Beispiel. kommt ist Anzahl der f ür das Ereignis A günstigen F älle Anzahl aller möglichen F älle (6.2) Die Wahrscheinlichkeit, dass beim Werfen einer Münze die Seite 1 2 oder 50% oder 6.1.10 Beispiel. Zahl 0, 50. Beim Würfeln ergeben sich folgende Wahrscheinlichkeiten: 1 1 1 P(gerade) = , P({1}) = , P(ungerade und kleiner 4) = . 2 6 3 6.1.11 Denition (Wahrscheinlichkeitmaÿ). Die Erkenntnisse aus den Beispielen wird nun allgemeiner formuliert und die Wahrscheinlichkeit genauer deniert. Dies wurde erstmals vom Kolmogorov 2 formuliert. Es seien Ω ein Ereignisraum und Z(Ω) das Ereignissystem, das bedeutet, die Menge der möglichen Ereignisse im Ereignisraum Z(Ω) = {A | A ⊆ Ω}. Ein (6.3) Wahrscheinlichkeitsmaÿ ist eine Abbildung P : Z(Ω) → R (6.4) mit den nachfolgenden Eigenschaften: • Axiom 1 (Nicht-Negativität) Die Wahrscheinlichkeit ist nicht-negativ: ∀A ∈ Z(Ω) : P (A) ≥ 0 • (6.5) Axiom 2 (Normierung): Die Wahrscheinlichkeit ist normiert: P (Ω) = 1 • Axiom 3 (Additivität) Für zwei disjunkte Ereignisse (6.6) A und B ist die Wahr- scheinlichkeit additiv: ∀A, B ∈ Z(Ω), A ∩ B = ∅ : P (A ∪ B) = P (A) + P (B) 6.1.12 Anmerkung. (6.7) Aus diesen Axiomen ergeben sich direkt einige Konsequenzen, die auf Basis der Axiome bewiesen werden können. 2 Andrej Nikolajevich Kolmogorov (1903 - 1987), russischer Mathematiker Version 6.0 - 019 24.06.2017 117 6.1. Zufallsexperiment und Ereignis • Satz zur Wahrscheinlichkeit Komplementärereignis ∀A ∈ Z(Ω) : P (A) = 1 − P (A) • Folgerung (6.8) Wahrscheinlichkeit der leeren Menge P (∅) = 0 • Satz zur (6.9) Wahrscheinlichkeit der Dierenz ∀A, B ∈ Z(Ω) : P (A\B) = P (A) − P (A ∩ B) • (6.10) Additionssatz für zwei beliebige Ereignisse ∀A, B ∈ Z(Ω) : P (A ∪ B) = P (A) + P (B) − P (A ∩ B) • Satz über die Wahrscheinlichkeit von Teilereignissen ∀A, B ∈ Z(Ω) : A ⊆ B ⇒ P (A) ≤ P (B) • (6.11) (6.12) Additionsgesetz für disjunkte Ereignisse : ∀Ai ∈ Z(Ω), paarweise disjunkt : P ( n [ Ai ) = i=1 6.1.13 Denition (Wahrscheinlichkeitsraum). n X P (Ai ) (6.13) i=1 Die obigen Axiome und Regeln füh- ren zur folgenden Denition. Denition. Eine Menge Ω Wahrscheinlichkeitsraum. 6.1.14 Anmerkung. mit einer Funktion P mit den obigen Regeln heiÿt ein Bei manchen Problemen der Wahrscheinlichkeitsrechnung be- trachtet man das Eintreten von Ereignissen in Abhängigkeit von anderen Ereignissen. 6.1.15 Beispiel. Aus einer Urne mit 5 roten und 3 grünen Kugeln werden nacheinan- der zwei Kugeln zufällig entnommen. R1, R2, G1 und G2 bezeichnen die Ereignisse, dass Rot beziehungsweise Grün beim ersten beziehungsweise zweiten Zug erscheint. Nach der Denition der Wahrscheinlichkeit ergibt sich P (R1) = 5 8 und P (G1) = 3 8. Nach dem ersten Zug benden sich noch 7 Kugeln in der Urne. Die Wahrscheinlichkeit beim zweiten Zug eine grüne Kugel zu ziehen, hängt nun von der Farbe der zuerst gezogenen Kugel ab. Die Wahrscheinlichkeit für G2 unter der Bedingung R1 ergibt sich zu P (G2|R1) = 73 . P (G2|G1) = 72 . 118 Die Wahrscheinlichkeit für G2 unter der Bedingung G1 ergibt sich zu Version 6.0 - 019 24.06.2017 Kapitel 6. Grundlagen der Wahrscheinlichkeitsrechnung 6.1.16 Denition (bedingte Wahrscheinlichkeit). Wie hängen zwei Ereignisse von- einander ab? Denition. Die bedingte Wahrscheinlichkeit (die Wahrscheinlichkeit von B unter der Bedingung A) P (B|A) ist die Wahrscheinlichkeit für das Eintreten des Ereignisses B unter der Voraussetzung, dass das Ereignis A bereits eingetreten ist. Es gilt: P (B|A) = Sie heiÿt auch konditionale P (A ∩ B) P (A) für P (A) > 0 (6.14) Wahrscheinlichkeit 6.1.17 Denition (unabhängig). Zwei Ereignisse A und B sind voneinander unab- hängig, wenn die Wahrscheinlichkeit für das Auftreten von A nicht vom Ereignis B abhängt. Entsprechend sind die Ereignisse abhängig, wenn die Wahrscheinlichkeit für das Auftreten des Ereignisses B davon abhängt, ob das Ereignis A eingetreten ist oder nicht. Denition (stochastisch unabhängig, stochastisch abhängig). Die Ereignisse A und B sind genau dann stochastisch unabhängig , wenn gilt P (B|A) = P (B|Ā) oder P (A|B) = P (A|B̄). Gilt jedoch P (B|A) 6= P (B|Ā) oder P (A|B) 6= P (A|B̄), so sind die Ereignisse stochastisch abhängig . 6.1.18 Beispiel. In einer Urne benden sich 20 rote und 30 grüne Kugeln. 5 rote und 10 grüne Kugel sind mit einer 1 beschriftet. Mit R, G beziehungsweise E werden die Ereignisse rote Kugel, grüne Kugel beziehungsweise Kugel mit 1 bezeichnet. Es ergibt sich die in der Tabelle 6.1 aufgezeigte Verteilung: E Ē R 5 15 20 G 10 20 30 gesamt 15 35 50 Tabelle 6.1.: Beispiel 6.1.18 Nach der Denition der bedingten Wahrscheinlichkeit gilt: 1 4 und P (E|R̄) = P (E∩R̄) P (R̄) = 10/50 30/50 = P (E|R) = P (E∩R) P (R) = 5/50 20/50 = 1 3 . Daraus ergibt sich, dass die beiden Ereignisse E und R stochastisch abhängig sind. Version 6.0 - 019 24.06.2017 119 6.1. Zufallsexperiment und Ereignis In der Tabelle 6.1 im Beispiel 6.1.18 sind die Absolutzahlen angegeben. Wird durch die Gesamtanzahl dividiert, dann erhält man die Wahrscheinlichkeiten (siehe Tabelle 6.2). A Ā B P (A ∩ B) P (A ∩ B) P (B) B P (A ∩ B) P (Ā ∩ B̄) P (B) P (A) P (A) 1 Tabelle 6.2.: Wahrscheinlichkeit bei zwei Ereignissen 6.1.19 Beispiel. Ein Student besteht die Klausur in Statistik (Ereignis S) mit der Wahr- scheinlichkeit 0,7 und in Finanzmathematik (Ereignis M) mit der Wahrscheinlichkeit 0,8. Die Wahrscheinlichkeit für das Bestehen beiden Klausuren beträgt 0,6. Es gelten P (S|M ) = P (S ∩ M ) 0, 6 = = 0, 75 P (M ) 0, 8 (6.15) P (S|M̄ ) = P (S ∩ M ) 0, 1 = = 0, 5. 0, 2 P (M ) (6.16) und Da P (S|M ) 6= P (S|M ) gilt, sind S und M abhängig. Die Wahrscheinlichkeit, wenigstens eine Klausur zu bestehen, ist P (S ∪ M ) = P (S) + P (M ) − P (S ∩ M ) = 0, 7 + 0, 8 − 0, 6 = 0, 9 6.1.20 Satz. (6.17) Aus der Denition für die bedingte Wahrscheinlichkeit ergibt sich: Satz. Für zwei Ereignisse A und B (mit P (A) > 0 und P (B) > 0) gelten P (A ∩ B) = P (A) · P (B|A) = P (B) · P (A|B). M M̄ S 0,6 0,1 0,7 S̄ 0,2 0,1 0,3 0,8 0,2 1,0 (6.18) Tabelle 6.3.: Beispiel 6.1.19 120 Version 6.0 - 019 24.06.2017 Kapitel 6. Grundlagen der Wahrscheinlichkeitsrechnung Insbesondere gilt für zwei unabhängige Ereignisse P (A ∩ B) = P (A) · P (B). (6.19) 6.2. Zusammen gesetzte Aufgaben 6.2.1 Anmerkung. Im folgenden werden zusammen gesetzte Aufgaben betrachtet, bei denen sowohl Durchschnitt und Vereinigung von Ereignissen vorkommen. Für die Visualisierung der Beispiele werden Komponenten verwendet, die eine bestimmte Verfügbarkeit haben. Diese Komponenten werden auf verschiedene Art und Weise zu einem Aggregat zusammen gesetzt, wobei die Komponenten sowohl hintereinander oder parallel sein können. 6.2.2 Anmerkung. (K1 und K2 ) Gegeben sei nun ein Aggregat (A), welches aus 2 Komponenten besteht, die hintereinander geschaltet sind (siehe Abbildung 6.1). A K1 K2 Abbildung 6.1.: Zwei Komponenten hintereinander Die beiden Komponenten K1 und K2 haben die Wahrscheinlichkeiten P (Ki ) = pi (i = 1,2), dass die Komponente funktioniert, wobei die Funktionalität einer Komponente nicht von der Funktionalität der anderen Komponente abhängt. Das bedeutet, dass die Wahrscheinlichkeiten unabhängig voneinander sind. Wie sieht nun die Wahrscheinlichkeit p = P (A) aus, dass das Aggregat funktioniert. Die Hintereinanderschaltung bedeutet, dass das Aggregat nur funktioniert, wenn beide Komponenten funktionieren. Es gilt p = P (A) = P (K1 and K2 ) = P (K1 ) · P (K2 ) = p1 · p2 6.2.3 Beispiel. jeweiligen (6.20) A besteht aus zwei Komponenten K1 und K2 mit den Wahrscheinlichkeiten P (Ki ) = pi = 0, 9 (i = 1,2), dass die Komponenten Ein Aggregat funktioniert. Das Aggregat funktioniert nur, wenn beide Komponenten funktionieren (K1 and K2 ). Damit gilt p = P (A) = P (K1 ) · P (K2 ) = p1 · p2 = 0, 9 · 0, 9 = 0, 81 . (6.21) Das bedeutet, dass die Wahrscheinlichkeit für das Funktionieren des Aggregates bei 0,81 ist. Version 6.0 - 019 24.06.2017 121 6.2. Zusammen gesetzte Aufgaben 6.2.4 Beispiel. E A zu einem Endpunkt transportiert werden. Die gesamte Strecke ist durch einen Zwischenpunkt AZ Teilstrecken in Eine Nachricht muss von einem Ausgangspunkt A und ZE aufgegeben wird in Z ankommt beträgt P (AZ) = 0, 7. Z aufgegeben Wahrscheinlichkeit, dass eine Nachricht, die in Wahrscheinlichkeit beträgt E dass eine Nachricht P (ZE) = 0, 6. E ankommt, diese Damit ergibt sich für die Wahrscheinlichkeit, erreicht, wenn sie in Nun wird ein Aggregat K1 , K2 , . . ., Kn , in zwei Davon unabhängig ist die wird in A los gesendet wird zu P (AE) = P (AZ and ZE) = P (AZ) · P (ZE) = 0, 7 · 0, 6 = 0, 42 6.2.5 Satz. Z geteilt. Die Wahrscheinlichkeit dafür, dass eine Nachricht, die (6.22) A betrachtet, das aus n unabhängigen Komponenten die hintereinander geschaltet sind (siehe Abbildung 6.2), besteht. Das Aggregat funktioniert also nur, wenn alle Komponenten funktionieren. A K1 K2 Kn Abbildung 6.2.: Mehrere Komponenten hintereinander Es seien Ki P (Ki ) = pi für (i = 1, 2, . . . , n) die Wahrscheinlichkeiten, dass die Komponente funktioniert. Es gilt dann p = P (A) = P (K1 and K2 and . . . and Kn ) (6.23) = P (K1 ) · P (K2 ) · . . . · P (Kn ) = p1 · p2 · . . . · pn Satz. Es seien Ki (i = 1, 2, . . . , n) unabhängige Ereignisse, die hintereinander geschaltet sind (durch and zusammengesetzt). Die Wahrscheinlichkeiten seien P (Ki ) = pi (i = 1, 2, . . . , n) für die Ereignisse Ki , dann gilt P (K1 and K2 and . . . and Kn ) = n Y pi (6.24) i=1 6.2.6 Anmerkung. Nun wird die Situation betrachtet, dass die Komponenten nicht hintereinander, sondern parallel geschaltet sind. Dies bedeutet, dass das Aggregat, das aus den Komponenten zusammen gesetzt ist, funktioniert, wenn mindestens eine Komponente funktioniert. 6.2.7 Anmerkung. ten (K1 und 122 K2 ) Zuerst wird ein Aggregat (A) betrachtet, welches aus 2 Komponen- besteht, die parallel geschaltet sind (siehe Abbildung 6.3). Version 6.0 - 019 24.06.2017 Kapitel 6. Grundlagen der Wahrscheinlichkeitsrechnung A K1 K2 Abbildung 6.3.: Zwei Komponenten parallel Die beiden Komponenten K1 und K2 haben die Wahrscheinlichkeiten P (Ki ) = pi (i = 1,2), dass die Komponente funktioniert, wobei die Funktionalität einer Komponente nicht von der Funktionalität der anderen Komponente abhängt. Das bedeutet, dass die Wahrscheinlichkeiten unabhängig voneinander sind. Wie sieht nun die Wahrscheinlichkeit p = P (A) aus, dass das Aggregat funktioniert. Die Parallelschaltung bedeutet, dass das Aggregat funktioniert, wenn mindestens eine Komponenten funktioniert. Es gilt, mit Hilfe des Additionsgesetzes p = P (A) = P (K1 or K2 ) = P (K1 ) + P (K2 ) − P (K1 and K2 ) (6.25) = P (K1 ) + P (K2 ) − P (K1 ) · P (K2 ) = p1 + p2 − p1 · p2 6.2.8 Beispiel. Um eine Nachricht vom Punkt A(nfang) zum Punkt E(nde) zu über- mitteln, wird die Nachricht auf zwei verschiedene Wege übermittelt. Beim ersten Weg ist die Wahrscheinlichkeit, dass die Nachricht übermittelt wird bei 60%. Beim zweiten Weg ist die Wahrscheinlichkeit, dass die Nachricht übermittelt wird bei 40%. Wie hoch ist die Wahrscheinlichkeit, dass die Nachricht übermittelt wird (Ereignis A). Es ist P (A) = 0, 6 + 0, 4 − 0, 6 · 0, 4 = 0, 76 . 6.2.9 Anmerkung. (K1 , K2 und K3 ) Nun wird ein Aggregat (A) betrachtet, welches aus 3 Komponenten besteht, die parallel geschaltet sind (siehe Abbildung 6.4). Wenn mit dem Additionsgesetz gearbeitet wird, was durchaus machbar ist, so wachsen die Terme und die Umformungen. Auch wenn man noch mehr Komponenten berücksichtigt, wächst dieser Aufwand. Es kann der Blickwinkel geändert werden. Das Aggregat funktioniert, wenn eine der Komponenten funktioniert, das Aggregat funktioniert nicht, wenn alle Komponenten nicht funktionieren. Damit gibt es eine ist dabei, dass für ein Ereignis A gilt: P (A) = 1 − P (A). and-Verbindung. Wichtig Dieser neue Blickwinkel wird zuerst bei zwei Komponenten angewendet, um zu sehen, ob das Ergebnis richtig heraus kommt. Version 6.0 - 019 24.06.2017 123 6.2. Zusammen gesetzte Aufgaben A K1 K2 K3 Abbildung 6.4.: Drei Komponenten parallel p = P (A) = P (K1 or K2 ) (6.26) = 1 − P (K1 or K2 ) = 1 − P (K1 and K2 ) = 1 − P (K1 ) · P (K2 ) = 1 − (1 − P (K1 )) · (1 − P (K2 )) = 1 − (1 − p1 ) · (1 − p2 ) = p1 + p2 − p1 · p2 Jetzt für 3 Komponenten. p = P (A) = P (K1 or K2 or K3 ) (6.27) = 1 − P (K1 or K2 or K3 ) = 1 − P (K1 and K2 and K3 ) = 1 − P (K1 ) · P (K2 ) · P (K3 )) = 1 − (1 − P (K1 )) · (1 − P (K2 )) · (1 − P (K3 )) = 1 − (1 − p1 ) · (1 − p2 ) · (1 − p3 ) = p1 + p2 + p3 − p1 · p2 − p1 · p3 − p2 · p3 + p1 · p2 · p3 6.2.10 Satz. Jetzt werden gleich P (Ki ) = pi (i = 1, 2, . . . , n) n Komponenten (Ki ) mit den Wahrscheinlichkeiten betrachtet, die parallel geschaltet sind (siehe Abbildung 6.5). 124 Version 6.0 - 019 24.06.2017 Kapitel 6. Grundlagen der Wahrscheinlichkeitsrechnung A K1 K2 . . . Kn Abbildung 6.5.: Mehrere Komponenten parallel p = P (A) = P (K1 or K2 or . . . or Kn ) (6.28) = 1 − P (K1 or K2 or . . . or Kn ) = 1 − P (K1 and K2 and . . . and Kn ) = 1 − P (K1 ) · P (K2 ) · . . . · P (Kn ) = 1 − (1 − P (K1 )) · (1 − P (K2 )) · . . . · (1 − P (Kn )) = 1 − (1 − p1 ) · (1 − p2 ) · . . . · (1 − pn )) Damit wurde allgemein gezeigt: Satz. Es seien (i = 1, 2, . . . , n) unabhängige Ereignisse, die durch or zusammengesetzt werden (parallel geschaltet). Die Wahrscheinlichkeiten seien P (Ki ) = pi (i = 1, 2, . . . , n) für die Ereignisse Ki , dann gilt Ki P (K1 or K2 or . . . or Kn ) = 1 − n Y (1 − pi ) (6.29) i=1 6.2.11 Beispiel. Gegeben sei ein Gerät (G), das aus zwei (technischen) Komponenten A und B besteht. Jede dieser Komponenten hat jeweils die Wahrscheinlichkeit von 0,9, dass sie nach einem Jahr Betrieb noch aktiv sind. Die beiden Ereignisse sind voneinander Version 6.0 - 019 24.06.2017 125 6.2. Zusammen gesetzte Aufgaben unabhängig. Wie hoch ist die Wahrscheinlichkeit, dass das Gerät nach einem Jahr noch aktiv ist, wenn die beiden Komponenten parallel geschaltet sind (eines der Komponenten muss noch aktiv sein, damit das Gerät aktiv ist) oder hintereinander geschaltet sind (beide Komponenten müssen noch aktiv sein). P (G) = P (A∪B) = P (A)+P (B)−P (A∩B) = P (A)+P (B)−P (A)·P (B) = 0, 9 + 0, 9 − 0, 81 = 0, 99 (hintereinander): P (G) = P (A ∩ B) = P (A) · P (B) = 0, 9 · 0, 9 = 0, 81 (parallel): 6.2.12 Beispiel. (K1 und K2 ) besteht, die parallel geschaltet sind (siehe hierzu wieder Abbildung 6.3). Die Komponente fügbarkeit p = 0, 9 p2 Jetzt wird ein Aggregat (A) betrachtet, welches aus 2 Komponenten K1 hat die Verfügbarkeit (Wahrscheinlichkeit) muss die Komponente K2 p1 = 0, 8. Welche Ver- haben, damit das Aggregat die Verfügbarkeit hat? Die Komponenten sind parallel geschaltet, also gilt p = 1 − (1 − p1 ) · (1 − p2 ) (6.30) mit den konkreten Zahlen ergibt sich 0, 9 = 1 − (1 − 0, 8) · (1 − p2 ) Aufgelöst nach der Unbekannten p2 ergibt sich (6.31) p2 = 0, 5. 6.2.13 Beispiel. Nun wird ein Aggregat (A) betrachtet, welches aus 3 Komponenten (K1 , besteht, folgendermaÿen geschaltet sind, siehe Abbildung 6.6. K2 und K3 ) K1 K2 K3 Abbildung 6.6.: Aggregat aus drei Komponenten Die Komponente nente K2 K1 hat die Verfügbarkeit (Wahrscheinlichkeit) die Verfügbarkeit p2 = 0, 7. Welche Verfügbarkeit haben, damit das Aggregat die Verfügbarkeit p = 0, 9 p3 p1 = 0, 8, die Kompo- muss die Komponente K3 hat? p = 0, 9 hat, muss - nach dem vorherigen Beispiel gleich 0, 5 (P (K2 K3 ) = 0, 5) sein. Damit gilt Damit das Aggregat die Verfügbarkeit - die Verfügbarkeit des unteren Teils 0, 5 = P (K2 K3 ) = P (K2 and K3 ) = P (K2 ) · P (K3 ) = 0, 7 · p3 Aufgelöst nach 126 p3 ergibt (6.32) p3 = 0, 7143. Version 6.0 - 019 24.06.2017 Kapitel 6. Grundlagen der Wahrscheinlichkeitsrechnung 6.2.14 Beispiel. Es soll die Wahrscheinlichkeit berechnet werden, dass ein Radio mit Mittelwellen-, Kurzwellen- und UKW-Empfang nach einem Jahr Dauerbetrieb noch auf wenigstens einem Wellenbereich funktionsfähig ist. Es wird angenommen, dass alle Bauteile unabhängig voneinander sind. Die Abbildung 6.7 zeigt den Bauplan mit den einzelnen Komponenten: TRA - Netztrafo, VOR - Vorstufe, MWE - Mittelwerte Empfang, KWE - Kurzwelle Empfang, UKV - UKW Vorstufe, UKH - UKW Hauptstufe, END Endstufe, SP1 = Speaker 1, SP2 = Speaker 2. MWE VOR KWE TRA SP2 END UKV UKH SP1 Abbildung 6.7.: Bauplan Radio Die Wahrscheinlichkeit dass die einzelne Komponente nach einem Jahr Dauerbetrieb nach aktiv sind, sind in der Tabelle 6.4 aufgeführt. P (T RA) = 0, 8 P (M W E) = 0, 8 P (U KV ) = 0, 9 P (EN D) = 0, 9 P (SP 2) = 0, 9 P (V OR) = 0, 75 P (KW E) = 0, 6 P (U KH) = 0, 8 P (SP 1) = 0, 9 Tabelle 6.4.: Verfügbarkeiten Komponenten vom Radio Die zusammengesetzten Komponenten sind der MW-KW-Teil (mw-kw-teil), bestehend aus dem MW- und dem KW-Empfang, dem AM-Teil (am-teil), bestehend aus der Vorstufe und dem MW-KW-Teil, dem FM-Teil (fm-teil), bestehend aus der UKW-Vorstufe und der UKW-Hauptstufe, dem Empfangsteil (empfangsteil), bestehend aus dem AMTeil und dem FM-Teil, dem Lautsprecher (lautsprecher), bestehend aus dem Speaker 1 und dem Speaker 2. Der gesamte Radio (radio) besteht dann aus dem Netztrafo, dem Emfangsteil, der Endstufe und dem Lautsprecher. Wie hoch ist die Wahrscheinlichkeit, dass nach einem Jahr Dauerbetrieb der Radio noch P (mw − kw − teil) = 0, 8 + 0, 6 − 0, 8 · 0, 6 = 0, 92, P (am − teil) = 0, 75 · 0, 92 = 0, 69, P (f m − teil) = 0, 9 · 0, 8 = 0, 72, P (empf angsteil) = 0, 69 + 0, 72 − 0, 69 · 0, 72 = 0, 9132, P (lautsprecher) = 0, 9+0, 9−0, 9·0, 9 = 0, 99, P (radio) = 0, 8·0, 9132·0, 9·0, 99 = 0, 6509 funktioniert (mindestens ein Wellenbereich, mindestens ein Lautsprecher). Version 6.0 - 019 24.06.2017 127 6.2. Zusammen gesetzte Aufgaben 6.2.15 Beispiel. (Duell Anton mit Bert) Es wird nun ein Duell von Anton und Bert, zweier guter Schützen, betrachtet. Anton hat eine Treerwahrscheinlichkeit von 1 (das heiÿt von 100 %), während Bert eine Treerwahrscheinlichkeit von 0,8 (das heiÿt 80 %) hat. Wenn beim Duell die Reihenfolge, in der geschossen werden darf, per Zufall bestimmt wird, wie hoch sind die Überlebenschancen von Anton und Bert? Wenn Anton zuerst schieÿen darf, dann wird er sofort Bert treen. Somit hat Anton überlebt. Ist p(A|A1) die Wahrscheinlichkeit, dass Anton (A) überlebt, unter der Be- dingung, dass Anton zuerst schieÿen darf (A1), so gilt p(B|A1) = 0. Darf keit von 0, 8 seinen p(A|A1) = 1 und entsprechend Bert zuerst schieÿen (B1), so trit er mit einer WahrscheinlichGegner. Mit einer Wahrscheinlichkeit von 0, 2 kann sein Gegner zurück schieÿen. In diesem Fall trit Anton und das Duell ist beendet. Es gilt somit p(A|B1) = 0, 8 · 0 + 0, 2 · 1 = 0, 2 (wobei 1 beziehungsweise 0 der Wert ist, ob Anton überlebt oder nicht) und p(B|B1) = 0, 8·1+0, 2·0 = 0, 8 (hier repräsentiert 1 beziehungsweise 0 den Wert, ob Bert überlebt oder nicht). Für die Überlebenschancen von Anton gilt somit p(A) = p(A1) · p(A|A1) + p(B1) · p(A|B1) (6.33) = 0, 5 · 1, 0 + 0, 5 · 0, 2 = 0, 6 . A überlebt, wenn er zuerst schieÿen darf (das passiert mit der Wahrscheinlichkeit p(A1)) oder mit ein Wahrscheinlichkeit von 20% (p(A|B1)), wenn Bert zuerst schieÿen darf. Die Überlebenschancen von Bert berechnen sich durch p(B) = p(A1) · p(B|A1) + p(B1) · p(B|B1) (6.34) = 0, 5 · 0, 0 + 0, 5 · 0, 8 = 0, 4 . 6.2.16 Beispiel. (Duell Anton mit Claus) Beim Duell von Anton (Treerwahrschein- lichkeit 100%) und Claus (Treerwahrscheinlichkeit von 50%) ergeben sich nach den obigen Regeln Überlebenschancen von 6.2.17 Beispiel. p(A) = 0, 75 und p(C) = 0, 25. (Duell Bert mit Claus) Wenn sich nun Bert und Claus duellieren? Wenn zuerst Bert schieÿt, dann hat er trit er zu 80%. Zu 20% darf Claus schieÿen. Dabei trit Claus nur zu 50%, zu den anderen 50% darf dann wieder Bert schieÿen, die Ausgangssituation ist wieder erreicht. Die Überlebenschance von Bert errechnet sich dadurch mit p(B|B1) = 0, 8 · 1 + 0, 2 · (0, 5 · 0 + 0, 5 · p(B|B1)) (6.35) = 0, 8 + 0, 1 · p(B|B1) . Damit ergibt sich 0, 9 · p(B|B1) = 0, 8 und somit p(B|B1) = 8 9 . Analog ergibt sich für die Überlebenschance von Claus p(C|B1) = 0, 8 · 0 + 0, 2 · (0, 5 · 1 + 0, 5 · p(C|B1)) (6.36) = 0, 1 + 0, 1 · p(C|B1) . 128 Version 6.0 - 019 24.06.2017 Kapitel 6. Grundlagen der Wahrscheinlichkeitsrechnung Damit ergibt sich 0, 9 · p(C|B1) = 0, 1 und somit p(C|B1) = 1 9. Darf Claus zuerst schieÿen, dann berechnen sich die Überlebenschancen von Bert durch p(B|C1) = 0, 5 · 0 + 0, 5 · (0, 8 · 1 + 0, 2 · p(B|C1)) (6.37) = 0, 4 + 0, 1 · p(B|C1) und somit 0, 9 · p(B|C1) = 0, 4 und damit p(B|C1) = 4 9 . Die Überlebenschance von Claus sind p(C|C1) = 0, 5 · 1 + 0, 5 · (0, 8 · 0 + 0, 2 · p(C|C1)) (6.38) = 0, 5 + 0, 1 · p(C|C1) und somit 0, 9 · p(C|C1) = 0, 5 Daraus ergibt sich insgesamt 6.2.18 Beispiel. und damit p(B) = p(C|C1) = 2 3 und p(C) = 5 9. 1 3. (Triell) Wenn Anton, Bert und Claus ein Triell durchführen, wobei am Anfang die Reihenfolge beim Schieÿen zufällig bestimmt wird, dann müssen die Kontrahenten mit der folgenden Strategie herangehen: Anton muss zuerst Bert treen, entsprechend muss Bert zuerst Anton treen, da dies jeweils die schärfsten Kontrahenten sind. Claus muss solange in die Luft schieÿen, bis nur noch ein Gegner da ist. Claus muss damit sicher stellen, dass er, wenn einer der Gegner bereits weg ist, er den ersten Schuss auf den verbleibenden Gegner abgeben kann. Damit sind es zwei Ereignisse. Zuerst ein Duell zwischen Anton und Bert (DAB) und anschlieÿend ein Duell zwischen Claus und dem Überlebenden des ersten Duells. Die Wahrscheinlichkeiten für das Überleben ergeben sich dadurch zu: p(A) = p(A|DAB) · p(A|C1 im DAC) = 0, 6 · 0, 5 = 0, 3 p(B) = p(B|DAB) · p(B|C1 im DBC) = 0, 4 · 4 8 = = 0, 178 9 45 p(C) = p(A|DAB) · p(C|C1 im DAC) (6.39) (6.40) (6.41) + p(B|DAB) · p(C|C1 im DBC) 5 47 = 0, 6 · 0, 5 + 0, 4 · = = 0, 522 9 90 Hierbei bedeuten DAB = Duell zwischen Anton und Bert, DAC = Duell zwischen Anton und Claus, DBC = Duell zwischen Bert und Claus. Somit hat Claus ist besten Überlebenschancen, mit über 50%. Version 6.0 - 019 24.06.2017 129 6.3. Aufgaben 6.3. Aufgaben 6.3.1 Aufgabe. Verdeutlichen Sie sich die Eigenschaften der Wahrscheinlichkeit am Bei- spiel des Würfels. 6.3.2 Aufgabe. Aus einem Spiel mit 32 Karten wird zufällig eine Karte gezogen. Es ist P(Kreuz) = 0,25 und P(Ass) = 0,125. Bestimmen Sie P(Kreuz oder Ass) und von P(Kreuz und Ass). 6.3.3 Aufgabe. In einer Urne benden sich 200 Kugeln, von denen 70 blau sind und die übrigen gelb. Auf 20 blauen Kugeln und 30 gelben Kugeln ist ein Stern gemalt. Wie groÿ ist die Wahrscheinlichkeit, dass eine zufällig gezogene Kugel blau ist oder mit einem Stern bemalt ist? 6.3.4 Aufgabe. eignis Beim Werfen von zwei Würfeln soll die Wahrscheinlichkeit für das Er- Summe der Augen höchstens 11 6.3.5 Aufgabe. bestimmt werden. Gegeben sei ein Gerät (G), das aus drei (technische) Komponenten A, B und C besteht. Jede dieser Komponenten hat jeweils die Wahrscheinlichkeit von 0,9, dass sie nach einem Jahr Betrieb noch aktiv sind. Die drei Ereignisse sind voneinander unabhängig. Wie hoch ist die Wahrscheinlichkeit, dass das Gerät nach einem Jahr noch aktiv ist, wenn die drei Komponenten parallel geschaltet sind oder hintereinander geschaltet sind? 6.3.6 Aufgabe. Gegeben sei ein Gerät (G), das aus n (technische) Komponenten Ki , i = 1, . . . , n besteht. Jede dieser Komponenten hat jeweils die Wahrscheinlichkeit von 0,5 (0,7; 0,9; 0,95; 0,99; 0,995), dass sie nach einem Jahr Betrieb noch aktiv sind. Die Komponenten (Ereignisse) sind voneinander unabhängig. Wie hoch ist die Wahrscheinlichkeit, dass das Gerät nach einem Jahr noch aktiv ist, wenn die Komponenten parallel geschaltet sind oder hintereinander geschaltet sind? Erstellen Sie dazu eine Tabelle. 6.3.7 Aufgabe. Bestimmen Sie die Wahrscheinlichkeiten für die Summe beim Würfeln mit zwei unabhängigen Würfeln. 6.3.8 Aufgabe. Es wird mit drei unterscheidbaren Würfeln gewürfelt. Wie groÿ ist die Wahrscheinlichkeit dafür, dass die Augensumme mindestens 7, aber weniger als 10 beträgt? 6.3.9 Aufgabe. In einer Lostrommel mit 1000 gut gemischten Losen benden sich 10 Hauptgewinne (H) und 80 einfache Gewinne (E). Bestimmen Sie die Wahrscheinlichkeit (a) einen Hauptgewinn, (b) einen einfachen Gewinn, (c) einen Hauptgewinn oder einen einfachen Gewinn zu ziehen. 130 Version 6.0 - 019 24.06.2017 Kapitel 6. Grundlagen der Wahrscheinlichkeitsrechnung 6.3.10 Aufgabe. In einer Urne benden sich 200 Kugeln, von denen 70 blau sind und die übrigen gelb. Auf 20 blauen Kugeln und 30 gelben Kugeln ist ein Stern gemalt. Wie groÿ ist die Wahrscheinlichkeit, dass eine zufällig gezogene Kugel blau ist oder mit einem Stern bemalt ist? 6.3.11 Aufgabe. In einer Urne benden sich 7 blaue und 6 gelbe Kugeln. Es werden nacheinander ohne Zurücklegen zwei Kugeln gezogen. Wie groÿ ist die Wahrscheinlichkeit, beim zweiten Zug eine gelbe Kugel zu ziehen, unter der Bedingung, dass beim ersten Zug eine blaue Kugel gezogen wurde oder eine gelbe Kugel gezogen wurde? 6.3.12 Aufgabe. P (C) = 0, 1 A, B und C , die P (A) = 0, 3, P (B) = 0, 2 und Eine Maschine besteht aus den drei Aggregaten unabhängig voneinander mit den Wahrscheinlichkeiten ausfallen. Die Maschine kann nur genutzt werden, wenn keines der drei Ein- zelaggregate ausfällt. Wie hoch ist die Wahrscheinlichkeit für den Ausfall der Maschine? 6.3.13 Aufgabe. In einer Urne benden sich 12 blaue und 8 gelbe Kugeln. Es werden nacheinander ohne Zurückziehen zwei Kugeln gezogen. Wie groÿ ist die Wahrscheinlichkeit, beim dritten Zug eine gelbe Kugel zu ziehen, unter der Bedingung, dass (a) beim ersten Zug eine blaue Kugel gezogen wird? (b) beim ersten Zug eine gelbe Kugel gezogen wird? 6.4. Lösungen 6.4.1 Lösung. zu Aufgabe 6.3.1 - 6.4.2 Lösung. zu Aufgabe 6.3.2 P (Kreuz und Ass) = 1/32 P (Kreuz oder Ass) = P (Kreuz) + P (Ass) − P (Kreuz und Ass) = 11/32 6.4.3 Lösung. zu Aufgabe 6.3.3 P (blau) = 70/200, P (ST ern) = 50/200, P (blau oder Stern) = 100/200 6.4.4 Lösung. zu Aufgabe 6.3.4 Beim würfeln mir zwei Würfeln ist nur die die Augensumme gröÿer als elf, wenn zwei Sechser gewürfelt werden. Die Wahrscheinlichkeit hierfür ist 1/36. Die Wahrscheinlichkeit dafür höchstens die Augensumme elf zu haben ist damit das Komplement davon, also 35/36. 6.4.5 Lösung. zu Aufgabe 6.3.5 1 − (1 − 0, 9)3 = 0, 999 3 hintereinander: 0, 9 = 0, 729 parallel: Version 6.0 - 019 24.06.2017 131 6.4. Lösungen 6.4.6 Lösung. zu Aufgabe 6.3.6 1 − (1 − p)n n hintereinander: p parallel: 6.4.7 Lösung. zu Aufgabe 6.3.7 In der nachfolgenden Tabelle sind die verschiedenen Ergebnisse beim Würfeln mit zwei Würfeln aufgeführt. 1 2 3 4 5 6 1 2 3 4 5 6 7 2 3 4 5 6 7 8 3 4 5 6 7 8 9 4 5 6 7 8 9 10 5 6 7 8 9 10 11 6 7 8 9 10 11 12 In der nachfolgenden Tabelle sind die Wahrscheinlichkeiten für die einzelnen Summen aufgeführt. Augen Anzahl P(Augen) 2 1 0,0278 3 2 0,0556 4 3 0,0833 5 4 0,1111 6 5 0,1389 7 6 0,1667 8 5 0,1389 9 4 0,1111 10 3 0,0833 11 2 0,0556 12 1 0,0278 36 1,0000 6.4.8 Lösung. zu Aufgabe 6.3.8 Es gibt insgesamt 216 (= 132 63 ) verschiedene Kombinationen für die Würfel. Version 6.0 - 019 24.06.2017 Kapitel 6. Grundlagen der Wahrscheinlichkeitsrechnung Augen Kombinationen Anzahl 7 5-1-1 3 4-2-1 6 3-3-1 3 3-2-2 3 6-1-1 3 5-2-1 6 4-3-1 6 4-2-2 3 3-3-2 3 6-2-1 6 5-3-1 6 5-2-2 3 4-4-1 3 4-3-2 6 3-3-3 1 8 9 Gesamt P (Augen) 15 0,0694 21 0,0972 25 0,1157 7-9 0,2824 Die gesuchte Wahrscheinlichkeit ist 0,2824! 6.4.9 Lösung. zu Aufgabe 6.3.9 10 P (H) = h(H) N = 1000 = 0, 01 h(E) 80 (b) P (E) = N = 1000 = 0, 08 (c) P (H ∪ E) = P (H) + P (E) = 0, 09 (a) 6.4.10 Lösung. zu Aufgabe 6.3.10 blau gelb Stern 20 30 50 ohne 50 100 150 70 130 200 6.4.11 Lösung. P(blau oder Stern) = P(blau) + P(Stern) - P (blau und Stern) = 50 20 70 200 + 200 - 200 = 0,5. zu Aufgabe 6.3.11 Wird im ersten Zug eine blaue Kugel gezogen, dann sind noch sechs blaue und sechs gelbe Kugeln in der Urne. Daher gilt P (G2|B1) = 6 12 = 0, 500. Wird im ersten Zug eine gelbe Kugel gezogen, dann sind in der Urne noch sieben blaue und fünf gelbe Kugeln enthalten. Daher gilt P (G2|G1) = 5 12 = 0, 417. Hierbei bedeuten: B1 = imersten. Zug wird eine blaue Kugel gezogen; G1 = im ersten Zug wird eine gelbe Kugel gezogen; G2 = im zweiten Zug wird eine Kugel gezogen. 6.4.12 Lösung. zu Aufgabe 6.3.12 Es ergibt sich Version 6.0 - 019 24.06.2017 133 6.4. Lösungen P(Maschine nicht okay) = P(A nicht okay oder B nicht okay oder C nicht okay) = P(nicht (A okay und B okay und C okay)) = 1 - P(A okay und B okay und C okay) · = 1 - P(A okay) = 1 - (1 - P(A nicht okay)) · P(B okay) · · P(C okay) (1 - P(B nicht okay)) (1 - P(C nicht okay)) = 1 - (1 - 0,3) = 1 - 0,7 · 0,8 6.4.13 Lösung. p(G3|B1) = · (1 - 0,2) · (1 - 0,1) · 0,9 = 1 - 0,504 = 0,496 zu Aufgabe 6.3.13 p(B2|B1) · p(G3|B1B2) + p(G2|B1) · p(G3|B1G2) = 11 19 · 8 18 + 8 19 · 7 144 18 = 342 + p(G2|G1) · p(G3|G1G2) = 12 19 · 7 18 + 7 19 · 6 126 18 = 342 8 = 19 = 0,421 p(G3|G1) = = p(B2|G1) · p(G3|G1B2) 7 19 = 0,368 xi sei die Eigenschaft, dass im i. Zug die Farbe x (B blau oder G gelb) gezogen wird. 134 Version 6.0 - 019 24.06.2017 Kapitel 7. Zufallsvariablen Er wird zuerst (Abschnitt 7.1) der Begri Zufallsvariable erläutert. Danach (Abschnitt 7.2) werden Parameter für Zufallsparamater deniert. 7.1. Zufallsvariable 7.1.1 Anmerkung. Zuerst wird der Begri Zufallsexperiment genauer beleuchtet. Für ein Zufallsexperiment gilt: • Das Experiment wird unter klar denierten Bedingungen durchgeführt. • Die möglichen Ergebnisse (Ausgang des Experiments) sind vorher bereits bekannt. • Das Experiment kann (theoretisch) beliebig oft wiederholt werden. 7.1.2 Denition (Zufallsvariable). Im folgenden werden Zufallsexperimenten be- trachtet, deren Ergebnisse metrisch messbare Gröÿen sind. Denition. Eine messbare Funktion reelle Zahl X(ω) zuordnet, also X, die zu jedem Elementarereignis ω ∈ Ω eine X : Ω → R, ω 7→ X(ω) (7.1) heiÿt Zufallsvariable. Eine Zufallsvariable, die abzählbar viele Werte annehmen kann, heiÿt diskret. Eine Zufallsvariable, die überabzählbar viele Werte annehmen kann, heiÿt stetig. Für Zufallsvariable wird oftmals auch abgekürzt 7.1.3 Beispiel. ZV gesetzt. Eine diskrete Zufallsvariable ist die Zahl beim Würfeln mit einem Wür- fel. Die Zufallsvariable X kann nur die Werte 1, 2, 3, 4, 5 oder 6 annehmen. Version 6.0 - 019 24.06.2017 135 7.1. Zufallsvariable 7.1.4 Beispiel. Die als reelle Zahl gemessene Lebensdauer von Glühlampen ist eine stetige Zufallsvariable. Die Lebensdauer kann in einem Intervall der reellen Zahlen jeden beliebigen Wert annehmen. 7.1.5 Denition (Wahrscheinlichkeitsfunktion). Bei der Verwendung von Zufalls- variablen werden die Ergebnisse eines Zufallsexperiments durch reelle Zahlen beschrieben. Die den Ereignissen zugeordneten Wahrscheinlichkeiten werden dann den entsprechenden Werten der Zufallsvariablen zugeordnet. Bei diskreten Zufallsvariablen bedeutet das: Für ω 7→ X(ω) gilt P (X(ω)) = P (ω). Denition. Gegeben sei eine diskrete Zufallsvariable X , welche die Werte xi , i = 1, . . . , n mit von Null verschiedenen Wahrscheinlichkeiten P (X = xi ) = P (xi ) annehmen kann. Die Funktion fX (xi ) = P (xi ), die jedem xi die Wahrscheinlichkeit fX (xi ) zuordnet heiÿt Wahrscheinlichkeitsfunktion. Eine Wahrscheinlichkeitsfunktion fX besitzt die einfache Eigenschaften 0 ≤ fX (xi ) ≤ 1 P i fX (xi ) = 1). Nimmt die Zufallsvariax1 , . . . , xn mit von Null verschiedenen Wahrscheinlichkeiten fX (xi ) = P (xi ) (i = 1, . . . , n) an, so kann die Wahrscheinlichkeitsverteilung in tabellariund die Summe über alle Werte ist gleich 1 ( ble nur endlich viele Werte scher Form (siehe 7.1) angegeben werden: xi fX (xi ) x1 fX (x1 ) x2 fX (x2 ) ... ... xn fX (xn ) Tabelle 7.1.: diskrete, endliche Wahrscheinlichkeitsverteilung Dabei sollen die Werte geordnet sind (x1 < x2 < . . . < xn ). 7.1.6 Denition (Verteilungsfunktion). Eine Verteilungsfunktion gibt die Wahr- scheinlichkeit an, dass eine Zufallsvariable einen Wert kleiner oder gleich einem vorgegebenen Wert hat. Denition (Verteilungsfunktion). Gegeben sei eine diskrete Zufallsvariable X mit der Wahrscheinlichkeitsfunktion fX (x). Die Funktion FX (x) = P (X ≤ x) = X fX (xi ) (7.2) xi ≤x heiÿt Verteilungsfunktion der Zufallsvariablen X . 136 Version 6.0 - 019 24.06.2017 Kapitel 7. Zufallsvariablen FX limx→∞ FX (x) = 1. Eine Verteilungsfunktion hat folgende Eigenschaften: seitig stetig, limx→−∞ FX (x) = 0 und 7.1.7 Denition (Dichtefunktion). ist monoton steigend, rechts- Analog zu einer Wahrscheinlichkeitsfunktion für eine diskrete Zufallsvariable gibt es die Dichtefunktion für stetige Zufallsvariablen. Denition. Die Dichtefunktion fX (x) einer stetigen Zufallsvariablen X ist eine intervallweise stetige Funktion mit den Eigenschaften Z ∞ und fX (x)dx = 1 −∞ 7.1.8 Beispiel. fX (x) ≥ 0 (7.3) Die Funktion fX (x) = ist eine Dichtefunktion. Für alle 0, 5 : 3 ≤ x < 5 0 : sonst (7.4) x ∈ R ist fX (x) ≥ 0 und die Fläche unter der Kurve hat den Wert 1. 7.1.9 Beispiel. Die Funktion : 2≤x<4 0, 25x − 0, 5 −0, 25x + 1, 5 : 4 ≤ x < 6 fX (x) = 0 : sonst ist eine Dichtefunktion. Für alle (7.5) x ∈ R ist fX (x) ≥ 0 und die Fläche unter der Kurve hat den Wert 1. 7.1.10 Bemerkung. Die Dichtefunktion einer stetigen Zufallsvariablen gibt nicht die Wahrscheinlichkeit dafür an, dass die Zufallsvariable den Wert x annimmt. Mit Hilfe der Dichtefunktion einer stetigen Funktion kann nur die Wahrscheinlichkeit bestimmt werden, dass die Zufallsvariable X einen Wert in einem gegebenen Intervall annimmt. Bemerkung. Gegeben sei eine stetige Zufallsvariable X mit der Dichtefunktion fX (x). Dann gilt Z P (a < X ≤ b) = b fX (x)dx. (7.6) a Daher gilt bei einer stetigen Funktion stets P (X = x0 ) = 0. Daher gilt auch P (a ≤ X ≤ b) = P (a < X < b). Version 6.0 - 019 24.06.2017 137 7.2. Parameter von Zufallsvariablen 7.1.11 Denition (Verteilungsfunktion). Auch für eine stetige Zufallsvariable gibt es eine Verteilungsfunktion. Denition. Gegeben sei eine stetige Zufallsvariable X mit der Dichtefunktion fX (x). Die Funktion Z x FX (x) = P (X ≤ x) = fX (t) dt (7.7) −∞ heiÿt Verteilungsfunktion von X Damit gilt P (a < X ≤ b) = Rb a fX (x)dx = FX (b) − FX (a). 7.2. Parameter von Zufallsvariablen 7.2.1 Anmerkung. Zur Charakterisierung von Häugkeitsverteilungen werden in der beschreibenden (deskriptiven) Statistik Lage- und Streuungsparameter bestimmt. Entsprechende Parameter können auch für Wahrscheinlichkeitsverteilungen bestimmt werden. 7.2.2 Denition (Erwartungswert). Der Erwartungswert ist der Wert, den eine Zu- fallsvariable im Mittel annimmt, es ist somit so etwas wie der Mittelwert. Denition. Der Erwartungswert E(X) einer Zufallsvariablen X ist deniert durch E(X) = n X xi · fX (xi ) (7.8) i=1 für eine diskrete Zufallsvariablen mit der Wahrscheinlichkeitsfunktion fX , und Z ∞ x · fX (x)dx E(X) = (7.9) −∞ für stetige Zufallsvariablen mit der Dichtefunktion fX . Die Formel für den Erwartungswerten einer diskreten Zufallsvariablen hat eine sehr groÿe Ähnlichkeit zur Formel für das arithmetische Mittel, wenn die Daten mit relativer Häugkeit gegeben sind. Der Erwartungswert kann grob als erwarteter Mittelwert interpretiert werden. 138 Version 6.0 - 019 24.06.2017 Kapitel 7. Zufallsvariablen 7.2.3 Denition (Moment). Neben dem Erwartungswerte einer Zufallsvariablen gibt es auch Erwartungswerte für Potenzen von Zufallsvariablen. ein Zufallsvariable. Das m-te Moment E(X m ) ist bei einer diskreten Zufallsvariablen mit der Wahrscheinlichkeitsfunktion fX deniert durch Denition. Es sei X n X E(X m ) = xm i · fX (xi ) (7.10) i=1 und bei einer stetigen Zufallsvariablen mit der Dichtefunktion durch Z m ∞ E(X ) = xm · fX (x)dx (7.11) −∞ Das nullte Moment hat den Wert 1. Das erste Moment ist der Erwartungswert der Zufallsvariablen. Wie bei der beschreibenden Statistik können weitere Parameter deniert werden, welche eine Aussage über die Streuung geben. 7.2.4 Denition (Varianz, Standardabweichung). Wie bei der beschreibenden Statistik gibt es auch hier eine Varianz und eine Standardabweichung. Denition. Die Varianz einer Zufallsvariablen X ist deniert durch n X V AR(X) = i=1 n X = (xi − E(X))2 · fX (xi ) (7.12) x2i · fX (xi ) − (E(X))2 i=1 für eine diskrete Zufallsvariablen mit der Wahrscheinlichkeitsfunktion fX , und Z ∞ V AR(X) = Z−∞ ∞ = (x − E(X))2 · fX (x)dx (7.13) x2 · fX (x)dx − (E(X))2 −∞ für stetige Zufallsvariablen mit der Dichtefunktion fX . Die Wurzel der Varianz ist die Standardabweichung σX der Zufallsvariablen X (σX = p V AR(X)). Version 6.0 - 019 24.06.2017 139 7.2. Parameter von Zufallsvariablen 7.2.5 Bemerkung. Die Varianz kann mit Hilfe von Erwartungswerten dargestellt wer- den. Bemerkung. Es sei X eine Zufallsvariable, dann gilt V AR(X) = E(X 2 ) − E(X)2 , (7.14) die Varianz ist also das zweite Moment minus dem Quadrat des ersten Moments. 7.2.6 Satz. Für eine Linearkombination von unabhängigen Zufallsvariablen gilt folgende Aussage: Satz. Sind k stochastisch unabhängige Zufallsvariablen X1 , X2 , . . . , Xk mit den Erwar- tungswerten E(Xi ) und den Varianzen V AR(Xi ) für i = 1, . . . , k gegeben, so gilt für den Erwartungswert E(Y ) der Zufallsvariablen Y = a1 X1 + a2 X2 + · · · + ak Xk + b : E(Y ) = a1 E(X1 ) + a2 E(X2 ) + · · · + ak E(Xk ) + b . (7.15) Für die Varianz gilt V AR(Y ) = a21 V AR(X1 ) + a22 V AR(X2 ) + · · · + a2k V AR(Xk ) 7.2.7 Beispiel. riable X fX für die Zufallsvai = 1, · · · , 6. Für den Beim Würfeln ist die Wahrscheinlichkeitsfunktion der Zahl beim Würfeln gegeben durch Erwartungswert (7.16) E(X) fX (i) = 1 6 für gilt somit E(X) = 6 X i · fX (i) = 1 · i=1 1 1 + · · · + 6 · = 3, 5. 6 6 (7.17) 1 1 = · 17, 5 = 2, 92 6 6 (7.18) Für die Varianz ergibt sich V AR(X) = 6 X (i − 3, 5)2 · i=1 Für die Standardabweichung gilt somit 7.2.8 Beispiel. √ 2, 92 = 1, 71. Gegeben sei die Dichtefunktion fX (x) = 140 σX = 0, 5 : 3 < x < 5 0 : sonst . (7.19) Version 6.0 - 019 24.06.2017 Kapitel 7. Zufallsvariablen Der Erwartungswert berechnet sich durch: ∞ Z Z 5 x · 0, 5 dx x · fX (x) dx = E(X) = −∞ (7.20) 3 5 Z xdx = 0, 5 · = 0, 5 · 3 1 2 x 2 5 = 4. 3 Die Varianz berechnet sich durch: Z ∞ x2 · fX (x)dx − (E(X))2 V AR(X) = (7.21) −∞ Z = 0, 5 3 7.2.9 Beispiel. 5 1 x dx − (E(X)) = 0, 5 x3 3 2 2 5 − 42 = 0, 33. 3 1 Für die Dauer einer Fahrt zwischen Autobahndreieck Karlsruhe und Autobahnkreuz Stuttgart benötigt man normalerweise 30 Minuten, optimistisch benötigt man 20 Minuten, pessimistisch 60 Minuten. Die Abbildung 7.1 spiegelt die mögliche Verteilung wieder: 6 @ @ @ @ @ @ @ 10 20 30 40 50 - 60 Abbildung 7.1.: Verteilung Zeitbedarf Für die Vereinfachung der Rechnung wird als eine Einheit 10 Minuten angesetzt, das heiÿt 1 = ˆ 10 Minuten, 2 = ˆ 20 Minuten, und so weiter. Die Dauer sei durch die nachfolgende Dichtefunktion gegeben, die Normierung ist dabei so gewählt, dass die Fläche unter der Kurve 1 ergibt, so dass es eben eine Dichtefunktion ist. fX (t) = 1 t−2 2 6−t 6 0 Dieses Beispiel ist inspiriert durch den Artikel des Projektaufwands : 2<t<3 : 3<t<6 : sonst . (7.22) Die Drei-Punkt-Schätzmethode zur Kalkulation von P. Gartner in Projektmanagement, 4/99, Seite 33 - 37 Version 6.0 - 019 24.06.2017 141 7.2. Parameter von Zufallsvariablen Es gilt ∞ 3 Z 6 t−2 6−t fX (t)dt = dt + dt 2 6 2 −∞ 3 3 6 1 1 1 3 2 2 = (t − 2) − (6 − t) = + = 1 4 12 4 4 2 3 Z Z (7.23) so dass die angegebene Funktion tatsächlich eine Dichtefunktion ist. Die Wahrscheinlichkeit, dass die Dauer kleiner oder gleich 20 Minuten beträgt: Z 2 P (X ≤ 2) = fX (t)dt = 0 (7.24) −∞ Dies bedeutet, dass die Wahrscheinlichkeit, dass der Dauer kleiner oder gleich 20 Minuten ist gleich 0 ist. Für die Wahrscheinlichkeit, dass der Aufwand kleiner oder gleich 30 Minuten ist, ergibt sich: Z 3 P (X ≤ 3) = 3 Z fX (t)dt = −∞ 2 t−2 1 dt = 2 4 (7.25) Dies bedeutet wiederum, dass die Wahrscheinlichkeit, dass die Dauer kleiner oder gleich 30 Minuten ist nur 25% beträgt. Der Erwartungswert für die Dauer ist Z ∞ E(X) = Z tfX (t)dt = −∞ 2 3 t−2 dt + t 2 Z 6 t 3 6−t 11 dt = = 3, 667 6 3 Das heiÿt, der Erwartungswert für die Dauer beträgt 36 23 (7.26) Minuten. 85 13 2 2 6 und damit V AR(X) = E(X )−E(X) = 18 . Als Standardabweichung ergibt sich somit σX = 0, 850, das entspricht 8,5 Minuten. Als weitere Daten ergeben sich 7.2.10 Anmerkung. E(X 2 ) = Für Schätzungen mit einem optimistischen (O), einem häugsten (H) und einem pessimistischen (P) Wert kann der Erwartungswert auch mittels O+H+P 3 O+3H+P O+4H+P oder mittels ermittelt werden, wenn eine Dichtefunktion nicht 5 6 O+H+P gegeben ist. Bei P. Gartner wird für den Erwartungswert und für die Varianz 3 P −O 2 ( 5 ) verwendet. Dies auf das obige Beispiel angewendet würde für den Erwartungswert 11 den Wert E(X) = 3 , das entspricht 36 Minuten und 40 Sekunden, ergeben. Für die 16 4 Varianz erhält man 25 und somit für die Standardabweichung 5 = 0, 8, das entspricht 8 oder Minuten. Bei Softwareprojekten werden oftmals auch optimistische (O), häugste (H) und pessimistische (P) Schätzungen für Teilaufgaben durchgeführt. Für jede Teilaufgabe kann dann mittels der Formel O+H+P ein Erwartungswert geschätzt werden. Hat man vie3 le Teilaufgaben für eine Aufgabe, so kann der Projektaufwand als normalverteilt um die Summe der Erwartungswerte der Teilaufgaben angesehen werden (Gesetz der groÿen Zahlen). Die Varianz ist die Summe der Varianzen der Teilaufgaben, woraus sich die Standardabweichung berechnen lässt. Die Normalverteilung wird später noch behandelt. 142 Version 6.0 - 019 24.06.2017 Kapitel 7. Zufallsvariablen 7.2.11 Beispiel. Ein Projekt besteht aus 10 Teilaufgaben. Jede Teilaufgabe hat einen Aufwand von 10 (Erwartungswert) und einer Standardabweichung von 1 (damit ist auch die Varianz jeder Teilaufgabe gleich 1). Das Projekt hat somit für den Aufwand einen Erwartungswert von 100 (Summe der einzelnen Erwartungswert). Die Summe der Vari- √ anzen ist 10, somit ist die Standardabweichung gleich 10 = 3, 16 und somit (deutlich) geringer als die Summe der einzelnen Standardabweichung. Die Standardabweichung hier besagt jedoch nur, dass mit einer gewissen Wahrscheinlichkeit der Wert in dem Bereich Erwartungswert plus / minus Standardabweichung ist. 7.2.12 Anmerkung. Bei Projektschätzungen wird oftmals für jede Aufgabe der opti- mistische Wert genommen und die Summe der optimistischen Werte als Aufwand für das Projekt genommen. Dieses Projekt wird von vorne herein eine Überschreitung des Aufwands haben. Die Summe der Erwartungswerte ist der Aufwand, der mit einer Wahrscheinlichkeit von 50% erreicht oder unterschritten wird. 7.3. Aufgaben 7.3.1 Aufgabe. Eine Zufallsvariable X hat folgende Wahrscheinlichkeitsverteilung ge- mäÿ Tabelle 7.2 xi fX (xi ) 2 3 5 8 9 0,1 0,4 0,2 0,1 0,2 Tabelle 7.2.: Wahrscheinlichkeitsverteilung Berechnen Sie den Erwartungswert und die Varianz. 7.3.2 Aufgabe. Gegeben sei eine stetige Zufallsvariable X. Die zugehörige Dichtefunk- tion lautet: fX (x) = 0, 5x − 1 : 2 < x < 4 0 : sonst . (7.27) Bestimmen Sie die Verteilungsfunktion, den Erwartungswert und die Varianz. Bestimmen Sie die Wahrscheinlichkeit 7.3.3 Aufgabe. P (2, 5 < X < 3, 5). Gegeben sei eine stetige Zufallsvariable X. Die zugehörige Dichtefunk- tion lautet: fX (x) = 3x2 0 : 0<x<1 : sonst . (7.28) Bestimmen Sie die Verteilungsfunktion, den Erwartungswert und die Varianz. Bestimmen Sie die Wahrscheinlichkeit P (0, 2 < X < 0, 5). Version 6.0 - 019 24.06.2017 143 7.4. Lösungen 7.3.4 Aufgabe. Es sei die Funktion fX (x) 2x − 2 : 1 ≤ x < 2 0 : sonst fX (x) = Zeigen Sie, dass fX (x) gegeben durch (7.29) eine Dichtefunktion ist. Zeichnen Sie die Dichtefunktion! Bestim- FX (x). Zeichnen Sie die Verteilungsfunktion. Bestimmen P (1, 2 ≤ X ≤ 1, 4). men Sie die Verteilungsfunktion Sie die Wahrscheinlichkeit 7.3.5 Aufgabe. Ein Eisverkäufer erzielt bei schönem Wetter einen Tagesgewinn von 100 Euro, bei Regen von 50 Euro und bei Schneefall macht er einen Verlust von 70 Euro. Die Wahrscheinlichkeit für schönes Wetter beträgt p(S) = 0,5 und für Regen p(R) = 0,3. Wie hoch ist der Erwartungswert des täglichen Gewinns für den Eisverkäufer? 7.4. Lösungen 7.4.1 Lösung. zu Aufgabe 7.3.1 Es gelten E(X) = 2 · 0, 1 + 3 · 0, 4 + 5 · 0, 2 + 8 · 0, 1 + 9 · 0, 2 = 5 E(X 2 ) = 22 · 0, 1 + 32 · 0, 4 + 52 · 0, 2 + 82 · 0, 1 + 92 · 0, 2 = 31, 6 V AR(X) = E(X 2 ) − E(X)2 = 31, 6 − 52 = 6, 6 7.4.2 Lösung. Für alle x∈R Z zu Aufgabe 7.3.2 ist f (x) ≥ 0. ∞ Darüber hinaus gilt Z fX (x) dx = −∞ und somit ist Für fX (x) 2 4 1 1 2 0, 5x − 1 dx = · x −x 2 2 4 = 0 − (−1) = 1 2 ist tatsächlich eine Dichtefunktion. FX (x) den Wert 0, für x ≥ 4 hat die Verteilungs2 ≤ x < 4 gilt x Z x Z x 1 1 1 2 1 FX (x) = fX (t) dt = t − 1 dt = · t − t = x2 − x + 1 . 2 2 4 −∞ 2 2 2 x<2 hat die Verteilungsfunktion funktion den Wert 1. Für Damit ergibt sich für die Verteilungsfunktion FX (x) = 0 1 2 4x 144 1 x<2 −x+1 2≤x<4 x≥4 Version 6.0 - 019 24.06.2017 Kapitel 7. Zufallsvariablen Es gelten P (2, 5 ≤ x < 3, 5) = FX (3, 5) − FX (2, 5) = 0, 5625 − 0, 0625 = 0, 5 P (3, 5 ≤ x < 4, 5) = FX (4, 5) − FX (3, 5) = 1 − 0, 5625 = 0, 4375 Für den Erwartungswert gilt Z 4 E(X) = 2 1 2 10 1 1 3 1 2 4 8 2 = x − x dx = · x − x = − − . 2 2 3 2 3 3 3 2 Für die Berechnung der Standardabweichung wird zuerst die Varianz mit Hilfe der Formel V AR(X) = E(X 2 ) − E(X)2 berechnet. 1 1 4 1 3 4 32 2 34 1 3 2 x − x dx = · x − x = − − = , E(X ) = 2 4 3 3 3 3 2 2 2 2 34 10 2 V AR(X) = − = und 3 3 9 r √ 2 2 = = 0, 4714 . σX = 9 3 2 7.4.3 Lösung. Z Z 4 zu Aufgabe 7.3.3 ∞ Z 0 fX (x)dx = −∞ Z 1 0dx + Z 2 3x dx + −∞ 0 1 ∞ 1 0dx = 0 + x3 0 + 0 = 1 Da dieses Integral den Wert 1 hat, und die Funktionswerte stets gröÿer oder gleich 0 sind, ist fX eine Dichtefunktion. Es gilt Z x fX (ξ)dξ FX (x) = −∞ Damit ist für hungsweise 1. x < 0 beziehungsweise für x ≥ 1 die Verteilungsfunktion 0 ≤ x < 1, dann gilt Z x x FX (x) = fX (ξ)dξ = ξ 3 0 = x3 gleich 0 bezie- Sei 0 Damit ergibt sich für die Verteilungsfunktion: 0 x3 FX (x) = 1 Version 6.0 - 019 24.06.2017 : x<0 : 0≤x<1 : 1≤x 145 7.4. Lösungen P (0, 2 ≤ X < 0, 4) = FX (0, 4) − FX (0, 2) = 0, 43 − 0, 23 = 0, 056 ∞ Z Z xfX (x)dx = E(X) = −∞ Z∞ 0 2 1 3 1 3 3x3 dx = x4 0 = 4 4 2 Z1 x fX (x)dx − E(X) = V AR(X) = −∞ 2 3 3x dx − 4 4 0 3 1 9 3 9 3 = x5 0 − = − = 5 16 5 16 80 7.4.4 Lösung. Z zu Aufgabe 7.3.4 Die Funktion ∞ Z fX (x)dx = −∞ Für 1<x<2 fX (x) ist stets gröÿer oder gleich 0. 2 2x − 2dx = (x2 − 2x)|21 = (4 − 4) − (1 − 2) = 1 1 gilt: Z FX (x) = x 2ξ − 2dξ = (ξ 2 − 2ξ)|x1 = (x2 − 2x) − (1 − 2) = (x − 1)2 1 0 (x − 1)2 FX (x) = 1 : x≤1 : 1<x≤2 : 2<x P (1, 2 ≤ X ≤ 1, 4) = FX (1, 4) − FX (1, 2) = 0, 42 − 0, 22 = 0, 16 − 0, 04 = 0, 12 7.4.5 Lösung. zu Aufgabe 7.3.5 E(Gewinn) = p(S) · 100 Euro + p(R) · 50 Euro + p(Schnee) · (−70 Euro) = 0, 5 · 100 Euro + 0, 3 · 50 Euro − 0, 2 · 70 Euro = 51 Euro. Der Erwartungswert für den Gewinn beträgt 51 Euro. 146 Version 6.0 - 019 24.06.2017 Kapitel 8. Spezielle Verteilungen In diesem Kapitel werden einige spezielle, oft verwendete Verteilungen dargestellt. Es sind sowohl diskrete als auch stetige Verteilungen. 8.1. Diskrete Gleichverteilung Zuerst eine der einfachsten Verteilungen. 8.1.1 Denition (Diskrete Gleichverteilung). Das Kennzeichen einer diskreten Gleichverteilung ist die Tatsache, dass für alle Ereignisse die Wahrscheinlichkeit gleich groÿ ist. Denition. Ist X ein diskrete Zufallsvariable, welche die Werte xi (i = 1, . . . , n) mit den positiven Wahrscheinlichkeiten n1 annimmt und sonst den Wert 0 annimmt, dann heiÿt X gleichverteilt. Die Wahrscheinlichkeitsfunktion lautet: fX (xi ) = 1 n f ür i = 1, 2, . . . , n (8.1) und die Verteilungsfunktion: FX (x) = 0 i n 8.1.2 Bemerkung. 1 : : : x < x1 xi ≤ x < xi+1 f ür i = 1, ·, n − 1 xn ≤ x . (8.2) Erwartungswert und Varianz der diskreten Gleichverteilung. Version 6.0 - 019 24.06.2017 147 8.2. Stetige Gleichverteilung Bemerkung. Es gelten für Erwartungswert und Varianz n 1X E(X) = xi n (8.3) i=1 und n 1X 2 xi − E(X)2 V AR(X) = n (8.4) i=1 Der Erwartungswert und die Varianz habe eine groÿe Ähnlichkeit mit dem Mittelwert und der Varianz in der beschreibenden Statistik, wen die Beobachtungen mit relativer Häugkeit gegeben sind. 8.1.3 Beispiel. Beispiele für diskrete Gleichverteilungen sind: Wurf einer Münze (n = 2), Würfeln (n = 6) 8.2. Stetige Gleichverteilung Das Pendant zur diskreten Gleichverteilung ist die stetige Gleichverteilung. 8.2.1 Denition (Stetige Gleichverteilung). Die Dichtefunktion einer stetigen Gleichverteilung ist konstant. Denition. Ist X eine stetige Zufallsvariable, deren Dichtefunktion im Intervall (a, b) positiv und konstant und sonst 0 ist, dann heiÿt X funktion fX (x) = 1 b−a 0 gleichverteilt und hat die Dichte- : : a<x<b sonst : : : x<a a≤x<b b≤x (8.5) sowie die Verteilungsfunktion FX (x) = 0 x−a b−a 8.2.2 Bemerkung. 148 1 . (8.6) Erwartungswert und Varianz ist einfach zu berechnen. Version 6.0 - 019 24.06.2017 Kapitel 8. Spezielle Verteilungen Bemerkung. Es gelten für den Erwartungswert und die Varianz E(X) = b+a 2 (8.7) (b − a)2 12 (8.8) und V AR(X) = 8.3. Binomialverteilung Die Binomialverteilung ist eine diskrete Verteilung. Bei mehreren Wiederholungen des Experiments ist die Wahrscheinlichkeit für ein Ereignis stets konstant. Es ist die Frage, wie oft kommt dieses Ereignis vor. 8.3.1 Denition (Binomialverteilung). Die Wahrscheinlichkeit für das Ereignis A ist bei jedem Experiment gleich. Denition. Bei einem Zufallsexperiment sind nur die Ereignisse A und A möglich. Mit der Wahrscheinlichkeit p(A) = Θ tritt das Ereignis A ein, mit der Wahrscheinlichkeit p(A) = 1 − p(A) = 1 − Θ tritt das Ereignis A ein. Das Zufallsexperiment wird n-mal wiederholt (Bernoulli-Experiment). Für die Zufallsvariable X , welche die Anzahl der Ausführungen des Zufallsexperiments mit dem Ereignis A angibt, erhält man dann eine Binomialverteilung. Diese hat die Wahrscheinlichkeitsfunktion n fX (x) = Θx (1 − Θ)n−x x (8.9) für x = 0, 1, · · · , n. Die Binomialverteilung besitzt die Parameter n und Θ. Man nennt X deshalb auch B(n; Θ) − verteilt und bezeichnet eine Binomialverteilung mit den Parametern n und Θ mit B(x|n; Θ). 8.3.2 Bemerkung. Erwartungswert und Varianz sind im Folgenden angegeben. Bemerkung. Für eine B(n; Θ)-verteilte Zufallsvariable gelten E(X) = nΘ Version 6.0 - 019 24.06.2017 (8.10) 149 8.4. Hypergeometrische Verteilung und V AR(X) = nΘ(1 − Θ) 8.3.3 Beispiel. Eine Münze, deren Vorderseite eine 1 (8.11) und deren Rückseite eine 0 auf- weist, wird 4 mal geworfen. Für die Wahrscheinlichkeitsverteilung der Ergebnissumme (Summe der jeweils oben liegenden Zahl) erhält man aus der Binomialverteilung die nachfolgende Wahrscheinlichkeitsfunktion (siehe Tabelle 8.1). xi fX (xi ) 0 1 2 3 4 1 16 = 0,0625 4 16 = 0,25 6 16 = 0,375 4 16 = 0,25 1 16 = 0,0625 Tabelle 8.1.: Beispiel Die Ergebnissumme ist 8.3.4 Satz. B(4; 0, 5)-Verteilung B(4; 0, 5)-verteilt. Zwei binomialverteilte Zufallsvariablen können unter bestimmten Bedinun- gen verknüpft werden. Satz. Ist X ein B(n; Θ)-verteilte Zufallsvariable und Y ein B(m; Θ)-verteilte Zufallsvariable und sind die beiden Zufallsvariablen stochastisch unabhängig, so ist die Zufallsvariable X + Y B(n + m; Θ)-verteilt. Wichtig ist hierbei, dass die beiden Binomialverteilungen dieselbe Wahrscheinlichkeit für das Ereignis A Θ haben. 8.3.5 Anmerkung. Approximationsmöglichkeiten für Binomialverteilungen nΘ ≤ 10 und n ≥ 1500Θ, dann ist eine B(n; Θ)-verteilte Zufallsvariable näherungsweiµ = nΘ, also P s(nΘ)-verteilt. Für nΘ(1 − Θ) > 9 ist eine B(n; Θ)-verteilte Zufallsvariable näherungsweise normalver2 teilt (siehe Abschnitt 8.8) mit den Parametern µ = nΘ und σ = nΘ(1 − Θ), also ist sie p näherungsweise N (nΘ; nΘ(1 − Θ))-verteilt. Ist se poissonverteilt (siehe Abschnitt 8.6) mit dem Parameter 8.4. Hypergeometrische Verteilung Nun verändert sich die Wahrscheinlichkeit bei jedem Experiment. 150 Version 6.0 - 019 24.06.2017 Kapitel 8. Spezielle Verteilungen 8.4.1 Denition (Hypergeormetrische Verteilung). verteilung die Wahrscheinlichkeit Während bei der Binomial- Θ für das Auftreten des Ereignisses A bei jeder Durch- führung des Zufallsexperiments gleich ist, ist dies bei der Hypergeometrischen Verteilung nicht der Fall. Als Beispiel kann hier das Urnenmodell fungieren, wobei die gezogenen Kugeln nicht wieder zurückgelegt werden. Denition. Von N Elementen, von denen M die Eigenschaft A besitzen, werden zufällig n Elemente ohne Zurücklegen entnommen. Für die Wahrscheinlichkeit fX (x), x Elemente mit der Eigenschaft A auszuwählen, gilt: M N −M x n−x fX (x) = N n (8.12) Das ist die Wahrscheinlichkeitsfunktion der Hypergeometrischen Die Hypergeometrische Verteilung enthält 3 Parameter: mente), M N (gesamte Anzahl der Ele- n (Anzahl der H(x|N ; M ; n) und spricht (Anzahl der Elemente mit der besonderen Eigenschaft) und Elemente, die ausgewählt werden). Man schreibt häug kurz von einer Verteilung. H(N ; M ; n)-verteilten 8.4.2 Bemerkung. Zufallsvariablen. Für Erwartungswert und Varianz gelten: Bemerkung. Es gelten E(X) = n M N (8.13) und V AR(X) = 8.4.3 Beispiel. n(N − n) M M (1 − ). N −1 N N (8.14) Beim Zahlenlotto (6 aus 49) werden Zahlen ohne Zurücklegen gezogen. Die Wahrscheinlichkeit für 3, 4, 5 oder 6 Richtige erhält man durch die Hypergeometrische Version 6.0 - 019 24.06.2017 151 8.5. Geometrische Verteilung Verteilung mit den Parametern N = 49, M = 6 und n = 6. 6 3 H(3|49; 6; 6) = 49−6 6−3 49 6 = 20 · 12341 = 0, 0176504038 13983816 H(4|49; 6; 6) = 0, 0009686197 H(5|49; 6; 6) = 0, 0000184499 H(6|49; 6; 6) = 0, 0000000715 8.4.4 Beispiel. Beim Zahlenlotto 6 aus 49 gibt es auch Tippscheine, auf denen man bis zu 12 Zahlen ankreuzen kann. In diesem Fall ist N = 49, M = 6 und n = 12. Die Wahrscheinlichkeit für 6 beziehungsweise 3 Richtige sind 6 43 · 1 6 6 = = 0, 0000661 H(6|49; 6; 12) = 49 15.134 12 (8.15) 6 43 · 925 3 9 = H(3|49; 6; 12) = = 0, 122 49 7.567 12 (8.16) 8.4.5 Anmerkung. M N Approximationsmöglichkeiten für Hypergeometrische Verteilungen: 0, 1 < < 0, 9 und n > 10 und n N < 0, 05 kann eine H(N ; M ; n)-verteilte ZufallsvaM riable durch eine Binomialverteilung (siehe Abschnitt 8.3) eine B(n; N )-verteilte ZufallsM < 0, 9 und n > 30 kann eine H(N ; M ; n)variable approximiert werden. Für 0, 1 < N Für verteilte Zufallsvariable approximiert werden durch eine normalverteilte Zufallsvariable (siehe Abschnitt 8.8) N (n M N; q nM N (1 − M N −n N ) N −1 ). 8.5. Geometrische Verteilung Nun ist nicht von Interesse, wie oft eine Ereignis vorkommt, sondern wann ein Ereignis zum ersten Mal vorkommt. 8.5.1 Denition (Geometrische Verteilung). Bei der geometrischen Verteilung wird ein Bernoulli-Experiment durchgeführt, wie bei der Binomialverteilung. Betrachtet X , welche die Anzahl der unabhängigen Versuche angibt, die bis des Ereignisses A vergehen. wird die Zufallsvariable zum ersten Auftreten 152 Version 6.0 - 019 24.06.2017 Kapitel 8. Spezielle Verteilungen Denition. Bei einem Zufallsexperiment sind nur die Ereignisse A und A möglich. Mit der Wahrscheinlichkeit p(A) = Θ tritt das Ereignis A ein, mit der Wahrscheinlichkeit p(A) = 1−p(A) = 1−Θ tritt das Ereignis A ein. Das Zufallsexperiment wird unabhängig wiederholt (Bernoulli-Experiment). Für die Zufallsvariable X , welche die Anzahl der Ausführungen des Zufallsexperiments angibt, bis das Ereignis A eintritt, erhält man dann eine geometrische Verteilung. Diese hat die Wahrscheinlichkeitsfunktion fX (x) = Θ(1 − Θ)x−1 x = 1, 2, · · · (8.17) und die Verteilungsfunktion FX (x) = 0 1 − (1 − Θ)m : : x<1 m ≤ x < m + 1, m = 1, 2, · · · . (8.18) Die geometrische Verteilung besitzt den Parameter Θ. 8.5.2 Bemerkung. Für Erwartungswert und Varianz gelten: Bemerkung. Für eine geometrisch-verteilte Zufallsvariable gilt E(X) = 1 Θ (8.19) und V AR(X) = 8.5.3 Beispiel. 1−Θ . Θ2 (8.20) Wahrscheinlichkeit, dass beim 10. Spiel zum ersten Mal rot 9 ( 19 37 ) = 0, 001208. 2, 05556. Der Erwartungswert für die Anzahl der 8.5.4 Anmerkung. Für Θ < 0, 1 p(R) = Θ = 18 37 . Die 18 eintritt ist fX (10) = 37 · 37 Spiele ist E(X) = 18 = Beim Roulette ist die Wahrscheinlichkeit für rot Approximationsmöglichkeiten für Geometrische Verteilungen ist die geometrisch verteilte Zufallsvariable verteilt (siehe Abschnitt 8.7) mit dem Parameter X näherungsweise exponential- λ = Θ. 8.6. Poissonverteilung Eine weitere diskrete Verteilung Version 6.0 - 019 24.06.2017 153 8.6. Poissonverteilung 8.6.1 Denition (Poissonverteilung). Bei der Durchführung eines Bernoulli- Experiments und der Anwendung der Binomialverteilung liegt manchmal die Situation vor, dass die Wahrscheinlichkeit Anzahl Θ für das Eintreten des Ereignissen A sehr klein ist, die n der Ausführungen jedoch sehr groÿ. Dies tritt beispielsweise bei der Produktion von Gütern auf. Der Ausschuss ist gering, die produzierte Masse jedoch hoch. Ist nΘ konstant und geht gegen des Term Θ gegen 0, dann geht der Term n Θx (1 − Θ)n−x x (nΘ)x −nΘ . Für die Konstante x! e nΘ (8.21) setzt man µ. Denition. Eine diskrete Zufallsvariable X mit der Wahrscheinlichkeitsfunktion fX (x) = µx −µ e x! , x = 0, 1, 2, · · · (8.22) heiÿt Poissonverteilung oder poisson-verteilt mit dem Parameter µ. Man spricht auch von einer P s(µ)-verteilten Zufallsvariablen X und schreibt für die Wahrscheinlichkeitsfunktion P s(x|µ). 8.6.2 Bemerkung. Für Erwartungswert und Varianz gelten: Bemerkung. Für Erwartungswert und Varianz gelten E(X) = µ (8.23) V AR(X) = µ. (8.24) und 8.6.3 Anmerkung. Anwendung ndet die Poisson-Verteilung unter anderem bei der Untersuchung über • Anzahl der pro Minute ankommenden Telefongespräche in einer Telefonvermittlung. 154 • Anzahl der Kraftfahrzeuge, die pro Minute an einem Punkt vorbeifahren. • Anzahl der Fadenbrüche pro Zeitraum in einer Spinnerei. • Anzahl von Druckfehlern pro Seite in Büchern. Version 6.0 - 019 24.06.2017 Kapitel 8. Spezielle Verteilungen 8.6.4 Beispiel. Bei einer Verkehrszählung wurde die Anzahl der pro Zeitintervall von einer Minute an einem Punkt vorbei fahrenden Fahrzeuge festgestellt. Für eine Dauer von 200 Minuten ergab sich die Resultate gemäÿ Tabelle 8.2 Anzahl der Fahrzeuge pro Intervall Häugkeit 0 1 2 3 4 5 110 65 21 3 1 0 Tabelle 8.2.: Beispiel: Fahrzeugzählung Für den Mittelwert und die Varianz ergeben sich jeweils Poissonverteilung mit dem Parameter µ = 0, 6 0, 6. Daher kann von einer ausgegangen werden. Damit kann die theoretische Häugkeit ermittelt werden (siehe 8.3). xi P s(xi |0, 6) 200 · P s(xi |0, 6) 0 1 2 3 4 5 0,5488 0,3293 0,0988 0,0198 0,0030 0,0004 110 66 20 4 1 0 110 65 21 3 1 0 Häugkeit Tabelle 8.3.: Beispiel: Poissonverteilung 8.6.5 Bemerkung. Unter bestimmten können zwei poissonverteilte Zufallsvariablen verknüpft werden. Bemerkung. Für poissonverteilte unabhängige Zufallsvariablen X und Y mit den Pa- rametern µ und λ gilt, dass die Zufallsvariable Z = X + Y ebenfalls poissonverteilt ist. Der Parameter von Z ist µ + λ. 8.6.6 Anmerkung. Für µ ≥ 10 ist eine Approximationsmöglichkeiten für Poissonverteilungen P s(µ)-verteilte Abschnitt 8.8) mit dem Parameter Zufallsvariable näherungsweise normalverteilt (siehe µ und √ µ, das heiÿt sie ist N (µ; √ µ)-verteilt. 8.7. Exponentialverteilung Die Exponentialverteilung ist eine stetige Verteilung. 8.7.1 Denition (Exponentialverteilung). Für manche Anwendungen, insbesondere in der Theorie der Warteschlangen spielt die Exponentialverteilung eine wichtige Rolle. Version 6.0 - 019 24.06.2017 155 8.8. Normalverteilung Denition (Exponentialverteilung). Eine stetige Zufallsvariable tefunktion fX (x) = λe−λx 0 f ür x ≥ 0; λ > 0 sonst : : X mit der Dich- . (8.25) und der Verteilungsfunktion FX (x) = 1 − e−λx 0 : : f ür x ≥ 0; λ > 0 sonst . (8.26) heiÿt Exponentialverteilung oder exponentialverteilt mit dem Parameter λ. 8.7.2 Bemerkung. Für Erwartungswert und Varianz gelten Bemerkung. Für den Erwartungswert und die Varianz einer exponentialverteilten Zu- fallsvariablen X gelten: E(X) = 1 λ (8.27) und V AR(X) = 1 . λ2 (8.28) 8.8. Normalverteilung Die Normalverteilung ist eine wichtigste aber nicht ganz einfache Verteilung. 8.8.1 Denition (Normalverteilung). Die Normalverteilung ist die wichtigste stetige Verteilung. Sie spielt bei nahezu allen Anwendungen der Statistik eine wichtige Rolle. Denition. Eine stetige Zufallsvariable X mit der Dichtefunktion 1 (x − µ)2 fX (x) = √ exp(− ) 2σ 2 σ 2π (8.29) heiÿt Normalverteilung oder normalverteilt mit den Parametern µ und σ. Eine Normalverteilung mit den Parametern µ und σ wird mit N (µ; σ) bezeichnet. Die Zufallsvariable heiÿt dann auch N (µ; σ)-verteilt. 156 Version 6.0 - 019 24.06.2017 Kapitel 8. Spezielle Verteilungen 8.8.2 Bemerkung. Für Erwartungswert und Varianz gelten: Bemerkung. Für eine normalverteilte Zufallsvariable X gelten E(X) = µ (8.30) V AR(X) = σ 2 . (8.31) und 8.8.3 Anmerkung. ihr Maximum bei µ. Die Dichtefunktion der Normalverteilung ist symmetrisch und hat Je kleiner das σ ist, desto höher ist das Maximum und desto enger ist die Kurve um die Spiegelachse gelegt. P (x1 ≤ X ≤ x2 ) gilt Z x2 fX (x)dx P (x1 ≤ X ≤ x2 ) = Für die Wahrscheinlichkeit x1 Z x2 = x1 (8.32) 1 (x − µ)2 √ exp(− )dx 2σ 2 σ 2π 8.8.4 Denition (Standardnormalverteilung). Die Verteilungsfunktion der Nor- malverteilung, das heiÿt das Integral der Dichtefunktion, ist mit Hilfe elementarer Funktionen nicht explizit darstellbar. Die Werte werden in der Regeln mittels einer Tabelle angegeben. Dabei sind in der Tabelle nur die Werte von N (0; 1) hinterlegt. Denition. Die Normalverteilung mit dem Erwartungswert 0 und der Standardabweichung 1, also N (0; 1), heiÿt Standardnormalverteilung. 8.8.5 Bemerkung. Wie kann die Berechnung der Wahrscheinlichkeit für eine normal- verteilte Zufallsvariable auf die Berechnung mit der Standardnormalverteilung übertragen werden? Bemerkung. Ist X eine N (µ; σ)-verteilte Zufallsvariable, dann ist die lineare Transformation Y = aX + b, a, b ∈ R eine N (aµ + b; |a| · σ)-verteilte Zufallsvariable. Mit a = σ1 und b = − σµ ist Z = aX + b oder Z = σ1 X − standardnormalverteilt. Es gilt dann p(x1 ≤ X ≤ x2 ) = p Version 6.0 - 019 24.06.2017 µ σ ein N (0; 1)-verteilt oder x1 − µ x2 − µ ≤Z≤ σ σ . (8.33) 157 8.9. Aufgaben Auf Grund dieser Bemerkung genügt die Tabelle für die Standardnormalverteilung, da daraus dann die Werte für die anderen Normalverteilungen durch eine lineare Transformation gewonnen werden können. 8.8.6 Anmerkung. Im Anhang (siehe A.2) ist eine detailliertere Tabelle für die Stan- dardnormalverteilung aufgeführt. Ist X ein standardnormalverteilte Zufallsvariable, dann gelten : p(X ≤ 1) = 0, 84134 p(−1 ≤ X ≤ 1) = 0, 84134 − (1 − 0, 84134) = 0, 68268 p(−2 ≤ X ≤ 2) = 0, 97725 − (1 − 0, 97725) = 0, 95450 8.8.7 Beispiel. Die Brenndauer von Glühlampen sei normalverteilt mit dem Mittelwert von 900 Stunden und einer Standardabweichung von 100 Stunden. Es gelten somit 900 und σ = 100. Damit ist die Zufallsvariable Z= µ= X−µ standardnormalverteilt. In der σ Tabelle 8.4 sind einige Beispiele berechnet. 750 ≤ X ≤ 1050 800 ≤ X ≤ 1050 X ≤ 650 X ≤ 800 1200 ≤ X X ≤ 800 or 1200 ≤ X −1, 5 ≤ Z ≤ 1, 5 −1 ≤ Z ≤ 1, 5 Z ≤ −2, 5 Z ≤ −1 3≤Z Z ≤ −1 or 3≤Z 0,93319 - (1 - 0,93319) 0,86638 0,93319 - (1 - 0,84134) 0,77453 (1 - 0,99379) 0,00621 (1 - 0,84134) 0,15866 1 - 0,99865 0,00135 0,15866 + 0,16001 0,00135 Tabelle 8.4.: Beispiel: Brenndauer Glühbirnen 8.8.8 Satz. Wenn man zwei normalverteilte Zufallsvariablen hat, so ist auch die Summe dieser beiden Zufallsvariablen wieder normalverteilt. Satz. Gegeben seien zwei N (µ1 ; σ1 )- und N (µ2 ; σ2 )-verteilte unabhängige Zufallsvariablen X1 und X2 . Die Zufallsvariable X = X1 + X2 ist wieder p p normalverteilt mit den 2 2 Parametern µ1 + µ2 und σ1 + σ2 , sie ist also N (µ1 + µ2 ; σ12 + σ22 )-verteilt. 8.8.9 Anmerkung. Die Normalverteilung ist eine der wichtigsten Verteilungen, da sich bei Experimenten und Beobachtungen die Zufallsvariable näherungsweise normalverteilt. 8.9. Aufgaben 8.9.1 Aufgabe. (Binomialverteilung) In einer Produktionserie ist die Wahrscheinlich- keit für ein defektes Teil 158 Θ. Die Anzahl der defekten Teile, wenn n Elemente aus der Version 6.0 - 019 24.06.2017 Kapitel 8. Spezielle Verteilungen Produktion zufällig ausgewählt und untersucht werden ist B(x|n; Θ) für x = 0, 1, · · · , 4 n = 4, Θ = 0, 2 (b) n = 4, Θ = 0, 1 (c) n = 10, Θ = 0, 01 (d) n = 100, Θ = 0, 01 Sie B(n; Θ)-verteilt. Bestimmen für (a) 8.9.2 Aufgabe. (Geometrische Verteilung) Bestimmen Sie die Wahrscheinlichkeit, dass sie beim Würfeln 1, 2, 3, 4, 5, 6, 7, 8, 9 oder 10 Würfe benötigen, bis Sie eine 6 würfeln. Wie hoch ist die Wahrscheinlichkeit, dass Sie 20, 30, 40 oder 50 Würfe benötigen? 8.9.3 Aufgabe. (n = 300) (Poissonverteilung) In einem Skript mit 500 (Θ = 1 500 ) Seiten sind 300 Druckfehler zufällig verteilt. Bestimmen Sie die Wahrscheinlichkeit, dass (a) genau 2 oder (b) mindestens 2 Fehler auf einer bestimmten, zufällig gewählten Seite enthalten sind. 8.9.4 Aufgabe. (Normalverteilung) Ein Unternehmen stellt Kondensatoren her, deren Kapazität normalverteilt ist mit µ = 100 (pF) und σ = 0,2. Wie viel Prozent Ausschuss sind zu erwarten, wenn die Kapazität der Kondensatoren (a) mindestens 99,8 pF; (b) höchstens 100,6 pF betragen soll; (c) um maximal 0,3 pF vom Sollwert 100 pF abweichen darf ? 8.9.5 Aufgabe. Wie groÿ ist die Wahrscheinlichkeit beim Spiel "6 aus 45"5 Richtige zu haben? 8.9.6 Aufgabe. (Hypergeometrische Verteilung) Bestimmen Sie die Wahrscheinlichkeit für 4, 5, 6 und 7 Richtige bei einem Lotto 7 aus 38. 8.9.7 Aufgabe. (Normalverteilung) Es sei X eine N (µ; σ)-verteilte Zufallsvariable. Be- stimmen Sie die folgenden Wahrscheinlichkeiten: P (µ − σ ≤ X ≤ µ + σ) (b) P (µ − 2σ ≤ X ≤ µ + 2σ) (c) P (µ − 3σ ≤ X ≤ µ + 3σ) (d) P (X ≤ µ + 1, 5σ) (e) P (µ − 0, 5σ ≤ X) (a) 8.9.8 Aufgabe. (Normalverteilung) Von einem Betrieb werden Metallfolien hergestellt, von denen nur Folien mit einer Dicke zwischen 0,082 mm und 0,118 mm zur Weiterverarbeitung verwendet werden können, der Rest ist Ausschuss. Zur Herstellung stehen dem Betrieb die Maschinen A und B zur Verfügung. Die Foliendicke der mit diesen Maschinen hergestellten Folien ist um den auf den Maschinen einstellbaren Sollwert (Erwartungswert) normalverteilt, und zwar auf der Maschine A mit einer Standardabweichung von Version 6.0 - 019 24.06.2017 159 8.10. Lösungen 0,01 mm und bei B von 0,018 mm. (a) Wie sollte der Sollwert eingestellt werden, um den Ausschussanteil zu minimieren? (b) Die Produktionskosten je 1000 Folien betragen für Maschine A 20 Euro und für B 16 Euro. Für welche der beiden Maschinen sollte sich der Betrieb entscheiden, wenn einwandfreie Folien zu minimalen Kosten hergestellt werden sollen? 8.9.9 Aufgabe. Studenten bestehen mit einer Wahrscheinlichkeit von 0,7 die Statistik- klausur. Die Erfolge beziehungsweise Misserfolge der einzelnen Studenten sind unabhängig voneinander. Bestimmen Sie die Wahrscheinlichkeit, dass von 5 Studenten 0, 1, 2, 3, 4 oder 5 Studenten die Klausur bestehen. 8.9.10 Aufgabe. Beim Mensch-ärgere-Dich-nicht-Spiel darf der erste Zug erst dann er- folgen, wenn das erste Mal eine 6 gewürfelt wird. Wie groÿ ist die Wahrscheinlichkeit, dass man mehr als 3 Würfe machen muss, um beginnen zu können? 8.9.11 Aufgabe. Die Anzahl der Fahrzeuge, die in einem Beobachtungspunkt innerhalb eines Intervalls von einer Minute passieren, ist poissonverteilt mit µ = 1,6. (a) Wie groÿ ist die Wahrscheinlichkeit, dass in einer Minute mehr als 3 Fahrzeuge vorbeifahren? (b) Wie groÿ ist die Wahrscheinlichkeit, dass in 5 Minuten nicht mehr als 5 Fahrzeuge vorbeifahren, wenn die Ereignisse stochastisch unabhängig sind? 8.9.12 Aufgabe. Bei einer Klausur mit einer maximalen Anzahl von 100 Punkten seien die Ergebnisse näherungsweise normalverteilt mit (a) Bestimmen Sie den Anteil µ = 60 und σ = 10. d Studierenden, die durchgefallen sind, wenn zum Bestehen der Klausur mindestens 50 Punkte erforderlich sind. (b) Bestimmen Sie den Anteil der Studenten, welche die Note gut erhalten haben, wenn diese für Punktzahlen von 80 bis 95 vergeben wird. (c) Auf welchen Wert muss die zum Bestehen nötige Mindestpunktzahl festgelegt werden, wenn nicht mehr als 10% der Studierenden durchfallen sollen? (Hinweis: es sollen keine Stetigkeitskorrekturen beachtet werden.) 8.10. Lösungen 8.10.1 Lösung. zu Aufgabe 8.9.1 B(x|n; Θ) = n Θx (1 − Θ)n−x x x 0 1 2 3 4 a) 0,4096 0,4096 0,1536 0,0256 0,0016 b) 0,6561 0,2916 0,0486 0,0036 0,0001 c) 0,90438 0,09135 0,00415 0,00011 0,00000 d) 0,36603 0,36973 0,18486 0,06100 0,01494 160 Version 6.0 - 019 24.06.2017 Kapitel 8. Spezielle Verteilungen 8.10.2 Lösung. zu Aufgabe 8.9.2 P (x) = 1 5 x−1 ·( ) 6 6 P(1) = 0,16667 P(2) = 0,13889 P(3) = 0,11574 P(4) = 0,09645 P(5) = 0,08038 P(6) = 0,06698 P(7) = 0,05582 P(8) = 0,04651 P(9) = 0,03876 P(10) = 0,03230 P(20) = 0,00522 P(30) = 0,00084 P(40) = 0,00014 P(50) = 0,00002 8.10.3 Lösung. zu Aufgabe 8.9.3 µ = nΘ = 300 · 1 = 0, 6 500 und P s(x|0, 6) = 0, 6x −0,6 e x! P s(0|0, 6) = 0, 5488 P s(1|0, 6) = 0, 3293 P s(2|0, 6) = 0, 0988 (a) Die Wahrscheinlichkeit für genau 2 Fehler beträgt 0,0988. (b) Die Wahrscheinlichkeit für mindestens 2 Fehler beträgt (1 - 0,5488 - 0,3293) = 0,1219. 8.10.4 Lösung. zu Aufgabe 8.9.4 Z = X−µ ist standardnormalverteilt. Es gelten dann: σ (a) P (X ≥ 99, 8pF ) = P (Z ≥ −1) = P (Z ≤ 1) = 0, 84134 (b) P (X ≤ 100, 6pF ) = P (Z ≤ 3) = 0, 99865 (c) P (X ≥ 99, 7pF and X ≤ 100, 3pF ) = P (−1, 5 ≤ Z ≤ 1, 5) = P (Z ≤ 1, 5) − P (Z ≤ −1, 5) = 0, 86638 Die Zufallsvariable 8.10.5 Lösung. zu Aufgabe 8.9.5 Es ist eine hypergeometrische Verteilung, da Zahlen ohne Zurücklegen gezogen werden. Die Parameter sind N = 45, Version 6.0 - 019 24.06.2017 da es insgesamt 45 Kugeln gibt, M = 6, da 6 Kugeln die 161 8.10. Lösungen n = 6, da 6 Kugeln gezogen werden. Die WahrscheinH(5|45; 6; 6). Es gilt Eigenschaft Gewinnzahl tragen und lichkeit für 5 Richtige ist damit 6 45 − 6 6 · 39 5 6−5 H(5|45; 6; 6) = = = 0, 0000287 45 8.145.060 6 8.10.6 Lösung. zu Aufgabe 8.9.6 M N −M x n−x H(x|N ; M ; n) = N n N ist die Anzahl der Kugeln insgesamt; Gewinnkugel und n M ist die Anzahl der Kugeln mit der Eigenschaft ist die Anzahl der Zahlen, die man gewählt hat, um einen Gewinn zu erzielen. H(4|38; 7; 7) = H(5|38; 7; 7) = H(6|38; 7; 7) = H(7|38; 7; 7) = 7 31 4 3 38 7 7 31 5 2 38 7 7 31 6 1 38 7 7 31 7 0 38 7 8.10.7 Lösung. = 35·4495 12620256 = 0, 01247 = 21·465 12620256 = 0, 00077 = 7·31 12620256 = 0, 000017195 = 1·1 12620256 = 0, 000000079238 zu Aufgabe 8.9.7 Z = X−µ ist standardnormalverteilt. Es gelten dann: σ (a) P (µ − σ ≤ X ≤ µ + σ) = P (−1 ≤ Z ≤ 1) = 0, 84134 − (1 − 0, 84134) = 0, 68268 (b) P (µ − 2σ ≤ X ≤ µ + 2σ) = P (−2 ≤ Z ≤ 2) = 0, 97725 − (1 − 0, 97725) = 0, 95450 (c) P (µ − 3σ ≤ X ≤ µ + 3σ) = P (−3 ≤ Z ≤ 3) = 0, 99865 − (1 − 0, 99865) = 0, 99730 Die Zufallsvariable 162 Version 6.0 - 019 24.06.2017 Kapitel 8. Spezielle Verteilungen (d) (e) P (X ≤ µ + 1, 5σ) = P (Z ≤ 1, 5) = 0, 93319 P (µ − 0, 5σ ≤ X) = P (−0, 5 ≤ Z) = 0, 69146 8.10.8 Lösung. zu Aufgabe 8.9.8 (a) Die die Normalverteilung symmetrisch um den Erwartungswert ist, sollte der Sollwert in der Mitte des Toleranzbereiches liegen, also bei 0,1 mm. (b) Für die Maschine A gilt: 0, 082 − 0, 1 0, 118 − 0, 1 P (0, 082mm < X < 0, 118mm) = P <Z< 0, 01 0, 01 = P (−1, 8 < Z < 1, 8) = 0, 96407 − (1 − 0, 96407) = 0, 92814 Damit gilt für die Maschine A, dass die Wahrscheinlichkeit für eine brauchbare Folie bei 0,92814 liegt. Das heiÿt bei 1000 Folien sind 928 brauchbar, die Stückkosten sind dann 20Euro = 0,02155 Euro. 928 Für die Maschine B gilt: 0, 082 − 0, 1 0, 118 − 0, 1 P (0, 082mm < X < 0, 118mm) = P <Z< 0, 018 0, 018 = P (−1 < Z < 1) = 0, 84134 − (1 − 0, 84134) = 0, 68268 Damit gilt für die Maschine B, dass die Wahrscheinlichkeit für eine brauchbare Folie bei 0,68268 liegt. Das heiÿt bei 1000 Folien sind 683 brauchbar, die Stückkosten sind dann 16Euro = 0,02343 Euro. 683 Es ist daher günstiger, auf der Maschine A zu produzieren. 8.10.9 Lösung. zu Aufgabe 8.9.9 Die Zufallsvariable X , der Anzahl der Studenten, welche die Klausur bestanden haben, ist n = 5 und θ = 0, 7. (Das Ereignis A (= Klausur wird binomialverteilt mit den Parametern bestanden) hat die Wahrscheinlichkeit 0,7.) Das heiÿt, die Anzahl der Studenten (von den 5 ausgewählten), die die Klausur bestehen ist eine Die gesuchten Werte sind die Werte 5 B(0|5; 0, 7) = · 0, 70 · 0, 35 0 5 B(1|5; 0, 7) = · 0, 71 · 0, 34 1 5 B(2|5; 0, 7) = · 0, 72 · 0, 33 2 5 B(3|5; 0, 7) = · 0, 73 · 0, 32 3 5 B(4|5; 0, 7) = · 0, 74 · 0, 31 4 5 B(5|5; 0, 7) = · 0, 75 · 0, 30 5 Version 6.0 - 019 24.06.2017 B(i|5; 0, 7) B(n, θ)-verteilte Zufallsvariable. für i = 0, 1, 2, 3, 4 und 5. = 0, 00243 = 0, 02835 = 0, 13230 = 0, 30870 = 0, 36015 = 0, 16807 163 8.10. Lösungen 8.10.10 Lösung. zu Aufgabe 8.9.10 Man muss dann mehr als dreimal würfeln, wenn bei den ersten drei versuchen jeweils keine 6 gewürfelt wird. Diese Wahrscheinlichkeit ist gleich 8.10.11 Lösung. ( 56 )3 = 125 216 = 0,5787. zu Aufgabe 8.9.11 Die Wahrscheinlichkeit ist poissonverteilt mit µ = 1, 6, also ist die Wahrscheinlichkeits- funktion gegeben durch fX (x) = µx −µ e x! Die Wahrscheinlichkeit, dass in einer Minute i Fahrzeuge passieren ist somit gleich P s(i|1, 6). P s(0|1, 6) = P s(1|1, 6) = P s(2|1, 6) = P s(3|1, 6) = P s(4|1, 6) = P s(5|1, 6) = 1,60 −1,6 0! e 1,61 −1,6 1! e 1,62 −1,6 2! e 1,63 −1,6 3! e 1,64 −1,6 4! e 1,65 −1,6 5! e = 0, 2019 = 0, 3230 = 0, 2584 = 0, 1378 = 0, 0551 = 0, 0141 (a) p(mehr als 3 Fahrzeuge) = 1 - p(0 bis 3 Fahrzeuge) = 1 - P s(2|1, 6) - P s(3|1, 6) P s(0|1, 6) - P s(1|1, 6) - = 0,0789 Die Wahrscheinlichkeit, dass in einer Minute mehr als 3 Fahrzeuge vorbeifahren beträgt somit 7,89%. (b) Für poissonverteilte unabhängige Zufallsvariablen X und Y mit den Parametern µ λ gilt, dass die Zufallsvariable Z = X +Y ebenfalls poissonverteilt ist, der Parameter Z ist µ + λ. Das heiÿt die Wahrscheinlichkeit, dass in 5 Minuten i Fahrzeuge den Beobachtungspunkt passieren ist poissonverteilt mit dem Parameter µ = 8. und von P s(0|8) = P s(1|8) = P s(2|8) = P s(3|8) = P s(4|8) = P s(5|8) = 80 −8 0! e 81 −8 1! e 82 −8 2! e 83 −8 3! e 84 −8 4! e 85 −8 5! e = 0, 0003 = 0, 0027 = 0, 0107 = 0, 0286 = 0, 0573 = 0, 0916 p(weniger als 5 Fahrzeuge) = P s(5|8) P s(0|8) + P s(1|8) + P s(2|8) + P s(3|8) + P s(4|8) + = 0,1912. Die Wahrscheinlichkeit, dass in fünf Minuten höchstens 5 Fahrzeuge vorbeifahren beträgt 19,12%. 164 Version 6.0 - 019 24.06.2017 Kapitel 8. Spezielle Verteilungen 8.10.12 Lösung. zu Aufgabe 8.9.12 X der erreichten Punktzahl ist N (60; 10)-verteilt. Die Zufallsvariable Z = X−60 ist N (0; 1)-verteilt, das heiÿt standardnormalverteilt. 10 50−60 (a) P (X < 50) = P (Z < 10 ) = P (Z < −1) = P (Z > 1) = 1−P (Z < 1) = 1−0, 84134 = 0, 15866, das heiÿt circa 16%. 80−60 (b) P (80 < X < 95) = P ( < Z < 95−60 10 10 ) = P (2 < Z < 3, 5) = P (Z < 3, 5) P (Z < 2) = 0, 99977 - 0, 97725 = 0, 02252, das heiÿt circa 2,3%. g−60 60−g 60−g 60−g (c) P (X < g) = P (Z < 10 ) = P (Z > 10 ) = 0, 1 → P (Z < 10 ) = 0, 9 → 10 ) = 1, 285 → g = 47, 15, das heiÿt, die Mindestpunktzahl muss auf 47 Punkte gesetzt werden. Die Zufallsvariable Version 6.0 - 019 24.06.2017 165 Teil III. Schlieÿende Statistik Der dritte Teil, die schlieÿende Statistik ist nur sehr kurz. Hier werden im Grunde nur einige wenige Begrie und Verfahren angedeutet. Bei der schlieÿenden Statistik geht es um die Fragestellung aus gegebenen Daten, die mit Hilfe der beschreibenden Statistik für einen Stichprobenumfang ermittelt werden, Aussagen für eine gröÿere Grundgesamtheit zu erhalten. Hier spielt dann auch die Wahrscheinlichkeitsrechnung mit hinein. Dieser Teil ist derzeit noch nicht stark ausgebaut. Version 6.0 - 019 24.06.2017 167 Kapitel 9. Schlieÿende Statistik In der schlieÿenden Statistik wird aus den Daten einer Stichprobe auf Parameter der Grundgesamtheit geschlossen oder aus der Verteilung der Grundgesamtheit Schlüsse zu Stichproben gezogen. Bei Hypothesentest werden Aussagen zur Annahme oder Ablehnung von Hypothesen getroen. 9.1. Parameterschätzung 9.1.1 Anmerkung. In der beschreibenden Statistik wurden Daten, wie Mittelwert und Standardabweichung, von einer gegebenen Datenmenge bestimmt, wobei die Daten vollständig erfasst und analysiert werden. Die vollständige Erfassung aller Daten ist nicht immer möglich oder sinnvoll. • Die Zugfestigkeit von Kettengliedern sollen überprüft werden, indem diese bis zum Zerreiÿen belastet werden. Nur ein Teil der Produktion kann diesem Test unterzogen werden. • Die Abfüllanlage, welche Säcke mit Zement mit jeweils 50 kg füllt soll überprüft werden. Es ist nicht wirtschaftlich sinnvoll, alle Säcke zu prüfen. Daher soll allein durch die Prüfung einiger Säcke, zum Beispiel jeder 20. oder 50. Sack das durchschnittliche Gewicht bestimmt werden. • In einer Urne benden sich rote und grüne Kugel. Durch einen Stichprobenumfang soll der Anteil der roten Kugeln abgeschätzt werden. 9.1.2 Anmerkung. Eine statistische Masse über die man eine bestimmte Aussage treffen möchte heiÿt Grundgesamtheit. Ist die Grundgesamtheit endlich, wird die Anzahl der Elemente mit N bezeichnet. Ein Teil einer zu analysierenden statistischen Masse, die zufällig ausgewählt ist und aus der Informationen für die Grundgesamtheit ermittelt werden heiÿt wird mit Stichprobenumfang. Die Anzahl der Elemente aus dem Stichprobenumfang n bezeichnet. Für den Stichprobenumfang können die statistischen Parameter mit Hilfe der beschreibenden Statistik bestimmt werden, siehe Tabelle 9.1. Version 6.0 - 019 24.06.2017 169 9.2. Intervallschätzung Grundgesamtheit Stichprobe Anzahl der Elemente N n Mittelwert / Erwartungswert µ σ2 σ θ x s2 s p Varianz Standardabweichung Anteilswert Tabelle 9.1.: Untersuchungsparameter 9.1.3 Anmerkung. n Eine Stichprobe vom Umfang liefert die Werte X1 , X2 , · · · , Xn (die Stichproben). (Groÿe Buchstaben, da die Werte Zufallsvariablen sind). Damit gelten für den Stichprobenmittelwert X= n X Xi , (9.1) i=1 für die Stichprobenvarianz S2 = n n i=1 i=1 1X 1X 2 (Xi − X)2 = XXi2 − X n n (9.2) und für die Stichprobenstandardabweichung √ S= 9.1.4 Anmerkung. S2 . (9.3) Der Erwartungswert für den Mittelwert der Stichproben entspricht dem Erwartungswert der Grundgesamtheit (E(X) = µ). Die Beziehung zwischen der Va- rianz der Stichproben und der Varianz der Grundgesamtheit ist etwas komplexer, ohne dass hier näher darauf eingegangen wird. (siehe dazu etwa Schwarze 1997). Näherungsweise ist die Varianz der Stichprobe gleich der Varianz der Grundgesamtheit. 9.2. Intervallschätzung 9.2.1 Anmerkung. Statt einer Punktschätzung wird bei einer Intervallschätzung ein Intervall angegeben, in dem mit einer gewissen Wahrscheinlichkeit der gesuchte Parameter θ enthalten ist. Es werden somit zwei Werte Wahrscheinlichkeit, dass der gesuchte Wert θ U1 zwischen und U1 p(U1 ≤ θ ≤ U2 ) ≥ 1 − α U2 und derart gesucht, dass die U2 liegt gleich 1−α ist: (9.4) α gibt dabei an, mit welcher Genauigkeit das Intervall gesucht wird. Die Wahr1 − α heiÿt Kondenzniveau. Das Intervall [U1 , U2 ] heiÿt Kondenzintervall. In den meisten Fällen verwendet man eine Schätzvariable U und konstruiert durch U1 = U − δ und U2 = U + δ ein symmetrisches Kondenzintervall [U − δ, U + δ]. Der Wert scheinlichkeit 170 Version 6.0 - 019 24.06.2017 Kapitel 9. Schlieÿende Statistik 9.2.2 Anmerkung. Betrachten man nun eine N (µ, σ 2 )-verteilte Zufallsvariable X und n Stichprobenvariablen X1 , · · · , Xn . Der Mittelwert der Stichproben X ist ebenfalls norσ2 malverteilt, genauer N (µ, n )-normalverteilt. Das heiÿt, der Erwartungswert ist identisch, nur die Varianz ist unterschiedlich. Zuerst wird mittels einer linearen Transformation Z= √ n· X −µ σ (9.5) Z deniert. Für Z c > 0 und fordert eine standardnormalverteilte Zufallsvariable denzintervall [−c, c] für ein geeignetes betrachtet man das Kon- p(−c ≤ Z ≤ c) = 1 − α Durch auösen nach µ (9.6) ergibt sich damit cσ cσ p(X − √ ≤ µ ≤ X + √ ) = 1 − α n n (9.7) Das gesuchte Kondenzintervall ist damit cσ cσ [X − √ , X + √ ]. n n 9.2.3 Anmerkung. Z (9.8) Da von einer normalverteilten Funktion ausgegangen wurde und c in Abhängigkeit von α bestimmt werden. Der α bestimmt die Genauigkeit, mit der der gesuchte Parameter im Kondenzintervall liegt. Ist ϕ(x) die Dichtefunktion der Standardnormalverteilung, so ergibt sich aus p(−c ≤ Z ≤ c) = 1−α die Beziehung 1−α = ϕ(c)−ϕ(−c) = ϕ(c)−(1−ϕ(c)) = 2ϕ(c)−1. α Daraus wiederum erhält man ϕ(c) = 1− . Daraus wiederum kann man c ermitteln, siehe 2 standardnormalverteilt ist, kann das Parameter dazu Tabelle 9.2. α Genauigkeit ϕ(c) c 0,01 99% 0,995 2,576 0,05 95% 0,975 1,96 0,1 90% 0,95 1,645 Tabelle 9.2.: Parameter in Abhängigkeit von der Güte 9.2.4 Beispiel. N (µ; 12)-verteiltem X wurde eine einn = 36 gezogen, die x = 26 liefert. Für 1 − α = 0, 95 Standardnormalverteilung c = 1, 96. Als 95%-Kondenzintervall für Aus einer Grundgesamtheit mit fache Zufallsstichprobe vom Umfang erhält man aus der µ ergibt sich: 12 12 µu = 26 − 1, 96 √ = 22, 08; µo = 26 + 1, 96 √ = 29, 92 36 36 (9.9) Das bedeutet, dass mit einer Wahrscheinlichkeit von 95% der Erwartungswert der Grundgesamtheit im Intervall von 22,08 bis 29,92 liegt. Version 6.0 - 019 24.06.2017 171 9.3. Hypothesentests 9.2.5 Anmerkung. Je nach dem, ob die Varianz bekannt ist oder nicht, und je nach dem wie das Verhältnis zwischen der Anzahl des Umfangs der Stichprobe und der Anzahl der Grundgesamtheit ist, ergeben sich Veränderungen in der Bestimmung des Kondenzintervalls. Für genauere Untersuchungen siehe Schwarze 1997. 9.3. Hypothesentests 9.3.1 Anmerkung. Oftmals hat man für den Parameter einer Verteilung eine bestimm- te Vermutung oder Hypothese. Durch eine Stichprobe möchte man die Vermutung überprüfen. Dies geschieht mittels eines 9.3.2 Beispiel. Zahl statistischen Testverfahrens. Beim zufälligen Werfen einer Münze erwartet man, dass das Ergebnis p(Zahl) = 0, 5 auftritt. Die Hypothese für unseren Test Θ = 0, 5. Die zu überprüfende Hypothese bezeichnet man auch als Nullhypothese mit der Wahrscheinlichkeit lautet H0 . Zum Test der Hypothese wird eine Münze mehrmals (n-fach) geworfen und die Anzahl X des Ereignisses Zahl gezählt. Diesem Zufallsexperiment liegt eine Binomialverteilung n mit dem Erwartungswert E(X) = 2 zu Grunde. Für einen Stichprobenumfang von n = 8 erhält man folgende Verteilung von X (X ist B(8; 0, 5)-verteilt), siehe Tabelle 9.3. x p(x) 0 und 8 1 und 7 2 und 6 3 und 5 4 0,0039 0,0312 0,1094 0,2188 0,2734 Tabelle 9.3.: Beispiel: Stichprobenexperiment Wenn bei richtiger Nullhypothese zugelassen wird, dass von dass n 2 = 4 abweichen darf, dann darf X = 2, 3, X in diesem Bereich liegt, ist bei 0,9298. X um 2 nach oben oder unten 4, 5 oder 6 sein. Die Wahrscheinlichkeit, Die Menge der möglichen Ergebnisse wird in zwei Bereiche geteilt, den Ablehnungsbereich (X < 2) beziehungsweise (X > 6) und den Annahmebereich (2 ≤ X ≤ 6). Liegt das Ergebnis im Ablehnungsbereich, so ist bei richtiger Nullhypothese die Wahrscheinlichkeit für dieses Ereignis sehr gering (0,0702), so dass hier mit hoher Wahrscheinlichkeit davon ausgegangen werden kann, dass die Nullhypothese nicht zutrit. Gilt 2 ≤ X ≤ 6, so kann die Nullhypothese nicht abgelehnt werden. Es ist allerdings nicht bewiesen, dass die Nullhypothese richtig ist, sie kann jedoch nicht abgelehnt werden. 9.3.3 Anmerkung. Bei einer Ablehnung oder bei einer Annahme einer Hypothese kann es zu Fehleinschätzungen kommen. Es kann die Nullhypothese abgelehnt werden, obwohl Fehler 1. Art oder α-Fehler. Die Wahrscheinlichkeit Irrtumswahrscheinlichkeit oder Signikanzniveau des Tests. Als weiterer sie richtig ist. dies nennt man α heiÿt Fehler kann die Annahme einer falschen Hypothese vorkommen. Dieses Fehler nennt man Fehler 2. Art oder β -Fehler, siehe Tabelle 9.4. Für eine genauere Ausführung zu Testverfahren siehe Schwarze 1997. 172 Version 6.0 - 019 24.06.2017 Kapitel 9. Schlieÿende Statistik Nullhypothese Nullhypothese nicht verworfen Nullhypothese verworfen Nullhypothese richtig falsch richtige β -Fehler Entscheidung (Fehler 2. Art) α-Fehler richtige (Fehler 1. Art) Entscheidung Tabelle 9.4.: Fehler 1. und 2. Art 9.4. Aufgaben Derzeit keine Aufgaben 9.5. Lösungen Derzeit keine Aufgaben Version 6.0 - 019 24.06.2017 173 Anhang A. Tabellen Version 6.0 - 019 24.06.2017 175 A.1. Basisdaten A.1. Basisdaten Für viele Untersuchungen werden die nachfolgenden Daten betrachtet. Es sind Daten von Personen in einer Vorlesung (inklusive Dozent) aufgeführt. Neben der laufenden Nummer wird das Geschlecht der Person (m für männlich, w für weiblich), das Alter in Jahren, die Körpergröÿe in cm und die Note in einer Klausur dargestellt. Nr Geschlecht Alter Gröÿe Note 01 m 19 166 3 02 w 20 170 1 03 m 20 174 4 04 m 20 176 3 05 w 20 179 3 06 m 21 184 2 07 w 21 152 1 08 w 23 164 3 09 w 25 171 3 10 w 20 178 2 11 m 20 187 3 12 w 22 166 5 13 w 23 168 2 14 w 20 169 3 15 w 20 178 3 16 m 20 188 2 17 w 21 171 2 18 m 20 185 2 19 w 23 161 5 20 w 21 171 3 21 w 20 177 5 22 m 21 187 3 23 w 19 182 2 24 m 19 184 4 25 w 21 169 4 26 w 22 176 2 27 m 18 193 2 28 w 25 175 2 29 m 54 172 3 Tabelle A.1.: Basisdatensatz 176 Version 6.0 - 019 24.06.2017 Anhang A. Tabellen A.2. Tabelle der Normalverteilung z .,.0 .,.1 .,.2 .,.3 .,.4 .,.5 .,.6 .,.7 .,.8 .,.9 0,0. 50000 50399 50798 51197 51595 51994 52392 52790 53188 53586 0,1. 53983 54380 54776 55172 55567 55962 56356 56749 57142 57535 0,2. 57926 58317 58706 59095 59483 59871 60257 60642 61026 61409 0,3. 61791 62172 62552 62930 63307 63683 64058 64431 64803 65173 0,4. 65542 65910 66276 66640 67003 67364 67724 68082 68439 68793 0,5. 69146 69497 69847 70194 70540 70884 71226 71566 71904 72240 0,6. 72575 72907 73237 73565 73891 74215 74537 74857 75175 75490 0,7. 75804 76115 76424 76730 77035 77337 77637 77935 78230 78524 0,8. 78814 79103 79389 79673 79955 80234 80511 80785 81057 81327 0,9. 81594 81859 82121 82381 82639 82894 83147 83398 83646 83891 1,0. 84134 84375 84614 84849 85083 85314 85543 85769 85993 86214 1,1. 86433 86650 86864 87076 87286 87493 87698 87900 88100 88298 1,2. 88493 88686 88877 89065 89251 89435 89617 89796 89973 90147 1,3. 90320 90490 90658 90824 90988 91149 91308 91466 91621 91774 1,4. 91924 92073 92220 92364 92507 92647 92785 92922 93056 93189 1,5. 93319 93448 93574 93699 93822 93943 94062 94179 94295 94408 1,6. 94520 94630 94738 94845 94950 95053 95154 95254 95352 95449 1,7. 95543 95637 95728 95818 95907 95994 96080 96164 96246 96327 1,8. 96407 96485 96562 96638 96712 96784 96856 96926 96995 97062 1,9. 97128 97193 97257 97320 97381 97441 97500 97558 97615 97670 2,0. 97725 97778 97831 97882 97932 97982 98030 98077 98124 98169 2,1. 98214 98257 98300 98341 98382 98422 98461 98500 98537 98574 2,2. 98610 98645 98679 98713 98745 98778 98809 98840 98870 98899 2,3. 98928 98956 98983 99010 99036 99061 99086 99111 99134 99158 2,4. 99180 99202 99224 99245 99266 99286 99305 99324 99343 99361 2,5. 99379 99396 99413 99430 99446 99461 99477 99492 99506 99520 2,6. 99534 99547 99560 99573 99585 99598 99609 99621 99632 99643 2,7. 99653 99664 99674 99683 99693 99702 99711 99720 99728 99736 2,8. 99744 99752 99760 99767 99774 99781 99788 99795 99801 99807 2,9. 99813 99819 99825 99831 99836 99841 99846 99851 99856 99861 3,0. 99865 99869 99874 99878 99882 99886 99889 99893 99896 99900 3,1. 99903 99906 99910 99913 99916 99918 99921 99924 99926 99929 3,2. 99931 99934 99936 99938 99940 99942 99944 99946 99948 99950 3,3. 99952 99953 99955 99957 99958 99960 99961 99962 99964 99965 3,4. 99966 99968 99969 99970 99971 99972 99973 99974 99975 99976 Version 6.0 - 019 24.06.2017 177 Namensliste Kolmogorov, Andrej Nikolajevich, 115 Laplace, Pierre Simon, 114 Paasche, Hermann, 91 Pascal, Blaise, 108 Laspeyres, Ernst Louis Étienne, 91 Version 6.0 - 019 24.06.2017 179 Abkürzungen DAX - Deutscher Aktienindex, 89 VPI - Verbraucherpreisindex, 89 MAA - mittlere absolute Abweichung, 47 ZV - Zufallsvariable, 133 Version 6.0 - 019 24.06.2017 181 Literatur Arens, Tilo u. a. (2008). Mathematik. 1. Au. Heidelberg: Spektrum Akademischer Verlag. isbn: 9783827417589. Lügen mit Zahlen: Wie wir mit Statistiken manipuliert werden. 401. München: Heyne. isbn: 9783453173910. Eichholz, Wolfgang und Eberhard Vilkner (2002). Taschenbuch der Wirtschaftsmathematik: Mit 208 Beispielen und zahlreichen Tabellen. 3. Au. München [u.a.]: Fachbuchverl. Leipzig im Hanser-Verl. isbn: 9783446220805. Fahrmeir, Ludwig (2003a). Arbeitsbuch Statistik: Mit 101 Tabellen. 3. Au. Berlin [u.a.]: Springer. isbn: 9783540440307. (2003b). Statistik: Der Weg zur Datenanalyse ; mit 25 Tabellen. 4. Au. Berlin [u.a.]: Springer. isbn: 9783540440000. Fischer, Gerd (2005). Stochastik einmal anders: Parallel geschrieben mit Beispielen und Fakten, vertieft durch Erläuterungen. 1. Au. Wiesbaden: Vieweg. isbn: Bosbach, Gerd und Jens Jürgen Kor (2011). 9783528039677. Stochastik für Einsteiger: Eine Einführung in die faszinierende Welt des Zufalls. 4. Au. Braunschweig: Vieweg. isbn: 9783528368944. Röÿler, Irene und Albrecht Ungerer (2011). Statistik für Wirtschaftswissenschaftler: Eine anwendungsorientierte Darstellung. 2., überarb. Au. BA Kompakt. Heidelberg [u.a.]: Physica-Verlag. isbn: 9783790826340. Schwarze, Jochen (1997). Grundlagen der Statistik. 6. Au. Herne [u.a.]: Verl. Neue Wirtschafts-Briefe. isbn: 3482568669. (1999). Aufgabensammlung zur Statistik. 3. Au. Herne: Verl. Neue Wirtschafts-Briefe. isbn: 9783482434532. (2001). Beschreibende Verfahren. 9. Au. Herne [u.a.]: Verl. Neue Wirtschafts-Briefe. isbn: 9783482564390. Wewel, Max-Christoph (2011). Statistik im Bachelor-Studium der BWL und VWL: Methoden, Anwendung, Interpretation ; mit herausnehmbarer Formelsammlung. 2., erw. Au. Wirtschaft. München und Boston [u.a.]: Pearson Studium. isbn: 9783868940541. Henze, Norbert (2003). Version 6.0 - 019 24.06.2017 183 Index α-Fehler, β -Fehler, 170 dichtester Wert, 39 170 diskret, 133 diskretes Merkmal, 24 Abgang, 84 Durchschnitt, 114 Abgangsrate, 86 Durchschnitt, gleitender, 82 Abgangssumme, 85 Durchschnittsbestand, 86 abgeschlossene Bestandsmasse, 84 abhängig, empirisch, 65 einfache geometrische Mittel, 43 abhängig, statistisch, 65 einfache harmonische Mittel, 44 absolute Häugkeit, 32, 60 Einheit, statistische, 17 absolute Restsummenhäugkeit, 38 Elementarereignis, 113 absolute Summenhäugkeit, 37 empirisch abhängig, 65 Absolutskala, 22 empirisch unabhängig, 65 Abweichung, mittlere absolute, 46 Endbestand, 84 Abweichung, quadratische, 48 Ereignis, 19, 113 Anfangsbestand, 84 Ereignis, komplementär, 114 Ereignis, sicheres, 114 bedingte Verteilung, 62 Ereignis, unmögliches, 114 bedingte Wahrscheinlichkeit, 117 Ereignis, zusammengesetzt, 114 Beobachtung, 19 Ereignismasse, 19, 83 Beobachtungswert, 19 Ereignissystem, 115 Bernoulli-Experiment, 147, 151 Ergebnisraum, 113 beschreibenden Statistik, 14 Erhebungsverfahren, 14 Bestand, 19, 84 Erwartungswert, 136 Bestandsmasse, 18, 83 Exponentialverteilung, 154 Bestandsmasse, abgeschlossen, 84 Bestandsmasse, oen, 84 Fehler 1. Art, 170 Binomialkoezienten, 107 Fehler 2. Art, 170 Binomialverteilung, 147 Fortschreibung, 83 Datenaufbereitung, 14 geometrische Verteilung, 151 Datenauswertung, 14 geometrisches Mittel, 43 Datenerhebung, 14 geordnete Reihe, 31 Deationierung, 94 geordneten Stichprobe, 101 Dezile, 40 gewogene geometrische Mittel, 43 dichotomes Merkmal, 20 gewogene harmonische Mittel, 44 Dichtefunktion, 135 gleichverteilt, 145, 146 Version 6.0 - 019 24.06.2017 185 Index gleitenden Durchschnitt, 82 Masse, statistische, 17 Grundgesamtheit, 14, 167 Median, 39 harmonisches Mittel, 44 harmonisches Mittel, gewogenes, 44 Hypergeometrischen Verteilung, 149 Häugkeit, absolute, 32, 60 Häugkeit, relative, 32, 60 Häugkeitstabelle, 35, 61 Häugkeitsverteilung, 32, 60 häugster Wert, 39 Index, 90 Indexzahl, 90 intensitätsmäÿiges Merkmal, 21 Irrtumswahrscheinlichkeit, 170 Mengenindex, 90, 92 Mengenindex nach Laspeyres, 92 Mengenindex nach Paasche, 93 Merkmal, 19 Merkmal, dichotomes, 20 Merkmal, diskret, 24 Merkmal, intensitätsmäÿiges, 21 Merkmal, qualitatives, 20 Merkmal, quantitatives, 22 Merkmal, stetig, 24 Merkmale, 14 Merkmale, statistische, 17 Merkmalsausprägung, 19 Merkmalsträger, 19 k-Kombination mit Wiederholung, 106 Merkmalswert, 19 k-Kombination ohne Wiederholung, 105 messbar, kardinal, 22 k-Permutation mit Wiederholung, 102 messbar, metrisch, 22 k-Permutation ohne Wiederholung, 103 Messzahlen, 90 kardinal messbar, 22 metrisch messbar, 22 Kardinalskala, 22, 36 metrische Skala, 22 Klassenbreite, 25 mittlere absolute Abweichung, 46, 47 Klassengrenze, obere, 25 mittlere quadratische Abweichung, 48 Klassengrenze, untere, 25 mittlere Verweildauer, 86 Kombination, 101 Modalwert, 39 Kombination mit Wiederholung, 106 Modus, 39 Kombination ohne Wiederholung, 105 Moment, m-te, 137 komplementäre Ereignis, 114 Multimengen, 102 Komplementärereignis, 114 konditionale Wahrscheinlichkeit, 117 nominal messbar, 20 Kondenzintervall, 168 Nominalskala, 20, 35 Kondenzniveau, 168 Normalgleichungen, 70 Kontingenz, 60 Normalverteilung, 154 Kontingenzkoezienten, 60 Nullhypothese, 170 Kontingenztabelle, 62 Korrelation, 60 obere Klassengrenze, 25 Korrelationskoezient, 68 oberes Quartil, 40 Korrelationskoezienten, 60 oene Bestandsmasse, 84 Korrelationstabelle, 62 Ordinalskala, 21, 36 Kovarianz, 66 KQ-Regressionsfunktion, 69 m-te Moment, 137 186 p-Quantil, 40 Permutation, 101 Permutation mit Wiederholung, 102 Version 6.0 - 019 24.06.2017 Index Permutation ohne Wiederholung, 103 statistische Analyse, 14 Planung, 13 statistische Einheit, 17 Poissonverteilung, 152 statistische Masse, 14, 17 Preisindex, 90 statistische Reihe, 31 Preisindex nach Laspeyres, 91 statistischen Merkmale, 17 Preisindex nach Paasche, 91 stetig, 133 Primärerhebung, 14 stetiges Merkmal, 24 Stichprobe, 14, 18 quadratische Abweichung, 48 qualitatives Merkmal, 20 Quantil, 40 quantitatives Merkmal, 22 Quartil, oberes, 40 Quartil, unteres, 40 Quartilsabstand, 46 Randverteilungen, 61 Rangskala, 21 Regressionsfunktion, 69 Regressionsfunktion nach der Methode der kleinsten Quadrate, 69 Reihe, geordnete, 31 Reihe, statistische, 31 Reihe, ungeordnete, 31 relative Häugkeit, 32, 60 relative Restsummenhäugkeit, 38 relative Summenhäugkeit, 37 Restsummenhäugkeit, 37 Restsummenhäugkeit, absolute, 38 Restsummenhäugkeit, relative, 38 Stichprobe, geordnet, 101 Stichprobe, ungeordnet, 101 Stichprobenumfang, 167 Stochastik, 9, 11 stochastisch abhängig, 117 stochastisch unabhängig, 117 stochastisch, abhängig, 117 Summenhäugkeit, 37 Summenhäugkeit, absolute, 37 Summenhäugkeit, relative, 37 Umsatzindex, 90 Umschlagshäugkeit, 87 unabhängig, 65 unabhängig, empirisch, 65 unabhängig, statistisch, 65 unabhängig, stochastisch, 117 ungeordnete Reihe, 31 ungeordneten Stichprobe, 101 unmögliches Ereignis, 114 untere Klassengrenze, 25 untere Quartil, 40 schlieÿenden Statistik, 15 Sekundärerhebung, 14 Varianz, 48, 137 sicheres Ereignis, 114 Variationskoezient, 49 Signikanzniveau, 170 Verhältnisskala, 22 Skala, metrische, 22 Verteilung, 32 Skalentransformation, 24 Verteilung, bedingte, 62 Spannweite, 45 Verteilung, geometrisch, 151 Standardabweichung, 49, 137 Verteilung, hypergeometrisch, 149 Standardnormalverteilung, 155 Verteilung, konditionale, 62 Statistik, beschreibende, 14 Verteilungsfunktion, 134, 136 Statistik, schlieÿende, 15 Verweildauer, 84 statistisch abhängig, 65 Verweildauer, mittlere, 86 statistisch unabhängig, 65 Vollerhebung, 14 Version 6.0 - 019 24.06.2017 187 Index Wahrscheinlichkeit, 115 Zeitreihe, 31 Wahrscheinlichkeit, bedingte, 117 Zentralwert, 39 Wahrscheinlichkeit, konditionale, 117 Wahrscheinlichkeitsfunktion, 134 Wahrscheinlichkeitsmaÿ, 115 Wahrscheinlichkeitsraum, 116 Zufallsexperiment, 113, 133 Zufallsvariable, 133 Zugang, 84 Zugangsrate, 86 Zugangssumme, 85 Wahrscheinlichkeitsrechnung, 15 zusammengesetzten Ereignis, 114 Wertindex, 90, 93 ZV, 133 188 Version 6.0 - 019 24.06.2017