Auszug aus: Statistik für die Studiengänge IT Richard Mohr Fachbereich Grundlagen Fachhochschule für Technik Esslingen März 2001 ∗ Die vorliegende Ausarbeitung stellt eine Auswahl von Themengebieten dar, die nach Meinung des Autors geeignet ist, Studenten der Fachrichtung Informationstechnologie den Einstieg in die Schlussweise der angewandten Statistik zu erleichtern. Die Ausarbeitung soll ein vorlesungsbegleitendes Skript zur Wahlfachvorlesung im 5. Semester sein. Auf Bilder, Tabellen und Illustrationen wurde großen Wert gelegt, um so die Behandlung dieser teilweise recht abstrakten Themenbereiche zu erleichtern. Die angefügten Tabellen zur Normalverteilung wurden nach einem Algorithmus von W. J. Cody (Math.Comp., 1969, Seite 631 - 638) mittels eines eigenen Pascal-Programms errechnet und können so innerhalb der Fachhochschule bedenkenlos benutzt werden. Dasselbe gilt für die übrigen Tabellen und Schaubilder. ∗ c Richard Mohr Copyright 2001 Inhaltsverzeichnis 1 Einführung 3 2 Beschreibende Statistik 2.1 Merkmaltypen und Stichproben . . . . . . . . . . . . . . . 2.2 Graphische Darstellung . . . . . . . . . . . . . . . . . . . . 2.2.1 Qualitative Merkmale (Stabdiagramm, Kreissektor) 2.2.2 Quantitative Merkmale (Histogramm) . . . . . . . 2.3 Mittelwerte . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Arithmetisches Mittel . . . . . . . . . . . . . . . . . 2.3.2 Median . . . . . . . . . . . . . . . . . . . . . . . . 2.3.3 Harmonisches Mittel . . . . . . . . . . . . . . . . . 2.3.4 Geometrisches Mittel . . . . . . . . . . . . . . . . . 2.4 Quantile einer Stichprobe . . . . . . . . . . . . . . . . . . 2.5 Streuungsmaße . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1 Mittlerer Abstand . . . . . . . . . . . . . . . . . . . 2.5.2 Varianz und Standardabweichung . . . . . . . . . . 2.6 Transformation, Ränge . . . . . . . . . . . . . . . . . . . . 3 Korrelation und Regression 3.1 Lineare Korrelation . . . . . . . . . . 3.2 Regression . . . . . . . . . . . . . . . 3.2.1 Empirische Regressionskurven 3.2.2 Regression zweiter Art . . . . 3.2.3 Regressionsgerade . . . . . . . 3.2.4 Regressionskurven zweiter Art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Wahrscheinlichkeit 4.1 Klassischer Wahrscheinlichkeitsbegriff . . . . . . . . 4.2 Grenzen des klassischen Wahrscheinlichkeitsbegriffs 4.3 Geometrische Wahrscheinlichkeiten . . . . . . . . . 4.4 Stetige Zufallsgrößen . . . . . . . . . . . . . . . . . 5 Zufallsvariable 5.1 Diskrete Zufallsvariable . . . . . . . . . . . . . . . 5.1.1 Erwartungswert einer diskreten ZV . . . . 5.1.2 Varianz und Standardabweichung bei einer 5.2 Stetige Zufallsvariable . . . . . . . . . . . . . . . 5.3 Eigenschaften von Erwartungswert und Varianz . 5.3.1 Lineare Transformation . . . . . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . diskreten ZV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 4 4 5 5 6 6 7 8 9 10 10 11 12 13 . . . . . . 16 17 24 24 26 26 29 . . . . 33 35 37 38 39 . . . . . . 43 44 45 46 46 48 49 5.3.2 Summe von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . 6 Verteilungsfunktionen 6.1 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . 6.2 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . 6.2.1 Gaußsche Glockenkurven . . . . . . . . . . . . . . . 6.2.2 Standard-Normalverteilung . . . . . . . . . . . . . . 6.2.3 Verteilungsfunktion der Standard-Normalverteilung 6.2.4 N (µ, σ 2 )-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 52 53 58 58 59 61 63 7 Statistische Verfahren 66 7.1 Vorgehensweise bei statistischen Verfahren . . . . . . . . . . . . . . . . . . . . 66 7.2 Stichprobentheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 7.2.1 Stichproben bei endlichen Grundgesamtheiten . . . . . . . . . . . . . . 67 7.3 Parameterschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 7.3.1 Schätzwert für eine unbekannte Wahrscheinlichkeit . . . . . . . . . . . 68 7.3.2 Schätzwert für den relativen Anteil in einer endlichen Grundgesamtheit 68 7.3.3 Schätzwert für einen unbekannten Erwartungswert . . . . . . . . . . . . 69 7.3.4 Schätzwerte für eine unbekannte Varianz . . . . . . . . . . . . . . . . . 70 7.4 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 7.4.1 Konfidenzintervalle für Parameter der Normalverteilung . . . . . . . . . 72 7.4.2 Konfidenzintervall für eine Wahrscheinlichkeit p . . . . . . . . . . . . . 75 Tafeln zur Normalverteilung 78 Literaturverzeichnis 81 Index 82 2 1 EINFÜHRUNG 1 Einführung Sammeln von Beobachtungsdaten, sie zu ordnen und in graphisch ansprechender Form darzustellen, ist Aufgabe der beschreibenden Statistik. Beispiel: Arbeitslosenzahlen; darüber hinaus werden diese Daten noch aufbereitet, es wird z.B. der jahreszeitliche Einfluss auf das Einstellungsverhalten herausgerechnet” (Saisonbereinigung). Wir beschäftigen uns hier vor ” allem mit der sogenannten analytischen Statistik. Wir wollen versuchen, Eigenschaften einer Grundgesamtheit” – alle produzierten Glühlampen – dadurch zu ergründen, dass wir eine ” sogenannte Stichprobe entnehmen, diese untersuchen – defekt oder nicht – , auswerten und dann auf die Grundgesamtheit zurückschließen. Stichprobe - Grundgesamtheit Auswertung der Stichprobe Rückschluss Charakteristische Größen der Grundgesamtheit werden durch Auswerten der Stichprobe geschätzt – Ausschussanteil der Glühlampen –. Ein Rückschluss auf die Grundgesamtheit ist nur mit gewissen Unsicherheiten möglich, bedingt durch statistische Schwankungen der Zufallsauswahl der Stichprobe. In diesem Grundkurs über statistische Methoden sollen diese Unsicherheiten” beim Rückschluss auf die Grundgesamtheit quantifiziert werden. ” Inhalt • Darstellung und Aufbereitung statistischen Materials • Korrelation und Regression • Notwendige Erkenntnisse aus der Wahrscheinlichkeitsrechnung • Darstellung statistischer Prüfverfahren; Verständnis der zugrunde liegenden Modellvorstellungen • Anwendung statistischer Verfahren – Rezepte 3 2 BESCHREIBENDE STATISTIK 2 Beschreibende Statistik Stichprobenmaterial ist in seiner Ursprungsform nur schwer überschaubar. Aus diesem Grund wird in der beschreibenden Statistik versucht, Zahlenmaterial übersichtlich graphisch darzustellen und einige repräsentative Parameter zur Beschreibung einer Stichprobe zu bestimmen. 2.1 Merkmaltypen und Stichproben Wir unterscheiden bei Beobachtungen (Stichproben) folgende Merkmalstypen: a) klassifikatorische Merkmale Beispiel: Steuerklasse, Religionszugehörigkeit b) Rangmerkmale Beispiel: Besoldungsgruppen bei Beamten c) quantitative Merkmale (a) diskret – Zählen Beispiel: Anzahl der Ausschussstücke einer Stichprobe (b) stetig – Messen Beispiel: Gewicht des Zuckerpakets einer Stichprobe Sinn und Unsinn beim Umgang mit statistischem Material • Oft ordnet man klassifikatorischen Merkmalen Zahlen zu (Verschlüsselung). z.B. Religionszugehörigkeit: Religion evangelisch katholisch sonstige keine Schlüssel 1 2 3 4 Dadurch wird aber ein klassifikatorisches Merkmal nicht zu einem quantitativen!! Durchschnittsbildung ist z.B. Unsinn !! • Rangmerkmale werden ebenfalls oft verschlüsselt. z.B. Interesse an beruflicher Fortbildung sehr interessiert interessiert wenig interessiert nicht interessiert 4 3 2 1 Nur Reihenfolge, Rang ist von Bedeutung!! Jeder Beobachtungswert heißt Stichprobenwert. Die Anzahl der Stichprobenwerte heißt Stichprobenumfang. Die n Stichproben bezeichnen wir der Reihe nach mit x1 , x2 , . . . xn−1 , xn (nach eventueller Verrschlüsselung). Damit stellen wir die Stichprobe dar als x = (x1 , x2 , . . . , xn−1 , xn ) 2.2 Graphische Darstellung Durch graphische Darstellungen von Stichproben kann ein erster Überblick über das Zahlenmaterial gewonnen werden. Mit ihrer Hilfe können oft ohne große Rechnereien entscheidende Schlüsse gezogen werden. 4 2 BESCHREIBENDE STATISTIK 2.2.1 2.2 Graphische Darstellung Qualitative Merkmale (Stabdiagramm, Kreissektor) Bei qualitativen Merkmalen müssen die absoluten und relativen Häufigkeiten dargestellt werden. Beispiel: Stimmen- und Sitzverteilung bei der Landtagswahl 1988 in Baden-Württemberg. Partei Stimmenanteil in % Anzahl der Mandate CDU SPD Grüne FDP Sonstige 49,0 32,9 7,9 5,9 4,3 66 42 10 7 0 Summe 100,0 125 50 CDU CDU FDP SPD SPD 10 Grüne FDP Grüne Sonstige Stimmenanteil in % Bei jeder Darstellung durch Flächen entspricht die Gesamtfläche der Summe aller Häufigkeiten. Diese Gesamtfläche muss dann im Verhältnis der einzelnen Häufigkeiten aufgeteilt werden. 2.2.2 Quantitative Merkmale (Histogramm) Bei quantitativen Merkmalen stellen die Stichprobenwerte Zahlen dar, die auf dem Zahlenstrahl aufgetragen werden können. Soll zum Beispiel das Ergebnis einer Klassenarbeit dargestellt werden, so werden die Zensuren (1,..,6) auf der x-Achse aufgetragen, die relative Häufigkeit der einzelnen Zensuren ergibt die Höhe des Stabs. Falls ein Merkmal sehr viele Ausprägungen besitzt (z.B. beim Messen oder Wiegen) ist ein Stabdiagramm zur graphischen Darstellung nicht mehr geeeignet. Hier würden viele Merkmalswerte sehr selten oder überhaupt nicht vorkommen. In diesem Fall benutzt man eine Klasseneinteilung. indexKlasseneinteilung Beispiel: Bei einer Radarkontrolle wurden diejenigen Fahrzeuge registriert, welche die Geschwindigkeit von 55km/h überschritten haben. Bezüglich der Höhe des Verwarnungsgeldes wurden drei Klassen gebildet. 5 2 BESCHREIBENDE STATISTIK Klasse Klassengrenzen 1 2 3 2.3 Mittelwerte Häufigkeit 55 - 60 (einschließlich) 60 - 70 (einschließlich) 70 - 100 (einschließlich) 58 30 12 Summe 100 Bei einem Histogramm werden über den einzelnen Klassen senkrecht nach oben Rechtecke gezeichnet. Für die Größe des Rechtecks ergeben sich nun die Möglichkeiten: a) Höhe des Rechtecks ist proportional zur relativen Häufigkeit b) Fläche des Rechtecks ist proportional zur relativen Häufigkeit 50 10 10 1 55 60 70 55 60 100 70 100 Beim ersten Histogramm wird auf der y-Achse die relative oder absolute Häufigkeit aufgetragen. Dort besteht die Gefahr, dass bei oberflächlicher Betrachtung falsche Schlüsse gezogen werden. Die Rechteckfläche der dritten Klasse ist größer als über der ersten Klasse. Daher könnte man den falschen Schluß ziehen, die absolute Häufigkeit der dritten Klasse sei auch größer!! Beim zweiten Histogramm wird auf der y-Achse die absolute Klassenhäufigkeit/Klassenbreite aufgetragen. Die absoluten Häufigkeiten der Klassen können als Rechteckflächen gedeutet werden. Im allgemeinen ist dieser Darstellung der Vorzug zu geben. Ein flächenproportionales Histogramm erhält man mit der Vorschrift Rechteckshöhe = 2.3 absolute Klassenhäufigkeit Klassenbreite Mittelwerte Da die Zahlenwerte und Häufigkeitsverteilung einer Stichprobe oft sehr unübersichtlich sind, möchte man sie durch einen Zahlenwert charakterisieren. Für diese Beschreibung können Mittelwerte benutzt werden. Je nach Problemstellung empfiehlt sich der eine oder andere. 2.3.1 Arithmetisches Mittel Nach dem statistischen Jahrbuch betrug in der BRD im Jahre 1980 der pro-Kopf-Verbrauch an Bier: 6 2 BESCHREIBENDE STATISTIK 2.3 Mittelwerte je Einwohner 146 Liter je potentieller Verbraucher 178 Liter Zur Berechnung wurde der gesamte Bierausstoß a) durch die Gesamtbevölkerungszahl b) durch die Anzahl der Personen über 15 Jahre dividiert. Hätte jede dieser Personen den Durchschnittswert getrunken, so wäre der gleiche Bierverbrauch entstanden. Den Mittelwert x einer Stichprobe erhält man dadurch, dass die Summe aller Stichprobenwerte durch die Anzahl der Stichprobenwerte dividiert wird. Also n 1 · P x Dieser Mittelwert heißt arithmetisches Mittel x = x1 + x2n+ . . . xn = n i i=1 Mittelwertberechnung bei Klasseneinteilung Ist die Stichprobe nur noch in Form einer Klasseneinteilung gegeben, so lässt sich der Mittelwert nicht mehr exakt bestimmen. Bei gegebener Klasseneinteilung geht man nun so vor, als ob alle Werte einer Klasse mit der Klassenmitte identisch wären. Zur Berechnung dieses Wertes werden die Klassenhäufigkeiten mit den Klassenmitten multipliziert. Klasse Klassengrenzen Häufigkeit Produkte Beispiel aus Abschnitt 2.2.2: 1 2 3 55 - 60 60 - 70 70 - 100 58 30 12 58·57,5 30·65 12·85 Summen 100 6305 Die durchschnittliche Geschwindigkeit derjenigen 100 Autofahrer, die schneller als 55 km/h fuhren, war ungefähr gleich x ≈ 6305 100 = 63, 05 km/h 2.3.2 Median Wenn wir die n Stichprobenwerte der Größe nach anordnen, so nennen wir den ”mittleren” Wert Median. ungerade Zahl von Stichprobenwerten n = 2l + 1 x1 ≤ x2 ≤ . . . ≤ xl−1 ≤ xl ≤ xl+1 ≤ xl+2 ≤ . . . ≤ x2l ≤ x2l+1 Median x̃ = xl+1 ⇒ gerade Zahl von Stichprobenwerten n = 2l x1 ≤ x2 ≤ . . . ≤ xl−1 ≤ xl ≤ xl+1 ≤ xl+2 ≤ . . . ≤ x2l−1 ≤ x2l x +x ⇒ Median x̃ = l 2 l+1 Höchstens die Hälfte der Stichprobenwerte sind kleiner als der Median und höchstens die Hälfte der Stichprobenwerte größer als x̃. Vergleich von Mittelwert und Median Aus dem Mittelwert x erhält man durch Multiplikation mit der Anzahl der Stichprobenwerte die Summe aller Stichprobenwerte. Damit gibt das arithmetische Mittel Auskunft über die 7 2 BESCHREIBENDE STATISTIK 2.3 Mittelwerte Gesamtsumme (Vergleiche Beispiel in Abschnitt 2.3 : Bierausstoß). Für solche Probleme ist damit das arithmetische Mittel geeignet. Durch den Mittelwert werden die Stichprobenwerte im allgemeinen in zwei verschieden starke Gruppen zerlegt. Im Extremfall kann es vorkommen, dass auf der einen Seite vom Mittelwert nur ein einziger Stichprobenwert liegt. Dies tritt bei sogenannten Ausreißern auf. Beim Median dagegen liegen links und rechts davon je die Hälfte der Stichprobenwerte. Im Gegensatz zum arithmetischen Mittel hat die Größe der Stichprobenwerte außerhalb des mittleren Bereichs keinen Einfluss auf den Median. Der Median des Einkommens teilt die Bevölkerung in zwei Hälften. Die einen gehören zur unteren, die anderen zur oberen Einkommenshälfte. Wegen der Spitzenverdiener dürfte das arithmetische Mittel höher sein als der Median. Preise bestimmter Haushaltsgeräte sind in einzelnen Geschäften verschieden. Auch hier ist der Median dem Durchschnittspreis vorzuziehen, weil die große Masse von Käufern, welche nicht bei Billiganbietern oder in sehr teuren Geschäften kauft, im allgemeinen Preise bezahlen wird, die näher beim Median als beim Durchschnittspreis sind. Aus diesem Grund wird bei vielen Testuntersuchungen der Median als mittlerer Preis“ und nicht der Durchschnittspreis ” angegeben. Auch bei der Untersuchung der Studiendauer von Studierenden ist der Median besser geeignet als die durchschnittliche Studiendauer, da diese durch die ewigen“ Studenten in die ” Höhe getrieben werden. So kann es vorkommen, dass die mittlere Studiendauer einer Fachrichtung über 13 Semestern liegt, während der Median nur 11 Semester beträgt. Die Hälfte der Studenten benötigen also zu ihrem Studium höchstens 11 Semester. 2.3.3 Harmonisches Mittel Bei manchen Problemen führt das arithmetische Mittel in die Irre. Dies sei an folgendem Beispiel demonstriert. Beispiel: Ein Sportflugzeug fliege viermal hintereinander jeweils 300 km mit jeweils konstanter Geschwindigkeit und zwar die erste Strecke mit 300 km/h, die zweite mit 400 km/h, die dritte mit 500 km/h und die letzte Strecke mit 600 km/h. Gesucht ist die Durchschnittsgeschwindigkeit, also diejenige konstante Geschwindigkeit, mit der die gesamte Strecke von 1200 km in der gleichen Zeit geflogen würde. Diese Durchschnittsgeschwindigkeit kann nicht das arithmetische Mittel der Einzelgeschwindigkeiten sein. 500 + 600 = 450 km/h x = 300 + 400 + 4 Das arithmetische Mittel wäre nur dann die Lösung, wenn die verschiedenen Geschwindigkeiten gleich lang eingehalten worden wären. 8 2 BESCHREIBENDE STATISTIK Strecke 2.3 Mittelwerte Länge[km] Geschwindigkeit[km/h] benötigte Zeit in Minuten[min] 1 2 3 4 300 300 300 300 300 400 500 600 60 45 36 30 Summe 1200 Die Durchschnittgeschwindigkeit ergibt sich als 171 · 1200 ≈ 421, 0526 km/h v = 60 171 Diese Durchschnittsgeschwindigkeit ergibt sich auch als harmonisches Mittel v = 4 4 · 6000 ≈ 421, 0526 km/h 1 + 1 + 1 + 1 = 57 300 400 500 600 Falls alle n Stichprobenwerte x1 , x2 , . . . , xn von Null verschieden sind, heißt n n xh = 1 = X n 1 1 1 x1 + x2 + . . . + xn xi i=1 das harmonische Mittel der Stichprobe. 2.3.4 Geometrisches Mittel Bei Wachstumsprozessen dient in der Regel das geometrische Mittel“ zum Beschreiben ” des durchschnittlichen Wachstums. Dies sei an einem Beispiel aus der Finanzmathematik erläutert. Beispiel: Während vier aufeinanderfolgender Jahre betrage die Preissteigerungsrate: 2,5% , 1,5% , 3,1% und 3,9% . Wenn wir die Preisentwicklung eines Produkts verfolgen wollen, müssen wir den Anfangspreis mit Faktoren q1 = 1, 025; q2 = 1, 018; q3 = 1, 031; q4 = 1, 039 multiplizieren. Wollen wir die durchschnittliche Preissteigerungsrate bestimmen, so suchen wir nach einem Faktor q mit der Eigenschaft q 4 = q1 ·q2 ·q3 ·q4 ; q= √ 4 q1 · q2 · q3 · q4 Das geometrische Mittel kann nur von Stichproben berechnet werden, deren Werte alle positiv sind. Dann lautet das geometrische Mittel xg = √ n x1 · x2 · . . . · xn 9 2 BESCHREIBENDE STATISTIK 2.4 2.4 Quantile einer Stichprobe Quantile einer Stichprobe Der Median teilt die Stichprobe in zwei Gruppen. Dabei gilt: Links und rechts vom Median liegen jeweils 50% aller Stichprobenwerte. 1 Anstelle dieser 50% -Einteilung könnte man z.B. von unten her eine 80% -Einteilung vornehmen. Gleichwertig damit ist eine 20% - Einteilung von oben her. Dazu wird ein Stichprobenwert oder der Mittelwert zweier benachbarter Stichprobenwerte so bestimmt, dass links davon höchstens 80% der Stichprobenwerte und rechts davon höchstens 20% der Werte liegen. Dieser Zahlenwert heißt das 80% -Quantil oder das 0,8-Quantil. q sei eine beliebige Zahl zwischen Null und Eins. Die Stichprobenwerte werden der Größe nach steigend angeordnet. Dann heißt ein Stichprobenwert oder das arithmetische Mittel zweier benachbarter Stichprobenwerte x(q) das q-Quantil, wenn links von ihm höchstens 100 · q% liegen und rechts von ihm höchstens 100 · (1 − q)% aller Stichprobenwerte liegen. Bei der Untersuchung der Studiendauer (vergleiche Abschnitt 2.3.2) erwies sich der Median als aussagekräftiger als der arithmetische Mittelwert. Weitere Informationen würden sicherlich andere Quantile liefern z.B. das 0,75-Quantil. Es ermöglicht dann die Aussage, dass 75% der Studenten höchstens so viel Zeit bis zum Abschluss ihres Studiums benötigen. Falls das 0,9Quantil 12 Semester beträgt, besagt dies, dass 90% der Studierenden dieses Fachbereichs spätestens nach 12 Semestern ihr Examen ablegen. 2.5 Streuungsmaße Die Angabe eines Lageparametes (z.B. des Mittelwertes) reicht zur Charakterisierung einer Stichprobe nicht aus. Es ist möglich, dass völlig verschiedene Stichproben den gleichen Mittelwert besitzen. Dies sei an folgendem Beispiel erläutert. Beispiel: Untersucht werden Nageltüten mit der Aufschrift 100 Stück“. Zur Kontrolle werden aus der Lieferung zweier ” verschiedener Firmen jeweils 20 Packungen ausgewählt. Dabei ergaben sich folgende absoluten Häufigkeitsverteilungen: Inhalt 98 99 100 101 102 Firma A: Häufigkeit 1 4 8 4 3 Firma B: Inhalt 96 97 98 99 100 101 102 103 104 Häufigkeit 1 2 2 2 4 3 3 1 2 Als Mittelwert erhalten wir in beiden Fällen: + 4 · 101 + 3 · 102 = 100, 2 xA = 98 + 4 · 99 + 8 · 100 20 + 3 · 101 + 3 · 102 + 103 + 2 · 104 = 100, 2 xB = 96 + 2 · 97 + 2 · 98 + 2 · 99 + 4 · 100 20 1 Genau gilt diese Aussage nur bei einer geraden Stichprobenzahl. Bei ungerader Stichprobenzahl ist ja ein Stichprobenwert mit dem Median identisch. Diesen können wir in Gedanken je zur Hälfte nach links und rechts rechnen. 10 2 BESCHREIBENDE STATISTIK 2.5 Streuungsmaße Das unterschiedliche Verhalten der Stichproben wird durch die beiden Stabdiagamme deutlich: x̄ 5 1 98 99 100 101 102 5 1 96 97 98 99 100 101 102 103 104 Beide Stichproben besitzen denselben Mittelwert, ihre Stabdiagramme sind trotzdem völlig verschieden. Bei der ersten Stichprobe sind die Werte in der Nähe des Mittelwerts konzentriert, während die Werte der zweiten Stichprobe stärker streuen“. Im folgenden ” sollen Parameter bestimmt werden, die das Streuungsverhalten“ einer Stichprobe beschrei” ben. 2.5.1 Mittlerer Abstand Für ein sinnvolles Steuungsmaß darf es keine Rolle spielen, ob ein Stichprobenwert rechts oder links vom Mittelwert liegt.. Entscheidend ist nur der Abstand vom Mittelwert. Es ist daher naheliegend, den durchschnittlichen Abstand der Stichprobenwerte vom arithmetischen Mittelwert wie folgt zu definieren: Der mittlere Abstand einer Stichprobe vom Mittelwert x ist erklärt durch 1· d(x) = Summe aller Abstände vomMittelwert = n Anzahl der Stichprobenwerte 11 n X i=1 |xi −x| 2 BESCHREIBENDE STATISTIK 2.5.2 2.5 Streuungsmaße Varianz und Standardabweichung Der mittlere Abstand der Stichprobenwerte vom arithmetischen Mittelwert liefert zwar den plausibelsten Parameter über die Streuung“ der Stichprobenwerte. Der Umgang mit Be” trägen ist jedoch in der Regel sehr mühsam.2 Weiter hat dieses Streuungsmaß in der Statistik keine anwendbaren Eigenschaften. Der Mathematiker C.F. Gauß hat deshalb vorgeschlagen, anstelle der Abstände |xi − x| deren Abstandsquadrate |xi − x|2 = (xi − x)2 zu benutzen.3 Zunächst wäre es naheliegend, die Summe dieser Abstandsquadrate durch n zu teilen. Aus Anwendungsgründen wird diese Summe nicht durch n sondern durch n − 1 geteilt. Der Ausdruck 2 s n n P P 2 2 1 1 2 = n − 1 · (xi − x) = n − 1 · xi − n · (x) i=1 i=1 = Summe der Abstandsquadrate vom Mittelwert Stichprobenumfang minus 1 heißt die Varianz der Stichprobe. Ihre positive Quadratwurzel s = Standardabweichung oder Streuung der Stichprobe. √ s2 nennt man die Für die praktische Berechnung ist die zweite Beziehung geeigneter. Hier muss man nur die Quadrate der Stichprobenwerte, davon das n- fache Quadrat des Mittelwerts subtrahieren und den so erhaltenen Wert noch durch n−1 dividieren. Man teilt durch die Zahl der Freiheitsgrade – bei n Stichprobenwerten gibt es für die Abweichungen vom Mittelwert (n−1) Möglichkeiten. Für die Stichproben aus Abschnitt 2.5 sollen nun die beiden Streuungsmaße bestimmt werden. Werte 98 99 Firma A: 100 101 102 Summen Häufigkeiten Abstände Produkte Abstandsquadrate Produkte 1 4 8 4 3 2,2 1,2 0,2 0,8 1,8 2,2 4,8 1,6 3,2 5,4 20 4,84 1,44 0,04 0,64 3,24 17,2 4,84 5,76 0,32 2,56 9,72 23,20 23, 2 17, 2 Mittlerer Abstand d(x) = 20 = 0, 86 Varianz s2 = 19 ≈ 1, 221053 √ Standardabweichung s = 1, 221053 ≈ 1, 1050 2 So sind bei Betragsfunktionen sämtliche Hilfsmittel der Differentialrechnung nicht anwendbar. Die Anpassung eines Ausgleichspolynoms an Messdaten erfolgt ebenfalls nach dem Prinzip der kleinsten Fehlerquadrate. 3 12 2 BESCHREIBENDE STATISTIK Werte 2.6 Transformation, Ränge Häufigkeiten Abstände Produkte Abstandsquadrate Produkte 96 97 98 99 Firma B: 100 101 102 103 104 1 2 2 2 4 3 3 1 2 Summen 4,2 3,2 2,2 1,2 0,2 0,8 1,8 2,8 3,8 4,2 6,4 4,4 2,4 0,8 2,4 5,4 2,8 7,6 20 17,64 10,24 4,84 1,44 0,04 0,64 3,24 7,84 14,44 17,64 20,48 9,68 2,88 0,16 1,92 9,72 7,84 28,88 36,40 99,20 99, 2 36, 4 Mittlerer Abstand d(x) = 20 = 1, 82 Varianz s2 = 19 ≈ 5, 221053 √ Standardabweichung s = 5, 221053 ≈ 2, 2850 In beiden Fällen ist der mittlere Abstand kleiner als die Standardabweichung. Dieser Zusammenhang gilt allgemein.4 In jeder Stichprobe ist der mittlere Abstand nicht größer als die Standardabweichung. Es gilt also allgemein v u n n X X u 1 1 t (xi − x)2 = s d(x) = n · |xi −x| ≤ n−1 · i=1 i=1 Da die Standardabweichung am einfachsten zu handhaben ist und in der Statistik die größten Anwendungsmöglichkeiten besitzt, benutzt man in der Statistik fast ausschließlich dieses Abweichungsmaß. Große Abweichungen fallen bei der Standardabweichung stärker ins Gewicht als bei der Berechnung des mittleren Abstands. 2.6 Transformation, Ränge Oft werden bei Datenmengen Bezugspunkt und Maßeinheit verändert.(z.B. bei Temperaturmessung Übergang von Fahrenheit zu Celsius) Dies bedeutet, dass man die Daten einer linearen Transformation unterwirft: x̃ = a + b · x 4 1 und 1 : Grundidee, unabhängig von den Faktoren n n−1 13 1 (|a| + |b|) ≤ 2 1 a2 + 2|a||b| + b2 ≤ 4 0 ≤ 0 ≤ q 1 (a2 + b2 ) 2 1 a2 + b2 2 1 a2 − 2|a||b| + b2 4 (|a| − |b|)2 2 BESCHREIBENDE STATISTIK 2.6 Transformation, Ränge Die Lage- und Streuparameter ändern sich bei linearen Transformationen wie folgt: Lagex̃ = a + b · Lagex Streuungx̃ = |b| · Streuungx Varianzx̃ = b2 · Varianzx Die Form der Verteilung ändert sich bei einer linearen Transformation nicht. Bei Datenmengen mit großen Größenunterschiedenen ist oft eine logarithmische Transformation hilfreich. x̃ = loga (x+c) ; a : Basis, c : Verschiebung (bei negativen x-Werten!!) Wird die Basis 10 gewählt, so ergeben sich die Zehnerpotenzen als Maßeinheit. Bei solchen nichtlinearen Transformationen verändert sich 1.a. die Form der Verteilung und Lage- und Streuparameter. Bei den beiden folgenden Histogrammen wurde die Datenmenge des ersten Bilds der Transformation x̃ = ln x Dabei ergab sich folgender Sachverhalt: ln x̄ = ln 0.482 = − 0.730 6= −0.831 ln median = ln 0.477 = − 0.831 Der arithmetische Mittelwert verändert sich, während der Median invariant ist. Die Form des Histogramms ändert sich; ebenso die Standardabweichung. Mittelwert= 0.482 Median= 0.477 Standardabw.= 0.205 200 150 100 50 0 0 0.2 0.4 0.6 0.8 xi 14 1 2 BESCHREIBENDE STATISTIK 2.6 Transformation, Ränge Mittelwert= −0.831 Median= −0.741 Standardabw.= 0.473 100 80 60 40 20 0 −2.5 −2 −1.5 −1 −0.5 0 ln(xi) √ Andere monotone Abbildungen (z.B. x̃ = x)zeigen ähnliche Effekte bzgl. Streuungsverhalten, arithmetischem Mittelwert und Verteilungsstruktur der Datenmenge. Nur der Median geht bei monotonen Transformationen in den neuen Median über. Eine wichtige monotone Transformation eines Datensatzes ist die sogenannte Rang-Transformation. Hier spielt nur die Anordnung der Messwerte auf der reellen Zahlenachse eine Rolle. Der Rang einer Zahl xi gibt an, die wie-vielt-kleinste Zahl sie in der vorgegebenen Datenmenge ist. Bei Gleichheit werden die entsprechenden Rangzahlen gemittelt. Rang-Zahlen machen nur im Zusammenhang mit der gesamten Datenmenge Sinn. Beispiel : i 1 2 3 4 5 6 7 8 9 10 xi 1.2 2.4 1.3 1.3 0.0 1.0 1.8 0.8 4.6 1.4 Rang < xi > 4 9 5.5 5.5 1 3 8 2 10 7 15