Skript zur ersten Einheit

Werbung
Auszug aus:
Statistik für die Studiengänge IT
Richard Mohr
Fachbereich Grundlagen
Fachhochschule für Technik Esslingen
März 2001
∗
Die vorliegende Ausarbeitung stellt eine Auswahl von Themengebieten dar, die nach Meinung des Autors geeignet ist, Studenten der
Fachrichtung Informationstechnologie den Einstieg in die Schlussweise der angewandten Statistik zu erleichtern.
Die Ausarbeitung soll ein vorlesungsbegleitendes Skript zur Wahlfachvorlesung im 5. Semester sein.
Auf Bilder, Tabellen und Illustrationen wurde großen Wert gelegt,
um so die Behandlung dieser teilweise recht abstrakten Themenbereiche zu erleichtern.
Die angefügten Tabellen zur Normalverteilung wurden nach einem
Algorithmus von W. J. Cody (Math.Comp., 1969, Seite 631 - 638)
mittels eines eigenen Pascal-Programms errechnet und können so
innerhalb der Fachhochschule bedenkenlos benutzt werden. Dasselbe gilt für die übrigen Tabellen und Schaubilder.
∗
c
Richard Mohr
Copyright 2001
Inhaltsverzeichnis
1 Einführung
3
2 Beschreibende Statistik
2.1 Merkmaltypen und Stichproben . . . . . . . . . . . . . . .
2.2 Graphische Darstellung . . . . . . . . . . . . . . . . . . . .
2.2.1 Qualitative Merkmale (Stabdiagramm, Kreissektor)
2.2.2 Quantitative Merkmale (Histogramm) . . . . . . .
2.3 Mittelwerte . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1 Arithmetisches Mittel . . . . . . . . . . . . . . . . .
2.3.2 Median . . . . . . . . . . . . . . . . . . . . . . . .
2.3.3 Harmonisches Mittel . . . . . . . . . . . . . . . . .
2.3.4 Geometrisches Mittel . . . . . . . . . . . . . . . . .
2.4 Quantile einer Stichprobe . . . . . . . . . . . . . . . . . .
2.5 Streuungsmaße . . . . . . . . . . . . . . . . . . . . . . . .
2.5.1 Mittlerer Abstand . . . . . . . . . . . . . . . . . . .
2.5.2 Varianz und Standardabweichung . . . . . . . . . .
2.6 Transformation, Ränge . . . . . . . . . . . . . . . . . . . .
3 Korrelation und Regression
3.1 Lineare Korrelation . . . . . . . . . .
3.2 Regression . . . . . . . . . . . . . . .
3.2.1 Empirische Regressionskurven
3.2.2 Regression zweiter Art . . . .
3.2.3 Regressionsgerade . . . . . . .
3.2.4 Regressionskurven zweiter Art
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Wahrscheinlichkeit
4.1 Klassischer Wahrscheinlichkeitsbegriff . . . . . . . .
4.2 Grenzen des klassischen Wahrscheinlichkeitsbegriffs
4.3 Geometrische Wahrscheinlichkeiten . . . . . . . . .
4.4 Stetige Zufallsgrößen . . . . . . . . . . . . . . . . .
5 Zufallsvariable
5.1 Diskrete Zufallsvariable . . . . . . . . . . . . . . .
5.1.1 Erwartungswert einer diskreten ZV . . . .
5.1.2 Varianz und Standardabweichung bei einer
5.2 Stetige Zufallsvariable . . . . . . . . . . . . . . .
5.3 Eigenschaften von Erwartungswert und Varianz .
5.3.1 Lineare Transformation . . . . . . . . . . .
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . .
. . . . . . . .
diskreten ZV
. . . . . . . .
. . . . . . . .
. . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
4
4
5
5
6
6
7
8
9
10
10
11
12
13
.
.
.
.
.
.
16
17
24
24
26
26
29
.
.
.
.
33
35
37
38
39
.
.
.
.
.
.
43
44
45
46
46
48
49
5.3.2
Summe von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . .
6 Verteilungsfunktionen
6.1 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . .
6.2 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . .
6.2.1 Gaußsche Glockenkurven . . . . . . . . . . . . . . .
6.2.2 Standard-Normalverteilung . . . . . . . . . . . . . .
6.2.3 Verteilungsfunktion der Standard-Normalverteilung
6.2.4 N (µ, σ 2 )-Verteilung . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
49
52
53
58
58
59
61
63
7 Statistische Verfahren
66
7.1 Vorgehensweise bei statistischen Verfahren . . . . . . . . . . . . . . . . . . . . 66
7.2 Stichprobentheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
7.2.1 Stichproben bei endlichen Grundgesamtheiten . . . . . . . . . . . . . . 67
7.3 Parameterschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
7.3.1 Schätzwert für eine unbekannte Wahrscheinlichkeit . . . . . . . . . . . 68
7.3.2 Schätzwert für den relativen Anteil in einer endlichen Grundgesamtheit 68
7.3.3 Schätzwert für einen unbekannten Erwartungswert . . . . . . . . . . . . 69
7.3.4 Schätzwerte für eine unbekannte Varianz . . . . . . . . . . . . . . . . . 70
7.4 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
7.4.1 Konfidenzintervalle für Parameter der Normalverteilung . . . . . . . . . 72
7.4.2 Konfidenzintervall für eine Wahrscheinlichkeit p . . . . . . . . . . . . . 75
Tafeln zur Normalverteilung
78
Literaturverzeichnis
81
Index
82
2
1 EINFÜHRUNG
1
Einführung
Sammeln von Beobachtungsdaten, sie zu ordnen und in graphisch ansprechender Form darzustellen, ist Aufgabe der beschreibenden Statistik. Beispiel: Arbeitslosenzahlen; darüber hinaus werden diese Daten noch aufbereitet, es wird z.B. der jahreszeitliche Einfluss auf das
Einstellungsverhalten herausgerechnet” (Saisonbereinigung). Wir beschäftigen uns hier vor
”
allem mit der sogenannten analytischen Statistik. Wir wollen versuchen, Eigenschaften einer
Grundgesamtheit” – alle produzierten Glühlampen – dadurch zu ergründen, dass wir eine
”
sogenannte Stichprobe entnehmen, diese untersuchen – defekt oder nicht – , auswerten und
dann auf die Grundgesamtheit zurückschließen.
Stichprobe
-
Grundgesamtheit
Auswertung
der Stichprobe
Rückschluss
Charakteristische Größen der Grundgesamtheit werden durch Auswerten der Stichprobe
geschätzt – Ausschussanteil der Glühlampen –. Ein Rückschluss auf die Grundgesamtheit
ist nur mit gewissen Unsicherheiten möglich, bedingt durch statistische Schwankungen der
Zufallsauswahl der Stichprobe. In diesem Grundkurs über statistische Methoden sollen diese
Unsicherheiten” beim Rückschluss auf die Grundgesamtheit quantifiziert werden.
”
Inhalt
• Darstellung und Aufbereitung statistischen Materials
• Korrelation und Regression
• Notwendige Erkenntnisse aus der Wahrscheinlichkeitsrechnung
• Darstellung statistischer Prüfverfahren; Verständnis der zugrunde liegenden Modellvorstellungen
• Anwendung statistischer Verfahren – Rezepte
3
2 BESCHREIBENDE STATISTIK
2
Beschreibende Statistik
Stichprobenmaterial ist in seiner Ursprungsform nur schwer überschaubar. Aus diesem Grund
wird in der beschreibenden Statistik versucht, Zahlenmaterial übersichtlich graphisch darzustellen und einige repräsentative Parameter zur Beschreibung einer Stichprobe zu bestimmen.
2.1
Merkmaltypen und Stichproben
Wir unterscheiden bei Beobachtungen (Stichproben) folgende Merkmalstypen:
a) klassifikatorische Merkmale Beispiel: Steuerklasse, Religionszugehörigkeit
b) Rangmerkmale Beispiel: Besoldungsgruppen bei Beamten
c) quantitative Merkmale
(a) diskret – Zählen Beispiel: Anzahl der Ausschussstücke einer Stichprobe
(b) stetig – Messen Beispiel: Gewicht des Zuckerpakets einer Stichprobe
Sinn und Unsinn beim Umgang mit statistischem Material
• Oft ordnet man klassifikatorischen Merkmalen Zahlen zu (Verschlüsselung). z.B. Religionszugehörigkeit:
Religion evangelisch katholisch sonstige keine
Schlüssel
1
2
3
4
Dadurch wird aber ein klassifikatorisches Merkmal nicht zu einem quantitativen!! Durchschnittsbildung ist z.B. Unsinn !!
• Rangmerkmale werden ebenfalls oft verschlüsselt. z.B. Interesse an beruflicher Fortbildung
sehr interessiert interessiert wenig interessiert nicht interessiert
4
3
2
1
Nur Reihenfolge, Rang ist von Bedeutung!!
Jeder Beobachtungswert heißt Stichprobenwert. Die Anzahl der Stichprobenwerte heißt Stichprobenumfang. Die n Stichproben bezeichnen wir der Reihe nach mit x1 , x2 , . . . xn−1 , xn
(nach eventueller Verrschlüsselung). Damit stellen wir die Stichprobe dar als
x = (x1 , x2 , . . . , xn−1 , xn )
2.2
Graphische Darstellung
Durch graphische Darstellungen von Stichproben kann ein erster Überblick über das Zahlenmaterial gewonnen werden. Mit ihrer Hilfe können oft ohne große Rechnereien entscheidende
Schlüsse gezogen werden.
4
2 BESCHREIBENDE STATISTIK
2.2.1
2.2 Graphische Darstellung
Qualitative Merkmale (Stabdiagramm, Kreissektor)
Bei qualitativen Merkmalen müssen die absoluten und relativen Häufigkeiten dargestellt werden. Beispiel: Stimmen- und Sitzverteilung bei der Landtagswahl 1988 in Baden-Württemberg.
Partei
Stimmenanteil in % Anzahl der Mandate
CDU
SPD
Grüne
FDP
Sonstige
49,0
32,9
7,9
5,9
4,3
66
42
10
7
0
Summe
100,0
125
50
CDU
CDU
FDP
SPD
SPD
10
Grüne FDP
Grüne
Sonstige
Stimmenanteil in %
Bei jeder Darstellung durch Flächen entspricht die Gesamtfläche der Summe aller Häufigkeiten. Diese Gesamtfläche muss dann im Verhältnis der einzelnen Häufigkeiten aufgeteilt
werden.
2.2.2
Quantitative Merkmale (Histogramm)
Bei quantitativen Merkmalen stellen die Stichprobenwerte Zahlen dar, die auf dem Zahlenstrahl aufgetragen werden können. Soll zum Beispiel das Ergebnis einer Klassenarbeit dargestellt werden, so werden die Zensuren (1,..,6) auf der x-Achse aufgetragen, die relative
Häufigkeit der einzelnen Zensuren ergibt die Höhe des Stabs.
Falls ein Merkmal sehr viele Ausprägungen besitzt (z.B. beim Messen oder Wiegen) ist ein
Stabdiagramm zur graphischen Darstellung nicht mehr geeeignet. Hier würden viele Merkmalswerte sehr selten oder überhaupt nicht vorkommen. In diesem Fall benutzt man eine
Klasseneinteilung. indexKlasseneinteilung Beispiel: Bei einer Radarkontrolle wurden diejenigen Fahrzeuge registriert, welche die Geschwindigkeit von 55km/h überschritten haben.
Bezüglich der Höhe des Verwarnungsgeldes wurden drei Klassen gebildet.
5
2 BESCHREIBENDE STATISTIK
Klasse Klassengrenzen
1
2
3
2.3 Mittelwerte
Häufigkeit
55 - 60 (einschließlich)
60 - 70 (einschließlich)
70 - 100 (einschließlich)
58
30
12
Summe
100
Bei einem Histogramm werden über den einzelnen Klassen senkrecht nach oben Rechtecke
gezeichnet. Für die Größe des Rechtecks ergeben sich nun die Möglichkeiten:
a) Höhe des Rechtecks ist proportional zur relativen Häufigkeit
b) Fläche des Rechtecks ist proportional zur relativen Häufigkeit
50
10
10
1
55 60
70
55 60
100
70
100
Beim ersten Histogramm wird auf der y-Achse die relative oder absolute Häufigkeit aufgetragen. Dort besteht die Gefahr, dass bei oberflächlicher Betrachtung falsche Schlüsse gezogen
werden. Die Rechteckfläche der dritten Klasse ist größer als über der ersten Klasse. Daher könnte man den falschen Schluß ziehen, die absolute Häufigkeit der dritten Klasse sei
auch größer!! Beim zweiten Histogramm wird auf der y-Achse die absolute Klassenhäufigkeit/Klassenbreite aufgetragen. Die absoluten Häufigkeiten der Klassen können als Rechteckflächen gedeutet werden. Im allgemeinen ist dieser Darstellung der Vorzug zu geben. Ein
flächenproportionales Histogramm erhält man mit der Vorschrift
Rechteckshöhe =
2.3
absolute Klassenhäufigkeit
Klassenbreite
Mittelwerte
Da die Zahlenwerte und Häufigkeitsverteilung einer Stichprobe oft sehr unübersichtlich sind,
möchte man sie durch einen Zahlenwert charakterisieren. Für diese Beschreibung können
Mittelwerte benutzt werden. Je nach Problemstellung empfiehlt sich der eine oder andere.
2.3.1
Arithmetisches Mittel
Nach dem statistischen Jahrbuch betrug in der BRD im Jahre 1980 der pro-Kopf-Verbrauch
an Bier:
6
2 BESCHREIBENDE STATISTIK
2.3 Mittelwerte
je Einwohner
146 Liter
je potentieller Verbraucher 178 Liter
Zur Berechnung wurde der gesamte Bierausstoß a) durch die Gesamtbevölkerungszahl
b) durch die Anzahl der Personen über 15 Jahre dividiert. Hätte jede dieser Personen den
Durchschnittswert getrunken, so wäre der gleiche Bierverbrauch entstanden.
Den Mittelwert x einer Stichprobe erhält man dadurch, dass die Summe aller Stichprobenwerte durch die Anzahl der Stichprobenwerte dividiert wird. Also
n
1 · P x Dieser Mittelwert heißt arithmetisches Mittel
x = x1 + x2n+ . . . xn = n
i
i=1
Mittelwertberechnung bei Klasseneinteilung
Ist die Stichprobe nur noch in Form einer Klasseneinteilung gegeben, so lässt sich der Mittelwert nicht mehr exakt bestimmen. Bei gegebener Klasseneinteilung geht man nun so vor,
als ob alle Werte einer Klasse mit der Klassenmitte identisch wären. Zur Berechnung dieses
Wertes werden die Klassenhäufigkeiten mit den Klassenmitten multipliziert.
Klasse Klassengrenzen Häufigkeit Produkte
Beispiel aus Abschnitt 2.2.2:
1
2
3
55 - 60
60 - 70
70 - 100
58
30
12
58·57,5
30·65
12·85
Summen
100
6305
Die durchschnittliche Geschwindigkeit derjenigen 100 Autofahrer, die schneller als 55 km/h
fuhren, war ungefähr gleich
x ≈ 6305
100 = 63, 05 km/h
2.3.2
Median
Wenn wir die n Stichprobenwerte der Größe nach anordnen, so nennen wir den ”mittleren”
Wert Median.
ungerade Zahl von Stichprobenwerten
n = 2l + 1
x1 ≤ x2 ≤ . . . ≤ xl−1 ≤ xl ≤ xl+1 ≤ xl+2 ≤ . . . ≤ x2l ≤ x2l+1
Median x̃ = xl+1
⇒
gerade Zahl von Stichprobenwerten
n = 2l
x1 ≤ x2 ≤ . . . ≤ xl−1 ≤ xl ≤ xl+1 ≤ xl+2 ≤ . . . ≤ x2l−1 ≤ x2l
x +x
⇒
Median x̃ = l 2 l+1
Höchstens die Hälfte der Stichprobenwerte sind kleiner als der Median und höchstens die
Hälfte der Stichprobenwerte größer als x̃.
Vergleich von Mittelwert und Median
Aus dem Mittelwert x erhält man durch Multiplikation mit der Anzahl der Stichprobenwerte
die Summe aller Stichprobenwerte. Damit gibt das arithmetische Mittel Auskunft über die
7
2 BESCHREIBENDE STATISTIK
2.3 Mittelwerte
Gesamtsumme (Vergleiche Beispiel in Abschnitt 2.3 : Bierausstoß). Für solche Probleme ist
damit das arithmetische Mittel geeignet.
Durch den Mittelwert werden die Stichprobenwerte im allgemeinen in zwei verschieden starke
Gruppen zerlegt. Im Extremfall kann es vorkommen, dass auf der einen Seite vom Mittelwert
nur ein einziger Stichprobenwert liegt. Dies tritt bei sogenannten Ausreißern auf. Beim Median
dagegen liegen links und rechts davon je die Hälfte der Stichprobenwerte. Im Gegensatz zum
arithmetischen Mittel hat die Größe der Stichprobenwerte außerhalb des mittleren Bereichs
keinen Einfluss auf den Median.
Der Median des Einkommens teilt die Bevölkerung in zwei Hälften. Die einen gehören zur
unteren, die anderen zur oberen Einkommenshälfte. Wegen der Spitzenverdiener dürfte das
arithmetische Mittel höher sein als der Median.
Preise bestimmter Haushaltsgeräte sind in einzelnen Geschäften verschieden. Auch hier ist
der Median dem Durchschnittspreis vorzuziehen, weil die große Masse von Käufern, welche
nicht bei Billiganbietern oder in sehr teuren Geschäften kauft, im allgemeinen Preise bezahlen
wird, die näher beim Median als beim Durchschnittspreis sind. Aus diesem Grund wird bei
vielen Testuntersuchungen der Median als mittlerer Preis“ und nicht der Durchschnittspreis
”
angegeben.
Auch bei der Untersuchung der Studiendauer von Studierenden ist der Median besser geeignet als die durchschnittliche Studiendauer, da diese durch die ewigen“ Studenten in die
”
Höhe getrieben werden. So kann es vorkommen, dass die mittlere Studiendauer einer Fachrichtung über 13 Semestern liegt, während der Median nur 11 Semester beträgt. Die Hälfte
der Studenten benötigen also zu ihrem Studium höchstens 11 Semester.
2.3.3
Harmonisches Mittel
Bei manchen Problemen führt das arithmetische Mittel in die Irre. Dies sei an folgendem
Beispiel demonstriert.
Beispiel: Ein Sportflugzeug fliege viermal hintereinander jeweils 300 km mit jeweils konstanter Geschwindigkeit und zwar die erste Strecke mit 300 km/h, die zweite mit 400 km/h, die
dritte mit 500 km/h und die letzte Strecke mit 600 km/h. Gesucht ist die Durchschnittsgeschwindigkeit, also diejenige konstante Geschwindigkeit, mit der die gesamte Strecke von 1200
km in der gleichen Zeit geflogen würde. Diese Durchschnittsgeschwindigkeit kann nicht das
arithmetische Mittel der Einzelgeschwindigkeiten sein.
500 + 600 = 450 km/h
x = 300 + 400 +
4
Das arithmetische Mittel wäre nur dann die Lösung, wenn die verschiedenen Geschwindigkeiten gleich lang eingehalten worden wären.
8
2 BESCHREIBENDE STATISTIK
Strecke
2.3 Mittelwerte
Länge[km] Geschwindigkeit[km/h] benötigte Zeit in Minuten[min]
1
2
3
4
300
300
300
300
300
400
500
600
60
45
36
30
Summe
1200
Die Durchschnittgeschwindigkeit ergibt sich als
171
· 1200 ≈ 421, 0526 km/h
v = 60 171
Diese Durchschnittsgeschwindigkeit ergibt sich auch als harmonisches Mittel
v =
4
4 · 6000 ≈ 421, 0526 km/h
1 + 1 + 1 + 1 =
57
300 400 500 600
Falls alle n Stichprobenwerte x1 , x2 , . . . , xn von Null verschieden sind, heißt
n
n
xh = 1
= X
n
1
1
1
x1 + x2 + . . . + xn
xi
i=1
das harmonische Mittel der Stichprobe.
2.3.4
Geometrisches Mittel
Bei Wachstumsprozessen dient in der Regel das geometrische Mittel“ zum Beschreiben
”
des durchschnittlichen Wachstums. Dies sei an einem Beispiel aus der Finanzmathematik
erläutert. Beispiel: Während vier aufeinanderfolgender Jahre betrage die Preissteigerungsrate: 2,5% , 1,5% , 3,1% und 3,9% . Wenn wir die Preisentwicklung eines Produkts verfolgen
wollen, müssen wir den Anfangspreis mit Faktoren
q1 = 1, 025;
q2 = 1, 018;
q3 = 1, 031;
q4 = 1, 039
multiplizieren. Wollen wir die durchschnittliche Preissteigerungsrate bestimmen, so suchen
wir nach einem Faktor q mit der Eigenschaft
q 4 = q1 ·q2 ·q3 ·q4
;
q=
√
4
q1 · q2 · q3 · q4
Das geometrische Mittel kann nur von Stichproben berechnet werden, deren Werte alle positiv sind. Dann lautet das geometrische Mittel
xg =
√
n
x1 · x2 · . . . · xn
9
2 BESCHREIBENDE STATISTIK
2.4
2.4 Quantile einer Stichprobe
Quantile einer Stichprobe
Der Median teilt die Stichprobe in zwei Gruppen. Dabei gilt: Links und rechts vom Median
liegen jeweils 50% aller Stichprobenwerte. 1 Anstelle dieser 50% -Einteilung könnte man z.B.
von unten her eine 80% -Einteilung vornehmen. Gleichwertig damit ist eine 20% - Einteilung
von oben her. Dazu wird ein Stichprobenwert oder der Mittelwert zweier benachbarter Stichprobenwerte so bestimmt, dass links davon höchstens 80% der Stichprobenwerte und rechts
davon höchstens 20% der Werte liegen. Dieser Zahlenwert heißt das 80% -Quantil oder das
0,8-Quantil.
q sei eine beliebige Zahl zwischen Null und Eins.
Die Stichprobenwerte werden der Größe nach steigend angeordnet. Dann heißt ein Stichprobenwert oder das arithmetische Mittel zweier benachbarter Stichprobenwerte x(q) das
q-Quantil, wenn links von ihm höchstens 100 · q% liegen und rechts von ihm höchstens
100 · (1 − q)% aller Stichprobenwerte liegen.
Bei der Untersuchung der Studiendauer (vergleiche Abschnitt 2.3.2) erwies sich der Median
als aussagekräftiger als der arithmetische Mittelwert. Weitere Informationen würden sicherlich
andere Quantile liefern z.B. das 0,75-Quantil. Es ermöglicht dann die Aussage, dass 75% der
Studenten höchstens so viel Zeit bis zum Abschluss ihres Studiums benötigen. Falls das 0,9Quantil 12 Semester beträgt, besagt dies, dass 90% der Studierenden dieses Fachbereichs
spätestens nach 12 Semestern ihr Examen ablegen.
2.5
Streuungsmaße
Die Angabe eines Lageparametes (z.B. des Mittelwertes) reicht zur Charakterisierung einer Stichprobe nicht aus. Es ist möglich, dass völlig verschiedene Stichproben den gleichen
Mittelwert besitzen. Dies sei an folgendem Beispiel erläutert. Beispiel: Untersucht werden
Nageltüten mit der Aufschrift 100 Stück“. Zur Kontrolle werden aus der Lieferung zweier
”
verschiedener Firmen jeweils 20 Packungen ausgewählt. Dabei ergaben sich folgende absoluten
Häufigkeitsverteilungen:
Inhalt
98 99 100 101 102
Firma A:
Häufigkeit 1 4
8
4
3
Firma B:
Inhalt
96 97 98 99 100 101 102 103 104
Häufigkeit 1 2 2 2
4
3
3
1
2
Als Mittelwert erhalten wir in beiden Fällen:
+ 4 · 101 + 3 · 102 = 100, 2
xA = 98 + 4 · 99 + 8 · 100
20
+ 3 · 101 + 3 · 102 + 103 + 2 · 104 = 100, 2
xB = 96 + 2 · 97 + 2 · 98 + 2 · 99 + 4 · 100
20
1
Genau gilt diese Aussage nur bei einer geraden Stichprobenzahl. Bei ungerader Stichprobenzahl ist ja
ein Stichprobenwert mit dem Median identisch. Diesen können wir in Gedanken je zur Hälfte nach links und
rechts rechnen.
10
2 BESCHREIBENDE STATISTIK
2.5 Streuungsmaße
Das unterschiedliche Verhalten der Stichproben wird durch die beiden Stabdiagamme deutlich:
x̄
5
1
98
99 100 101 102
5
1
96 97
98 99 100 101 102 103 104
Beide Stichproben besitzen denselben Mittelwert, ihre Stabdiagramme sind
trotzdem völlig verschieden. Bei der ersten Stichprobe sind die Werte in der Nähe des Mittelwerts konzentriert, während die Werte der zweiten Stichprobe stärker streuen“. Im folgenden
”
sollen Parameter bestimmt werden, die das Streuungsverhalten“ einer Stichprobe beschrei”
ben.
2.5.1
Mittlerer Abstand
Für ein sinnvolles Steuungsmaß darf es keine Rolle spielen, ob ein Stichprobenwert rechts
oder links vom Mittelwert liegt.. Entscheidend ist nur der Abstand vom Mittelwert. Es ist
daher naheliegend, den durchschnittlichen Abstand der Stichprobenwerte vom arithmetischen
Mittelwert wie folgt zu definieren:
Der mittlere Abstand einer Stichprobe vom Mittelwert x ist erklärt durch
1·
d(x) = Summe aller Abstände vomMittelwert = n
Anzahl der Stichprobenwerte
11
n
X
i=1
|xi −x|
2 BESCHREIBENDE STATISTIK
2.5.2
2.5 Streuungsmaße
Varianz und Standardabweichung
Der mittlere Abstand der Stichprobenwerte vom arithmetischen Mittelwert liefert zwar den
plausibelsten Parameter über die Streuung“ der Stichprobenwerte. Der Umgang mit Be”
trägen ist jedoch in der Regel sehr mühsam.2 Weiter hat dieses Streuungsmaß in der Statistik
keine anwendbaren Eigenschaften. Der Mathematiker C.F. Gauß hat deshalb vorgeschlagen,
anstelle der Abstände |xi − x| deren Abstandsquadrate |xi − x|2 = (xi − x)2 zu benutzen.3
Zunächst wäre es naheliegend, die Summe dieser Abstandsquadrate durch n zu teilen. Aus
Anwendungsgründen wird diese Summe nicht durch n sondern durch n − 1 geteilt.
Der Ausdruck
2
s
”n
•
n
P
P 2
2
1
1
2
= n − 1 · (xi − x) = n − 1 ·
xi − n · (x)
i=1
i=1
=
Summe der Abstandsquadrate vom Mittelwert
Stichprobenumfang minus 1
heißt die Varianz der Stichprobe. Ihre positive Quadratwurzel s =
Standardabweichung oder Streuung der Stichprobe.
√
s2 nennt man die
Für die praktische Berechnung ist die zweite Beziehung geeigneter. Hier muss man nur die
Quadrate der Stichprobenwerte, davon das n- fache Quadrat des Mittelwerts subtrahieren und
den so erhaltenen Wert noch durch n−1 dividieren. Man teilt durch die Zahl der Freiheitsgrade
– bei n Stichprobenwerten gibt es für die Abweichungen vom Mittelwert (n−1) Möglichkeiten.
Für die Stichproben aus Abschnitt 2.5 sollen nun die beiden Streuungsmaße bestimmt werden.
Werte
98
99
Firma A: 100
101
102
Summen
Häufigkeiten Abstände Produkte Abstandsquadrate Produkte
1
4
8
4
3
2,2
1,2
0,2
0,8
1,8
2,2
4,8
1,6
3,2
5,4
20
4,84
1,44
0,04
0,64
3,24
17,2
4,84
5,76
0,32
2,56
9,72
23,20
23, 2
17, 2
Mittlerer Abstand d(x) = 20 = 0, 86 Varianz s2 = 19 ≈ 1, 221053
√
Standardabweichung s = 1, 221053 ≈ 1, 1050
2
So sind bei Betragsfunktionen sämtliche Hilfsmittel der Differentialrechnung nicht anwendbar.
Die Anpassung eines Ausgleichspolynoms an Messdaten erfolgt ebenfalls nach dem Prinzip der kleinsten
Fehlerquadrate.
3
12
2 BESCHREIBENDE STATISTIK
Werte
2.6 Transformation, Ränge
Häufigkeiten Abstände Produkte Abstandsquadrate Produkte
96
97
98
99
Firma B: 100
101
102
103
104
1
2
2
2
4
3
3
1
2
Summen
4,2
3,2
2,2
1,2
0,2
0,8
1,8
2,8
3,8
4,2
6,4
4,4
2,4
0,8
2,4
5,4
2,8
7,6
20
17,64
10,24
4,84
1,44
0,04
0,64
3,24
7,84
14,44
17,64
20,48
9,68
2,88
0,16
1,92
9,72
7,84
28,88
36,40
99,20
99, 2
36, 4
Mittlerer Abstand d(x) = 20 = 1, 82 Varianz s2 = 19 ≈ 5, 221053
√
Standardabweichung s = 5, 221053 ≈ 2, 2850
In beiden Fällen ist der mittlere Abstand kleiner als die Standardabweichung. Dieser Zusammenhang gilt allgemein.4
In jeder Stichprobe ist der mittlere Abstand nicht größer als die Standardabweichung. Es
gilt also allgemein
v
u
n
n
X
X
u
1
1
t
(xi − x)2 = s
d(x) = n ·
|xi −x| ≤
n−1 ·
i=1
i=1
Da die Standardabweichung am einfachsten zu handhaben ist und in der Statistik die größten
Anwendungsmöglichkeiten besitzt, benutzt man in der Statistik fast ausschließlich dieses Abweichungsmaß. Große Abweichungen fallen bei der Standardabweichung stärker ins Gewicht
als bei der Berechnung des mittleren Abstands.
2.6
Transformation, Ränge
Oft werden bei Datenmengen Bezugspunkt und Maßeinheit verändert.(z.B. bei Temperaturmessung Übergang von Fahrenheit zu Celsius)
Dies bedeutet, dass man die Daten einer linearen Transformation unterwirft:
x̃ = a + b · x
4
1 und 1 :
Grundidee, unabhängig von den Faktoren n
n−1
13
1 (|a| + |b|) ≤
2
1 €a2 + 2|a||b| + b2  ≤
4
0 ≤
0 ≤
q
1 (a2 + b2 )
2
1 €a2 + b2 
2
1 €a2 − 2|a||b| + b2 
4
(|a| − |b|)2
2 BESCHREIBENDE STATISTIK
2.6 Transformation, Ränge
Die Lage- und Streuparameter ändern sich bei linearen Transformationen wie folgt:
Lagex̃ = a + b · Lagex
Streuungx̃ = |b| · Streuungx
Varianzx̃ = b2 · Varianzx
Die Form der Verteilung ändert sich bei einer linearen Transformation nicht.
Bei Datenmengen mit großen Größenunterschiedenen ist oft eine logarithmische Transformation hilfreich.
x̃ = loga (x+c) ;
a : Basis,
c : Verschiebung (bei negativen x-Werten!!)
Wird die Basis 10 gewählt, so ergeben sich die Zehnerpotenzen als Maßeinheit.
Bei solchen nichtlinearen Transformationen verändert sich 1.a. die Form der Verteilung und
Lage- und Streuparameter.
Bei den beiden folgenden Histogrammen wurde die Datenmenge des ersten Bilds der Transformation
x̃ = ln x
Dabei ergab sich folgender Sachverhalt:
ln x̄ = ln 0.482 = − 0.730 6= −0.831
ln median = ln 0.477 = − 0.831
Der arithmetische Mittelwert verändert sich, während der Median invariant ist. Die Form des
Histogramms ändert sich; ebenso die Standardabweichung.
Mittelwert= 0.482 Median= 0.477 Standardabw.= 0.205
200
150
100
50
0
0
0.2
0.4
0.6
0.8
xi
14
1
2 BESCHREIBENDE STATISTIK
2.6 Transformation, Ränge
Mittelwert= −0.831 Median= −0.741 Standardabw.= 0.473
100
80
60
40
20
0
−2.5
−2
−1.5
−1
−0.5
0
ln(xi)
√
Andere monotone Abbildungen (z.B. x̃ = x)zeigen ähnliche Effekte bzgl. Streuungsverhalten, arithmetischem Mittelwert und Verteilungsstruktur der Datenmenge. Nur der Median
geht bei monotonen Transformationen in den neuen Median über.
Eine wichtige monotone Transformation eines Datensatzes ist die sogenannte Rang-Transformation. Hier spielt nur die Anordnung der Messwerte auf der reellen Zahlenachse eine Rolle.
Der Rang einer Zahl xi gibt an, die wie-vielt-kleinste Zahl sie in der vorgegebenen Datenmenge
ist. Bei Gleichheit werden die entsprechenden Rangzahlen gemittelt. Rang-Zahlen machen nur
im Zusammenhang mit der gesamten Datenmenge Sinn.
Beispiel :
i 1
2
3
4
5
6
7
8
9 10
xi 1.2 2.4 1.3 1.3 0.0 1.0 1.8 0.8 4.6 1.4
Rang < xi > 4
9 5.5 5.5 1
3
8
2 10 7
15
Herunterladen