Statistik

Statistik
1
Statistik, Prof. Dr. Karin Melzer
1.1. Was ist Statistik ? (I)
„Es geht um die Kunst des
vernünftigen Vermutens in Situationen,
wo der Zufall im Spiel ist oder
ins Spiel gebracht werden kann.“
Prof. Dr. Hermann Dinges (Uni Frankfurt/Main, 1998)
2
Statistik, Prof. Dr. Karin Melzer
1.1. Was ist Statistik ? (II)
Eine mögliche Antwort:
– „Statistik stellt das Instrumentarium zur Abschätzung von Art und Größe
von Messfehlern, Fehlern bei Schlussfolgerungen, usw. bereit.
– Sie ist überall dort einzusetzen wo der Zufall eine Rolle spielt oder wo
Situationen so komplex sind, dass sie sich einer deterministischen
Beschreibung entziehen.
– Die induktive (schließende) Statistik modelliert den Zufall, sie versucht
ihn „in den Griff zu bekommen“, oder „Sicherheit über Unsicherheit zu
gewinnen“.
(Hartung, 1987)
Daten fallen immer und überall an, werden heute auch immer öfter
massenhaft gespeichert (Datenbanken). Statistik transformiert diese
Daten in nützliche Information.
→ komprimieren, beschreiben, quantifizieren, vorhersagen!
3
Statistik, Prof. Dr. Karin Melzer
1.1. Was ist Statistik ? (III)
Grundgesamtheit
(z. B. Gesamtbevölkerung Deutschlands)
Ziehen einer Stichprobe
Rückschluss auf Grundgesamtheit
Stichprobe
(z. B. 1.000 zufällig ausgewählte Personen)
4
Statistik, Prof. Dr. Karin Melzer
1.2 Teilbereiche der Statistik
Statistik wird in drei Teilbereiche unterteilt:
Datenerhebung oder Datengewinnung
Darstellung der erhobenen Daten (beschreibende Statistik)
Analyse und Interpretation der Daten (schließende Statistik)
5
Statistik, Prof. Dr. Karin Melzer
1.3. Einteilung der Vorlesung
1.
Einführung
(Einteilung der Vorlesung, Grundbegriffe)
2.
Datenerhebung oder Datengewinnung
3.
Beschreibende Statistik
(graphische Darstellung der Daten, Berechnung von Parametern
zur Beschreibung der Daten)
4.
Wahrscheinlichkeitsrechnung und Kombinatorik
(Wahrscheinlichkeiten, Zufallsvariablen, Verteilungen, …)
5.
Schließende Statistik
(Hypothesentests, Vertrauensintervalle, …)
6.
Statistische Qualitätskontrolle (statistische Prozesskontrolle,
Annahmestichprobenprüfung)
6
Statistik, Prof. Dr. Karin Melzer
1.4. Grundbegriffe der Statistik (I)
1.
Grundgesamtheit: Objekte, an denen die interessierende Größe
beobachtet und erfasst wird, über die man eine Aussage gewinnen will
-
alle Mietwohnungen von Stuttgart,
alle Wahlberechtigten,
alle Würfe eines Würfels,
alle Teile, die eine Maschine produziert,
Eine Grundgesamtheit kann aus endlich vielen oder unendlich vielen
Elementen bestehen.
Eine Grundgesamtheit kann real oder hypothetisch sein.
2.
Stichprobe: Tatsächlich untersuchte Teilmenge der Grundgesamtheit.
Es gibt verschiedene Arten der Stichprobengewinnung (vgl. Kapitel 2).
3.
Umfang der Stichprobe: Anzahl der Elemente in der Stichprobe.
Der Umfang einer Stichprobe ist immer endlich.
7
Statistik, Prof. Dr. Karin Melzer
1.4. Grundbegriffe der Statistik (II)
4.
Merkmal: Interessierend Größe, die an den Elementen in der Stichprobe
beobachtet (gemessen, erhoben) wird.
z.B. Grundgesamtheit sind alle Mietwohnungen von Stuttgart
Merkmal 1: Nettomiete,
Merkmal 2: Baualter,
Merkmal 3: Größe in qm
Es können ein oder mehrere Merkmale an einem Element der
Grundgesamtheit erhoben werden.
5.
Merkmalsausprägung: Werte, die jedes Merkmal annehmen kann.
z.B. Test von Druckern in einer Computerzeitschrift.
Grundgesamtheit:
sämtliche zur Auswahl stehende Drucker
Stichprobe:
getestete Drucker
Merkmal 1:
Herstellername
Merkmalsausprägung:
HP, IBM, Lexmark, …
Merkmal 2:
Preis
Merkmalsausprägung:
0 - … EUR
Merkmal 3:
Gewicht
Merkmalsausprägung:
0 - … Kg
Merkmal 4:
Gesamturteil
Merkmalsausprägung:
sehr gut, gut, mittel, schlecht, sehr schlecht
8
Statistik, Prof. Dr. Karin Melzer
2. Datengewinnung
2.1. Arten von Erhebungen
a)
b)
Vollerhebung ⇒ Untersuchung der Grundgesamtheit
Teilerhebung ⇒ Untersuchung einer Stichprobe
Aufgabe 1:
Wann ist eine Teilerhebung sinnvoller als eine Vollerhebung ?
9
Statistik, Prof. Dr. Karin Melzer
2.2. Arten von Teilerhebungen (I)
1.
(reine) Zufallsstichprobe (random sample):
Jedes Objekt der Grundgesamtheit hat die gleiche Wahrscheinlichkeit in die Stichprobe zu
gelangen.
2.
Systematische Auswahl:
Die Auswahl wird nach einem objektiven Kriterium vorgenommen, z. B. jeder 100. produzierte
Artikel
3.
Schichtenstichprobe (stratified sampling):
Die Grundgesamtheit wird auf Basis einer oder mehrerer Merkmale in Schichten eingeteilt.
4.
Klumpenstichprobe (cluster sampling):
Aus der Grundgesamtheit werden Gruppen (Klumpen) von statistischen Einheiten (meist
Personen) zufällig ausgewählt. Innerhalb dieser Klumpen wird dann eine Vollerhebung
durchgeführt.
5.
Repräsentative Stichprobe (Quotenstichprobe):
Die Stichprobe soll die Werte gewisser Merkmale mit den gleichen Quoten, wie in der
Grundgesamtheit enthalten.
10
Statistik, Prof. Dr. Karin Melzer
2.2. Arten von Teilerhebungen (II)
Aufgabe 2:
Welches Verfahren soll angewendet werden, um eine Teilerhebung
durchzuführen?
a)
Ein Computerhersteller erhält eine Lieferung von 25.000 elektrischen
Speicherchips, von denen 500 herausgegriffen werden und auf Funktionsfähigkeit
untersucht werden sollen.
b)
Der aktuelle Wert eines Lagers soll durch eine Stichprobeninventur überprüft
werden. Das Lager enthält sehr viele Kleinteile von geringem Wert, eine mittlere
Anzahl von Teilen mit mittlerem Wert und relativ wenige Teile von sehr großem
Wert.
c)
Mit der PISA-Studie wollen sich die teilnehmenden Staaten ein Bild davon
machen, wie gut es ihren Schulen gelingt, Schüler auf die Herausforderungen der
Zukunft vorzubereiten. Zuerst sollen deshalb innerhalb eines Bundeslandes (z.B.
Baden-Württemberg, …) für jede Schulform (z.B. Hauptschule, Realschule,
Gymnasium, …) Tests durchgeführt werden.
11
Statistik, Prof. Dr. Karin Melzer
2.2. Arten von Teilerhebungen (III)
Aufgabe 2:
Welches Verfahren soll angewendet werden, um eine Teilerhebung
durchzuführen?
d)
Die Nürnberger Gesellschaft für Konsumforschung ermittelt die FernsehEinschaltquoten. Sie führt dazu Teilerhebungen mit 20.000 Menschen in ganz
Deutschland durch.
12
Statistik, Prof. Dr. Karin Melzer
2.3. Behandlung von Datenausreißern und
fehlenden Daten
Ein Datenausreißer ist ein Extremwert innerhalb einer Stichprobe, der so
extrem ist, dass die Person, die die Stichprobe zusammengetragen hat,
glaubt, dass er nicht stimmen kann.
Aufgabe 4:
Gegeben ist eine Messreihe, bei der 10 Messungen durchgeführt
wurden. Auf dem Erfassungsbogen stehen folgende Werte.
14,8
15,2
a)
b)
c)
15,2
14,9
15,1
15,0
14,9
18,4
unleserlich
15,1
Welcher Messwert ist ein Ausreißer?
Wie soll mit Ausreißern umgegangen werden?
Wie soll mit dem fehlenden Messwert umgegangen werden?
13
Statistik, Prof. Dr. Karin Melzer
3. Beschreibende Statistik
3.1 Merkmaltypen (I)
1.
Qualitative Merkmale
-
Beschreiben Eigenschaften, die sich nicht durch Messen oder Zählen
ermitteln lassen
Werte können auch durch Zahlen codiert werden, z. B. 3 = „gelb“, 6 =
„grün“ (mit diesen Zahlen kann man aber nicht rechnen).
a) Qualitativ-ordinale Merkmale (Rangmerkmale)
z. B.: Besoldungsgruppen bei Beamten, Interesse an einer Veranstaltung mit Ausprägung
„sehr groß“, „groß“, „mittel“, „gering“,…
- Merkmalsausprägung lässt sich in eine (natürliche) Rangfolge bringen
b) Qualitativ-nominale Merkmale (klassifikatorische Merkmale)
z. B.: Religionszugehörigkeit, Farbe, gewählte Partei,…
- Merkmalsausprägung lässt sich nicht in eine Rangfolge bringen
14
Statistik, Prof. Dr. Karin Melzer
3. Beschreibende Statistik
3.1 Merkmaltypen (II)
2.
Quantitative Merkmale (metrische Merkmale, kardinale Merkmale)
-
Die Merkmalsausprägungen sind Zahlen aus Messungen oder Zählungen
Differenz zwischen zwei Ausprägungen hat einen Sinn, z. B. eine
Schraube ist um 2 mm länger als eine andere
a) Quantitativ-stetige Merkmale
z.B.: Gewicht, Länge, Temperatur, Preis in EUR (!)
- können jeden Wert in einem vorgegebenen Intervall annehmen
- kommen meist durch Messung zustande
b) Quantitativ-diskrete Merkmale
z.B.: Anzahl der Ausschussstücke einer Lieferung/Stichprobe, Tore pro Spiel
- Werte sind einzelne Punkte auf dem Zahlenstrahl z. B. 1,2,3,…
- treten vorzugsweise bei Zählungen auf
15
Statistik, Prof. Dr. Karin Melzer
3.2. Graphische Darstellung (Übersicht)
„Ein Bild sagt mehr als tausend Worte“
(Einige) Möglichkeiten der Darstellung:
wir unterscheiden qualitative Merkmale bzw. bei quantitativen
Merkmalen diskrete und stetige Merkmale.
Merkmal
qualitativ oder
diskret
Häufigkeitstabelle
(ohne Klasseneinteilung)
Säulendiagramm
stetig*
Kreisdiagramm
Häufigkeitstabelle
(mit Klasseneinteilung)
Histogramm
* oder diskrete Merkmale mit vielen Ausprägungen
16
Statistik, Prof. Dr. Karin Melzer
3.2. Graphische Darstellung (I)
1.
Qualitative Merkmale
a) Häufigkeitstabelle ohne Klasseneinteilung
Beispiel: Wahlergebnisse
Partei (Merkmal)
(↓ Merkmalsausprägung)
Anzahl der Stimmen
(absolute Häufigkeit)
Stimmenanteil in %
(relative Häufigkeit)
CDU
( = a1)
1.009.749
( = h1)
36,8
( = f1)
SPD
( = a2)
1.006.154
( = h2)
36,7
( = f2)
FDP
( = a3)
258.554
( = h3)
9,4
( = f3)
Grüne
( = a4)
206.606
( = h4)
7,5
( = f4)
Linke
( = a5)
140.488
( = h5)
5,1
( = f5)
Sonstige
( = a6)
121.158
( = h6)
4,5
( = f6)
2.742.709
( = n)
100
Summe
a) Säulendiagramm
b) Kreisdiagramm
17
Statistik, Prof. Dr. Karin Melzer
3.2. Graphische Darstellung (II)
1.
Qualitative Merkmale
a) Häufigkeitstabelle ohne Klasseneinteilung
b) Säulendiagramm
Beispiel: Wahlergebnisse
Stimmverteilung
1.200.000
1.009.749
1.006.154
1.000.000
800.000
600.000
400.000
258.554
206.606
140.488
200.000
121.158
0
CDU
SPD
FDP
Grüne
Linke
Sonstige
a) Kreisdiagramm
18
Statistik, Prof. Dr. Karin Melzer
3.2. Graphische Darstellung (III)
1.
Qualitative Merkmale
a) Häufigkeitstabelle ohne Klasseneinteilung
b) Säulendiagramm
c) Kreisdiagramm (für prozentuale Aufteilung)
19
Statistik, Prof. Dr. Karin Melzer
3.2. Graphische Darstellung (IV)
2.
Quantitative Merkmale
(1) diskrete Merkmale
werden wie qualitative Merkmale behandelt, d. h.
- Häufigkeitstabelle (ohne Klassenbildung)
- Säulendiagramm
- Kreisdiagramm
Beispiele:
Tore, gelbe/rote Karten in einer Saison der Bundesliga
⇒ Vorsicht!
nicht sinnvoll, wenn diskretes Merkmal zu viele
Ausprägungen hat (z.B. Preis, Gewicht, Alter,…).
Dann werden diskrete Merkmale wie stetige Merkmale behandelt.
20
Statistik, Prof. Dr. Karin Melzer
3.2. Graphische Darstellung (V)
2.
Quantitative Merkmale
(2) stetige Merkmale oder diskrete Merkmale mit vielen Ausprägungen
Beispiele: Radarkontrolle bei Fahrzeugen, Einkommen von Personen
a) Häufigkeitstabelle mit Klasseneinteilung
•
gegeben: n Messwerte
•
Einteilung des Messbereichs in etwa n Klassen, max. 20 Klassen
(Faustregel) wobei n = Anzahl der Messwerte
•
Zählen: Häufigkeit in jeder Klasse (Strichliste)
Beispiel:
Einkommensverteilung
n = 100
~ 10 Klassen
Einkommen
Anzahl
Einkommen
Anzahl
0-750
2
3750-4500
12
750-1500
9
4500-5250
3
1500-2250
18
5250-6000
2
2250-3000
43
6000-6750
0
3000-3750
10
6750-7500
1
Summe
100
21
Statistik, Prof. Dr. Karin Melzer
3.2. Graphische Darstellung (VI)
2.
Quantitative Merkmale
(2) stetige Merkmale oder diskrete Merkmale mit vielen Ausprägungen
a) Häufigkeitstabelle mit Klasseneinteilung (Forts.)
Regeln zur Erstellung einer Häufigkeitstabelle mit Klasseneinteilung:
• Anzahl der Klassen (Faustregel):
k ≈ n, wenn n ≤ 400
k ≈ 20, wenn n > 400.
• Spannweite/Klassenzahl ≈ Klassenbreite
• Klassenbreite: aufrunden
(als Klassenbreite wählt man eine „glatte“ Zahl 0,6 statt 0,5284)
• Klassen müssen alle vorkommenden Stichprobenwerte überdecken
• Alle Klassen werden (i. d. R.) gleich breit gewählt
• Klassen so wählen, dass keine Messwerte auf den Klassengrenzen
liegen
22
Statistik, Prof. Dr. Karin Melzer
3.2. Graphische Darstellung (VII)
2.
Quantitative Merkmale
(2) stetige Merkmale oder diskrete Merkmale mit vielen Ausprägungen
b) Histogramm
Aus der Häufigkeitstabelle mit Klasseneinteilung macht man ein
Säulendiagramm.
Histogramm = Säulendiagramm, bei dem die Säulen über den
entsprechenden Intervallen der Klassen gezeichnet werden,
und die daher an den Klassengrenzen aneinanderstoßen.
Beispiel:
50
Einkommens- 45
40
verteilung
35
30
25
20
15
10
5
0
0-750
7501500
15002250
22503000
30003750
37504500
45005250
52506000
60006750
67507500
Einkommen (EUR)
23
Statistik, Prof. Dr. Karin Melzer
3.2. Graphische Darstellung (VIII)
2.
Quantitative Merkmale
(2) stetige Merkmale oder diskrete Merkmale mit vielen Ausprägungen
b) Histogramm (Forts.)
→ Erster visueller Eindruck von der Verteilung eines Merkmals
Informationen:
• In welchem Bereich (z. B. relativ zu den Toleranzgrenzen) liegen
die „meisten Messungen“?
• Wie weit streuen die Daten?
• Ist die Verteilung symmetrisch oder schief?
• Gibt es außergewöhnliche „Spitzen“ oder „Ausreißer“?
24
Statistik, Prof. Dr. Karin Melzer
3.3. Statistische Kennzahlen für
quantitative Merkmale (Übersicht)
•
•
Eine wesentliche Technik zur Charakterisierung von Datensätzen ist die Reduktion
auf wenige Kenngrößen.
Diese sollen die Eigenart der Daten widerspiegeln. Dazu dienen Maßzahlen
•
der Lage (Wo?)
der Streuung (Wie breit?)
Übersicht über die betrachteten Kennzahlen:
3.3.1. Lagemaße
3.3.2. Streumaße
• empirische Varianz,
empirische
Standardabweichung
• Spannweite
• Mittlerer Abstand
• arithmetisches Mittel,
Mittelwert
• Median
•
•
•
Wenn zwei Merkmale betrachtet wird, spricht man von „zweidimensionalen
Stichproben“ Abschnitt 3.3.3
Darstellung: Streudiagramm
Betrachtete Kennzahlen: empirische Kovarianz, emp. Korrelationskoeffizient
25
Statistik, Prof. Dr. Karin Melzer
3.3. Statistische Kennzahlen für
quantitative Merkmale
Im Folgenden werden wir drei Typen von vorliegenden Daten unterscheiden:
• Messreihe (Rohdaten): Beobachtete Werte in der Reihenfolge ihrer Ermittlung
Beispiel: Größe der Schüler einer Schulklasse in cm
x1 = 172; x2 = 153; x3 = 177; x4 = 156; x5 = 171;
x6 = 183; x7 = 164; x8 = 158; x9 = 163; x10 = 172
diskrete oder stetige Merkmale
•
Häufigkeitstabelle ohne Klasseneinteilung
d. h. zu jedem Messwert wird angegeben,
wie oft er beobachtet wird (Häufigkeiten)
Beispiel: Notenspiegel
diskrete Merkmale
•
Häufigkeitstabelle mit Klasseneinteilung
(Merkmalsausprägungen werden in
Klassen zusammengefasst)
Beispiel: Körpergrößen in 10er-Schritten
stetige Merkmale oder diskrete mit
vielen Ausprägungen
Note
Anzahl
1,0
1,3
1,7
…
1
3
8
…
Größe (Klassen) Anzahl
[150;160)
[160;170)
[170;180)
[180;190)
3
2
4
1
26
Statistik, Prof. Dr. Karin Melzer
3.3. Statistische Kennzahlen für
quantitative Merkmale
3.3.1 Lagemaße (arithmetisches Mittel, Mittelwert, Durchschnitt)
a)
Arithmetisches Mittel (Mittelwert oder Durchschnitt) x aus einer
Messreihe x1, x2, x3, … ,xn mit n = Anzahl der Messwerte:
x1 + x2 + ... + xn 1 n
x=
= ∑ xi
n
n i =1
b)
Arithmetisches Mittel x aus einer Häufigkeitstabelle (für quantitative
Merkmale) ohne Klasseneinteilung mit k unterschiedlichen
Ausprägungen a1, a2, a3, … ak, mit den absoluten (bzw. relativen)
Häufigkeiten h1, h2, h3, … hk, (bzw. f1, f2, f3, … fk) berechnet sich, wenn n
= Anzahl der Messwerte, als
k
k
hj
a1h1 + a2 h2 + ... + ak hk
= ∑aj
= ∑aj f j
x=
n
n
j =1
j =1
27
Statistik, Prof. Dr. Karin Melzer
3.3.1 Lagemaße (arithmetisches Mittel, Durchschnitt)
c)
Arithmetisches Mittel x
gegeben: Häufigkeitstabelle (für quantitative Merkmale) mit
Klasseneinteilung mit k Klassen und den Klassenmitten m1, m2, m3, …
mk, mit den absoluten (bzw. relativen) Häufigkeiten h1, h2, h3, … hk,
(bzw. f1, f2, f3, … fk)
Klassen
abs. Häufigkeit
rel. Häufigkeit
[u1;o1) mit m1 = ½ (u1+o1)
[u2;o2) mit m2 = ½ (u2+o2)
[u3;o3) …
…
h1
h2
h3
…
f1 = h1/n
f2 = h2/n
f3 = h3/n
…
x berechnet sich, wenn n = Anzahl der Gesamtmesswerte, als
k
k
hj
m1h1 + m2 h2 + ... + mk hk
= ∑mj
= ∑mj f j
x≈
n
n j =1
j =1
28
Statistik, Prof. Dr. Karin Melzer
3.3.1 Lagemaße (Median, Zentralwert, 50%-Wert)
Median: gleich viele Daten auf beiden Seiten (50%/50%-Punkt)
a)
x einer Messreihe: ordne Werte der Größe nach
Median ~
x1 ≤ x2 ≤ … ≤ xn, (n = Stichprobenumfang). Der Median ist
-
für n ungerade, der Wert in der Mitte der geordneten Stichprobe
für n gerade, als das arithmetische Mittel der beiden mittleren Werte.
~
Bsp: 9 Werte der Größe nach geordnet: x = x5
~ 1
10 Werte der Größe nach geordnet: x = 2 ⋅ ( x5 + x6 )
6. Wert)
(5. Wert)
(Mittel aus 5. Wert &
29
Statistik, Prof. Dr. Karin Melzer
3.3.1 Lagemaße (Median, Zentralwert, 50%-Wert)
b)
~
Den Median x aus einer Häufigkeitstabelle ohne Klasseneinteilung
erhält man durch folgendes Vorgehen:
-
Aufsummieren der absoluten Häufigkeiten hi liefert die kumulierte
absolute Häufigkeit Hi.
Berechnen von Hi bis der Wert n/2 exakt erreicht oder überschritten
wird.
~
• Bei Überschreitung ⇒ x = entsprechende Merkmalsausprägung
~
• Bei exakter Erreichung ⇒ x = arithmetisches Mittel aus erreichter
Merkmalsausprägung und nächst folgender
Merkmal
abs. Häufigkeit
kum. abs. Häufigkeit
a1
a2
…
ai-1
ai
…
h1
h2
…
hi-1
hi
…
H1 = h1
H2 = H1 + h2
…
Hi-1 = Hi-2 + hi-1 < n/2
Hi = Hi-1 + hi
≥ n/2
…
falls Hi > n/2:
~
x = ai
falls H = n/2:
i
~
x = ½ (ai+ai+1)
30
Statistik, Prof. Dr. Karin Melzer
3.3.1 Lagemaße (Median, Zentralwert, 50%-Wert)
c)
x aus einer Häufigkeitstabelle mit Klasseneinteilung:
Den Median ~
-
-
Aufsummieren der absoluten Häufigkeiten hi liefert die kumulierte
absolute Häufigkeit Hi.
bestimme i bei dem Hi den Wert n/2 exakt erreicht oder überschreitet
Klassen
abs. Häufigkeit
kum. abs. Häufigkeit
[u1;o1)
[u2;o2)
…
[ui-1;oi-1)
[ui;oi)
…
h1
h2
…
hi-1
hi
…
H1 = h1
H2 = H1 + h2
…
Hi-1 = Hi-2 + hi-1
Hi = Hi-1 + hi
…
< n/2
≥ n/2
Median liegt dann irgendwo in dieser Klasse. Innerhalb der Klasse wird
auf folgende Weise interpoliert:
~
x = untere Klassengrenze der i - ten Klasse +
− H i −1
⋅
H i − H i −1
n
2
(obere Klassengrenze der i - ten Klasse
− untere Klassengrenze der i - ten Klasse) = ui +
− H i −1
(oi − ui )
H i − H i −1
n
2
31
Statistik, Prof. Dr. Karin Melzer
3.3.1 Lagemaße (Median, Zentralwert, 50%-Wert)
Aufgabe 12
Berechnen Sie Median und arithmetisches Mittel der Stichproben
a)
2.000 1.000 2.500 1.500 20.000
b)
3.000 2.000 4.000 1.000 12.000 20.000
32
Statistik, Prof. Dr. Karin Melzer
3.3.1 Lagemaße (Median, Zentralwert, 50%-Wert)
Aufgabe13
Berechnen Sie den Median der Daten in der klassierten
Häufigkeitstabelle
Klasse
Absolute
Klassenhäufigkeit
(0;20]
8
(20;40]
10
(40;60]
11
(60;80]
8
(80;100]
13
33
Statistik, Prof. Dr. Karin Melzer
3.3.1 Lagemaße:
Vergleich Median/arithm. Mittelwert
Arithmetisches Mittel:
-
kann nur für quantitative Merkmale berechnet werden,
beeinflusst von Ausreißern: wird von extremen Daten (sehr großen
oder sehr kleinen) stark beeinflusst.
Median:
-
kann für quantitative oder auch qualitativ-ordinale Merkmale
verwendet werden (wichtig: es muss eine Reihenfolge geben)
unempfindlich gegenüber Ausreißern/extremen Daten.
Beispiel: zwei Ranglisten
1,2,5,6,9
Median
5
arithm. Mittel
4,6
1,2,5,6,60
5
14,8
34
Statistik, Prof. Dr. Karin Melzer
3.3.2 Streumaße
•
•
Mittelwerte geben an, um welchen „mittleren“ Wert sich die
Stichprobenwerte gruppieren, geben aber keine Auskunft über
die Schwankung um den Mittelwert
Beispiel: Gegeben 2 Stichproben
Mittelwert
a) 1 2 4 5
xa = 3
b) 2,7 3,0 3,1 3,2
xb = 3
•
Aber: Die Werte von b) liegen dichter beim Mittelwert als die
Werte von a)
•
Maßzahlen für die Schwankung: „Streuungsparameter“ oder
„Streumaße“
35
Statistik, Prof. Dr. Karin Melzer
3.3.2 Streumaße
a)
Einfachstes Streumaß: Spannweite R (range)
R = xmax – xmin, wobei
xmax = größter Stichprobenwert/Messwert
xmin = kleinster Stichprobenwert/Messwert
Bsp.: Berechnen Sie R für die Stichproben
a) 1 2 4 5
b) 2,7 3,0 3,1 3,2
Spielt in der Praxis kaum eine Rolle, höchstens für die Bestimmung des Maßstabs
und der Bereichsauswahl für graphische Darstellungen.
b)
Mittlerer Abstand oder mittlere absolute Abweichung
Für eine Stichprobe x1, x2, x3, … xn , n = Anzahl der Messwerte, wird der mittlere
Abstand definiert als das arithmetische Mittel der Abstände xi − x
1 n
d = ∑ xi − x
n i =1
Bemerkungen:
Der mittlere Abstand wird kaum verwendet, weil
- Betragsfunktion nicht differenzierbar (unhandliche Formeln)
- schlechte Schätzeigenschaften (vgl. schließende Statistik)
36
Statistik, Prof. Dr. Karin Melzer
3.3.2 Streumaße
c)
Empirische Varianz und empirische Standardabweichung
Für eine Stichprobe x1, x2, x3, … xn , n = Anzahl der Messwerte, ist die
Varianz (empirische Varianz, Stichprobenvarianz)
1 n
(xi − x )2
s =
∑
n − 1 i =1
2
ein Maß für die Streuung um den Mittelwert
x.
Man schreibt s2, weil als Streuungsmaß auch die empirische
Standardabweichung
1 n
(xi − x )2
s= s =
∑
n − 1 i =1
2
verwendet wird.
37
Statistik, Prof. Dr. Karin Melzer
3.3.2 Streumaße
zu c) empirische Varianz und Standardabweichung (andere Berechnungsmethoden)
(i) Durch Termumformungen lässt sich die empirische Varianz auch umschreiben als
1  n
1  n 2

2
s =
 ∑ ( xi − x )  =
 ∑ xi − n ⋅ x 2 
n − 1  i =1
 n − 1  i =1

2
Taschenrechnerformel (lässt sich schneller berechnen).
(ii) Berechnung der empirischen Varianz aus Häufigkeitstabelle ohne Klassen
Für eine Stichprobe vom Umfang n mit k unterschiedlichen Ausprägungen a1, a2, a3, … ak
mit den absoluten Häufigkeiten h1, h2, h3, … hk berechnet sich die empirische Varianz als
1  k
1  k

2
(
)
s =
 ∑ hi ai − x  =
 ∑ hi ai2 − n ⋅ x 2 
n − 1  i =1
 n − 1  i =1

2
(iii) Berechnung der empirischen Varianz aus Häufigkeitstabelle mit Klassen
Für eine Stichprobe vom Umfang n mit k unterschiedlichen Klassen mit den
Klassenmitten m1, m2, m3, … mk mit den absoluten Häufigkeiten h1, h2, h3, … hk
berechnet sich die empirische Varianz als
1  k
1  k

2
s ≈
 ∑ hi mi2 − n ⋅ x 2 
 ∑ hi (mi − x )  =
n − 1  i =1

 n − 1  i =1
2
38
Statistik, Prof. Dr. Karin Melzer
3.3.2 Streumaße
zu c) empirische Varianz und Standardabweichung
Bemerkungen
-
Standardabweichung hat dieselbe Einheit, wie die einzelnen
Stichprobenwerte (z. B. Gramm anstatt Gramm2).
-
Durch die Division mit dem Faktor (n-1) (anstatt n !) wird erreicht,
dass die empirische Standardabweichung bessere Schätzeigenschaften (siehe Kapitel 5 „Schließende Statistik“) hat.
-
Das arithmetische Mittel
x minimiert die Funktion
1 n
(xi − a )2
a a s (a) =
∑
n − 1 i =1
und ist in diesem Sinne ein optimaler Repräsentant der
Stichprobenwerte.
39
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
In diesem Abschnitt werden zwei Merkmale einer Stichprobe betrachtet
z.B. kann man bei Menschen den Zusammenhang zwischen Körpergröße
und Schuhgröße untersuchen.
a)
Graphische Darstellung erfolgt mittels Streudiagramm oder Punktewolke
oder Scatter Plot: jedes Paar von Ausprägungen (xi, yi) wird als Punkt im
x-y-Koordinatensystem repräsentiert.
Bsp:
PS vs.
Verbrauch
Daten:
Auto
Nr.
Verbrauch
130
7,2
2
85
13,5
3
…
PS
1
120
…
10
…
40
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
Maßzahlen für den Zusammenhang zwischen zwei Größen:
b)
Empirische Kovarianz und empirischer Korrelationskoeffizient
Für die Wertepaare (x1,y1), (x2,y2), …, (xn,yn) mit den arithmetischen Mittelwerten x und y ist die empirische Kovarianz definiert durch
1 n
s xy =
∑ (xi − x )( yi − y )
n − 1 i =1
Kovarianz ist stark von den Maßeinheiten abhängig. Bei Normierung erhält
man den empirischen Korrelationskoeffizient durch
n
rxy =
sxy
sx s y
=
∑ (x − x )( y
i =1
i
i
n
n
i =1
i =1
− y)
∑ (xi − x )2 ∑ ( yi − y )2
41
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
b)
-
Kovarianz und Korrelation:
Alternative Berechnung: Durch Ausmultiplizieren der Klammern erhält man
für die empirische Kovarianz die Formel
1  n

s xy =
 ∑ xi yi − nx y 
n − 1  i =1

-
(Taschenrechnerformel)
Die empirische Korrelation kann man auch darstellen als
1 n ( xi − x ) ( yi − y )
rxy =
⋅
=
∑
sx s y n − 1 i =1 sx
sy
sxy
42
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
b)
Empirische Kovarianz und empirischer Korrelationskoeffizient
Aufgabe: Berechnen Sie sxy und rxy.
Daten:
Werbeausgaben, x
Verkaufserlös, y
(in 100 €)
(in 1.000 €)
3
4
3
2
4
6
5
8
Streudiagramm/Scatter-Plot:
9
8
Erlös (Y)
7
6
5
4
3
2
1
1
0
0
1
2
3
4
5
6
Werbeausgaben (X)
3
Ergebnis: sxy = 2,85; rxy= 0,7978 (sx2 = 2,2; sy2 = 5,8)
43
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
Bemerkungen Korrelationskoeffizient:
1.
−1 ≤ rxy ≤ 1
2.
rxy = 1
⇔
yi = a + bxi
mit
a>0
(d. h. alle Punkte (xi, yi) liegen auf einer Geraden mit positiver Steigung)
3.
rxy = -1
⇔
yi = a + bxi
mit
a<0
(d. h. alle Punkte (xi, yi) liegen auf einer Geraden mit negativer Steigung)
4.
rxy = 0 bedeutet, dass kein linearer Zusammenhang zwischen xi und
yi besteht
rxy ist ein Maß für den linearen Zusammenhang
(vgl. nachfolgende Graphiken).
44
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
Streudiagramme und Korrelationen
6
8
7
5
6
4
5
3
4
rxy=-0,7
3
rxy=0,9
2
1
2
0
1
0
1
2
3
4
5
6
0
0
1
2
3
4
5
6
7
8
7
6
6
5
5
rxy=-0,1
4
rxy=0,1
3
4
3
2
2
1
1
0
0
1
2
3
4
5
6
0
0
1
2
3
4
5
6
45
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
c)
Lineare Regression und Prognose
Typische Fragestellung: Beispiel (Forts.)
?
Werbeausgaben, x
Verkaufserlös, y
(in 100 €)
(in 1.000 €)
3
4
3
2
4
6
5
8
9
8
Erlös (Y)
7
6
5
4
3
2
1
•
•
1
0
0
1
2
3
4
5
6
Werbeausgaben (X)
3
Wie hoch wird der Umsatz erwartet, wenn die Werbeausgaben
auf 350 € festgelegt werden? Modell gesucht
Oft: zeitliche Daten (Zeitreihe) mit der Frage, was zum nächsten
Mess-/Zeitpunkt geschieht.
46
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
c)
Lineare Regression und Prognose
Stochastische Beziehung zwischen x und y
-
Beziehung zwischen zwei Variablen:
y = f(x)
Ann.: f(x) ist lineare Funktion in x
Deterministische Beziehung
y = α x+ β
Stochastische Beziehung
y = α x+ β + ε
n Beobachtungen x und y:
yi = α xi + β + εi
i = 1, ... ,n
-
y
yi
εi
αx+β
αx i + β
Bezeichnungen:
xi
x: unabhängige Variable, erklärende Variable
y: abhängige Variable, interessierende Variable
ε: Fehler (Zufallsvariable)
α, β: (unbekannte) Regressionskoeffizienten
Schätzung, so dass die Summe der Fehlerquadrate minimal wird!
x
47
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
c)
Lineare Regression und Prognose
-
Schätzer für die Regressionskoeffizienten:
αˆ =
-
s xy
s
2
x
∑
=
∑
n
i =1
n
xi yi − nx y
i =1
x − nx
2
i
2
βˆ = y − αˆx
und
y = αˆx + βˆ
= αˆx + ( y − αˆx )
Regressionsgerade:
= αˆ ( x − x ) + y wobei αˆ =
-
s xy
s x2
Die Regressionsgerade mit den Koeffizienten wie oben hat
eine kleinere Summe der Fehlerquadrate (RSS: residual sum
of squares) als jede andere Gerade.
n
n
RSS = ∑ ε = ∑ (αxi + β − yi ) → min .
i =1
2
i
2
i =1
48
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
c)
Lineare Regression und Prognose
Beispiel (Forts.)
Werbeausgaben, x
Verkaufserlös, y
(in 100 €)
(in 1.000 €)
3
4
3
2
4
6
5
8
9
8
Erlös (Y)
7
6
5
4
3
2
1
•
1
0
0
1
2
3
4
5
6
Werbeausgaben (X)
3
Berechnen Sie die Koeffizienten der Regressionsgeraden und
geben Sie die Regressionsgerade an.
49
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
Lineare Regression und Prognose
Fortsetzung des Beispiels
Σ
x
y
x2
y2
xy
9
3
4
9
16
12
7
3
2
9
4
6
4
6
16
36
24
5
8
25
64
40
1
3
1
9
3
16
23
60
x = 3,2; y = 4,6
sx2 = 2,2; sxy = 2,85
129
8
Erlös (Y)
c)
6
5
4
3
2
1
0
0
s xy
s
2
x
2
3
4
5
6
7
Werbeausgaben (X)
85
m=
1
=
2 ,85
= 1,2955
2 ,2
b = y − m x = 4 ,6 − 1,2955 ⋅ 3,2 = 0,4545
Also :
y = 1,2955 x + 0,4545
50
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
Lineare Regression und Prognose
Fortsetzung des Beispiels
Vorhersage des
Verkaufserlöses für
gegebene
Werbeausgaben:
9
8
7
Werbeausgaben: 350 €
⇒ x = 3,5
Erlös (Y)
c)
6
5
4
3
2
1
y = 1,2955 · 3,5 + 0,4545
= 4,9886
0
0
1
2
3
4
5
6
7
Werbeausgaben (X)
Erwarteter Umsatz: 4.987 €
51
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
c)
Lineare Regression und Prognose: Zusammenfassung
Bestimmung der Regressionsgeraden über die „Methode der
kleinsten Quadrate“ (nach C. F. Gauß) d. h:
Gesucht wird diejenige Gerade (Regressionsgerade)
y = mx + b
so dass die Summe der quadrierten Abstände ε i = ( yi − f ( xi ) )2 über
alle Wertepaare (x1,y1), (x2,y2), …, (xn,yn) minimal wird.
Ergebnis: y = mx + b mit
m=
m=
Die Steigung
sxy
sx2
und
b = y − mx
s xy
s x2 heißt empirischer Regressionskoeffizient.
52
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
Carl Friedrich Gauß (1777-1855)
hat erstmalig die „Methode der
kleinsten Quadrate“ angewandt zur
Ermittlung der Umlaufbahn des
Asteroiden Ceres um die Sonne
53
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
Bestimmtheitsmaß R2 (nicht verwechseln mit Spannweite!!)
d)
Das Bestimmtheitsmaß R2 beschreibt den Anteil der Varianz der
y-Werte, der durch die Regression erklärt werden kann.
R2 ist für lineare und nichtlineare Regressionsfunktionen definiert.
Im Falle einer linearen Regression gilt:
( rxy2 : Quadrat des Korrelationskoeff.)
R 2 = rxy2
Außerdem gilt: 0 ≤ R2 ≤ 1
-
Falls R2 ≈ 1 verläuft die Regressionsgerade (oder -kurve) gut
durch die Punktewolke.
Falls R2 ≈ 0 gibt die Regressionsgerade (oder -kurve) die
Punktewolke nicht gut wieder.
Im Beispiel: rxy = 0,7978 ⇒ R2 = rxy2 = 0,64
54
Statistik, Prof. Dr. Karin Melzer