Statistik

Statistik
1
Statistik, Prof. Dr. Karin Melzer
1.1. Was ist Statistik ? (I)
„Es geht um die Kunst des
vernünftigen Vermutens in Situationen,
wo der Zufall im Spiel ist oder
ins Spiel gebracht werden kann.“
Prof. Dr. Hermann Dinges (Uni Frankfurt/Main, 1998)
2
Statistik, Prof. Dr. Karin Melzer
1.1. Was ist Statistik ? (II)
Eine mögliche Antwort:
– „Statistik stellt das Instrumentarium zur Abschätzung von Art und Größe
von Messfehlern, Fehlern bei Schlussfolgerungen, usw. bereit.
– Sie ist überall dort einzusetzen wo der Zufall eine Rolle spielt oder wo
Situationen so komplex sind, dass sie sich einer deterministischen
Beschreibung entziehen.
– Die induktive (schließende) Statistik modelliert den Zufall, sie versucht
ihn „in den Griff zu bekommen“, oder „Sicherheit über Unsicherheit zu
gewinnen“.
(Hartung, 1987)
Daten fallen immer und überall an, werden heute auch immer öfter
massenhaft gespeichert (Datenbanken). Statistik transformiert diese
Daten in nützliche Information.
→ komprimieren, beschreiben, quantifizieren, vorhersagen!
3
Statistik, Prof. Dr. Karin Melzer
1.1. Was ist Statistik ? (III)
Grundgesamtheit
(z. B. Gesamtbevölkerung Deutschlands)
Ziehen einer Stichprobe
Rückschluss auf Grundgesamtheit
Stichprobe
(z. B. 1.000 zufällig ausgewählte Personen)
4
Statistik, Prof. Dr. Karin Melzer
1.2 Teilbereiche der Statistik
Statistik wird in drei Teilbereiche unterteilt:
Datenerhebung oder Datengewinnung
Darstellung der erhobenen Daten (beschreibende Statistik)
Analyse und Interpretation der Daten (schließende Statistik)
5
Statistik, Prof. Dr. Karin Melzer
1.3. Einteilung der Vorlesung
1.
Einführung
(Einteilung der Vorlesung, Grundbegriffe)
2.
Datenerhebung oder Datengewinnung
3.
Beschreibende Statistik
(graphische Darstellung der Daten, Berechnung von Parametern
zur Beschreibung der Daten)
4.
Wahrscheinlichkeitsrechnung und Kombinatorik
(Wahrscheinlichkeiten, Zufallsvariablen, Verteilungen, …)
5.
Schließende Statistik
(Hypothesentests, Vertrauensintervalle, …)
6.
Statistische Qualitätskontrolle (statistische Prozesskontrolle,
Annahmestichprobenprüfung)
6
Statistik, Prof. Dr. Karin Melzer
1.4. Grundbegriffe der Statistik (I)
1.
Grundgesamtheit: Objekte, an denen die interessierende Größe
beobachtet und erfasst wird, über die man eine Aussage gewinnen will
-
alle Mietwohnungen von Stuttgart,
alle Wahlberechtigten,
alle Würfe eines Würfels,
alle Teile, die eine Maschine produziert,
Eine Grundgesamtheit kann aus endlich vielen oder unendlich vielen
Elementen bestehen.
Eine Grundgesamtheit kann real oder hypothetisch sein.
2.
Stichprobe: Tatsächlich untersuchte Teilmenge der Grundgesamtheit.
Es gibt verschiedene Arten der Stichprobengewinnung (vgl. Kapitel 2).
3.
Umfang der Stichprobe: Anzahl der Elemente in der Stichprobe.
Der Umfang einer Stichprobe ist immer endlich.
7
Statistik, Prof. Dr. Karin Melzer
1.4. Grundbegriffe der Statistik (II)
4.
Merkmal: Interessierend Größe, die an den Elementen in der Stichprobe
beobachtet (gemessen, erhoben) wird.
z.B. Grundgesamtheit sind alle Mietwohnungen von Stuttgart
Merkmal 1: Nettomiete,
Merkmal 2: Baualter,
Merkmal 3: Größe in qm
Es können ein oder mehrere Merkmale an einem Element der
Grundgesamtheit erhoben werden.
5.
Merkmalsausprägung: Werte, die jedes Merkmal annehmen kann.
z.B. Test von Druckern in einer Computerzeitschrift.
Grundgesamtheit:
sämtliche zur Auswahl stehende Drucker
Stichprobe:
getestete Drucker
Merkmal 1:
Herstellername
Merkmalsausprägung:
HP, IBM, Lexmark, …
Merkmal 2:
Preis
Merkmalsausprägung:
0 - … EUR
Merkmal 3:
Gewicht
Merkmalsausprägung:
0 - … Kg
Merkmal 4:
Gesamturteil
Merkmalsausprägung:
sehr gut, gut, mittel, schlecht, sehr schlecht
8
Statistik, Prof. Dr. Karin Melzer
2. Datengewinnung
2.1. Arten von Erhebungen
a)
b)
Vollerhebung ⇒ Untersuchung der Grundgesamtheit
Teilerhebung ⇒ Untersuchung einer Stichprobe
Aufgabe 1:
Wann ist eine Teilerhebung sinnvoller als eine Vollerhebung ?
9
Statistik, Prof. Dr. Karin Melzer
2.2. Arten von Teilerhebungen (I)
1.
Zufallsstichprobe (random sample):
Jedes Objekt der Grundgesamtheit hat die gleiche Wahrscheinlichkeit in die Stichprobe zu
gelangen.
2.
Systematische Auswahl:
Die Auswahl wird nach einem objektiven Kriterium vorgenommen, z. B. jeder 100. produzierte
Artikel
3.
Schichtenstichprobe (stratified sampling):
Die Grundgesamtheit wird auf Basis einer oder mehrerer Merkmale in Schichten eingeteilt.
4.
Klumpenstichprobe (cluster sampling):
Aus der Grundgesamtheit werden Gruppen (Klumpen) von statistischen Einheiten (meist
Personen) zufällig ausgewählt. Innerhalb dieser Klumpen wird dann eine Vollerhebung
durchgeführt.
5.
Repräsentative Stichprobe:
Die Stichprobe soll die Werte gewisser Merkmale mit den gleichen Quoten, wie in der
Grundgesamtheit enthalten.
10
Statistik, Prof. Dr. Karin Melzer
2.2. Arten von Teilerhebungen (II)
Aufgabe 2:
Welches Verfahren soll angewendet werden, um eine Teilerhebung
durchzuführen?
a)
Ein Computerhersteller erhält eine Lieferung von 25.000 elektrischen
Speicherchips, von denen 500 herausgegriffen werden und auf Funktionsfähigkeit
untersucht werden sollen.
b)
Der aktuelle Wert eines Lagers soll durch eine Stichprobeninventur überprüft
werden. Das Lager enthält sehr viele Kleinteile von geringem Wert, eine mittlere
Anzahl von Teilen mit mittlerem Wert und relativ wenige Teile von sehr großem
Wert.
c)
Mit der PISA-Studie wollen sich die teilnehmenden Staaten ein Bild davon
machen, wie gut es ihren Schulen gelingt, Schüler auf die Herausforderungen der
Zukunft vorzubereiten. Zuerst sollen deshalb innerhalb eines Bundeslandes (z.B.
Baden-Württemberg, …) für jede Schulform (z.B. Hauptschule, Realschule,
Gymnasium, …) Tests durchgeführt werden.
11
Statistik, Prof. Dr. Karin Melzer
2.2. Arten von Teilerhebungen (III)
Aufgabe 2:
Welches Verfahren soll angewendet werden, um eine Teilerhebung
durchzuführen?
d)
Die Nürnberger Gesellschaft für Konsumforschung ermittelt die FernsehEinschaltquoten. Sie führt dazu Teilerhebungen mit 20.000 Menschen in ganz
Deutschland durch.
12
Statistik, Prof. Dr. Karin Melzer
2.3. Behandlung von Datenausreißern und
fehlenden Daten
Ein Datenausreißer ist ein Extremwert innerhalb einer Stichprobe, der so
extrem ist, dass die Person, die die Stichprobe zusammengetragen hat,
glaubt, dass er nicht stimmen kann.
Aufgabe 4:
Gegeben ist eine Messreihe, bei der 10 Messungen durchgeführt
wurden. Auf dem Erfassungsbogen stehen folgende Werte.
14,8
15,2
a)
b)
c)
15,2
14,9
15,1
15,0
14,9
18,4
unleserlich
15,1
Welcher Messwert ist ein Ausreißer?
Wie soll mit Ausreißern umgegangen werden?
Wie soll mit dem fehlenden Messwert umgegangen werden?
13
Statistik, Prof. Dr. Karin Melzer
3. Beschreibende Statistik
3.1 Merkmaltypen (I)
1.
Qualitative Merkmale
-
Beschreiben Eigenschaften, die sich nicht durch Messen oder Zählen
ermitteln lassen
Werte können auch durch Zahlen codiert werden, z. B. 3 = „gelb“, 6 =
„grün“ (mit diesen Zahlen kann man aber nicht rechnen).
a) Qualitativ-ordinale Merkmale (Rangmerkmale)
z. B.: Besoldungsgruppen bei Beamten, Interesse an einer Veranstaltung mit Ausprägung
„sehr groß“, „groß“, „mittel“, „gering“,…
- Merkmalsausprägung lässt sich in eine (natürliche) Rangfolge bringen
b) Qualitativ-nominale Merkmale (klassifikatorische Merkmale)
z. B.: Religionszugehörigkeit, Farbe, gewählte Partei,…
- Merkmalsausprägung lässt sich nicht in eine Rangfolge bringen
14
Statistik, Prof. Dr. Karin Melzer
3. Beschreibende Statistik
3.1 Merkmaltypen (II)
2.
Quantitative Merkmale (metrische Merkmale, kardinale Merkmale)
-
Die Merkmalsausprägungen sind Zahlen aus Messungen oder Zählungen
Differenz zwischen zwei Ausprägungen hat einen Sinn, z. B. eine
Schraube ist um 2 mm länger als eine andere
a) Quantitativ-stetige Merkmale
z.B.: Gewicht, Länge, Temperatur, Preis in EUR (!)
- können jeden Wert in einem vorgegebenen Intervall annehmen
- kommen meist durch Messung zustande
b) Quantitativ-diskrete Merkmale
z.B.: Anzahl der Ausschussstücke einer Lieferung/Stichprobe, Tore pro Spiel
- Werte sind einzelne Punkte auf dem Zahlenstrahl z. B. 1,2,3,…
- treten vorzugsweise bei Zählungen auf
15
Statistik, Prof. Dr. Karin Melzer
3.2. Graphische Darstellung (I)
„Ein Bild sagt mehr als tausend Worte“
Einige Möglichkeiten der Darstellung:
1.
Qualitative Merkmale
a) Häufigkeitstabelle (z.B. Wahlergebnisse)
Partei (Merkmal)
(↓ Merkmalsausprägung)
Anzahl der Stimmen
(absolute Häufigkeit)
Stimmenanteil in %
(relative Häufigkeit)
CDU
( = a1)
1.009.749
( = h1)
36,8
( = f1)
SPD
( = a2)
1.006.154
( = h2)
36,7
( = f2)
FDP
( = a3)
258.554
( = h3)
9,4
( = f3)
Grüne
( = a4)
206.606
( = h4)
7,5
( = f4)
Linke
( = a5)
140.488
( = h5)
5,1
( = f5)
Sonstige
( = a6)
121.158
( = h6)
4,5
( = f6)
2.742.709
( = n)
100
Summe
b) Säulendiagramm
c) Kreisdiagramm
16
Statistik, Prof. Dr. Karin Melzer
3.2. Graphische Darstellung (II)
1.
Qualitative Merkmale
a) Häufigkeitstabelle
b) Säulendiagramm (z.B. Wahlergebnisse)
Stimmverteilung
1.200.000
1.009.749
1.006.154
1.000.000
800.000
600.000
400.000
258.554
206.606
140.488
200.000
121.158
0
CDU
SPD
FDP
Grüne
Linke
Sonstige
c) Kreisdiagramm
17
Statistik, Prof. Dr. Karin Melzer
3.2. Graphische Darstellung (III)
1.
Qualitative Merkmale
a) Häufigkeitstabelle (z.B. Wahlergebnisse)
b) Säulendiagramm
c) Kreisdiagramm (für prozentuale Aufteilung)
18
Statistik, Prof. Dr. Karin Melzer
3.2. Graphische Darstellung (IV)
2.
Quantitative Merkmale
a) Bei diskreten Merkmalen: Häufigkeitstabelle (ohne Klassenbildung),
Säulendiagramm, Kreisdiagramm
z. B. Tore, gelbe/rote Karten in den Spielen einer Saison der Bundesliga
⇒ Vorsicht!
Wenn diskretes Merkmal zu viele Ausprägungen
hat, dann nicht sinnvoll (z.B. Preis, Gewicht, Alter,…).
b) Bei stetigen Merkmalen und diskreten Merkmalen mit vielen
Ausprägungen: Histogramm
z. B.: Radarkontrolle bei Fahrzeugen, Einkommen von Personen
Vorgehen: Häufigkeitstabelle mit Klassenbildung
•
gegeben: n Messwerte
•
Einteilung des Messbereichs in etwa
•
(n = Anzahl der Messwerte)
•
Zählen: Häufigkeit in jeder Klasse (Strichliste)
•
Graphische Darstellung als Säulendiagramm
n Klassen
Histogramm = Säulendiagramm, bei dem die Säulen über den entsprechenden
Intervallen der Klassen gezeichnet werden, und die daher an den
Klassengrenzen aneinanderstoßen.
19
Statistik, Prof. Dr. Karin Melzer
3.2. Graphische Darstellung (V)
2.
Quantitative Merkmale
b)
Histogramm (Forts.)
→ Erster visueller Eindruck von der Verteilung eines Merkmals
Regeln:
•
Anzahl der Klassen k ≈ n, wenn n ≤ 400
Anzahl der Klassen k ≈ 20, wenn n > 400.
•
Klassen müssen alle vorkommenden Stichprobenwerte überdecken
•
Alle Klassen werden (i. d. R.) gleich breit gewählt
•
Klassen so wählen, dass keine Messwerte auf den Klassengrenzen liegen
•
•
•
•
Informationen:
In welchem Bereich (z. B. relativ
zu den Toleranzgrenzen) liegen
die „meisten Messungen“?
Wie weit streuen die Daten?
Ist die Verteilung
symmetrisch oder schief?
Gibt es außergewöhnliche
„Spitzen“ oder „Ausreißer“?
Beispiel:
Einkommensdaten
von 100 Personen
20
Statistik, Prof. Dr. Karin Melzer
3.3. Statistische Kennzahlen für
quantitative Merkmale
• Eine wesentliche Technik zur Charakterisierung von Datensätzen ist
die Reduktion auf wenige Kenngrößen.
• Diese sollen die Eigenart der Daten widerspiegeln. Dazu dienen
Maßzahlen
der Lage (Wo?)
der Streuung (Wie breit?)
• Übersicht über die betrachteten Kennzahlen:
Lagemaße
• arithmetisches Mittel,
Mittelwert
• Median
Streumaße
• empirische Varianz,
empirische
Standardabweichung
• Spannweite
• Mittlerer Abstand
21
Statistik, Prof. Dr. Karin Melzer
3.3. Statistische Kennzahlen für
quantitative Merkmale
Im Folgenden werden wir drei Typen von vorliegenden Daten unterscheiden:
•
Messreihe: Beobachtete Werte in der Reihenfolge ihrer Ermittlung
Beispiel: Größe der Schüler einer Schulklasse in cm
x1 = 172; x2 = 153; x3 = 177; x4 = 156; x5 = 171;
x6 = 183; x7 = 164; x8 = 158; x9 = 163; x10 = 172
•
Häufigkeitstabelle ohne Klasseneinteilung
d. h. zu jedem Messwert wird angegeben,
wie oft er beobachtet wird (Häufigkeiten)
(für jede Merkmalsausprägung eine Zeile)
Beispiel: Notenspiegel
•
Häufigkeitstabelle mit Klasseneinteilung
(Merkmalsausprägungen werden in
Klassen zusammengefasst)
Beispiel: die Körpergrößen werden nur
in 10er-Schritten erfasst
Note
Anzahl
1,0
1,3
1,7
…
1
3
8
…
Größe (Klassen) Anzahl
[150;160)
[160;170)
[170;180)
[180;190)
3
2
4
1
22
Statistik, Prof. Dr. Karin Melzer
3.3. Statistische Kennzahlen für
quantitative Merkmale
3.3.1 Lagemaße (arithmetisches Mittel, Mittelwert, Durchschnitt)
a)
Arithmetisches Mittel (Mittelwert oder Durchschnitt) x aus einer
Messreihe x1, x2, x3, … ,xn mit n = Anzahl der Messwerte:
x1 + x2 + ... + xn 1 n
x=
= ∑ xi
n
n i =1
b)
Arithmetisches Mittel x aus einer Häufigkeitstabelle (für quantitative
Merkmale) ohne Klasseneinteilung mit k unterschiedlichen
Ausprägungen a1, a2, a3, … ak, mit den absoluten (bzw. relativen)
Häufigkeiten h1, h2, h3, … hk, (bzw. f1, f2, f3, … fk) berechnet sich, wenn n
= Anzahl der Messwerte, als
k
k
hj
a1h1 + a2 h2 + ... + ak hk
= ∑aj
= ∑aj f j
x=
n
n
j =1
j =1
23
Statistik, Prof. Dr. Karin Melzer
3.3.1 Lagemaße (arithmetisches Mittel, Durchschnitt)
c)
Arithmetisches Mittel x
gegeben: Häufigkeitstabelle (für quantitative Merkmale) mit
Klasseneinteilung mit k Klassen und den Klassenmitten m1, m2, m3, …
mk, mit den absoluten (bzw. relativen) Häufigkeiten h1, h2, h3, … hk,
(bzw. f1, f2, f3, … fk)
Klassen
abs. Häufigkeit
rel. Häufigkeit
[u1;o1) mit m1 = ½ (u1+o1)
[u2;o2) mit m2 = ½ (u2+o2)
[u3;o3) …
…
h1
h2
h3
…
f1 = h1/n
f2 = h2/n
f3 = h3/n
…
x berechnet sich, wenn n = Anzahl der Gesamtmesswerte, als
k
k
hj
m1h1 + m2 h2 + ... + mk hk
= ∑mj
= ∑mj f j
x≈
n
n j =1
j =1
24
Statistik, Prof. Dr. Karin Melzer
3.3.1 Lagemaße (Median, Zentralwert, 50%-Wert)
Median: gleich viele Daten auf beiden Seiten (50%/50%-Punkt)
a)
x einer Messreihe: ordne Werte der Größe nach
Median ~
x1 ≤ x2 ≤ … ≤ xn, (n = Stichprobenumfang). Der Median ist
-
für n ungerade, der Wert in der Mitte der geordneten Stichprobe
für n gerade, als das arithmetische Mittel der beiden mittleren Werte.
~
Bsp: 9 Werte der Größe nach geordnet: x = x5
~ 1
10 Werte der Größe nach geordnet: x = 2 ⋅ ( x5 + x6 )
6. Wert)
(5. Wert)
(Mittel aus 5. Wert &
25
Statistik, Prof. Dr. Karin Melzer
3.3.1 Lagemaße (Median, Zentralwert, 50%-Wert)
b)
~
Den Median x aus einer Häufigkeitstabelle ohne Klasseneinteilung
erhält man durch folgendes Vorgehen:
-
Aufsummieren der absoluten Häufigkeiten hi liefert die kumulierte
absolute Häufigkeit Hi.
Berechnen von Hi bis der Wert n/2 exakt erreicht oder überschritten
wird.
~
• Bei Überschreitung ⇒ x = entsprechende Merkmalsausprägung
~
• Bei exakter Erreichung ⇒ x = arithmetisches Mittel aus erreichter
Merkmalsausprägung und nächst folgender
Merkmal
abs. Häufigkeit
kum. abs. Häufigkeit
a1
a2
…
ai-1
ai
…
h1
h2
…
hi-1
hi
…
H1 = h1
H2 = H1 + h2
…
Hi-1 = Hi-2 + hi-1 < n/2
Hi = Hi-1 + hi
≥ n/2
…
falls Hi > n/2:
~
x = ai
falls H = n/2:
i
~
x = ½ (ai+ai+1)
26
Statistik, Prof. Dr. Karin Melzer
3.3.1 Lagemaße (Median, Zentralwert, 50%-Wert)
c)
x aus einer Häufigkeitstabelle mit Klasseneinteilung:
Den Median ~
-
-
Aufsummieren der absoluten Häufigkeiten hi liefert die kumulierte
absolute Häufigkeit Hi.
bestimme i bei dem Hi den Wert n/2 exakt erreicht oder überschreitet
Klassen
abs. Häufigkeit
kum. abs. Häufigkeit
[u1;o1)
[u2;o2)
…
[ui-1;oi-1)
[ui;oi)
…
h1
h2
…
hi-1
hi
…
H1 = h1
H2 = H1 + h2
…
Hi-1 = Hi-2 + hi-1
Hi = Hi-1 + hi
…
< n/2
≥ n/2
Median liegt dann irgendwo in dieser Klasse. Innerhalb der Klasse wird
auf folgende Weise interpoliert:
~
x = untere Klassengrenze der i - ten Klasse +
− H i −1
⋅
H i − H i −1
n
2
(obere Klassengrenze der i - ten Klasse
− untere Klassengrenze der i - ten Klasse) = ui +
− H i −1
(oi − ui )
H i − H i −1
n
2
27
Statistik, Prof. Dr. Karin Melzer
3.3.1 Lagemaße (Median, Zentralwert, 50%-Wert)
Aufgabe 12
Berechnen Sie Median und arithmetisches Mittel der Stichproben
a)
2.000 1.000 2.500 1.500 20.000
b)
3.000 2.000 4.000 1.000 12.000 20.000
28
Statistik, Prof. Dr. Karin Melzer
3.3.1 Lagemaße (Median, Zentralwert, 50%-Wert)
Aufgabe13
Berechnen Sie den Median der Daten in der klassierten
Häufigkeitstabelle
Klasse
Absolute
Klassenhäufigkeit
(0;20]
8
(20;40]
10
(40;60]
11
(60;80]
8
(80;100]
13
29
Statistik, Prof. Dr. Karin Melzer
3.3.1 Lagemaße:
Vergleich Median/arithm. Mittelwert
Arithmetisches Mittel:
-
kann nur für quantitative Merkmale berechnet werden,
beeinflusst von Ausreißern: wird von extremen Daten (sehr großen
oder sehr kleinen) stark beeinflusst.
Median:
-
kann für quantitative oder auch qualitativ-ordinale Merkmale
verwendet werden (wichtig: es muss eine Reihenfolge geben)
unempfindlich gegenüber Ausreißern/extremen Daten.
Beispiel: zwei Ranglisten
1,2,5,6,9
Median
5
arithm. Mittel
4,6
1,2,5,6,60
5
14,8
30
Statistik, Prof. Dr. Karin Melzer
3.3.2 Streumaße
•
•
Mittelwerte geben an, um welchen „mittleren“ Wert sich die
Stichprobenwerte gruppieren, geben aber keine Auskunft über
die Schwankung um den Mittelwert
Beispiel: Gegeben 2 Stichproben
Mittelwert
a) 1 2 4 5
xa = 3
b) 2,7 3,0 3,1 3,2
xb = 3
•
Aber: Die Werte von b) liegen dichter beim Mittelwert als die
Werte von a)
•
Maßzahlen für die Schwankung: „Streuungsparameter“ oder
„Streumaße“
31
Statistik, Prof. Dr. Karin Melzer
3.3.2 Streumaße
a)
Einfachstes Streumaß: Spannweite R (range)
R = xmax – xmin, wobei
xmax = größter Stichprobenwert/Messwert
xmin = kleinster Stichprobenwert/Messwert
Bsp.: Berechnen Sie R für die Stichproben
a) 1 2 4 5
b) 2,7 3,0 3,1 3,2
Spielt in der Praxis kaum eine Rolle, höchstens für die Bestimmung des Maßstabs
und der Bereichsauswahl für graphische Darstellungen.
b)
Mittlerer Abstand oder mittlere absolute Abweichung
Für eine Stichprobe x1, x2, x3, … xn , n = Anzahl der Messwerte, wird der mittlere
Abstand definiert als das arithmetische Mittel der Abstände xi − x
1 n
d = ∑ xi − x
n i =1
Bemerkungen:
Der mittlere Abstand wird kaum verwendet, weil
- Betragsfunktion nicht differenzierbar (unhandliche Formeln)
- schlechte Schätzeigenschaften (vgl. schließende Statistik)
32
Statistik, Prof. Dr. Karin Melzer
3.3.2 Streumaße
c)
Empirische Varianz und empirische Standardabweichung
Für eine Stichprobe x1, x2, x3, … xn , n = Anzahl der Messwerte, ist die
Varianz (empirische Varianz, Stichprobenvarianz)
1 n
s =
(xi − x )2
∑
n − 1 i =1
2
ein Maß für die Streuung um den Mittelwert
x.
Man schreibt s2, weil als Streuungsmaß auch die empirische
Standardabweichung
1 n
(xi − x )2
s= s =
∑
n − 1 i =1
2
verwendet wird.
33
Statistik, Prof. Dr. Karin Melzer
3.3.2 Streumaße
zu c) empirische Varianz und Standardabweichung
Aufgabe:
Berechnen Sie die empirische Varianz und die empirische
Standardabweichung zu folgenden Stichproben:
a) 1 2 4 5
b) 2,7 3,0 3,1 3,2
34
Statistik, Prof. Dr. Karin Melzer
3.3.2 Streumaße
zu c) empirische Varianz und Standardabweichung (andere Berechnungsmethoden)
(i) Durch Termumformungen lässt sich die empirische Varianz auch schreiben als
s2 =
1  n 2

 ∑ xi − n ⋅ x 2 
n − 1  i =1

Diese Formel lässt sich mit dem Taschenrechner schneller berechnen.
(ii) Berechnung der empirischen Varianz aus Häufigkeitstabelle ohne Klassen
Für eine Stichprobe vom Umfang n mit k unterschiedlichen Ausprägungen a1, a2, a3, … ak
mit den absoluten Häufigkeiten h1, h2, h3, … hk berechnet sich die empirische Varianz als
s2 =
1  k
1  k

2
(
)
h
a
x
=
−
 ∑ hi ai2 − n ⋅ x 2 

∑ i i
n − 1  i =1

 n − 1  i =1
(iii) Berechnung der empirischen Varianz aus Häufigkeitstabelle mit Klassen
Für eine Stichprobe vom Umfang n mit k unterschiedlichen Klassen mit den
Klassenmitten m1, m2, m3, … mk mit den absoluten Häufigkeiten h1, h2, h3, … hk
berechnet sich die empirische Varianz als
s2 ≈
1  k
1  k

2
(
)
h
m
x
=
−
 ∑ hi mi2 − n ⋅ x 2 

∑ i i
n − 1  i =1

 n − 1  i =1
36
Statistik, Prof. Dr. Karin Melzer
3.3.2 Streumaße
zu c) empirische Varianz und Standardabweichung
Bemerkungen
-
Standardabweichung hat dieselbe Einheit, wie die einzelnen
Stichprobenwerte (z. B. Gramm anstatt Gramm2).
-
Durch die Division mit dem Faktor (n-1) (anstatt n !) wird erreicht,
dass die empirische Standardabweichung bessere Schätzeigenschaften (siehe Kapitel 5 „Schließende Statistik“) hat.
-
Das arithmetische Mittel
x minimiert die Funktion
1 n
(xi − a )2
a a s (a) =
∑
n − 1 i =1
und ist in diesem Sinne ein optimaler Repräsentant der
Stichprobenwerte.
37
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
In diesem Abschnitt werden zwei Merkmale einer Stichprobe betrachtet
z.B. kann man bei Menschen den Zusammenhang zwischen Körpergröße
und Schuhgröße untersuchen.
a)
Graphische Darstellung erfolgt mittels Streudiagramm oder Punktewolke
oder Scatter Plot: jedes Paar von Ausprägungen (xi, yi) wird als Punkt im
x-y-Koordinatensystem repräsentiert.
Bsp:
PS vs.
Verbrauch
38
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
Maßzahlen für den Zusammenhang zwischen zwei Größen:
b)
Empirische Kovarianz und empirischer Korrelationskoeffizient
Für die Wertepaare (x1,y1), (x2,y2), …, (xn,yn) mit den arithmetischen Mittelwerten x und y ist die empirische Kovarianz definiert durch
1 n
s xy =
∑ (xi − x )( yi − y )
n − 1 i =1
Kovarianz ist stark von den Maßeinheiten abhängig. Bei Normierung erhält
man den empirischen Korrelationskoeffizient durch
n
rxy =
sxy
sx s y
=
∑ (x − x )( y
i =1
i
i
n
n
i =1
i =1
− y)
∑ (xi − x )2 ∑ ( yi − y )2
39
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
b)
-
Kovarianz und Korrelation:
Alternative Berechnung: Durch Ausmultiplizieren der Klammern erhält man
für die empirische Kovarianz die Formel
1  n

s xy =
 ∑ xi yi − nx y 
n − 1  i =1

-
Die empirische Korrelation kann man auch darstellen als
rxy =
sxy
sx s y
=
1 n ( xi − x ) ( yi − y )
⋅
∑
n − 1 i =1 sx
sy
40
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
b)
Empirische Kovarianz und empirischer Korrelationskoeffizient
Aufgabe: Berechnen Sie sxy und rxy.
Daten:
Scatter-Plot:
9
Verkaufserlös, y
(in 1.000 €)
Werbeausgaben, x
(in 100 €)
1
3
1
2
4
2
3
2
3
2
4
6
4
0
5
8
5
8
7
Sales Revenu e (y)
Monat
6
5
4
3
1
0
1
2
3
4
5
6
Advertising Expenses (x)
Ergebnis: sxy = 3; rxy= 0,7878 (sx2 = 2,5; sy2 = 5,8)
41
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
Bemerkungen Korrelationskoeffizient:
1.
−1 ≤ rxy ≤ 1
2.
rxy = 1
⇔
mit
yi = a + bxi
a>0
(d. h. alle Punkte (xi, yi) liegen auf einer Geraden mit positiver Steigung)
3.
⇔
rxy = -1
mit
yi = a + bxi
a<0
(d. h. alle Punkte (xi, yi) liegen auf einer Geraden mit negativer Steigung)
4.
rxy = 0 bedeutet, dass kein linearer Zusammenhang zwischen xi und
yi besteht
rxy ist ein Maß für den linearen Zusammenhang
(vgl. nachfolgende Graphiken).
42
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
Streudiagramme und Korrelationen
6
8
7
5
6
4
5
3
4
rxy=-0,7
3
rxy=0,9
2
1
2
0
1
0
1
2
3
4
5
6
0
0
1
2
3
4
5
6
7
8
7
6
6
5
5
rxy=-0,1
4
rxy=0,1
3
4
3
2
2
1
1
0
0
1
2
3
4
5
6
0
0
1
2
3
4
5
6
43
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
c)
Lineare Regression und Prognose
Typische Fragestellung: Beispiel (Forts.)
Werbeausgaben, x
(in 100 €)
1
3
1
2
4
2
3
2
3
4
6
4
5
8
5
Monat
9
8
7
Sales Revenue (y)
Verkaufserlös, y
(in 1.000 €)
6
5
4
3
2
1
0
0
•
•
1
2
3
4
5
6
Advertising Expenses (x)
Wie hoch wird der Umsatz erwartet, wenn die Werbeausgaben
auf 350 € festgelegt werden?
Oft: zeitliche Daten (Zeitreihe) mit der Frage, was zum nächsten
Mess-/Zeitpunkt geschieht.
44
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
c)
Lineare Regression und Prognose
Stochastische Beziehung zwischen x und y
-
Beziehung zwischen zwei Variablen:
y = f(x)
Ann.: f(x) ist lineare Funktion in x
Deterministische Beziehung
y = α x+ β
Stochastische Beziehung
y = α x+ β + ε
n Beobachtungen x und y:
yi = α xi + β + εi
i = 1, ... ,n
-
y
yi
εi
αx+β
αx i + β
Bezeichnungen:
xi
x: unabhängige Variable, erklärende Variable
y: abhängige Variable, interessierende Variable
ε: Fehler (Zufallsvariable)
α, β: (unbekannte) Regressionskoeffizienten
Schätzung, so dass die Summe der Fehlerquadrate minimal wird!
x
45
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
c)
Lineare Regression und Prognose
-
Schätzer für die Regressionskoeffizienten:
αˆ =
-
s xy
s
2
x
∑
=
∑
n
i =1
n
xi yi − nx y
i =1
x − nx
2
i
βˆ = y − αˆx
und
2
y = αˆx + βˆ
= αˆx + ( y − αˆx )
Regressionsgerade:
= αˆ ( x − x ) + y wobei αˆ =
-
s xy
s x2
Die Regressionsgerade mit den Koeffizienten wie oben hat
eine kleinere Summe der Fehlerquadrate (RSS: residual sum
of squares) als jede andere Gerade.
n
n
i =1
i =1
RSS = ∑ ε i2 = ∑ (αxi + β − yi ) → min .
2
46
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
c)
Lineare Regression und Prognose
Beispiel (Forts.)
Werbeausgaben, x
(in 100 €)
1
3
1
2
4
2
3
2
3
4
6
4
5
8
5
Monat
9
8
7
Sales Revenue (y)
Verkaufserlös, y
(in 1.000 €)
6
5
4
3
2
1
0
0
•
1
2
3
4
5
6
Advertising Expenses (x)
Berechnen Sie die Koeffizienten und die Regressionsgerade.
47
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
c)
Lineare Regression und Prognose
Fortsetzung des Beispiels
Vorhersage des
Verkaufserlöses für
gegebene
Werbeausgaben:
9
8
S ales R evenue (y)
7
Werbeausgaben: 350 €
⇒ x = 3,5
6
5
4
3
2
y = 1,2 · 3,5 + 1 = 5,2
1
0
0
Erwarteter Umsatz: 5.200 €
1
2
3
4
5
6
Advertising Expenses (x)
49
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
c)
Lineare Regression und Prognose: Zusammenfassung
Bestimmung der Regressionsgeraden über die „Methode der kleinsten
Quadrate“ (nach C. F. Gauß) d. h:
Gesucht wird diejenige Gerade (Regressionsgerade)
y = f ( x ) = m( x − x ) + b
so dass die Summe der quadrierten Abstände ε i = ( yi − f ( xi ) ) über alle
Wertepaare (x1,y1), (x2,y2), …, (xn,yn) minimal wird.
2
Ergebnis:
Die Regressionsgerade für die Wertepaare (x1,y1), (x2,y2), …, (xn,yn) mit
den arithmetischen Mittelwerten x, y und den Standardabweichungen s x , s y
lautet
f ( x) =
Die Steigung m =
s xy
s x2
s xy
s x2
(x − x ) + y
heißt empirischer Regressionskoeffizient.
50
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
Carl Friedrich Gauß (1777-1855)
hat erstmalig die „Methode der
kleinsten Quadrate“ angewandt zur
Ermittlung der Umlaufbahn des
Asteroiden Ceres um die Sonne
51
Statistik, Prof. Dr. Karin Melzer
3.3.3 zweidimensionale Stichproben
Bestimmtheitsmaß R2 (nicht verwechseln mit Spannweite!!)
d)
Das Bestimmtheitsmaß R2 beschreibt den Anteil der Varianz der
y-Werte, der durch die Regression erklärt werden kann.
R2 ist für lineare und nichtlineare Regressionsfunktionen definiert.
Im Falle einer linearen Regression gilt:
( rxy2 : Quadrat des Korrelationskoeff.)
R 2 = rxy2
Außerdem gilt: 0 ≤ R2 ≤ 1
-
Falls R2 ≈ 1 verläuft die Regressionsgerade (oder -kurve) gut
durch die Punktewolke.
Falls R2 ≈ 0 gibt die Regressionsgerade (oder -kurve) die
Punktewolke nicht gut wieder.
Im Beispiel: rxy = 0,7878 ⇒ R2 = rxy2 = 0,62
52
Statistik, Prof. Dr. Karin Melzer