Statistik - Hochschule Esslingen

Werbung
Statistik
» Kapitel 1: Einführung und Übersicht
» Kapitel 2: Datengewinnung
» Kapitel 3: Beschreibende Statistik
1. Einführung und Übersicht
Eine Definition von „Statistik“:
Die Statistik befasst sich mit Gewinnung
und Auswertung von Daten. Ziel ist die
Vorbereitung von Entscheidungen.
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
2
1. Einführung und Übersicht
Phasen einer statistischen Untersuchung und Kapitel der Vorlesung
Planung
Erhebung
Datengewinnung
(Kurzer Überblick in Kap. 2)
Bereinigung
Darstellung
(Kap. 3: Beschreibende Statistik)
Auswertung
Analyse, Interpretation
(Kap. 5: Schließende Statistik)
Entscheidung
Hilfsmittel für Kapitel 5: Kapitel 4: Wahrscheinlichkeitsrechnung
Spezialfall von Kap. 5: Kapitel 6: Statistische Methoden in der Qualitätssicherung
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
3
2. Datengewinnung
2.1 Planungsphase einer statistischen Untersuchung
a) Festlegung des Untersuchungsziels
b) Festlegung der Grundgesamtheit und der statistischen
Einheiten
c) Festlegung der zu erhebenden Merkmale
d) Festlegung von Art und Methode der Erhebung
zu a) Untersuchungsziel: Fragestellung formulieren!
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
4
2.1 Planungsphase einer statistischen
Untersuchung
zu b) Grundgesamtheit und statistische Einheiten
Die zu untersuchende Grundgesamtheit muss präzise
abgegrenzt werden in
» räumlicher
» zeitlicher
» sachlicher
Hinsicht, d. h. es muss definiert werden,
welche statistischen Einheiten (man sagt auch:
„Merkmalsträger“ oder „Objekte“) dazugehören und
welche nicht.
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
5
2.1 Planungsphase einer statistischen
Untersuchung
zu c) zu erhebende Merkmale festlegen
Arten von Merkmalen und ihre möglichen Ausprägungen:
Merkmal
quantitativ
stetig
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
diskret
qualitativ
ordinal
nominal
6
2.1 Planungsphase einer statistischen
Untersuchung: Merkmale
zu c) Merkmale
» Quantitative Merkmale (metrische Merkmale, kardinale
Merkmale)
» Die Merkmalsausprägungen sind Zahlen aus Messungen oder
Zählungen
» Differenz zwischen zwei Ausprägungen hat einen Sinn, z. B. eine
Schraube ist um 2 mm länger als eine andere
» Quantitativ-stetige Merkmale
» z.B.: Gewicht, Länge, Temperatur, Preis in EUR (!)
» können jeden Wert in einem vorgegebenen Intervall annehmen
» kommen meist durch Messung zustande
» Quantitativ-diskrete Merkmale
» Anzahl der Ausschussstücke einer Lieferung/Stichprobe, Tore pro
Spiel
» Werte sind einzelne Punkte auf dem Zahlenstrahl z. B. 1,2,3,…
» treten vorzugsweise bei Zählungen auf
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
7
2.1 Planungsphase einer statistischen
Untersuchung: Merkmale
zu c) Merkmale
» Qualitative Merkmale
» Beschreibende Eigenschaften, die sich nicht durch Messen
oder Zählen ermitteln lassen
» Werte können auch durch Zahlen codiert werden, z. B. 3 =
„gelb“, 6 = „grün“ (mit diesen Zahlen kann man aber nicht
rechnen).
» Qualitativ-ordinale Merkmale (Rangmerkmale)
» z. B.: Besoldungsgruppen bei Beamten, Interesse an einer
Veranstaltung mit Ausprägung „sehr groß“, „groß“, „mittel“,
„gering“,…
» Merkmalsausprägung lässt sich in eine (natürliche) Rangfolge
bringen
» Qualitativ-nominale Merkmale (klassifikatorische
Merkmale)
» z. B.: Religionszugehörigkeit, Farbe, gewählte Partei,…
lässt sich nicht in eine Rangfolge
Statistik, Prof. Dr.»
K. Merkmalsausprägung
Melzer
Hochschule Esslingen
bringen
8
2.1 Planungsphase einer statistischen
Untersuchung: Merkmale
zu d) Arten der Erhebung
»
»
Vollerhebung (oder Totalerhebung) ⇒ Untersuchung der Grundgesamtheit
Teilerhebung
⇒ Untersuchung einer Stichprobe
Einige Methoden zur Durchführung von Stichprobenuntersuchungen
»
(reine) Zufallsstichprobe
»
Systematische Auswahl: objektives Kriterium, z. B. jeder 100. Artikel
»
Schichtenstichprobe: Die Grundgesamtheit wird auf Basis eines oder
mehrerer Merkmale in Schichten eingeteilt. Die Schichten sollen bezüglich
des Untersuchungsmerkmals möglichst homogen sein. Anschließend: ziehe
aus jeder Schicht eine bestimmte Anzahl von Stichprobenstücken. Der Anteil
der in die Stichprobe aufgenommenen Objekte kann von Schicht zu Schicht
unterschiedlich sein.
»
Klumpenstichprobe: Aus der Grundgesamtheit werden Gruppen (Klumpen)
von statistischen Einheiten (oft geographisch definiert) zufällig ausgewählt.
Innerhalb dieser Klumpen wird dann eine Vollerhebung durchgeführt.
»
Quotenverfahren: Die Stichprobe soll die Werte gewisser Merkmale mit den
gleichen Quoten/Anteilen, wie in der Grundgesamtheit enthalten. Repräsentative Stichprobe
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
9
2.2 Durchführung der Erhebung
» Eine Erhebung wird technisch durchgeführt z. B. durch
Befragung (Fragebogen, Internet...), Beobachtung oder
Experiment.
» Die Nutzung von bereits vorhandenem (evtl. früher für
andere Zwecke erhobenem) Datenmaterial bezeichnet
man als „Sekundärerhebung“
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
10
2.3 Datenbereinigung
»
Behandlung von Datenausreißern
»
»
»
Ein „Ausreißer“ ist ein Extremwert innerhalb einer Stichprobe, der so
extrem ist, dass die Person, die die Stichprobe prüft, glaubt, dass er
nicht stimmen kann.
= Daten, die offenbar viel zu groß oder viel zu klein sind.
Vorgehen:
1. Ausreißer identifizieren;
2. überprüfen, ggf. berichtigen;
3. wenn die Ausreißer nicht berichtigt werden können,
a) Datensatz streichen oder
b) fehlerhafte Daten abändern (z. B. Ersetzen durch den Mittelwert der nicht
fraglichen Daten) oder
c) Datensatz unverändert beibehalten.
»
»
Die Möglichkeiten 3b) und 3c) sollten nur mit größter Zurückhaltung
angewendet werden. Im Zweifelsfall 3a)!
Genauso behandelt man andere unmögliche oder unplausible Werte.
Behandlung von Fehlern: wie Ausreißer aber ohne 3c)
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
11
2.4 Grundbegriffe der Statistik (I)
» Grundgesamtheit: Objekte, an denen die interessierende
Größe beobachtet und erfasst wird, über die man eine Aussage
gewinnen will
»
»
»
»
alle
alle
alle
alle
Mietwohnungen von Stuttgart,
Wahlberechtigten,
Würfe eines Würfels,
Teile, die eine Maschine produziert
» Eine Grundgesamtheit kann aus endlich vielen oder unendlich
vielen Elementen bestehen.
» Eine Grundgesamtheit kann real oder hypothetisch sein.
» Stichprobe: Tatsächlich untersuchte Teilmenge der
Grundgesamtheit.
» verschiedene Arten der Stichprobengewinnung Kapitel 2.1
» Umfang der Stichprobe n: Anzahl der Elemente in der
Stichprobe (immer endlich).
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
12
2.4 Grundbegriffe der Statistik (II)
» Merkmal:
Interessierend Größe, die an den Elementen in der
Stichprobe beobachtet (gemessen, erhoben) wird.
»
»
»
»
z.B. Grundgesamtheit sind alle Mietwohnungen von Stuttgart
Merkmal 1: Nettomiete,
Merkmal 2: Baualter,
Merkmal 3: Größe in qm
» Es können ein oder mehrere Merkmale an einem Element
der Grundgesamtheit erhoben werden.
» Merkmalsausprägung:
Werte, die jedes Merkmal annehmen kann.
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
13
3. Beschreibende Statistik
3.1 Ziel der beschreibenden Statistik
» Sachverhalte aufzeigen, die sonst nicht oder nicht so
leicht ersichtlich wären.
3.2. Tabellarische und graphische Darstellung eines Merkmals
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
14
3. Beschreibende Statistik
3.1 Ziel der beschreibenden Statistik
» Sachverhalte aufzeigen, die sonst nicht oder nicht so leicht
ersichtlich wären.
3.2. Tabellarische und graphische Darstellung eines Merkmals
» „Ein Bild sagt mehr als tausend Worte“
» Wir betrachten folgende Darstellungsmöglichkeiten
Merkmal
qualitativ oder
diskret
Häufigkeitstabelle
(ohne Klasseneinteilung)
*
Säulendiagramm
(Stabdiagramm)
stetig*
Kreisdiagramm
(Tortendiagramm)
Häufigkeitstabelle
(mit Klasseneinteilung)
Histogramm
oder diskrete Merkmale mit vielen Ausprägungen
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
15
3.2. Tabellarische und graphische
Darstellung eines Merkmals (I)
» Vorbemerkung zur Objektivität bei Grafiken:
» Die darzustellenden Größen müssen objektiv wiedergeben werden.
Hierzu gehören u. a. auch folgende Regeln, die hier aufgeführt werden,
weil gegen sie besonders oft verstoßen wird:
» Proportionalität von Fläche und darzustellendem Wert.
» Flächen im Diagramm müssen proportional zu den darzustellenden
Werten sein.
» Falsch: zwei Werte – zweiter Wert doppelt so groß ist wie der erste –
grafisch durch zwei Quadrate wiederzugeben, von denen das zweite eine
doppelt so große Seitenlänge wie das erste hat (denn die Fläche wäre
dann viermal so groß wie die erste statt richtig doppelt so groß).
» Skalierung der Achsen.
» Bei Säulendiagrammen wird auf der y-Achse ein quantitatives Merkmal
aufgetragen. Nach der Regel 1) oben müssen (bei konstanter
Säulenbreite) die Höhen der Säulen proportional zu den darzustellenden
Werten sein. Insbesondere darf daher die y-Achse nicht verzerrt sein und
muss bei 0 beginnen.
» Sollte es ausnahmsweise erforderlich sein, die Achse nicht bei 0 beginnen
zu lassen, muss dies deutlich kenntlich gemacht werden.
» Sinngemäß das gleiche gilt natürlich auch für die x-Achse (sofern hier ein
quantitatives Merkmal aufgetragen wird) und für andere
Diagrammtypen.
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
16
3.2. Tabellarische und
graphische Darstellung (II)
3.2.1 Qualitative und diskrete Merkmale
» Häufigkeitstabelle ohne Klasseneinteilung
» Säulendiagramm
» Kreisdiagramm
Partei (Merkmal)
(↓ Merkmalsausprägung)
Anzahl der Stimmen
(absolute Häufigkeit, hi)
Stimmenanteil in %
(relative Häufigkeit, fi)
CDU
( = a1)
1.009.749
36,8
( = f1)
SPD
( = a2)
1.006.154
( = h2)
36,7
( = f2)
FDP
( = a3)
258.554
( = h3)
9,4
( = f3)
Grüne
( = a4)
206.606
( = h4)
7,5
( = f4)
Linke
( = a5)
140.488
( = h5)
5,1
( = f5)
Sonstige
( = a6)
121.158
( = h6)
4,5
( = f6)
2.742.709
( = n)
Summe
( = h1)
100
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
17
3.2. Tabellarische und graphische
Darstellung (III)
3.2.1 Qualitative und diskrete Merkmale
» Häufigkeitstabelle ohne Klasseneinteilung
» Säulendiagramm
» Kreisdiagramm
Stimmverteilung
1.200.000
1.009.749
1.006.154
1.000.000
800.000
600.000
400.000
258.554
206.606
200.000
140.488
121.158
0
CDU
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
SPD
FDP
Grüne
Linke
Sonstige
18
3.2. Tabellarische und graphische
Darstellung (IV)
3.2.1 Qualitative und diskrete Merkmale
» Häufigkeitstabelle ohne Klasseneinteilung
» Säulendiagramm
» Kreisdiagramm (für prozentuale Aufteilung)
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
19
3.2. Tabellarische und graphische
Darstellung (V)
3.2.2 Stetige Merkmale oder diskrete Merkmale mit vielen
Ausprägungen
» Häufigkeitstabelle mit Klasseneinteilung
» gegeben: n Messwerte
» Einteilung des Messbereichs in Klassen
» Zählen: Häufigkeit in jeder Klasse (Strichliste)
» Beispiel:
Einkommensverteilung
» n = 100
~ 10 Klassen
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
Einkommen
Anzahl
Einkommen
Anzahl
0-750
2
3750-4500
12
750-1500
9
4500-5250
3
1500-2250
18
5250-6000
2
2250-3000
43
6000-6750
0
3000-3750
10
6750-7500
1
Summe
100
20
3.2. Tabellarische und graphische
Darstellung (VI)
» Stetige Merkmale oder diskrete Merkmale mit vielen
Ausprägungen
» Regeln zur Erstellung einer Häufigkeitstabelle mit
Klasseneinteilung:
» Bestimme Spannweite: xmax – xmin
» Bestimme Anzahl der Klassen (Faustregel):
k ≈ n , wenn n ≤ 400 (max. 20 Klassen auch für n > 400).
» Spannweite/Klassenzahl ≈ Klassenbreite
» Klassenbreite: aufrunden
(als Klassenbreite wähle „glatte“ Zahl 0,6 statt 0,5284)
» Einteilung der Klassen bei „glattem“ Wert unterhalb von xmin
beginnen; Klassen müssen alle Werte beinhalten
» Alle Klassen werden (i. d. R.) gleich breit gewählt
» Messwerte auf den Klassengrenzen müssen eindeutig einer
Klasse zugeordnet werden.
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
21
3.2. Tabellarische und graphische
Darstellung (VII)
» Stetige Merkmale oder diskrete Merkmale mit vielen
Ausprägungen
» Histogramm = Säulendiagramm, bei dem die Säulen über
den entsprechenden Intervallen der Klassen gezeichnet
werden, und die daher an den Klassengrenzen aneinander
stoßen.
» Aus der Häufigkeitstabelle mit Klasseneinteilung erstellt
man ein Histogramm.
» Beispiel:
Einkommensverteilung
50
45
40
35
30
25
20
15
10
5
0
0-750
7501500
15002250
22503000
30003750
37504500
45005250
52506000
60006750
67507500
Einkommen (EUR)
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
22
3.2. Tabellarische und graphische
Darstellung (VIII)
» Stetige Merkmale oder diskrete Merkmale mit vielen
Ausprägungen
» Histogramm (Forts.)
» Gibt ersten visuellen Eindruck von der Verteilung eines
Merkmals
Informationen:
» In welchem Bereich (z. B. relativ zu den Toleranzgrenzen)
liegen die „meisten Messungen“?
» Wie weit streuen die Daten?
» Ist die Verteilung symmetrisch oder schief?
» Gibt es außergewöhnliche „Spitzen“ oder „Ausreißer“?
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
23
3.3. Statistische Kennzahlen für
quantitative Merkmale (Übersicht)
» Eine wesentliche Technik zur Charakterisierung von
Datensätzen ist die Reduktion auf wenige Kenngrößen.
» Kennzahlen sollen die Eigenart der Daten widerspiegeln.
» Dazu dienen Maßzahlen
» der Lage (Wo?) Lagemaße
» der Streuung (Wie breit?) Streumaße
» Lagemaße:
» Geben an, wo die Messwerte im Mittel liegen,
» z. B. arithmetischer Mittelwert oder empirischer Median
» Streumaße:
» Geben an, wie breit die Messwerte um den Mittelwert herum
streuen,
» z. B. empirische Varianz, empirische Standardabweichung,
Spannweite
» Ist die empirische Standardabweichung (bzw. empirische
Varianz) klein, liegen also viele Messwerte in der Nähe des
Mittelwertes. Ist sie groß, sind die Messwerte weiter vom
Mittelwert entfernt.
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
24
3.3. Statistische Kennzahlen für ein
quantitatives Merkmal
» Im Folgenden werden wir drei Typen von
vorliegenden Daten unterscheiden:
Note
Anzahl
» Messreihe (Rohdaten): x1 ;, x2 ; x3 .;…; xn
(n = Anzahl der Messwerte)
Beobachtete Werte in der Reihenfolge ihrer
Ermittlung Beispiel: Größe der Studenten
eines Semesters in cm
x1 = 172; x2 = 153; x3 = 177; x4 = 156;
x5 = 171; x6 = 183; x7 = 164; x8 = 158;
x9 = 163; x10 = 172
diskrete oder stetige Merkmale
1,0
1,3
1,7
…
1
3
8
…
» Häufigkeitstabelle ohne Klasseneinteilung
d. h. zu jedem Messwert wird angegeben,
wie oft er beobachtet wird (Häufigkeiten)
Beispiel: Notenspiegel
diskrete Merkmale
Größe (Klassen)
Anzahl
[150;160)
[160;170)
[170;180)
[180;190)
3
2
4
1
» Häufigkeitstabelle mit Klasseneinteilung
(Merkmalsausprägungen werden in
Klassen zusammengefasst)
Beispiel: Körpergrößen in 10er-Schritten
stetige Merkmale oder diskrete mit
vielen Ausprägungen
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
25
3.3.1 Kennzahlen bei vorliegen einer
Messreihe
» Messreihe x1, x2, x3, … ,xn mit n = Anzahl der Messwerte
» Arithmetisches Mittel
x1 + x2 + ... + xn 1 n
x=
= ∑ xi
n
n i =1
» Empirischer Median
~
x
Messwert, der bei Sortierung der Messreihe nach der
Größe in der Mitte steht (bei gerader Anzahl von
Messwerten: arithmetisches Mittel der beiden Messwerte
in der Mitte).
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
26
3.3.1 Kennzahlen bei vorliegen einer
Messreihe
Einschub: Vergleich Arithmetisches Mittel/Median:
» Arithmetisches Mittel:
» kann nur für quantitative Merkmale berechnet werden,
» beeinflusst von Ausreißern: wird von extremen Daten (sehr
großen oder sehr kleinen) stark beeinflusst.
» Median:
» kann für quantitative oder auch qualitativ-ordinale Merkmale
verwendet werden (wichtig: es muss eine Reihenfolge geben)
» unempfindlich gegenüber Ausreißern/extremen Daten.
» Beispiel: zwei Ranglisten (geordnete Messreihen)
Median
arithm. Mittel
1,2,5,6,9
5
4,6
1,2,5,6,60
5
14,8
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
27
3.3.1 Kennzahlen bei vorliegen einer
Messreihe
Motivation: Warum braucht man Streuparameter?
» Mittelwerte geben an, um welchen „mittleren“ Wert sich die
Stichprobenwerte gruppieren, geben aber keine Auskunft über die
Schwankung um den Mittelwert
» Beispiel: Gegeben 2 Stichproben
Mittelwert
a) 1 2 4 5
xa = 3
b) 2,7 3,0 3,1 3,2
xb = 3
» Aber: Die Werte von b) liegen dichter beim Mittelwert als die Werte
von a)
» Maßzahlen für die Schwankung:
„Streuungsparameter“ oder „Streumaße“
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
28
3.3.1 Kennzahlen bei vorliegen einer
Messreihe
» Spannweite R (range)
» Einfachstes Streumaß:
größter Messwert – kleinster Messwert
» R = xmax – xmin, wobei
xmax = größter Stichprobenwert/Messwert
xmin = kleinster Stichprobenwert/Messwert
» Spielt in der Praxis kaum eine Rolle, höchstens für die
Bestimmung des Maßstabs und der Bereichsauswahl für
graphische Darstellungen.
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
29
3.3.1 Kennzahlen bei vorliegen einer
Messreihe
» Empirische Varianz
s2 =
1  n
2
 ∑ ( xi − x )  oder
n − 1  i =1


1  n 2 
  ∑ xi  − n ⋅ x 2 
s =
n − 1   i =1 

2
» Die zweite Formel ist einfacher anzuwenden; hier muss man
aber x mit großer Genauigkeit berechnen!
» Die empirische Varianz gibt also die mittlere quadratische
Abweichung von x an.
» empirische Standardabweichung
1 n
(xi − x )2
s= s =
∑
n − 1 i =1
2
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
30
3.3.1 Kennzahlen bei vorliegen einer
Messreihe
Bemerkungen zu empirischer Varianz und Standardabweichung
» Ist die empirische Standardabweichung (bzw. empirische
Varianz) klein, so liegen viele Messwerte in der Nähe des
Mittelwertes. Ist sie groß, sind die Messwerte weiter vom
Mittelwert entfernt.
» Standardabweichung hat dieselbe Einheit, wie die einzelne
Stichprobenwerte (z. B. Gramm anstatt Gramm2).
» Durch die Division mit dem Faktor (n-1) (anstatt n !) wird
erreicht, dass die empirische
Standardabweichung bessere
x
Schätzeigenschaften (siehe Kapitel 5 „Schließende Statistik“)
hat.
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
31
3.3.1 Kennzahlen bei vorliegen einer
Messreihe
Bemerkungen zur Berechnung von x , s2, s
» Nur in Ausnahmefällen wird man die Berechnung dieser Werte
tatsächlich mit den oben genannten Formeln durchführen.
» Viel kürzer ist es, die Datenreihe nur ein einziges Mal in den
Taschenrechner (TR) einzugeben und anschließend die Werte über die
eingebauten TR-Funktionen abzurufen.
» Dabei ist die empirische Standardabweichung s auf dem TR oft mit
dem Symbol σn-1 oder gelegentlich mit σx,n-1 o. ä. bezeichnet.
» Die empirische Varianz erhält man dann, indem man diesen Wert
quadriert.
» Beachten Sie hierzu ggf. auch die von Prof. Plappert gesammelten
Taschenrechner-Bedienungsanleitungen (s. Link auf meiner
Internetseite)
» Anleitungen sind ohne Gewähr bitte anhand von Beispielen
überprüfen.
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
32
3.3.2 Kennzahlen bei Vorliegen einer
Häufigkeitstabelle (ohne Klassen)
Ausprägung
absolute
Häufigkeit
x1
h1
x2
h2
…
…
xk
hk
Σ=n
Auch h
ier kan
n man
Mittel u
arit
n d e mp
. Std.a hm.
Kürzes
b w. a m
ten mit
H
eingeb
auten T ilfe der
R-Funk
erledig
tion
en
Datene . Leider ist die en
ingabe
Art der
der Hä
h1 , h , e
ufigkeit
tc. bei
2
en
ve
TR-Typ
en unte rschiedenen
rschied
lich.
» In den Formeln für x bzw. s2 müssen hier alle Summanden mit der
jeweiligen Häufigkeit hi gewichtet (= multipliziert) werden.
» Arithmetisches Mittel (n = Anzahl der Messwerte)
1
1 k
x = ( x1h1 + x2 h2 + ... + xk hk ) = ∑ x j h j
n
n j =1
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
33
3.3.2 Kennzahlen bei Vorliegen einer
Häufigkeitstabelle (ohne Klassen)
» Empirische Varianz s2 aus einer Häufigkeitstabelle ohne
Klasseneinteilung
1  k
2
s =
 ∑ hi ( xi − x )  oder
n − 1  i =1

2
s2 =

1  k

  ∑ hi xi2  − n ⋅ x 2 
n − 1   i =1


Zweite Formel ist einfacher, aber
berechnet werden.
» Empirische Standardabweichung
s=
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
x muss mit größerer Genauigkeit
s2
34
3.3.3 Kennzahlen bei Vorliegen einer
Häufigkeitstabelle mit Klasseneinteilung
Klassen
Klassenmittelpunkt
(u1;o1]
(u2;o2]
(u3;o3]
…
m1 = ½ (u1+o1)
m2 = ½ (u2+o2)
m2 = ½ (u2+o2)
…
Häufigkeit
h1
h2
h3
…
Σ =n
» Hier rechnet man so, als ob alle Messwerte in der Mitte der jeweiligen
Klasse liegen, und verwendet dann die 3.3.2 entsprechenden
Formeln, wobei nur „xi“ durch „mi“ ersetzt werden muss.
» Arithmetisches Mittel (n = Anzahl der Messwerte)
1
1 k
x ≈ (m1h1 + m2h2 + ... + mk hk ) = ∑ m j h j
n
n j =1
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
35
3.3.3 Kennzahlen bei Vorliegen einer
Häufigkeitstabelle mit Klasseneinteilung
» Empirische Varianz s2 aus einer Häufigkeitstabelle mit
Klasseneinteilung
k
s2 ≈
1 
2
 ∑ hi (mi − x )  oder
n − 1  i =1


1  k

  ∑ hi mi2  − n ⋅ x 2 
s =
n − 1   i =1


2
x
Zweite Formel ist einfacher, aber
Genauigkeit berechnet werden.
muss mit größerer
» Empirische Standardabweichung
2
s=
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
s
36
3.4 zweidimensionale Stichproben
» Jetzt werden zwei Merkmale einer Stichprobe betrachtet
3.4.1. Graphische Darstellung: Streudiagramm (Punktewolke)
» jedes Paar von Ausprägungen
(xi, yi) wird als Punkt im
x-y-Koordinatensystem
repräsentiert.
» Daten:
Auto
Nr.
PS
Verbrauch
(l/100 km)
1
130
7,2
2
85
3
120
…
…
13,5
10
…
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
37
3.4 zweidimensionale Stichproben
3.4.2 Empirischer Korrelationskoeffizient r
» Gegeben: Wertepaare (x1,y1), (x2,y2), …, (xn,yn) mit den
arithmetischen Mittelwerten x und y
» empirischer Korrelationskoeffizient
n
rxy =
∑ (x − x )( y
i =1
n
∑ (x
i =1
r =
i
i
− x)
2
i
− y)
oder
n
∑(y
i =1
− y)
2
i
 n

 ∑ xi yi  − n ⋅ x ⋅ y
 i =1

 n 2
 n 2
 ∑ xi  − n ⋅ x 2 ⋅  ∑ yi  − n ⋅ y 2
 i =1 
 i =1 
Zum Berechnen ist zweite Formel einfacher
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
38
3.4 zweidimensionale Stichproben
Bemerkungen zum Korrelationskoeffizienten r:
» Werte von r: −1 ≤ rxy ≤ 1
» r beschreibt die Stärke und Richtung des linearen Zusammenhangs
(vgl. nachfolgende Graphiken).
» Linearer Zusammenhang spiegelt sich in der Aussage
„Je größer x, desto [größer/kleiner] ist tendenziell y“.
» Falls |r| ≈ 1 , gibt es einen starken linearen Zusammenhang. (Aber
nicht unbedingt einen ursächlichen Zusammenhang zwischen den xund y-Werten!)
» Falls r ≈ 0 , gibt es keinen linearen Zusammenhang. (Aber in manchen
Fällen einen Zusammenhang anderer Art, z. B. quadratisch!)
» Falls r > 0, steigt die „beste Gerade“, falls r < 0 fällt sie.
» rxy = 1: alle Punkte (xi, yi) liegen auf einer Geraden mit positiver
Steigung)
» rxy = −1: alle Punkte (xi, yi) liegen auf einer Geraden mit negativer
Steigung)
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
39
3.4 zweidimensionale Stichproben
8
6
7
5
6
4
5
3
4
rxy= -0,7
3
rxy=0,9
2
2
1
1
0
0
0
0
1
2
3
4
5
1
2
3
4
5
6
6
7
8
7
6
6
5
5
rxy= -0,1
4
rxy=0,1
4
3
3
2
2
1
1
0
0
0
0
1
2
3
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
4
5
1
2
3
4
5
6
6
40
3.4 zweidimensionale Stichproben
3.4.3. Lineare Regression und Prognose
» Typische Fragestellung: Beispiel
?
9
8
7
Erlös (Y)
» Wie hoch wird der Umsatz
erwartet, wenn die
Werbeausgaben auf 350 €
festgelegt werden?
Modell gesucht
» Oft: zeitliche Daten (Zeitreihe)
mit der Frage, was zum
nächsten Mess-/Zeitpunkt
geschieht.
6
5
4
3
2
1
0
0
1
2
3
4
5
6
Werbeausgaben (X)
Werbeausgaben, x
Verkaufserlös, y
(in 100 €)
(in 1.000 €)
3
4
3
2
4
6
5
8
1
3
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
41
3.4 zweidimensionale Stichproben
3.4.3. Lineare Regression und Prognose
» (Empirische) Regression bedeutet: eine Gerade oder eine Kurve
„möglichst gut“ durch eine gegebene „Punktewolke“ legen.
» Im Falle einer Geraden spricht man von „linearer Regression“, sonst
von „nichtlinearer Regression“
(z. B. von „quadratischer Regression“, wenn die Regressionskurve
eine quadratische Funktion (Parabel) ist).
» Diese Gerade/Kurve kann für
die Prognose von Werten
verwendet werden.
9
8
Erlös (Y)
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
Werbeausgaben (X)
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
42
3.4 zweidimensionale Stichproben
3.4.3. Lineare Regression und Prognose
» Gegeben: n Wertepaare (x1,y1), (x2,y2), …,
(xn,yn). Dabei wird angenommen, dass
nur die y-Werte größeren (z. B.
zufälligen) Schwankungen unterliegen
können und die x-Werte fest (oder sehr
genau bestimmbar) sind.
» Methode der kleinsten Quadrate (MKQ):
∑ε
y
yi
εi
mx+b
ŷi
2
i
soll minimal werden. Dabei ist
ε i = yi − yˆ i
der Abstand in y-Richtung zwischen dem
y-Wert des i-ten Datenpunktes und dem
zu xi gehörenden y-Wert auf der
Regressionsgeraden. [Das Dach-Symbol
bei steht für „geschätzer Wert“. heißt
„Residuum“.]
xi
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
x
43
3.4 zweidimensionale Stichproben
3.4.3. Lineare Regression und Prognose
» MKQ führt zu folgender Gleichung der empirischen
Regressionsgeraden:
y = mx + b
(∑ x y )− nxy
m=
(∑ x )− nx
mit
n
i =1
n
i
2
i =1 i
i
2
und
b = y − mx
» Diese Regressionsgerade mit den Koeffizienten wie oben hat eine
kleinere Summe der Fehlerquadrate als jede andere Gerade.
n
n
∑ε
i =1
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
2
i
= ∑ (mxi + b − yi ) → min .
2
i =1
44
3.4 zweidimensionale Stichproben
3.4.3. Lineare Regression und Prognose
8
7
Erlös (Y)
Verkaufserlös, y
Werbeausgaben, x
9
6
(in 100 €)
(in 1.000 €)
3
4
3
2
4
6
5
8
1
3
5
4
3
2
1
0
0
1
2
3
4
5
6
Werbeausgaben (X)
Beispiel (Forts.)
» Berechnen Sie die Koeffizienten der Regressionsgeraden und
geben Sie die Regressionsgerade an.
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
45
3.4 zweidimensionale Stichproben
3.4.3. Lineare Regression und Prognose
Beispiel (Forts.)
y
x2
y2
xy
3
4
9
16
12
3
2
9
4
6
4
6
16
36
24
5
8
25
64
40
9
8
7
Erlös (Y)
x
6
5
4
3
2
1
0
Σ
1
3
1
9
16
23
60
129
x = 3,2; y = 4,6
n =5
3
0
1
2
3
4
5
6
7
Werbeausgaben (X)
85
85 − 5 ⋅ 3,2 ⋅ 4 ,6 11,4
m=
=
= 1,2955
60 − 5 ⋅ 3,2 2
8,8
b = y − m x = 4 ,6 − 1,2955 ⋅ 3,2 = 0,4545
Also :
y = mx + b = 1,2955 x + 0,4545
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
46
3.4 zweidimensionale Stichproben
3.4.3. Lineare Regression und Prognose
Beispiel (Forts.)
» Vorhersage des
Verkaufserlöses für
gegebene
Werbeausgaben:
9
8
Werbeausgaben: 350 €
⇒ x = 3,5
Erlös (Y)
7
6
5
4
3
2
y = 1,2955 · 3,5 + 0,4545 = 4,9886
1
0
0
Erwarteter Umsatz: 4.989 €
1
2
3
4
5
6
7
Werbeausgaben (X)
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
47
3.4 zweidimensionale Stichproben
3.4.4 Bestimmtheitsmaß R2
»
»
Für alle Regressionstypen (auch quadratische usw.) wird als
Gütemaß das Bestimmtheitsmaß R2 verwendet, d.h. wie gut die
Gerade/Kurve die Punktwolke beschreibt (nicht verwechseln mit
Spannweite R!!)
Für das Bestimmtheitsmaß R2 gilt
a) 0 ≤ R2 ≤ 1
b) Falls R2 ≈ 1 verläuft die Regressionsgerade (oder -kurve) gut durch die
„Punktewolke“.
Falls R2 ≈ 0 gibt die Regressionsgerade (oder -kurve) die „Punktewolke“
nicht gut wieder.
c) R2 beschreibt den Anteil an der Varianz der y-Werte, der durch die
Regression erklärt werden kann.
»
Während a), b), c) auch für nichtlineare Regressionen gelten, ist die
Gleichung R2 = r2 nur im Falle der linearen Regression richtig. (Der
empirische Korrelationskoeffizient r bezieht sich nämlich
ausschließlich auf die lineare Regression.)
»
Im Beispiel: rxy = 0,7978 ⇒ R2 = (rxy )2 = 0,64
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
48
3.4 zweidimensionale Stichproben
» Bemerkung zur Berechnung von m und b bei linearer
Regression
» Viele TR haben eine eingebaute Berechnungsmöglichkeit
für die Parameter m und k der empirischen
Regressionsgeraden und für den empirischen
Korrelationskoeffizienten r nach Eingabe aller x- und yWerte. Wer einen Taschenrechner besitzt, bei dem das
so nicht möglich ist, benutzt am besten das gezeigte
Berechnungsschema.
» Die angegebenen Formeln sind für die Berechnung „von
Hand“ – also wenn im TR Regression und Korrelation
nicht implementiert sind – am einfachsten anzuwenden.
Bei der Berechnung von m und r müssen x und y aber mit
großer Genauigkeit bestimmt werden!
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
49
3.4 zweidimensionale Stichproben
Bemerkung zur Berechnung von m und b bei linearer Regression
» (Leichter zu merkende) alternative Formeln für m und r
verwenden folgende Größen:

1  n 2 
  ∑ xi  − n ⋅ x 2 
» Empirische Varianz der x-Werte sx2 =
n − 1   i =1



1  n 2 
  ∑ yi  − n ⋅ y 2 
n − 1   i =1 

» Empirische Varianz der y-Werte
s 2y =
» Empirische Kovarianz

1  n

  ∑ xi yi  − nx y 
sxy =
n − 1   i =1


» Empirische Standardabweichung
sx = sx2 , s y = s 2y
» Damit ist
Statistik, Prof. Dr. K. Melzer
Hochschule Esslingen
m=
s xy
s x2
und r =
s xy
sx ⋅ s y
50
Herunterladen