Kapitel2_Statistik

Werbung
Statistik
2. Beschreibende Statistik
2.
BESCHREIBENDE STATISTIK
2.1.
Eindimensionale Merkmale
2.1.1. Tabellarische und grafische Darstellung - Häufigkeit
Im folgenden werden nur quantitative Merkmale betrachtet:
Bei diskreten Merkmalen führt man folgende Bezeichnungen ein ( Bsp. 1 ):
xi ; i  1, ... n :
Urliste ... beobachtete Werte in der Reihenfolge ihrer Ermittlung
a j ; j  1, ... k :
verschiedene beobachtete Werte, der Größe nach geordnet
n ist der Stichprobenumfang, k ist die Anzahl der verschiedenen Werte.
Die verschiedenen Werte a j können in der Urliste mehrmals auftreten; es liegt nahe, die
Daten in einer Häufigkeitstabelle ( Bsp. 2 ) weiter zu ordnen. Dazu berechnet man folgende
Größen:
n j ... absolute Häufigkeit des Wertes a j in der betrachteten Stichprobe
j
N j   ni ... absolute Summenhäufigkeit
i 1
(1)
h j  h(a j ) 
nj
n
... relative Häufigkeit des Wertes a j (oft in Prozent)
j
H j   h j ... relative Summenhäufigkeit (von links her aufaddiert)
i 1
Für die absoluten Häufigkeiten gilt allgemein
k
(2)
 nj
 n  Stichprobenumfang
j 1
Aus Definition (1) ergeben sich folgende wichtige Eigenschaften der relativen Häufigkeiten
(3a)
0  hj  1
k
(3b)
 hj
j 1

k
nj
j 1
n

 1
7
Statistik
2. Beschreibende Statistik
Kommt ein Wert a j in der Stichprobe nicht vor, so ist
h(a j )  0 ;
sind alle n Beobachtungswerte gleich a j , so ist
h( a j )  1 .
Beispiel 1
100-maliges Werfen eines Würfels
x1  5 , x2  2 , x3  3, . . . x100  4
Urliste
a1  1, a2  2 , a3  3, . . . a6  6
beobachtete Werte
Beispiel 2
Bei 400 Würfen von 3 Münzen ergaben sich
52 ( 155, 146, 48 ) Würfe mit 0 ( 1, 2, 3 ) „Wappen“
Häufigkeitstabelle
j
aj
nj
Nj
hj
Hj
1
0
51
51
0,1275
0,1275
2
1
155
206
0,3875
0,5150
3
2
146
352
0,3650
0,8800
4
3
48
400
0,1200
1,0000
Übung: Wie groß ist in Beispiel 2 die Anzahl der Würfe mit
a) höchstens 1 Wappen
b) mindestens 2 Wappen
Wie groß ist jeweils die relative Häufigkeit?
8
Statistik
2. Beschreibende Statistik
Zur Wiedergabe statistischer Daten verwendet man neben Listen und Tabellen, die alle
Einzeldaten genau vermitteln, auch grafische Darstellungen, die die wesentliche Struktur der
untersuchten Erscheinung erkennen lassen.
Trägt man über den Werten a j die zugehörigen relativen Häufigkeiten auf, so entsteht das
~
Stabdiagramm der empirischen Häufigkeitsfunktion f ( x) .
h
~
f ( x)   j
0
(4)
für x  a j
sonst
Statt des entsprechenden Stabdiagramms der Summenhäufigkeiten H j verwendet man besser
die Darstellung in Form einer Treppenfunktion, die an den Stellen x  a j Sprungstellen der
~
Höhe h j besitzt. Die zugehörige Funktion heißt empirische Verteilungsfunktion F ( x) .
~
F ( x) 
(5)

a j x
hj 
Anzahl der beobachtet en Werte kleiner gleich x
Stichprobe numfang
~
An der Stelle x  a j ist der Funktionswert F (a j ) gleich der relativen Summenhäufigkeit H j ;
~
zwischen zwei benachbarten möglichen Stichprobenwerten a j und a j 1 ist F konstant.
Häufigkeits-Diagramme zu Beispiel 2:
1

1
~
F ( x)

~
f ( x)
0,5

0,5



0


1
2
3
x
0
Häufigkeitsfunktion
( Stabdiagramm )
1
2
3
x
Verteilungsfunktion
( Treppenfunktion )
~
Übung: Welchen Wert hat F (2,5) in Beispiel 2 ? Was bedeutet dies in Worten ?
9
Statistik
2. Beschreibende Statistik
Neben Stabdiagrammen und Säulenhistogrammen kommen auch Kreissektordiagramme
(auch Tortendiagramme genannt) zur Anwendung.
Für die Winkel der einzelnen Sektoren gilt dabei:
 j  h j  3600
Beispiel 3
Stimmen- und Sitzverteilung bei der Landtagswahl 1988 in Baden-Württemberg:
Stimmanteil in %
Anzahl der Mandate
CDU
49,0
66
SPD
32,9
42
Grüne
7,9
10
FDP
5,9
7
Sonstige
4,3
0
Summe
100,0
125
Stimmanteil in %
60
50
CDU
SPD
Grüne
FDP
Sonstige
40
30
20
10
0
1
Stimmanteil in %
CDU
SPD
Grüne
10
FDP
Sonstige
Statistik
2. Beschreibende Statistik
2.1.2. Maßzahlen einer eindimensionalen Stichprobe
Bei vielen statistischen Erhebungen interessiert nicht die detaillierte Information der
vollständigen Häufigkeitstabellen und Häufigkeitsfunktionen: sollen etwa verschiedene
Verteilungen miteinander verglichen werden, dann reicht es oft aus, die empirischen Daten
durch wenige, für die Problemstellung informative Größen zu beschreiben. Die wichtigsten
derartigen Maßzahlen sind Lageparameter und Streuungsparameter.
2.1.2.1 Lageparameter – Mittelwerte
Eine Stichprobe vom Umfang n mit der Urliste  x1 , x2 , ... xn  bestehe aus k verschiedenen
Werten a j mit den absoluten Häufigkeiten n j und den relativen Häufigkeiten h j . Dann
werden folgende Lageparameter definiert:
arithmetischer Mittelwert x
(6)
x 
1 n
1 k
xi   n j  a j 

n i 1
n j 1
k
 hj a j
j 1
Median (Zentralwert, 50%-Quantil) ~
x
oberhalb und unterhalb von ~
x liegen gleich viele Stichprobenwerte
(7)
sind die n Werte der Größe nach geordnet, so gilt
x  der in der Mitte stehende Wert
n ungerade: ~
n gerade:
~
x  arithmetisches Mittel der beiden mittleren Werte
Der arithmetische Mittelwert x ist der mit Abstand wichtigste Lageparameter für die uns
interessierenden Fragestellungen:
a) Auswertung „objektiv“ ermittelter Messreihen.
b) Aus relativ kleinen Stichproben „hochrechnen“ auf die Grundgesamtheit.
Der Median ~
x ist von Bedeutung bei kleinen Stichproben mit möglichen „Ausreißern“, und
wenn die Abstände der Merkmalswerte nicht gleichwertig sind, sondern nur eine Rangfolge
kennzeichnen (z.B. Klausurnoten).
11
Statistik
2. Beschreibende Statistik
Beispiel 4
In zwei Stichproben wurde die Dichte von Gesteinsproben (in kg/dm2 ) gemessen.
a)
1,8
2,0
1,9
1,8
2,2
1,8
1,9
b)
2,0
1,8
1,8
4,2
1,9
1,9
1,8
Für die beiden Stichproben erhält man die Lageparameter:
xa  1,914
xb  2,2
~
xa  1,9
~
xb  1,9
Für die Stichprobe a) haben beide Maßzahlen etwa denselben Wert; für die Stichprobe b)
liefert dagegen nur der Median ~
x einen „vernünftigen“ Mittelwert ( warum ? ).
geometrisches Mittel x̂
Falls xi  0 für i  1,..., n heißt
xˆ  n x1  x2  ...  xn  n a1n1  a2n 2  ...  akn k
(8)
geometrisches Mittel einer Stichprobe. Es findet Einsatz bei verhältnisskalierten Merkmalen z.B. Wachstumsraten,…
Beispiel 5
(zum geometrischen Mittel)
Durchschnittliche relative Umsätze (Zuwachsrate) pro Jahr eines Betriebs:
i
Jahr
Umsatz ui
( in Millionen )
0
1
2
3
4
1999
2000
2001
2002
2003
pi 
Im Beispiel:
Zuwachsrate pi bez. WachstumsVorjahr (%)
faktor qi
2,0
2,4
2,9
2,7
3,1
ui 1  ui
 100 ;
ui
+20.000
+20.833
- 6.896
+14.816
qi 
ui 1
p
1 i
ui
100
qˆ  4 1,2  1,208  0,931  1,148  1,115 
p  ( qˆ  1)  100  11,5 %
12
1.200
1.208
0.931
1.148
Statistik
2.1.2.2.
2. Beschreibende Statistik
Streuungsparameter
Die Mittelwerte geben zwar an, um welchen „mittleren“ Wert sich die Stichprobenwerte
gruppieren, sie gestatten jedoch keine Aussage über deren Schwankungen um den Mittelwert.
Beispiel 6
Gegeben sind zwei Stichproben
a)
1
4
5
b)
2,7
xa  3
Mittelwert:
Aber:
2
3,0
3,1
3,2
xb  3
Die Werte von b) liegen dichter beim Mittelwert als die Werte von a)
Der einfachste Streuungsparameter ist die Variationsbreite oder Spannweite ( range )
R  xmax  xmin ,
die aber außer etwa für die Wahl des Maßstabes und die Bereichsauswahl für grafische
Darstellungen kaum eine Rolle spielt.
Aus der Definition des arithmetischen Mittelwerts x folgt, dass die Summe der Differenzen
xi  x als mögliches Streuungsmaß ausscheidet; es ist nämlich
n

i 1
( xi  x ) 
n
 xi  n  x
 n x n x  0
i 1
Dagegen ist das arithmetische Mittel der Abstände | xi  x | ein sinnvolles Maß für die
Streuung, die so genannte mittlere absolute Abweichung bezüglich x
(9)
d 
1
n
n

i 1
| xi  x | 
k

j 1
h j  |a j  x |
Die in (9) auftretenden Absolutbeträge führen zu unhandlichen Formeln und haben außerdem
gewisse Schwierigkeiten bei theoretischen Betrachtungen zur Folge. Diese Schwierigkeiten
sind geringer, wenn man zu den Quadraten der Abweichungen übergeht; große
Abweichungen werden damit auch stärker gewichtet als kleine. Es liegt also nahe, das
arithmetische Mittel dieser Abstandsquadrate
(10)
m2 
1
n
n
 ( xi  x )2
i 1
13
Statistik
2. Beschreibende Statistik
als Streuungsmaß zu verwenden. In der beurteilenden Statistik zeigt sich aber, dass es
günstiger ist, die Summe der Abstandsquadrate nicht durch n , sondern durch n  1 zu
dividieren.
Man definiert deshalb folgende Größen
Varianz der Stichprobe (empirische Varianz)
(11)
s2 
1
n 1
n
 ( xi  x )2 
i 1
1
n 1
k
 n j  ( a j  x )2
j 1
Standardabweichung der Stichprobe
(12)
s 
s2
Bemerkungen:
1. Die Standardabweichung s hat die gleiche Dimension wie die Stichprobenwerte, ist also
auch von daher ein geeignetes Maß für die Streuung der Stichprobenwerte.
2. Vereinfachte Berechnung der Varianz
Formel (11) lässt sich umformen in die für die Berechnung eventuell einfachere Form
(11*)
s2 
1  n 2
2
  xi  n  x 
n  1  i 1

Übung: Leiten Sie (11*) aus der Definitionsgleichung (11) her !
3. Zur praktischen Bedeutung der Standardabweichung
Bei näherungsweise normalverteilten Merkmalen gilt als Faustregel (näheres zur
Normalverteilung in Abschnitt 4.6.)
(13)
im Intervall
x s x x s
14
liegen etwa zwei Drittel aller Werte
Statistik
2. Beschreibende Statistik
Fortsetzung Beispiel 6: Varianzen und Standardabweichungen


sa 
1
(1  3) 2  (2  3) 2  (4  3) 2  (5  3) 2  3,333 ;
3
sb 
1
(2,7  3) 2  (3,0  3) 2  (3,1  3) 2  (3,2  3) 2  0,047 ;
3
2
2


sa  1,826
sb  0,216
Skizze:
Stabdiagramme mit den Werten x  s !
Übung:
Berechnen Sie die Varianzen und Standardabweichungen zu Beispiel 6 mit
Formel (11*)
15
Statistik
2. Beschreibende Statistik
2.1.3. Auswertung umfangreicher Stichproben
Die Vorgehensweise in Beispiel 2 ist typisch für den Fall diskreter Merkmale mit wenigen
unterschiedlichen Stichprobenwerten. Bei diskreten Merkmalen mit sehr vielen verschiedenen
Werten und bei stetigen Merkmalen wird das Datenmaterial durch Klasseneinteilung
„verkleinert“.
Die wesentlichen Schritte werden in Beispiel 7 veranschaulicht.
Bezeichnungen: ( vgl. Bezeichnungen und Definitionen in (1) )
aj
(14)
nj
hj



Hj

...
Klassenmitte
...
absolute Klassenhäufigkeit (aus Strichliste entnehmen)
...
relative Klassenhäufigkeit
...
relative Summenhäufigkeit
Zur grafischen Darstellung könnte man ein Stabdiagramm h j  über den Klassenmitten a j 
verwenden. Da die Beobachtungswerte aber innerhalb der Klasse verteilt liegen, ist es besser,
die Stäbe durch Rechtecke zu ersetzen; dabei ist es sinnvoll (vor allem bei nicht-äquidistanter
Klasseneinteilung) die relative Klassenhäufigkeit nicht durch die Höhe, sondern durch die
Fläche des Rechtecks darzustellen.
Die Darstellung von h j / x über den Klassenintervallen nennt man Histogramm
~
(Dichtehistogramm); die zugehörige Funktion f ( x) heißt empirische Dichtefunktion
~
Die Treppenfunktion F ( x) mit Sprunghöhen h j  an den Klassenmitten a j  heißt
empirische Verteilungsfunktion.
16
Statistik
2. Beschreibende Statistik
Beispiel 7
651
667
548
743
628
Lebensdauer von n = 50 Zellwollfasern ( in Stunden )
278
717
434
1107
243
934
178
108
448
1352
111
448
351
689
891
xmax  1352 ; xmin  108
871
403
782
281
328
→
1087
466
311
512
576
208
366
217
384
369
542
238
281
638
419
289
831
499
305
483
327
200
588
544
397
z.B. k = 13 Klassen der Breite x  100
Datenauswertung in einer Tabelle
n j
h j
H j
h j / x
|||
3
0,06
0,06
0,0006
200  xi  300
||||| ||||
9
0,18
0,24
0,0018
3
300  xi  400
||||| ||||
9
0,18
0,42
0,0018
4
400  xi  500
||||| |||
8
0,16
0,58
0,0016
5
500  xi  600
||||| |
6
0,12
0,70
0,0012
6
600  xi  700
|||||
5
0,10
0,80
0,0010
7
700  xi  800
|||
3
0,06
0,86
0,0006
8
800  xi  900
|||
3
0,06
0,92
0,0006
9
900  xi  1000
|
1
0,02
0,94
0,0002
10 1000  xi  1100
|
1
0,02
0,96
0,0002
11 1100  xi  1200
|
1
0,02
0,98
0,0002
0
0,00
0,98
0,0000
1
0,02
1,00
0,0002
j
Klasse
Strichliste
1
100  xi  200
2
12 1200  xi  1300
13 1300  xi  1400
Grafische Darstellung
h j  / x
|
(Histogramm und Verteilungsfunktion)
H j
~
f ( x)
~
F ( x)
1
0,0018
0,5
0,0006
x
x
100
500
150 350
1000
17
1350
Statistik
2. Beschreibende Statistik
Bemerkungen:
1. Bei äquidistanter Einteilung (konstante Klassenlänge x ) zeigen bereits die Strichlisten
den Charakter der zugehörigen Dichtehistogramme.
2. H j entsteht jetzt nicht mehr durch Summierung entsprechender Höhen bzw. Längen in
den Stabdiagrammen, sondern durch Summierung entsprechender Flächeninhalte
(  Integration !) Die Gesamtfläche des Histogramms hat den Wert 1 .
3. Statt Dichtehistogramm und treppenförmiger Verteilungsfunktion verwendet man auch
Häufigkeitspolygon und Summenhäufigkeitspolygon; dabei werden die einzelnen
Rechtecke jeweils durch flächengleiche Trapeze ersetzt.
4. Ein Problem ist die Wahl günstiger Klassenbreiten x : ist x zu groß, können wesentliche Eigenschaften der Stichprobe verwischt werden; ist x zu klein, so bleibt die
Darstellung zu unübersichtlich. Der Deutsche Normenausschuss (*) empfiehlt bei mehr
als 50 Beobachtungswerten:
a) bis
mindestens
n = 100
( 1000,
k = 10
(
13,
10 000,
100 000 ) Werte
16,
20 )
b) möglichst äquidistante Einteilung mit x  0,6  s
Klassen
( s ... Standardabweichung )
Ist von einer Stichprobe nur eine Klasseneinteilung bekannt, so lassen sich Mittelwert x und
Varianz s 2 nicht mehr exakt berechnen. Man ersetzt dann alle in einer Klasse liegenden Werte
durch den Wert der Klassenmitte a  und bildet aus a  und den Klassenhäufigkeiten n 
j
j
j
bzw. h j  Näherungswerte analog zu den Formeln (6) und (11):
(15)
x 
k

j 1
(16)
s 2 
 
hj a j
1 k


n j  ( a j  x ) 2

n  1 j 1
Die Näherungen x  x und s 2  s2 sind umso besser, je feiner die Klasseneinteilung ist.
(*) Eine ausführliche Darstellung der wichtigsten statistischen Auswertungsverfahren findet
man in DIN 55 302 Blatt 1 Nov 1970 ; Blatt 2 Jan 1967
18
Statistik
2. Beschreibende Statistik
Maßzahlen zu Beispiel 7:
1
(651  278  . . .  397)  505,36
50
(6)

x 
(15)

x   0,06  150  0,18  250  . . .  0,02  1350  506
(11)

s  270,43
(16)

s  266,62
Bei der graphischen Darstellung in einem Histogramm werden über den einzelnen Klassen
Rechtecke gezeichnet. Für die Größe der Rechtecke ergeben sich zwei Möglichkeiten:
a) Höhe des Rechtecks ist proportional zur relativen Häufigkeit
b) Fläche des Rechtecks ist proportional zur relativen Häufigkeit
Bei Verwendung unterschiedlicher Klassenbreiten sollte a) nicht verwendet werden; die
Graphik könnte sonst falsche Schlüsse suggerieren (Klassen mit dargestellten größeren
Klassenbreiten werden mit verhältnismäßig zu großen Flächen abgebildet). Ein flächenproportionales Histogramm erhält man durch die Vorschrift
Rechteckhöhe =
absolute Klassenhäufigkeit
Klassenbre ite
19
Statistik
2. Beschreibende Statistik
2.1.4. Zusammenfassung von Teilstichproben
Sind aus einer Grundgesamtheit mehrere Stichproben mit den Kenngrößen { Umfang,
arithmetisches Mittel, Varianz } gegeben, so interessieren der arithmetische Mittelwert und
die Varianz der durch Zusammenfassung dieser Teilstichproben erhaltenen Gesamtstichprobe.
Sind zwei Stichproben aus derselben Grundgesamtheit gegeben mit den Parametern
{ n1, x1, s12 } bzw. { n2 , x2 , s22 } , so erhält man durch Zusammenfassung eine
Gesamtstichprobe mit den Parametern
(17)
n  n1  n2
(18)
x
(19)
s2 
... Umfang
n1  x1  n2  x2
n1  n2
... Mittelwert
1
n n
2
2
{(n1  1)  s1  (n2  1)  s2  1 2 ( x1  x2 ) 2} ... Varianz
n 1
n1  n2
Bemerkungen:
1. Im Unterschied zu den Formeln (17) und (18) lässt sich die letzte Formel nur schwer auf
mehr als zwei Teilstichproben verallgemeinern; besser geeignet ist dafür die zu (19)
äquivalente Formel
(19*)
s2 
mit
1
2
2
2
2
{(n1  1)  s1  (n2  1)  s2  n1  d1  n2  d 2 }
n 1
d1  x1  x ; d 2  x2  x
2. Die ersten beiden Terme in Gleichung (19) bzw. (19*) stellen den Mittelwert der beiden
Varianzen s12 und s22 dar. Dieser Anteil wird als interne mittlere quadratische
Abweichung bezeichnet; die restlichen Terme bilden die externe mittlere quadratische
Abweichung .
3. Die durch (18) bzw. die entsprechende Verallgemeinerung für die Zusammenfassung von
k Stichproben gebildete Größe bezeichnet man als gewogenes oder gewichtetes arithmetisches Mittel.
20
Statistik
2. Beschreibende Statistik
Beispiel 8
Zusammenfassung von 3 Stichproben
Aus einer Grundgesamtheit von Messobjekten sind drei Stichproben entnommen worden. Die
Auswertung der einzelnen Stichproben brachte folgende Ergebnisse ( ni ... Stichprobenumfang; xi ... arithmetisches Mittel; si ... Standardabweichung )
1. Stichprobe:
n1  45 ;
x1  29,30 ;
s1  4,52
2. Stichprobe:
n2  35 ;
x2  29,05 ;
s2  4,56
3. Stichprobe:
n3  70 ;
x3  29,24 ;
s3  4,48
Bestimmen Sie Stichprobenumfang, arithmetisches Mittel und Standardabweichung der
durch Zusammenfassung der drei Teilstichproben entstehenden Stichprobe.
Lösung: Mit (17), (18), (19*) erhält man
n  n1  n2  n3  150
x 
2
s 

n1  x1  n2  x2  n3  x3
45  29,30  35  29,05  70  29,24

 29,214
n
150

1
2
2
2
(n1  1)  s12  (n2  1)  s22  (n3  1)  s32  n1  ( x1  x )  n2  ( x2  x )  n3  ( x3  x )
n 1
1
149
 44  4,52
2
2
2
2
 35  (29,05  29,214)  70  (29,24  29,214)
 s2 
2
 34  4,56  69  4,48  45  (29,30  29,214) 
2992,0991
 20,081  s  4,481
149
21
2


Statistik
2.2
2. Beschreibende Statistik
Zweidimensionale Merkmale
2.2.1 Vorbetrachtungen / Korrelation – Regression
Im Abschnitt 2.1 wurden nur Messreihen bezüglich eines Merkmals untersucht: eine nStichprobe bestand aus n Realisierungen { x1, x2 , ... xn } einer eindimensionalen
Zufallsvariablen X.
Werden an jedem Untersuchungsobjekt gleichzeitig zwei Merkmale gemessen, so erhält man
eine Messreihe aus n Wertepaaren {( x1; y1), ( x2 ; y2 ), ... ( xn ; yn )} , die als Realisierungen eines
zweidimensionalen Zufallsvektors ( X ; Y ) aufgefasst werden können.
Neben der reinen Beschreibung der gemeinsamen Verteilung von X und Y in Diagrammen
und Tabellen interessiert man sich vor allem für die Frage, ob zwischen den beiden
Merkmalen eine Abhängigkeit besteht.
y
y
*
*
*
* **
*
*
*
y2
*
* *
y2
*
*
x
x2
*
*
x
x2
Zwei Fragen sind von Interesse :
-
Kann man den Grad der Abhängigkeit zwischen den Zufallsgrößen durch eine geeignete
Kennzahl „quantifizieren“
 Korrelationsrechnung
-
Kann man einen (näherungsweisen) funktionalen Zusammenhang zwischen
X und Y mathematisch formulieren
 Regressionsrechnung
Beispiele:
a)
b)
c)
d)
Objekt
Merkmal X
Merkmal Y
Schüler
Stahl
2 Würfel
Patient
Mathematik-Note
Siliziumgehalt
Augenzahl 1. W.
Alter
Physik-Note
Druckfestigkeit
Augenzahl 2. W.
Blutdruck
22
abhängig?
ja
?
nein
ja
Statistik
2. Beschreibende Statistik
2.2.2 Tabellarische und grafische Darstellung – Grundbegriffe
Die Urliste einer zweidimensionalen Stichprobe vom Umfang n enthält die n Wertepaare
( xi ; yi ) in der Reihenfolge ihrer Messung. Einen Überblick über die Verteilung erhält man
durch Eintragen der Messwertpaare als Punkte in ein rechtwinkliges x, y –Koordinatensystem:
-
bei einem streng funktionalen deterministischen Zusammenhang zwischen den
beiden Merkmalen liegen die Punkte auf einer wohldefinierten Kurve
-
bei einem stochastischen Zusammenhang, bei dem die Messwerte einander nicht
eindeutig zugeordnet werden können, sondern aufgrund von Zufallseinflüssen streuen,
bilden die Punkte eine Punktwolke oder ein Streudiagramm. Diese Punktwolke
vermittelt zwar nur einen ersten qualitativen Eindruck, lässt aber häufig bereits einen
Trend erkennen (vgl. Bsp. 9: größere x –Werte lassen auch größere y –Werte
erwarten).
Beispiel 9
Siliziumgehalt X in % und Druckfestigkeit Y in 10 Mpa einer Stahlsorte
Urliste:
( xi ; yi )
( xi ; yi )
( xi ; yi )
0,34
66,0
0,32
68,0
0,24
64,0
0,27
59,2
0,21
55,3
0,24
60,4
0,26
59,2
0,30
67,0
0,23
58,9
0,30
63,4
0,32
62,9
0,27
62,5
Übung: Tragen Sie die Werte der Tabelle im Koordinatensystem als Streudiagramm
(Punktwolke) ein.
y
x
23
Statistik
2. Beschreibende Statistik
Die n Wertepaare ( xi ; yi ) der Urliste sind nicht notwendig voneinander verschieden; einzelne
Messwertpaare können auch mehrmals auftreten. In Beispiel 10 wird gezeigt, wie man in
solchen Fällen die Daten mit Hilfe der Häufigkeiten der verschiedenen beobachteten
Messwerte weiter ordnen kann.
Die voneinander verschiedenen beobachteten x –Werte und y –Werte ordnet man der Größe
nach an und bezeichnet sie mit x j * und yk * :
(20)
x1*  x2 *  ...  x p *
y1*  y2 *  ...  yq *
x j*:
yk * :
( p  n)
(q  n)
{( x j *; yk *); j  1, 2, ... p ; k  1, 2, ... q } sind dann p  q voneinander verschiedene
beobachtbare Messwertpaare, die sich durch Berechnung ihrer Häufigkeiten weiter ordnen
lassen. Dazu werden folgende Bezeichnungen eingeführt:
n jk ... absolute Häufigkeit des Wertepaares ( x j *; yk * )
= Anzahl des Auftretens von ( x j *; y k * ) in der Stichprobe vom
Umfang n
(21)
h jk 
n jk
n
... relative Häufigkeit des Wertepaares ( x j *; y k * )
( j  1, 2, ... p ; k  1, 2, ... q )
mit den Eigenschaften
0  n jk  n
(22)
0  h jk  1
p
q

j 1 k 1
(23)
p
q
n jk  n
  h jk
 1
j  1 k 1
Summe aller absoluten Häufigkeiten
= Stichprobenumfang n
Summe aller relativen Häufigkeiten
=1
Die absoluten Häufigkeiten werden in der Korrelationstabelle (Mehrfeldertafel)
zusammengefasst (s. Beispiel 10).
24
Statistik
2. Beschreibende Statistik
Beispiel 10
i
Mathematik- und Physik-Noten von 25 Schülern
Math Phys
i
Math Phys
i
Math Phys
1
2
1
11
2
4
21
3
2
2
2
2
12
3
3
22
4
3
3
3
2
13
4
5
23
5
4
4
4
4
14
5
4
24
3
4
5
3
4
15
5
5
25
4
2
6
2
3
16
6
5
7
3
3
17
5
5
8
4
4
18
3
4
9
5
3
19
4
3
10
3
2
20
5
5
Darstellung der absoluten Häufigkeiten der verschiedenen Notenpaare in der
Korrelationstabelle:
x – Merkmal = Mathematiknote;
y – Merkmal = Physiknote
Physik-Note
Mathematik - Note


Letzte Spalte = Randverteilung der x – Werte = Verteilung der Mathematiknoten
Letzte Zeile = Randverteilung der y - Werte = Verteilung der Physiknoten
25
Statistik
2. Beschreibende Statistik
2.2.3 Maßzahlen einer zweidimensionalen Stichprobe
Gegeben sei eine zweidimensionale Stichprobe vom Umfang n bestehend aus den n
Wertepaaren
{ ( x1 ; y1 ), ( x2 ; y2 ), ... ( xn ; yn ) }
Betrachtet man x  Werte und y  Werte getrennt, so kann man wie in Abschnitt 2.1 die
arithmetischen Mittelwerte x und y sowie die empirischen Varianzen s x 2 und s y 2
definieren:
(24)
(25)
x
sx
2
1
n
n

i 1
y
xi ;
1
n
n

i 1
yi
1 n
1 n
2
2

( xi  x ) ; s y 
( yi  y ) 2


n  1 i 1
n  1 i 1
Interessiert man sich für den Zusammenhang zwischen X und Y , so benötigt man weitere
Maßzahlen. Eine solche Maßzahl, die auftritt bei der Berechnung einer „besten Geraden durch
eine Punktwolke { ( xi ; yi ) } “, also eine Aussage macht über den Grad der linearen
Abhängigkeit zwischen X und Y , ist die Kovarianz s xy :
(26)
s xy 
1 n
 ( xi  x )( yi  y )
n  1 i 1
Im Unterschied zu s x 2 und s y 2 die stets positiv sind, kann sxy positiv, negativ oder Null
sein. An nebenstehender Skizze mit der geometrischen Deutung der Produkte
( xi  x )( yi  y ) als Rechteckflächen kann man sich einige qualitative Aussagen
veranschaulichen:
sxy  0 :
zu großen x  Werten gehören überwiegend große y  Werte; die
„beste Gerade“ steigt
sxy  0 :
zu großen x  Werten gehören überwiegend kleine y  Werte; die
„beste Gerade“ fällt
sxy  0 :
keine Vorzugsrichtung, kein linearer Zusammenhang erkennbar; es gibt
keine „beste Gerade“
26
Statistik
2. Beschreibende Statistik
Deutung des Vorzeichens der Kovarianz
( xi  x )  ( yi  y ) . . . . Rechteckfläche
y
I
II
( xi / y i )

y
S 
III
IV
x
x
Punkte überwiegend in I oder III

sxy  0
Punkte überwiegend in II oder IV

sxy  0
Für quantitative Aussagen und für Vergleiche zwischen verschiedenen zweidimensionalen
Stichproben ist es notwendig, die dimensionsbehaftete Maßzahl s xy dimensionslos zu
machen und zu normieren. Man dividiert die Kovarianz s xy durch das Produkt der
Standardabweichungen s x und s y und erhält so eine skaleninvariante Maßzahl
(27)
rxy 
s xy
sx  s y
rxy heißt (empirischer) Korrelationskoeffizient .
27
Statistik
2. Beschreibende Statistik
Bemerkung:
Praktische Berechnung der Maßzahlen
In der „Vor-PC-Zeit“ lohnte es sich, die Definitionsgleichungen für Varianzen und
Kovarianzen etwas umzuformen. Führt man die entsprechenden Umformungen durch, die in
Abschnitt 2.1 zu einer vereinfachten Formel für die Varianz s 2 einer eindimensionalen
Stichprobe { xi } führten, so ergeben sich folgende Formeln zur vereinfachten Berechnung von
sx 2 , s y 2 und sxy :
( 28)
sx
2

1 
n  1 
( 29)
sy2

1 
n  1 

1 
n  1 
(30)
s xy

1 
 xi  n  x   n  1 
i 1



n
1 
2
2

y

n

y

 i

n  1 
i 1


n
2

2
1  n 
 xi  n    xi 
i 1
 i 1 
n
2
n
 yi 2
i 1

1 
 xi  yi  n  x  y   n  1 
i 1


n
2



2

1  n  
    yi  
n  i 1  

n

1 n
 xi  yi  n   xi   yi 
i 1
i 1
i 1 
n
Trägt man bei der Berechnung der Maßzahlen und der Regressionsgeraden von y bezüglich x
alle Zwischengrößen in einer Tabelle auf, so erhält man für die Daten in Beispiel 9 die
gewünschten Größen nach dem Schema auf Seite 34.
2.2.4 Regression bei zweidimensionalen Stichproben
2.2.4.1.
Lineare Regression / Ausgleichsgerade / Trendgerade
Gegeben:
Stichprobe { ( x ; y ) ; i  1, 2, ... n }
Gesucht:
„Beste Gerade“ durch die zugehörige ( x | y ) - Punktwolke
a)
i
i
i
i
Regressionsgerade von y bezüglich x
Man betrachtet x als unabhängige Variable, d.h. man möchte die gesuchte Geradengleichung
verwenden, um zu x - Werten y - Werte zu berechnen („Regression von y auf x “ =
Zurückschreiten bzw. Rückführung von y auf x ).
Im allgemeinen Ansatz für die Gerade
(31)
y  ax  b
bestimmt man die Koeffizienten a , b so, dass die Summe der Quadrate der vertikalen
Abstände zwischen den Punkten ( x | y ) und der Geraden möglichst klein wird (Bild a).
i
i
28
Statistik
2. Beschreibende Statistik
Aus der Forderung
n
(32)
Q1(a,b)   [ yi (a xi  b)]2  Minimum !
i 1
(Methode der kleinsten Fehlerquadrate) erhält man die notwendigen Bedingungen:
n
Q1
 2   (axi  b  yi )  xi  0
a
i 1
n
Q1
 2   (axi  b  yi )  0
b
i 1
Ausführlich ausgeschrieben ergeben die rechten Seiten dieser Bedingungen die so genannten
„Normalgleichungen“:
n
n
n
( xi2 )  a  ( xi )  b   xi yi
i 1
i 1
i 1
n
n
( xi )  a  n  b   yi
i 1
 xi  n  x
n
und
i 1
erhält man
(II)
i 1
n
Mit
(I)
 yi  n  y
i 1
n
n
i 1
i 1
(  xi2 )  a  n  x  b   xi yi
(Ia)
n x a  nb  n y
(IIa)
Multipliziert man (IIa) mit x und subtrahiert dann von (Ia) 
n
n
n
i 1
i 1
a  [(  xi2 )  n  x 2 ]   xi yi  n  x y
 a
 xi yi  n  xy
i 1
n
 xi2  n  x 2
i 1
Mit (28) und (30) erhält man dann für die Koeffizienten in der Geradengleichung (31)
(33)
a
s xy
sx
2
 rxy 
sy
sx
;
b  y a x
Dabei bedeutet die 2. Gleichung von (33), die unmittelbar aus (II) folgt, dass die Gerade mit
der Steigung m  a durch den „Schwerpunkt“ S ( x | y ) geht.
1
29
Statistik
2. Beschreibende Statistik
Bemerkung: Die Summen im linearen Gleichungssystem mit den Gleichungen (I) und (II)
(Koeffizienten von a und b) lassen sich tabellarisch auswerten; somit können mit den
ermittelten Zahlenwerten die Koeffizienten in der Geradengleichung (31) unmittelbar als
Lösung des Gleichungssystems ermittelt werden.
Beispiel 11

In der folgenden Tabelle sind n = 5 Wertepaare ( xi ; yi ) aufgelistet
xi
yi
xi2
xi  yi
0
-1
0
0
1
0
1
0
3
2
2
4
4
2
3
2
9
6
4
4
16
16
10
7
30
26
Mit (I) und (II) 
Bild a:
30a  10b  26
10a  5b  7
y
4
1
1

2
a = 1,2
3
,
4
x
b = -1
Regressionsgerade von y bezüglich x
y
y  ax  b
( x1; y1 )

v1
v2

( x2 ; y 2 )
x
„vertikaler Abstand“
vi  yi  yi  ( a xi  b )
Bedingung:
v12  v22  . . .  vn 2  Min !
( „Methode der kleinsten Fehler-Quadrate“ )
30
Statistik
2. Beschreibende Statistik
b) Regressionsgerade von x bezüglich y
Man betrachtet y als unabhängige Variable, d.h. man möchte die gesuchte Geradengleichung
verwenden, um zu y - Werten x - Werte zu berechnen („Regression von x auf y “ =
Zurückschreiten bzw. Rückführung von x auf y ).
Im allgemeinen Ansatz für die Gerade
x  cy  d
(34)
bestimmt man die Koeffizienten c , d so, dass die Summe der Quadrate der horizontalen
Abstände zwischen den Punkten ( x | y ) und der Geraden möglichst klein wird (Bild b).
i
i
Aus der Forderung
n
(35)
Q2 (c,d )   [ xi (c yi  d )]2  Minimum !
i 1
erhält man für die Koeffizienten der Geradengleichung (34)
(36)
c
sxy
sy
2
 rxy 
sx
sy
;
d  x c y
Setzt man diese Werte in den Ansatz (34) ein und löst nach y auf, so erhält man die
Regressionsgerade von x bezüglich y in der üblichen Form
(37)
1
d
y   x
c
c
Die gesuchte zweite Regressionsgerade geht also mit der Steigung m 
2
„Schwerpunkt“ S ( x | y ) .
Bild b:
1
durch den
c
Regressionsgerade von x bezüglich y
y
x cyd
( x1; y1 )

h1
h2

( x2 ; y 2 )
x
31
Statistik
2. Beschreibende Statistik
„horizontaler Abstand“
hi  xi  xi  ( c yi  d )
Bedingung:
h12  h2 2  . . .  hn 2  Min !
Sonderfälle:
1.
Wann fallen die beiden Geraden zusammen ?
Beide Geraden gehen durch S ; sie sind identisch, wenn ihre Steigungen gleich sind. Aus
1
a 
folgt a  c  1; mit (33) und (36) ergibt sich daraus
c
rxy 
sy
sx
 rxy 
sx
2
 rxy  1
sy
In diesem Fall liegen alle Punkte exakt auf einer Geraden !
2.
Wie liegen die Geraden, falls die Kovarianz Null ist ?
Mit s
xy
 0 folgt aus den entsprechenden Geradengleichungen:
(31), (33):
y  y
die Regressionsgerade von y auf x ist eine Parallele zur x -Achse
(34), (36):
x  x
die Regressionsgerade von x auf y ist eine Parallele zur y -Achse
d.h. die beiden Regressionsgeraden stehen aufeinander senkrecht
2.2.4.2. Eigenschaften des Korrelationskoeffizienten
Aus (26) folgt sxy  s yx und damit nach (27) auch rxy  ryx ; der Korrelationskoeffizient
1.
ist symmetrisch, die Reihenfolge der Indizes spielt keine Rolle.
Für das Minimum der „Gütefunktionen“ Q1 bzw. Q2 ergibt sich
2.
Qmin  (1  rxy 2 )
Da Q1, 2 nie negativ werden kann, folgt also
(38)
3.
 1  rxy   1
rxy  1 
Punkte liegen auf einer steigenden Geraden.
rxy  1 
Punkte liegen auf einer fallenden Geraden.
In beiden Fällen ist Qmin  0 .
Je näher rxy beim Wert 1 liegt, desto enger liegen die Punkte um eine Gerade.
32
Statistik
2. Beschreibende Statistik
rxy  0 : positive, gleichsinnige Korrelation; großen x  Werten entsprechen
überwiegend große y  Werte
rxy  0 : negative, gegensinnige Korrelation; großen x  Werten entsprechen
überwiegend kleine y  Werte
rxy  0 : unkorreliert
Ergebnis:
Der Korrelationskoeffizient rxy ist ein Maß für Richtung und Stärke des
linearen Zusammenhangs zwischen den Merkmalen X und Y
Veranschaulichung des Korrelationskoefizienten
y
y
rxy  1
rxy  0,6
x
y
x
y
rxy  0
rxy   0,9
x
x
33
Statistik
2. Beschreibende Statistik
Maßzahlen und Regressionsgerade zu Beispiel 9 (Seite 23)
i
xi
yi
xi2
yi2
xiyi
1
0,34
66,0
0,1156
4356,00
22,440
2
0,27
59,2
0,0729
3504,64
15,984
3
0,26
59,2
0,0676
3504,64
15,392
4
0,30
63,4
0,0900
4019,56
19,020
5
0,32
68,0
0,1024
4624,00
21,760
6
0,21
55,3
0,0441
3058,09
11,613
7
0,30
67,0
0,0900
4489,00
21,100
8
0,32
62,9
0,1024
3956,41
20,128
9
0,24
64,0
0,0576
4096,00
15,360
10
0,24
60,4
0,0576
3648,16
14,496
11
0,23
58,9
0,0529
3469,21
13,547
12
0,27
62,5
0,0729
3906,25
16,875
Σ
3,30
746,8
0,9260
46631,96
206,715
Aus den Werten der letzten Zeile ergeben sich die Maßzahlen
3,30
746,8
 0,275
y 
 62,233
12
12
1
1
2

( 0,9260   3,30 )  0,001682
 s x  0,041
11
12
1
1
2
 s y  3,77

( 46631,96   746,8 )  14,1915
11
12
x 
2
sx
2
sy
1
1
( 206,715   3,30  746,8 )  0,122273
11
12
s
xy
 rxy 
 0,791
sx  s y
s xy 
Die gesuchte Regressionsgerade von y bezüglich x hat nach (28), (33) die Gleichung
s xy
y  y  2  ( x  x )  . . .  72,70 x  42,25
s
x
Hinweis zum Diagramm
Gerade durch die Punkte S ( x / y )  (0,275 / 62,23 ) und P( 0,2 / 56,79 )
34
Statistik
2. Beschreibende Statistik
2.2.4.3. Nichtlineare Regression
In 2.2.4.1. wurde die Vermutung eines linearen Zusammenhangs zwischen den x- und yWerten zu Grunde gelegt. In vielen Problemen in der Praxis liegt jedoch die Vermutung
nahe, dass die Punkte ( xi ; yi ) , i  1,..., n nicht auf einer Regressionsgeraden sondern auf
einer Kurve eines anderen Typs – z.B. Polynom, Potenzfunktion, Exponentialfunktion –
liegen. Im Folgenden werden zwei Modelle betrachtet:
a) Polynomiale Regression
y  f ( x )  pn ( x ) 
n
 ak x k
(Polynom vom Grad n)
k 0
n
Die Methode der kleinsten Fehlerquadrate
Q   ( f ( xi )  yi ) 2
→
Minimum
i 1
führt auch hier zum Ziel. Die notwendigen Bedingungen
Q
 0 ergeben ein lineares
a k
Gleichungssystem für die Koeffizienten von a k von pn (x ) .
Übung: Stellen Sie das Gleichungssystem für die Koeffizienten a, b und c von
y  f ( x)  ax 2  bx  c
auf.
b) Exponentielle Regression (exponentielle Glättung)
y  f ( x )  a  e b x
Bei der Anwendung der Methode der kleinsten Fehlerquadrate empfiehlt es sich, zu einem
logarithmischen Maßstab überzugehen. (Andernfalls würde man ein nicht lineares
Gleichungssystem für die Parameter a und b erhalten!)
ln y  ln a  b  x
Aus der Forderung
n
n
~
Q(a, b)   (ln( f ( xi ))  ln yi )2   (ln a  b  xi  ln yi )2 → Minimum
i 1
i 1
35
Statistik
folgt mit
2. Beschreibende Statistik
~
~
Q
Q
 0 und
0
a
b
n
n
n  ln a  ( xi )  b   ln yi
i 1
n
und
i 1
n
n
( xi )  ln a  ( xi2 )  b   xi  ln yi
i 1
i 1
(*)
i 1
Lösung des Gleichungssystems (*) liefert die Parameter a und b.
Die Koeffizienten des Gleichungssystems (*) erhält man durch Summenbildung in der
nachstehenden Tabelle:
xi
yi
xi2
ln yi
36
xi  ln yi
Statistik
2.3.
2. Beschreibende Statistik
Aufgaben
1. Bei 20 Würfelversuchen ergaben sich der Reihe nach folgende Augenzahlen:
6 2 4 1 2 4 3 3 2
1 6 5 6 3 4 1 6 2 5 3
a) Erstellen Sie eine Häufigkeitstabelle und zeichnen Sie die zugehörigen Diagramme.
b) Wie groß sind Mittelwert und Standardabweichung
2. Berechnen Sie arithmetisches Mittel, Median und Standardabweichung der Stichprobe
218
220
223
218
217
224
225
223
3. Versuche zur Zugfestigkeit von Blechen ergaben folgende Werte (in N/mm2; durch
Runden liegt bereits eine Klasseneinteilung vor !)
440 430 410 440 440 430 440 420 450 430 430 440 450 460 410
420 450 410 440 440 430 440 460 410 430 450 450 420 440 440
a) Skizzieren Sie das Histogramm der Häufigkeitsdichte und die Verteilungsfunktion.
b) Berechnen Sie Mittelwert, Varianz und Standardabweichung.
4. Für die Lebensdauer eines bestimmten Haushaltgerätes ermittelte ein
Marktforschungsinstitut bei einer Stichprobe von n = 200 Geräten folgende Werte:
zwischen 0.5 und 2.5
Anzahl
2.5 und 3.5
3.5 und 5.5
5.5 und 6.5
6.5 und 9.5
Jahre
30
110
35
15
Geräte
10
Zeichnen Sie ein aussagekräftiges Histogramm, und ermitteln Sie den empirischen
Mittelwert x und die empirische Standardabweichung s .
5. Ein Bundesschatzbrief wird gemäß folgender Tabelle verzinst:
Jahr
1
2
3
4
Zinssatz
3,5
4
4,25 4,5
5
6
7
5
5,5
5,5
Wie groß ist die durchschnittliche Verzinsung?
37
Statistik
6.
2. Beschreibende Statistik
Die folgende Tabelle enthält den in den verschiedenen Stimmbezirken einer Stadt
von den „Grünen“ erzielte Stimmanteil:
Bezirk
Anteil der „Grünen“
gültiger Stimmanteil
I
3500
9,5 %
II
4900
10,1 %
III
4100
7,9 %
IV
2500
6,0 %
Welchen Stimmanteil (in Prozent) haben die „Grünen“ insgesamt in der Stadt errungen?
6. Von einer Stichprobe vom Umfang n = 30 wurden der arithmetische Mittelwert
x( n  30) = 15,8 und die Standardabweichung s(n=30) = 3,5 berechnet.
30
a) Berechnen Sie aus diesen Daten
 xi und
i 1
30
x
i 1
i
2
.
b) Nachträglich stellte sich heraus, dass die beiden Stichprobenwerte x31  16,5 und
x32  18,3 bei der Berechnung der Maßzahlen vergessen wurden. Ermitteln Sie den
arithmetischen Mittelwert x und die Standardabweichung s für die gesamte Stichprobe
vom Umfang n = 32 .
7. Die folgende Tabelle enthält die Mathematiknoten {xi} und die Chemienoten {yi} von
fünf Studierenden. Bestimmen Sie die beiden Regressionsgeraden und den Korrelationskoeffizienten. Zeichnen Sie die Regressionsgeraden.
xi
1
2
3
4
5
yi
1
1
3
2
3
38
Statistik
2. Beschreibende Statistik
8. Ein Statistiker hat aus einer zweidimensionalen Stichprobe
 ( xi , yi ) ;
i  1, ... n  die
beiden Regressionsgeraden berechnet:
y  0,02 x  0,44 ;
x  40,5 y  18,6
a) Ermitteln Sie den Schnittpunkt der beiden Geraden. Zeichnen Sie die beiden Geraden in
einem geeigneten ( x, y ) – Bereich.
b) Bestimmen Sie die arithmetischen Mittelwerte x und y sowie den Korrelationskoeffizienten r .
9. Die folgende Tabelle stellt den Zusammenhang zwischen Bremsweg y und
Geschwindigkeit x bei einer Notbremsung eines Kraftfahrzeugs dar:
Geschwindigkeit x
Bremsweg y
55
46
95
119
85
95
70
70
100 120
131 175
35
22
125
195
65
62
105
141
a) Ermitteln Sie die Regressionsfunktionen y  a  x  b und y  ax 2  bx  c
zwischen den Messwerten und zeichnen Sie diese mit den Messpunkten in ein
Koordinatensystem.
b) Welche Regressionskurve ist die bessere, und welche Fahrschulregel zur Berechnung
des Bremswegs lässt sich daraus ableiten?
10.
Zwischen den Messwerten in der Tabelle wird ein exponentieller Zusammenhang
vermutet:
x
y
0
2.25
1
0.9
2
0.5
3
0.35
4
0.1
a) Stellen Sie mit Hilfe der Methode der kleinsten Fehlerquadrate die Normalgleichungen
für die Regressionsfunktion y  f ( x)  a  e bx auf.
c) Ermitteln Sie die Werte a und b , und zeichnen Sie die Funktionskurve und die Messpunkte in ein Koordinatensystem.
39
Herunterladen