Grundlagen der Statistik

Werbung
Das virtuelle Bildungsnetzwerk für Textilberufe
Grundlagen der Statistik
© 2003 Hochschule Niederrhein
Autor: Prof. Dr. Rudi Voller
Stand: 20.01.20033
Seite 1 / 9
Grundlagen der Statistik
Unter einer Statistik versteht man eine Aufgliederung von Merkmalen einer Gesamtheit und
die Untersuchung ihrer Verteilung.
Merkmale sind z.B. Länge, Gewicht, Feinheit, Dehnung, Festigkeit, ...
Die Gesamtheit umfasst alle möglichen Einzelobjekte einer statistischen Untersuchung, die
Einzelobjekte werden manchmal auch Merkmalsträger oder – im Zusammenhang mit
Prüfungen - Messproben genannt.
Die Eigenschaften, die bei einer statistischen Untersuchung von Interesse sind, heißen
Merkmale. Die Ergebnisse einer statistischen Untersuchung werden daher auch
Merkmalsausprägungen genannt.
Die Auswertung einer Statistik ist an Skalen orientiert. Dabei unterscheidet man:
• Nominalskala
Benennbare Merkmale ohne Rangfolge wie Beruf,
Blutgruppe, Warenherkunftsland
Oft werden nur zwei Merkmalsausprägungen verwendet,
z.B.: schwarz/weiß oder männlich/weiblich.
• Ordinalskala
Die Merkmalsausprägungen geben ein Rangfolge wieder:
z.B.: heiß/warm/lau/kühl/kalt/eiskalt oder groß/mittel/klein
• Kardinalskala
Die Merkmalsausprägungen liegen als Zahlenwerte vor:
z.B.: Gewicht, Anzahl
Dabei können diskrete ("abzählbare") Ergebniswerte (z.B.
natürliche Zahlen) oder kontinuierliche ("überabzählbare")
Werte (meist reelle Zahlenintervalle) zugelassen sein.
Man
spricht in diesem Zusammenhang auch von diskreten bzw. kontinuierlichen
Merkmalen.
Beispiel: Grundgesamtheit: Tägliche Garnsortierung einer Ringspinnmaschine
Feinheit 20 tex)
Einzelobjekt (Merkmalträger):
Merkmal:
Merkmalausprägung:
Skala:
(Soll-
Kops
Feinheit (in tex).
Zahlenwerte zwischen 17,00 und 23,00
(kontinuierliche) Kardinalskala
Messbare Merkmale sind in der Regel kontinuierliche Merkmale. Ein statistisches
Experiment, also eine Prüfung oder Umfrage o.ä., wird entweder auf die Gesamtheit oder
einen Teil davon, der zufällig ausgewählt wurde, angewandt. Im letzten Fall spricht man von
einer Stichprobe. Die einzelnen Messwerte treten dabei unterschiedlich häufig auf und
bilden eine sogenannte Häufigkeitsverteilung. Die relative Häufigkeit (d.h. der Quotient aus
der Anzahl des Auftretens und dem Umfang des Experiments bzw. der Stichprobe) ist ein
ungefähres Maß für die Wahrscheinlichkeit dafür, dass der jeweilige Wert als Ergebnis
eintritt.
Das virtuelle Bildungsnetzwerk für Textilberufe
Grundlagen der Statistik
Stand: 20.01.20033
Seite 2 / 9
© 2003 Hochschule Niederrhein
Autor: Prof. Dr. Rudi Voller
Zur Auswertung einer Stichprobe sind bestimmte Parameter zu berechnen, die eine
Beurteilung der Ergebnisse ermöglichen. Dies sind neben den Häufigkeiten in erster
Linie die Lage- und die Streumaße.
Die Lagemaße sind die Bezugspunkte für die zentrale Lage der Ergebnisse. Sind die
Ergebnisse kardinal skaliert, d.h. liegen sie in Form von Messergebnissen vor, so
wird der Durchschnitt der Messwerte, also ihr arithmetisches Mittel als häufigstes
1 n
Lagemaß verwendet:
x = ∑ xi
n i=1
Dabei ist n der Umfang der Stichprobe, also die Anzahl der durchgeführten Messungen, und
die xi sind die einzelnen n Messwerte.
Der arithmetische Mittelwert ist gleichzeitig ein Schätzwert für den Erwartungswert µ der
Grundgesamtheit, das ist der "im Mittel" zu erwartende Wert des Experiments, gleichsam der
Durchschnittswert bezogen auf die Grundgesamtheit. Die Schätzung ist in der Regel umso
genauer je größer der Stichprobenumfang ist.
Neben dem arithmetischen Mittelwert ist der Median ein weiteres, häufig
verwendetes Lagemaß. Der Median wird wie folgt bestimmt: Man ordnet zunächst die
Messergebnisse der Größe nach. Ist der Stichprobenumfang eine ungerade Zahl, so
ist der Median der genau in der Mitte der geordneten Stichprobe liegende Wert, ist
der Umfang gerade, so bildet der Durchschnitt der beiden in der Mitte liegende Werte
den Median.
Der Median ist anders als der Mittelwert unabhängig vom Abstand zu den einzelnen
Messwerten und daher unempfindlich gegen sogenannte Ausreißer, das sind
Messwerte, die um mehr als die vierfache Standardabweichung vom Mittelwert
entfernt sind. Außerdem kann der Median auch bei ordinal skalierten Merkmalen
verwendet werden.
Das dritte wichtige Lagemaß ist der sogenannte Modalwert, das ist der Wert unter den
Messergebnissen, der am häufigsten vorkommt. Wie der Median ist auch der Modalwert
unabhängig von der Entfernung zu den einzelnen Messwerten. Der Modalwert ist zwar nicht
immer eindeutig bestimmt, aber er kann auch für ordinal und nominal skalierte Merkmale
verwendet werden.
Neben der Lage einer Stichprobe ist auch die Streuung der Messwerte von großer
Bedeutung für die Auswertung und Analyse der Daten. Die Streuung wird durch die
sogenannten Streumaße beschrieben. Die wichtigsten sind:
Die Spannweite, das ist die Differenz zwischen dem größten und dem kleinsten Wert einer
Stichprobe . Die Spannweite gibt also die maximale Streuung der Messwerte an.
Häufiger als die Spannweite werden die Streumaße Varianz und Standardabweichung
verwendet. Dabei ist die Varianz das Quadrat der Standardabweichung und wird wie folgt
berechnet:
s2 =
1 n
∑ (x − x i )2
n − 1 i =1
Das virtuelle Bildungsnetzwerk für Textilberufe
Grundlagen der Statistik
Stand: 20.01.20033
Seite 3 / 9
© 2003 Hochschule Niederrhein
Autor: Prof. Dr. Rudi Voller
Die Stichprobenstandardabweichung ist ein Schätzwert für die Standardabweichung σ der
Grundgesamtheit, das ist die im Mittel zu erwartende Streuung der Ergebnisse eines
statistischen Experiments um den Erwartungswert. Auch dieser Schätzwert wird in der Regel
immer genauer, je größer der Stichprobenumfang ist.
Ein wichtiges Qualitätsmerkmal textiler Produkte ist der Variationskoeffizient, meist cv-Wert
genannt. Dieser wird als Quotient der Stichprobenstandardabweichung und des arithmetischen Mittels berechnet und meist als Prozentzahl angegeben. Der Variationskoeffizient
kann also auch als relative Streuung bezeichnet werden.
Beispiel:
Aus der täglichen Garnsortierung einer Ringspinnmaschine werden 10 Kopse zufällig
ausgewählt. Die Soll-Feinheit betrage 20 tex.
Kops Nr.
Feinheit [ tex ]
(xi - x)2
1
2
3
4
5
6
7
8
9
10
20.5
0.16
20.1
0.0
20.0
0.01
20.1
0.0
19.9
0.04
20.1
0.0
20.0
0.01
20.0
0.01
20.3
0.04
20.0
0.01
s 2 = 0.031
x = 20.1
s = 0.176
cv = 0.88 %
Der Median ist in diesem Fall 20,05 , der Modalwert 20,0 ,
die Spannweite beträgt 20.5 - 19.9 = 0,6 .
Unter der absoluten Häufigkeit nj eines Wertes versteht man die Anzahl seines Auftretens
in einer Stichprobe, seine relative Häufigkeit hj ist gegeben durch hj = nj/n.
Wert
nj
hj
fj
19.9
1
0.1
0.1
20.0
4
0.4
0.5
20.1
3
0.3
0.8
20.2
0
0
0.8
20.3
1
0.1
0.9
20.4
0
0
0.9
20.5
1
0.1
1
Die fj sind die aufsummierten relativen Häufigkeiten: fj = h1 + h2 + . . . + hj , sie werden auch
kumulierte Häufigkeiten genannt.
Grafische Darstellung der relativen Häufigkeiten (in %) als Säulendiagramm:
40%
35%
30%
25%
20%
15%
10%
5%
0%
19,9 20,0
20,1 20,2 20,3 20,4 20,5
Das virtuelle Bildungsnetzwerk für Textilberufe
Grundlagen der Statistik
Stand: 20.01.20033
Seite 4 / 9
© 2003 Hochschule Niederrhein
Autor: Prof. Dr. Rudi Voller
Bei kontinuierlichen Merkmalen und zur besseren Übersicht bei vielen Messwerten
(insbesondere wenn geringe absolute Häufigkeiten vorliegen) fasst man die Ergebnisse in
sogenannten Klassen zusammen. Zur vereinfachten Auswertung berechnet man die
statistischen Parameter dann nicht aus den einzelnen Messwerten, sondern aus den
Klassenmitten oder Klassenmittelwerten, d.h. man ersetzt die in eine bestimmte Klasse
fallenden Messwerte durch die jeweilige Klassenmitte bzw. den Klassenmittelwert.
Beispiel:
Bei der Prüfung der Festigkeit eines Kammgarns ist eine Stichprobe vom Umfang
n = 50 erhoben worden, die Werte werden in 11 Klassen der Breite w = 20
zusammengefasst.
Klassengrenzen
ab 280
ab 300
ab 320
ab 340
ab 360
ab 380
ab 400
ab 420
ab 440
ab 460
ab 480
w = 20
Klassenmitte ak
290
310
330
350
370
390
410
430
450
470
490
a = 390
Strichliste
|
||
||
|||| ||||||||
|||| |||
|||| ||||
||||
||||
||
|
x = 397,6
Absolute
Häufigkeit nk
Klassennummer z k
1
0
2
2
14
8
10
5
5
2
1
n = 50
s 2 = 1549,4
-5
-4
-3
-2
-1
0
1
2
3
4
5
nk zk
nk zk 2
-5
25
-6
-4
-14
18
8
14
10
10
15
8
5
A = 19
10
20
45
32
25
B = 197
s = 39,4
Dabei ist w = 20 die (konstante) Klassenweite, ak die Klassenmitte der k-ten Klasse. Bei der
Klassennummernmethode erhält die mittlere Klasse (oder die Klasse mit der höchsten
Häufigkeit) die Klassennummer 0, ihre Klassenmitte den Wert a, die übrige Nummerierung
kann man der Beispieltabelle entnehmen. Sie genügt der Formel:
z k = (ak - a)/w.
Mit den Hilfsgrößen A und B (siehe Tabelle: Spaltensummen) berechnet man dann Mittelwert
und Varianz nach den Formeln:
2
x = a + w A/n und s =
2
w
_____
n-1
(B -
___A
2
)
n
Die Ergebnisse werden als Säulendiagramm dargestellt, das bei einer Klassenauswertung
Histogramm genannt wird.
In der Praxis werden gelegentlich auch unregelmäßige Klassenweiten verwendet, die an die
Ergebnisse und Problemstellung angepasst sind.
Das virtuelle Bildungsnetzwerk für Textilberufe
Grundlagen der Statistik
Stand: 20.01.20033
Seite 5 / 9
© 2003 Hochschule Niederrhein
Autor: Prof. Dr. Rudi Voller
Klassenhistogramm zum beschriebenen Beispiel:
16
Auf der x-Achse werden
statt der relativen Klassennummern häufig die
Klassenmitten
aufgetragen, auf der y-Achse statt
der absoluten oft die
relativen Häufigkeiten (in
Prozent).
14
12
10
8
6
4
2
0
-5
-4
-3
-2
-1
0
1
2
3
4
5
.
Klasseneinteilung nach DIN:
< 100 Werte:
101 - 1000 Werte:
1001 - 10000 Werte:
10001-100000 Werte:
mindestens 10 Klassen
mindestens 13 Klassen
mindestens 16 Klassen
mindestens 20 Klassen
Bei kontinuierlichen Merkmalen beschreibt eine sogenannte Dichtefunktion die
Wahrscheinlichkeit dafür, dass ein Wert in einem entsprechenden Zahlenbereich liegt. Die
wichtigste Dichtefunktion ist die wegen ihrer Form "Gaussche Glockenkurve" genannte
Dichtefunktion der Normalverteilung, und zwar deshalb, weil man bei genügend großem
Stichprobenumfang stets von einer normalverteilten
1
Größe ausgehen kann.
Die Kurve nimmt ihr Maximum für den Erwartungswert µ
an, die Wendepunkte, das sind die Punkte, in denen die
Krümmung ihre Orientierung ändert, sind µ - σ und
µ + σ. Die Wahrscheinlichkeit dafür, dass ein Messwert
0.5
zwischen zwei Zahlen liegt, wird durch den Inhalt der
Fläche angegeben, die die Glockenkurve zwischen
diesen Zahlen – auf der waagerechten Achse
eingetragen - mit dieser Achse einschließt.
Mathematisch wird dieser Sachverhalt durch ein Integral
2
0
2
ausgedrückt:
p(a ≤
b
1
a
σ 2π
X ≤ b) = ∫ δ(x ) dx wobei δ(x; µ, σ) =
1 x −µ 
− 

2 σ 
e
die Dichtefunktion der
Normalverteilung ist. Die auf der waagerechten Achse abgetragenen Zahlenwerte nennt man
die Quantile (der Normalverteilung).
Liegt bei einem statistischen Experiment eine Normalverteilung vor, so liegen 68,3% der
Ergebnisse im Intervall [µ - σ , µ + σ], 95,4% im Intervall [µ - 2σ , µ + 2σ] und 99,7% im
Intervall [µ - 3σ , µ + 3σ]. Die gilt näherungsweise auch, wenn man µ durch x und σ durch s
ersetzt. Werte außerhalb des Intervalls [µ - 6σ , µ + 6σ] bezeichnet man als Ausreißer.
Das virtuelle Bildungsnetzwerk für Textilberufe
Grundlagen der Statistik
Stand: 20.01.20033
Seite 6 / 9
© 2003 Hochschule Niederrhein
Autor: Prof. Dr. Rudi Voller
Kann man bei einer statistischen Untersuchung von einer bestimmten Verteilung ausgehen,
dann lassen sich sogenannte Vertrauensbereiche für viele statistische Parameter angeben.
Dazu legt man vorab eine Irrtumswahrscheinlichkeit α fest, die angibt, mit welcher
Wahrscheinlichkeit der betrachtete Parameter außerhalb des Vertrauensbereíches liegt, γ =
1 - α nennt man die entsprechende Sicherheitswahrscheinlichkeit.
Für den arithmetischen Mittelwert und die Standardabweichung einer Stichprobe, bei deren
Auswertung von einer Normalverteilung ausgegangen werden kann, sind die
Vertrauensbereiche wie folgt gegeben:
x − tn− 1;α / 2
s
n
< µ < x + tn− 1;α / 2
s
n
und
s
n −1
χ
2
1−α /2;m
≤σ≤s
n−1
χ2 α /2;m
2
α;m
Die tm;α / 2 und χ
sind dabei die Quantile der t- bzw. χ 2-Verteilung, zwei weiterer
kontinuierlicher Verteilungen, die in tabellierter Form in den meisten Statistikbüchern zu
finden sind. In Excel kann man die Quantile mit den Funktionen TINV bzw. CHIINV
bestimmen. In den Formeln ist n jeweils der Stichprobenumfang, m = n-1 gibt die Zahl der
Freiheitsgrade an.
Beispiel (Fortsetzung):
Für das obige Beispiel der Feinheitskontrolle mit dem Mittelwert 20,1 und der
Statndardabweichung 0,176 ergeben sich bei einer Irrtumswahrscheinlichkeit von 5% die
Vertrauensbereiche
[19,974 ; 20,226] für den Erwartungswert, wobei n = 10 und t 9;0,025= 3,262
[0,121 ; 0,322] für die Standardabweichung mit χ
2
0,025;9
= 2,700 und χ
2
0,975;9
= 19,023.
Für Qualitätskontrollen werden manchmal auch die Weiten der Vertrauensbereiche
vorgegeben. Zur Erreichung solcher Vorgaben ist häufig ein großer Stichprobenumfang
nötig.
Die Bestimmung der Vertrauensbereiche dient zur Kontrolle, beispielsweise ob sie
vorgegebene Sollwerte enthalten. Sie lassen sich in Prüfgrößen für statistische Tests
umrechnen und werden zur Bestimmung von Warn-/Fehlergrenzen bei Qualitätsregelkarten
verwendet.
Bislang haben wir nur Stichproben für ein Merkmal betrachtet. In der statistischen
Anwendung ist es aber häufig wichtig, mehrere Merkmale auf ihre Zusammenhänge zu
untersuchen. Qualitativ geschieht dies durch die Untersuchung der Kovarianz bzw. der
Korrelation der Merkmale, quantitativ wird dies durch Regressionskurven beschrieben.
Das virtuelle Bildungsnetzwerk für Textilberufe
Grundlagen der Statistik
Stand: 20.01.20033
Seite 7 / 9
© 2003 Hochschule Niederrhein
Autor: Prof. Dr. Rudi Voller
Sind bei einer Stichprobe zwei Merkmale x und y untersucht worden, so berechnet man die
empirische Kovarianz durch die Formel:
s xy =
1 n
∑ ( xi − x)(y i − y)
n − 1 i=1
Ihr Wert liegt zwischen -∞ und ∞ und ist daher nicht sehr aussagekräftig, für die Praxis
besser geeignet ist der empirische Korrelationskoeffizient
rxy =
sxy
sx sy
=
∑ (x − x)(y − y)
i
i
i
∑ (x − x) ∑ ( y − y)
2
2
i
i
i
i
der Werte zwischen –1 und 1 annimmt und folgendermaßen interpretiert wird:
Man nennt die Merkmale x und y
positiv korreliert, wenn rxy nahe bei 1 liegt,
negativ korreliert, wenn rxy nahe bei –1 liegt,
unkorreliert, wenn rxy in der Nähe von 0 liegt.
rxy ist ein Maß für die Güte der Korrelation, man spricht auch von der "Straffheit" des
Zusammenhangs zwischen den Merkmalen.
Beispiel
Zusammenhang zwischen Knitterwinkel und Scheuertüchtigkeit von Zellwollgeweben
An einer Reihe von knitterecht ausgerüsteten Zellwollgeweben war zur Bewertung der
Knitterwinkel nach DIN EN 22313 ermittelt worden. Gleichzeitig erfolgte auf einem
Rundscheuergerät eine Überprüfung der Scheuertüchtigkeit dieser Gewebe, wobei die
Anzahl der Scheuertouren bis zum ersten Auftreten einer Verletzung ermittelt wurde.
Gewebe-nr.
1
2
3
4
5
6
7
Knitterwinkel xi
124
143
125
146
138
127
125
Zahl der Scheuertouren yi
576
223
405
300
480
448
469
x = 132.6
y = 414.4
r xy = −0.76
Die Merkmale sind negativ korreliert, d.h. je größer der Knitterwinkel desto eher tritt ein
Gewebeschaden auf.
Das virtuelle Bildungsnetzwerk für Textilberufe
Grundlagen der Statistik
Stand: 20.01.20033
Seite 8 / 9
© 2003 Hochschule Niederrhein
Autor: Prof. Dr. Rudi Voller
Ist rxy = 1, so liegen die Punkte (xi,yi) auf einer Geraden mit positiver Steigung, ist rxy = -1, so
liegen die Punkte (xi,yi) auf einer Geraden mit negativer Steigung. Andernfalls ist man daran
interessiert, ob die Punktwolke in etwa durch eine Gerade angenähert werden kann. Man
konstruiert die Gerade y = ax + b so, dass die Summe der Abstandsquadrate (yi – axi - b)2
minimal wird, die Gerade nennt man die Regressionsgerade , das Verfahren "Lineare
Regression".
∑ (x − x)(y − y)
Für den empirischen Regressionskoeffizienten a gilt: a =
∑ (x − x)
i
i
i
2
i
i
( )
Der durch die Mittelwerte bestimmte Punkt x,y liegt stets auf dieser Geraden.
Daher gilt außerdem: b = y − ax .
700
Für das umseitige Beispiel ergibt sich:
600
y = -9,47⋅x + 1669,5
500
Das Ergebnis ist wegen der wenigen
Messwerte allerdings mit einer gewissen
Vorsicht zu betrachten und sollte einer
statistischen Analyse (t-Test mit ZTransformation nach Fisher) unterzogen
werden.
400
300
200
100
0
120
125
130
135
140
145
150
Neben der sogenannten "Maßkorrelation" für normalverteilte Stichproben gibt es
verteilungsfreie Auswertungsverfahren, die sogenannte "Rangkorrelation".
Hierbei werden die Stichproben nicht durch die Messwerte selbst, sondern durch deren
Reihenfolge bewertet. Diese Rangfolgen werden für die beiden Merkmale in Bezug
zueinander gesetzt und daraus Rangkorrelationskoeffizienten berechnet, meist nach
Spearman oder Kendall. Man kann die Rangkorrelation also auch auf ordinalskalierte
Merkmale anwenden.
Der Spearmansche Rangkorrelationskoeffizient ergibt sich bei einem Stichprobenumfang
n
∑ (u − v )
2
von n durch ui ∈ {1,...,n} und v i ∈ {1,...,n} zu rs = 1 − 6
i=1
i
i
n(n2 − 1)
Auch rs liegt zwischen -1 und 1, wobei 1 völlige Übereinstimmung in den Rängen und -1
genau gegenläufige Rangfolgen bedeutet.
Das virtuelle Bildungsnetzwerk für Textilberufe
Grundlagen der Statistik
Stand: 20.01.20033
Seite 9 / 9
© 2003 Hochschule Niederrhein
Autor: Prof. Dr. Rudi Voller
Beispiel:
Zwei Prüfer beurteilen den Griff von sieben Gewebeproben durch folgende Rangfolgen:
Probe
1
2
3
4
5
6
7
1. Prüfer(ui)
3
1
2
4
5
7
6
2. Prüfer(vi)
3
2
1
5
6
7
4
ui - vi
0
-1
1
-1
-1
0
2
(ui - vi)2
0
1
1
1
1
0
4
rs = 1 − 6
8
= 0,857
7( 49 − 1)
Es liegt offenbar eine positive Korrelation vor.
Herunterladen