Das virtuelle Bildungsnetzwerk für Textilberufe Grundlagen der Statistik © 2003 Hochschule Niederrhein Autor: Prof. Dr. Rudi Voller Stand: 20.01.20033 Seite 1 / 9 Grundlagen der Statistik Unter einer Statistik versteht man eine Aufgliederung von Merkmalen einer Gesamtheit und die Untersuchung ihrer Verteilung. Merkmale sind z.B. Länge, Gewicht, Feinheit, Dehnung, Festigkeit, ... Die Gesamtheit umfasst alle möglichen Einzelobjekte einer statistischen Untersuchung, die Einzelobjekte werden manchmal auch Merkmalsträger oder – im Zusammenhang mit Prüfungen - Messproben genannt. Die Eigenschaften, die bei einer statistischen Untersuchung von Interesse sind, heißen Merkmale. Die Ergebnisse einer statistischen Untersuchung werden daher auch Merkmalsausprägungen genannt. Die Auswertung einer Statistik ist an Skalen orientiert. Dabei unterscheidet man: • Nominalskala Benennbare Merkmale ohne Rangfolge wie Beruf, Blutgruppe, Warenherkunftsland Oft werden nur zwei Merkmalsausprägungen verwendet, z.B.: schwarz/weiß oder männlich/weiblich. • Ordinalskala Die Merkmalsausprägungen geben ein Rangfolge wieder: z.B.: heiß/warm/lau/kühl/kalt/eiskalt oder groß/mittel/klein • Kardinalskala Die Merkmalsausprägungen liegen als Zahlenwerte vor: z.B.: Gewicht, Anzahl Dabei können diskrete ("abzählbare") Ergebniswerte (z.B. natürliche Zahlen) oder kontinuierliche ("überabzählbare") Werte (meist reelle Zahlenintervalle) zugelassen sein. Man spricht in diesem Zusammenhang auch von diskreten bzw. kontinuierlichen Merkmalen. Beispiel: Grundgesamtheit: Tägliche Garnsortierung einer Ringspinnmaschine Feinheit 20 tex) Einzelobjekt (Merkmalträger): Merkmal: Merkmalausprägung: Skala: (Soll- Kops Feinheit (in tex). Zahlenwerte zwischen 17,00 und 23,00 (kontinuierliche) Kardinalskala Messbare Merkmale sind in der Regel kontinuierliche Merkmale. Ein statistisches Experiment, also eine Prüfung oder Umfrage o.ä., wird entweder auf die Gesamtheit oder einen Teil davon, der zufällig ausgewählt wurde, angewandt. Im letzten Fall spricht man von einer Stichprobe. Die einzelnen Messwerte treten dabei unterschiedlich häufig auf und bilden eine sogenannte Häufigkeitsverteilung. Die relative Häufigkeit (d.h. der Quotient aus der Anzahl des Auftretens und dem Umfang des Experiments bzw. der Stichprobe) ist ein ungefähres Maß für die Wahrscheinlichkeit dafür, dass der jeweilige Wert als Ergebnis eintritt. Das virtuelle Bildungsnetzwerk für Textilberufe Grundlagen der Statistik Stand: 20.01.20033 Seite 2 / 9 © 2003 Hochschule Niederrhein Autor: Prof. Dr. Rudi Voller Zur Auswertung einer Stichprobe sind bestimmte Parameter zu berechnen, die eine Beurteilung der Ergebnisse ermöglichen. Dies sind neben den Häufigkeiten in erster Linie die Lage- und die Streumaße. Die Lagemaße sind die Bezugspunkte für die zentrale Lage der Ergebnisse. Sind die Ergebnisse kardinal skaliert, d.h. liegen sie in Form von Messergebnissen vor, so wird der Durchschnitt der Messwerte, also ihr arithmetisches Mittel als häufigstes 1 n Lagemaß verwendet: x = ∑ xi n i=1 Dabei ist n der Umfang der Stichprobe, also die Anzahl der durchgeführten Messungen, und die xi sind die einzelnen n Messwerte. Der arithmetische Mittelwert ist gleichzeitig ein Schätzwert für den Erwartungswert µ der Grundgesamtheit, das ist der "im Mittel" zu erwartende Wert des Experiments, gleichsam der Durchschnittswert bezogen auf die Grundgesamtheit. Die Schätzung ist in der Regel umso genauer je größer der Stichprobenumfang ist. Neben dem arithmetischen Mittelwert ist der Median ein weiteres, häufig verwendetes Lagemaß. Der Median wird wie folgt bestimmt: Man ordnet zunächst die Messergebnisse der Größe nach. Ist der Stichprobenumfang eine ungerade Zahl, so ist der Median der genau in der Mitte der geordneten Stichprobe liegende Wert, ist der Umfang gerade, so bildet der Durchschnitt der beiden in der Mitte liegende Werte den Median. Der Median ist anders als der Mittelwert unabhängig vom Abstand zu den einzelnen Messwerten und daher unempfindlich gegen sogenannte Ausreißer, das sind Messwerte, die um mehr als die vierfache Standardabweichung vom Mittelwert entfernt sind. Außerdem kann der Median auch bei ordinal skalierten Merkmalen verwendet werden. Das dritte wichtige Lagemaß ist der sogenannte Modalwert, das ist der Wert unter den Messergebnissen, der am häufigsten vorkommt. Wie der Median ist auch der Modalwert unabhängig von der Entfernung zu den einzelnen Messwerten. Der Modalwert ist zwar nicht immer eindeutig bestimmt, aber er kann auch für ordinal und nominal skalierte Merkmale verwendet werden. Neben der Lage einer Stichprobe ist auch die Streuung der Messwerte von großer Bedeutung für die Auswertung und Analyse der Daten. Die Streuung wird durch die sogenannten Streumaße beschrieben. Die wichtigsten sind: Die Spannweite, das ist die Differenz zwischen dem größten und dem kleinsten Wert einer Stichprobe . Die Spannweite gibt also die maximale Streuung der Messwerte an. Häufiger als die Spannweite werden die Streumaße Varianz und Standardabweichung verwendet. Dabei ist die Varianz das Quadrat der Standardabweichung und wird wie folgt berechnet: s2 = 1 n ∑ (x − x i )2 n − 1 i =1 Das virtuelle Bildungsnetzwerk für Textilberufe Grundlagen der Statistik Stand: 20.01.20033 Seite 3 / 9 © 2003 Hochschule Niederrhein Autor: Prof. Dr. Rudi Voller Die Stichprobenstandardabweichung ist ein Schätzwert für die Standardabweichung σ der Grundgesamtheit, das ist die im Mittel zu erwartende Streuung der Ergebnisse eines statistischen Experiments um den Erwartungswert. Auch dieser Schätzwert wird in der Regel immer genauer, je größer der Stichprobenumfang ist. Ein wichtiges Qualitätsmerkmal textiler Produkte ist der Variationskoeffizient, meist cv-Wert genannt. Dieser wird als Quotient der Stichprobenstandardabweichung und des arithmetischen Mittels berechnet und meist als Prozentzahl angegeben. Der Variationskoeffizient kann also auch als relative Streuung bezeichnet werden. Beispiel: Aus der täglichen Garnsortierung einer Ringspinnmaschine werden 10 Kopse zufällig ausgewählt. Die Soll-Feinheit betrage 20 tex. Kops Nr. Feinheit [ tex ] (xi - x)2 1 2 3 4 5 6 7 8 9 10 20.5 0.16 20.1 0.0 20.0 0.01 20.1 0.0 19.9 0.04 20.1 0.0 20.0 0.01 20.0 0.01 20.3 0.04 20.0 0.01 s 2 = 0.031 x = 20.1 s = 0.176 cv = 0.88 % Der Median ist in diesem Fall 20,05 , der Modalwert 20,0 , die Spannweite beträgt 20.5 - 19.9 = 0,6 . Unter der absoluten Häufigkeit nj eines Wertes versteht man die Anzahl seines Auftretens in einer Stichprobe, seine relative Häufigkeit hj ist gegeben durch hj = nj/n. Wert nj hj fj 19.9 1 0.1 0.1 20.0 4 0.4 0.5 20.1 3 0.3 0.8 20.2 0 0 0.8 20.3 1 0.1 0.9 20.4 0 0 0.9 20.5 1 0.1 1 Die fj sind die aufsummierten relativen Häufigkeiten: fj = h1 + h2 + . . . + hj , sie werden auch kumulierte Häufigkeiten genannt. Grafische Darstellung der relativen Häufigkeiten (in %) als Säulendiagramm: 40% 35% 30% 25% 20% 15% 10% 5% 0% 19,9 20,0 20,1 20,2 20,3 20,4 20,5 Das virtuelle Bildungsnetzwerk für Textilberufe Grundlagen der Statistik Stand: 20.01.20033 Seite 4 / 9 © 2003 Hochschule Niederrhein Autor: Prof. Dr. Rudi Voller Bei kontinuierlichen Merkmalen und zur besseren Übersicht bei vielen Messwerten (insbesondere wenn geringe absolute Häufigkeiten vorliegen) fasst man die Ergebnisse in sogenannten Klassen zusammen. Zur vereinfachten Auswertung berechnet man die statistischen Parameter dann nicht aus den einzelnen Messwerten, sondern aus den Klassenmitten oder Klassenmittelwerten, d.h. man ersetzt die in eine bestimmte Klasse fallenden Messwerte durch die jeweilige Klassenmitte bzw. den Klassenmittelwert. Beispiel: Bei der Prüfung der Festigkeit eines Kammgarns ist eine Stichprobe vom Umfang n = 50 erhoben worden, die Werte werden in 11 Klassen der Breite w = 20 zusammengefasst. Klassengrenzen ab 280 ab 300 ab 320 ab 340 ab 360 ab 380 ab 400 ab 420 ab 440 ab 460 ab 480 w = 20 Klassenmitte ak 290 310 330 350 370 390 410 430 450 470 490 a = 390 Strichliste | || || |||| |||||||| |||| ||| |||| |||| |||| |||| || | x = 397,6 Absolute Häufigkeit nk Klassennummer z k 1 0 2 2 14 8 10 5 5 2 1 n = 50 s 2 = 1549,4 -5 -4 -3 -2 -1 0 1 2 3 4 5 nk zk nk zk 2 -5 25 -6 -4 -14 18 8 14 10 10 15 8 5 A = 19 10 20 45 32 25 B = 197 s = 39,4 Dabei ist w = 20 die (konstante) Klassenweite, ak die Klassenmitte der k-ten Klasse. Bei der Klassennummernmethode erhält die mittlere Klasse (oder die Klasse mit der höchsten Häufigkeit) die Klassennummer 0, ihre Klassenmitte den Wert a, die übrige Nummerierung kann man der Beispieltabelle entnehmen. Sie genügt der Formel: z k = (ak - a)/w. Mit den Hilfsgrößen A und B (siehe Tabelle: Spaltensummen) berechnet man dann Mittelwert und Varianz nach den Formeln: 2 x = a + w A/n und s = 2 w _____ n-1 (B - ___A 2 ) n Die Ergebnisse werden als Säulendiagramm dargestellt, das bei einer Klassenauswertung Histogramm genannt wird. In der Praxis werden gelegentlich auch unregelmäßige Klassenweiten verwendet, die an die Ergebnisse und Problemstellung angepasst sind. Das virtuelle Bildungsnetzwerk für Textilberufe Grundlagen der Statistik Stand: 20.01.20033 Seite 5 / 9 © 2003 Hochschule Niederrhein Autor: Prof. Dr. Rudi Voller Klassenhistogramm zum beschriebenen Beispiel: 16 Auf der x-Achse werden statt der relativen Klassennummern häufig die Klassenmitten aufgetragen, auf der y-Achse statt der absoluten oft die relativen Häufigkeiten (in Prozent). 14 12 10 8 6 4 2 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 . Klasseneinteilung nach DIN: < 100 Werte: 101 - 1000 Werte: 1001 - 10000 Werte: 10001-100000 Werte: mindestens 10 Klassen mindestens 13 Klassen mindestens 16 Klassen mindestens 20 Klassen Bei kontinuierlichen Merkmalen beschreibt eine sogenannte Dichtefunktion die Wahrscheinlichkeit dafür, dass ein Wert in einem entsprechenden Zahlenbereich liegt. Die wichtigste Dichtefunktion ist die wegen ihrer Form "Gaussche Glockenkurve" genannte Dichtefunktion der Normalverteilung, und zwar deshalb, weil man bei genügend großem Stichprobenumfang stets von einer normalverteilten 1 Größe ausgehen kann. Die Kurve nimmt ihr Maximum für den Erwartungswert µ an, die Wendepunkte, das sind die Punkte, in denen die Krümmung ihre Orientierung ändert, sind µ - σ und µ + σ. Die Wahrscheinlichkeit dafür, dass ein Messwert 0.5 zwischen zwei Zahlen liegt, wird durch den Inhalt der Fläche angegeben, die die Glockenkurve zwischen diesen Zahlen – auf der waagerechten Achse eingetragen - mit dieser Achse einschließt. Mathematisch wird dieser Sachverhalt durch ein Integral 2 0 2 ausgedrückt: p(a ≤ b 1 a σ 2π X ≤ b) = ∫ δ(x ) dx wobei δ(x; µ, σ) = 1 x −µ − 2 σ e die Dichtefunktion der Normalverteilung ist. Die auf der waagerechten Achse abgetragenen Zahlenwerte nennt man die Quantile (der Normalverteilung). Liegt bei einem statistischen Experiment eine Normalverteilung vor, so liegen 68,3% der Ergebnisse im Intervall [µ - σ , µ + σ], 95,4% im Intervall [µ - 2σ , µ + 2σ] und 99,7% im Intervall [µ - 3σ , µ + 3σ]. Die gilt näherungsweise auch, wenn man µ durch x und σ durch s ersetzt. Werte außerhalb des Intervalls [µ - 6σ , µ + 6σ] bezeichnet man als Ausreißer. Das virtuelle Bildungsnetzwerk für Textilberufe Grundlagen der Statistik Stand: 20.01.20033 Seite 6 / 9 © 2003 Hochschule Niederrhein Autor: Prof. Dr. Rudi Voller Kann man bei einer statistischen Untersuchung von einer bestimmten Verteilung ausgehen, dann lassen sich sogenannte Vertrauensbereiche für viele statistische Parameter angeben. Dazu legt man vorab eine Irrtumswahrscheinlichkeit α fest, die angibt, mit welcher Wahrscheinlichkeit der betrachtete Parameter außerhalb des Vertrauensbereíches liegt, γ = 1 - α nennt man die entsprechende Sicherheitswahrscheinlichkeit. Für den arithmetischen Mittelwert und die Standardabweichung einer Stichprobe, bei deren Auswertung von einer Normalverteilung ausgegangen werden kann, sind die Vertrauensbereiche wie folgt gegeben: x − tn− 1;α / 2 s n < µ < x + tn− 1;α / 2 s n und s n −1 χ 2 1−α /2;m ≤σ≤s n−1 χ2 α /2;m 2 α;m Die tm;α / 2 und χ sind dabei die Quantile der t- bzw. χ 2-Verteilung, zwei weiterer kontinuierlicher Verteilungen, die in tabellierter Form in den meisten Statistikbüchern zu finden sind. In Excel kann man die Quantile mit den Funktionen TINV bzw. CHIINV bestimmen. In den Formeln ist n jeweils der Stichprobenumfang, m = n-1 gibt die Zahl der Freiheitsgrade an. Beispiel (Fortsetzung): Für das obige Beispiel der Feinheitskontrolle mit dem Mittelwert 20,1 und der Statndardabweichung 0,176 ergeben sich bei einer Irrtumswahrscheinlichkeit von 5% die Vertrauensbereiche [19,974 ; 20,226] für den Erwartungswert, wobei n = 10 und t 9;0,025= 3,262 [0,121 ; 0,322] für die Standardabweichung mit χ 2 0,025;9 = 2,700 und χ 2 0,975;9 = 19,023. Für Qualitätskontrollen werden manchmal auch die Weiten der Vertrauensbereiche vorgegeben. Zur Erreichung solcher Vorgaben ist häufig ein großer Stichprobenumfang nötig. Die Bestimmung der Vertrauensbereiche dient zur Kontrolle, beispielsweise ob sie vorgegebene Sollwerte enthalten. Sie lassen sich in Prüfgrößen für statistische Tests umrechnen und werden zur Bestimmung von Warn-/Fehlergrenzen bei Qualitätsregelkarten verwendet. Bislang haben wir nur Stichproben für ein Merkmal betrachtet. In der statistischen Anwendung ist es aber häufig wichtig, mehrere Merkmale auf ihre Zusammenhänge zu untersuchen. Qualitativ geschieht dies durch die Untersuchung der Kovarianz bzw. der Korrelation der Merkmale, quantitativ wird dies durch Regressionskurven beschrieben. Das virtuelle Bildungsnetzwerk für Textilberufe Grundlagen der Statistik Stand: 20.01.20033 Seite 7 / 9 © 2003 Hochschule Niederrhein Autor: Prof. Dr. Rudi Voller Sind bei einer Stichprobe zwei Merkmale x und y untersucht worden, so berechnet man die empirische Kovarianz durch die Formel: s xy = 1 n ∑ ( xi − x)(y i − y) n − 1 i=1 Ihr Wert liegt zwischen -∞ und ∞ und ist daher nicht sehr aussagekräftig, für die Praxis besser geeignet ist der empirische Korrelationskoeffizient rxy = sxy sx sy = ∑ (x − x)(y − y) i i i ∑ (x − x) ∑ ( y − y) 2 2 i i i i der Werte zwischen –1 und 1 annimmt und folgendermaßen interpretiert wird: Man nennt die Merkmale x und y positiv korreliert, wenn rxy nahe bei 1 liegt, negativ korreliert, wenn rxy nahe bei –1 liegt, unkorreliert, wenn rxy in der Nähe von 0 liegt. rxy ist ein Maß für die Güte der Korrelation, man spricht auch von der "Straffheit" des Zusammenhangs zwischen den Merkmalen. Beispiel Zusammenhang zwischen Knitterwinkel und Scheuertüchtigkeit von Zellwollgeweben An einer Reihe von knitterecht ausgerüsteten Zellwollgeweben war zur Bewertung der Knitterwinkel nach DIN EN 22313 ermittelt worden. Gleichzeitig erfolgte auf einem Rundscheuergerät eine Überprüfung der Scheuertüchtigkeit dieser Gewebe, wobei die Anzahl der Scheuertouren bis zum ersten Auftreten einer Verletzung ermittelt wurde. Gewebe-nr. 1 2 3 4 5 6 7 Knitterwinkel xi 124 143 125 146 138 127 125 Zahl der Scheuertouren yi 576 223 405 300 480 448 469 x = 132.6 y = 414.4 r xy = −0.76 Die Merkmale sind negativ korreliert, d.h. je größer der Knitterwinkel desto eher tritt ein Gewebeschaden auf. Das virtuelle Bildungsnetzwerk für Textilberufe Grundlagen der Statistik Stand: 20.01.20033 Seite 8 / 9 © 2003 Hochschule Niederrhein Autor: Prof. Dr. Rudi Voller Ist rxy = 1, so liegen die Punkte (xi,yi) auf einer Geraden mit positiver Steigung, ist rxy = -1, so liegen die Punkte (xi,yi) auf einer Geraden mit negativer Steigung. Andernfalls ist man daran interessiert, ob die Punktwolke in etwa durch eine Gerade angenähert werden kann. Man konstruiert die Gerade y = ax + b so, dass die Summe der Abstandsquadrate (yi – axi - b)2 minimal wird, die Gerade nennt man die Regressionsgerade , das Verfahren "Lineare Regression". ∑ (x − x)(y − y) Für den empirischen Regressionskoeffizienten a gilt: a = ∑ (x − x) i i i 2 i i ( ) Der durch die Mittelwerte bestimmte Punkt x,y liegt stets auf dieser Geraden. Daher gilt außerdem: b = y − ax . 700 Für das umseitige Beispiel ergibt sich: 600 y = -9,47⋅x + 1669,5 500 Das Ergebnis ist wegen der wenigen Messwerte allerdings mit einer gewissen Vorsicht zu betrachten und sollte einer statistischen Analyse (t-Test mit ZTransformation nach Fisher) unterzogen werden. 400 300 200 100 0 120 125 130 135 140 145 150 Neben der sogenannten "Maßkorrelation" für normalverteilte Stichproben gibt es verteilungsfreie Auswertungsverfahren, die sogenannte "Rangkorrelation". Hierbei werden die Stichproben nicht durch die Messwerte selbst, sondern durch deren Reihenfolge bewertet. Diese Rangfolgen werden für die beiden Merkmale in Bezug zueinander gesetzt und daraus Rangkorrelationskoeffizienten berechnet, meist nach Spearman oder Kendall. Man kann die Rangkorrelation also auch auf ordinalskalierte Merkmale anwenden. Der Spearmansche Rangkorrelationskoeffizient ergibt sich bei einem Stichprobenumfang n ∑ (u − v ) 2 von n durch ui ∈ {1,...,n} und v i ∈ {1,...,n} zu rs = 1 − 6 i=1 i i n(n2 − 1) Auch rs liegt zwischen -1 und 1, wobei 1 völlige Übereinstimmung in den Rängen und -1 genau gegenläufige Rangfolgen bedeutet. Das virtuelle Bildungsnetzwerk für Textilberufe Grundlagen der Statistik Stand: 20.01.20033 Seite 9 / 9 © 2003 Hochschule Niederrhein Autor: Prof. Dr. Rudi Voller Beispiel: Zwei Prüfer beurteilen den Griff von sieben Gewebeproben durch folgende Rangfolgen: Probe 1 2 3 4 5 6 7 1. Prüfer(ui) 3 1 2 4 5 7 6 2. Prüfer(vi) 3 2 1 5 6 7 4 ui - vi 0 -1 1 -1 -1 0 2 (ui - vi)2 0 1 1 1 1 0 4 rs = 1 − 6 8 = 0,857 7( 49 − 1) Es liegt offenbar eine positive Korrelation vor.