Das virtuelle Bildungsnetzwerk für Textilberufe Statistische Analyse von Messergebnissen © 2003 Hochschule Niederrhein Autor: Prof. Dr. Rudi Voller Stand: 17.02.2003 Seite 1 / 8 Im Abschnitt "Grundlagen der Statistik" wurde u.a. beschrieben, wie nach der Durchführung eines statistischen Experiments, beispielsweise einer textilen Prüfung die gewonnenen Daten ausgewertet werden. Man berechnet zunächst statistische Kenngrößen wie Mittelwert, Median (zur Lagebestimmung), Varianz, Standardabweichung und Variationskoeffizient (zur Bestimmung der Streuung) sowie Vertrauensbereiche und untersucht für die Daten, falls mehrere Merkmale erfasst wurden, Korrelation und Regression. Hinzu kommt – vgl. den Abschnitt "Grafische Darstellung und Interpretation von Messergebnissen" - in der Regel eine grafische Darstellung der Ergebnisse (z.B. Histogramm, Boxplot). Mit Hilfe der so gewonnenen Daten lassen sich weitere Kenntnisse über die geprüfte Grundgesamtheit durch statistische Tests und Analysen gewinnen. Im Vordergrund stehen hier einerseits Vergleiche von Stichprobenparametern mit Soll- oder Erfahrungswerten. Andererseits werden Parameter verschiedener Messreihen miteinander verglichen. Auf weitere sogenannte parameterfreie Tests gehen wir an dieser Stelle nicht ein. Aus den Stichprobenparametern berechnet man zunächst sogenannte Test- oder Prüfgrößen unter der Annahme, dass die der Berechnung zugrundeliegende Zufallsvariable ähnlich wie bei der Berechnung der Vertrauensbereiche - eine bestimmte Verteilung besitzt. Dann werden Prüfhypothesen formuliert, die mathematisch meist Ungleichungen sind, die auf einen Vergleich der Prüfgröße mit Quantilen der entsprechenden Verteilung hinauslaufen, und diesen eine Alternative gegenübergestellt. Die Nullhypothese wird mit H0 bezeichnet, die Alternativhypothese mit HA. Dabei wird die Alternativhypothese so formuliert, dass immer entweder H0 oder HA zutrifft. Durch den konkreten Vergleich von Prüfgröße und Quantil wird zwischen beiden Hypothesen entschieden. Dabei wird ähnlich wie bei der Berechnung der Vertrauensbereiche vrogegangen, d.h. man verwendet c2-, t- oder F- Verteilung. Hierbei können zwei Arten von Fehlern auftreten: Fehler 1. Art: Die Nullhypothese wird abgelehnt, obwohl sie richtig ist. Fehler 2. Art: Die Nullhypothese wird beibehalten, obwohl sie falsch ist. Man muss darauf achten, dass die Nullhypothese so formuliert ist, dass sie exakt geprüft werden kann. In der Regel wird man die den Ausnahmefall beschreibende Hypothese als Alternative formulieren. Die Wahrscheinlichkeit α dafür, eine richtige Nullhypothese abzulehnen, wird vorgegeben. α heißt daher Irrtumswahrscheinlichkeit oder Signifikanzniveau. Mit β bezeichnet man hingegen die Wahrscheinlichkeit für einen Fehler zweiter Art. 1-β nennt man auch die Power des entsprechenden Tests. Das virtuelle Bildungsnetzwerk für Textilberufe Statistische Analyse von Messergebnissen Stand: 17.02.2003 Seite 2 / 8 © 2003 Hochschule Niederrhein Autor: Prof. Dr. Rudi Voller Damit sind folgende Szenarien möglich: Entscheidung des Tests Realität: H0 ist richtig HA ist richtig H0 wird beibehalten Richtige Entscheidung mit Wahrscheinlichkeit 1-α Fehler 2. Art mit Wahrscheinlichkeit β H0 wird abgelehnt Fehler 1. Art Signifikanzniveau α Richtige Entscheidung mit der Power 1-β In der Praxis ist es in der Regel schwierig, die beiden Fehlerwahrscheinlichkeiten optimal aufeinander abzustimmen. Unmittelbar beeinflusst man nur den Fehler erster Art, da man das Signifikanzniveau α vor der Durchführung eines Tests festzulegen hat. 1.) Tests für den Mittelwert Möchte man bei der Herstellung eines Produkts einen bestimmte Eigenschaft erreichen, z.B. dass ein Garn eine bestimmte Feinheit besitzt, so wird man eine Stichprobe aus der Produktion prüfen und den Mittelwert mit dem gewünschten Sollwert (oder einem Erfahrungswert) x0 vergleichen. Weicht der Stichprobenmittelwert vom Sollwert ab, was normalerweise der Fall ist, so wird man wissen wollen, ob man diese Abweichung als zufällig hinnehmen kann (Nullhypothese) oder nicht. Hierzu führt man folgenden Test durch: Man vergleicht die Prüfgröße, das ist die mit dem Kehrwert des Standardfehlers für den Mittelwert gewichtete Differenz, für a. kleine Stichproben (Umfang kleiner als 50) mit Quantilen der t-Verteilung b. große Stichproben (Umfang größer oder gleich 50) mit Quantilen der Standardnormalverteilung Im ersten Fall spricht man von einem t-Test , im zweiten von einem G(auss)-Test. Unter einem Quantil versteht man in Abhängigkeit von α den Wert, den die Zufallsvariable mit der Irrtumswahrscheinlichkeit α unterschreitet. Flächeninhalt = α 1 0.5 Dazu gibt man sich eine Irrtumswahrscheinlichkeit α (meist 5%) vor und bestimmt aus Tabellen (oder Tabellenkalkulationsprogrammen) die zugehörigen Quantile, die im Falle der 2 t-Verteilung auch noch von den Freiheitsgraden (hier Stichprobenumfang –1) abhängen. Quantil der Standardnormalverteilung: uα 0 x 2 Das virtuelle Bildungsnetzwerk für Textilberufe Statistische Analyse von Messergebnissen Stand: 17.02.2003 Seite 3 / 8 © 2003 Hochschule Niederrhein Autor: Prof. Dr. Rudi Voller Es kommt nun darauf an, ob der Sollwert eingehalten oder lediglich nicht unter- bzw. überschritten werden darf. Im ersten Fall lautet die Nullhypothese µ = x0 . Man führt einen zweiseitigen Test durch, d.h. für den Sollwert x0 berechnet man die Prüfgröße und prüft, ob sie zwischen zwei Quantilen liegt: x − x0 s n ≤ tn−1;1− α / 2 bzw. x − x0 n ≤ u1−α / 2 . s Die Betragsfunktion im Zähler sichert die zweiseitige Abgrenzung, da tn-1;α = -tn-1;1-α. Ansonsten reicht ein einseitiger Test: x − x0 x − x0 n ≤ tn−1;1−α bzw. n ≤ u1− α , falls die Nullhypothese x ≤ x 0 lautet, oder s s x − x0 x − x0 n ≥ tn−1; α bzw. n ≥ uα , falls die Nullhypothese x ≥ x 0 lautet. s s Sind die Ungleichungen nicht erfüllt, so wird die Nullhypothese verworfen, man geht davon aus, dass die Alternativehypothese (hier das Gegenteil) anzunehmen ist. 2.) Test für Varianz und Standardabweichung Auch für die Varianz bzw. die Standardabweichung, die beispielsweise die Gleichmäßigkeit eines Garns beschreiben, geht man ähnlich wie beim Mittelwert vor. Man vergleicht für eine einen Sollwert s 0 die Prüfgröße (n − 1) s2 mit den Quantilen der χ 2-Verteilung. (χ 2 –Test) 2 s0 Zweiseitiger Test zur Nullhypothese σ = s 0: χ 2 n −1; α / 2 s2 ≤ (n − 1) 2 ≤ χ2n−1;1− α / 2 s0 Einseitiger Test zur Nullhypothese σ ≥ s 0: χ2n −1; α ≤ (n − 1) s2 s20 s2 σ ≤ s 0: (n − 1) 2 ≤ χ2n−1;1− α s0 Beispiel: Drehungsmessung an einem Viskosekreppgarn: Probe Nr. Drehungen pro 500mm x = 1105,2 1 2 3 4 1090 1110 1125 1050 x − µ0 30.95 6 7 8 1057 1110 1141 1136 α = 5% s = 30.95 Nullhypothese: µ0 =1108, Prüfgröße: 5 9 10 1123 1110 t9;0.975 = 2.26 10 = 0.286 . Der t-Test liefert: Die Prüfgröße ist kleiner als das t-Quantil also wird die Nullhypothese nicht verworfen. Das virtuelle Bildungsnetzwerk für Textilberufe Statistische Analyse von Messergebnissen © 2003 Hochschule Niederrhein Autor: Prof. Dr. Rudi Voller Stand: 17.02.2003 Seite 4 / 8 2 Für die Standardabweichung liefert der χ -Test mit s = 30.95 und α = 1% sowie den 2 2 Quantilen χ 9;0.005 = 1,73 bzw. χ 9;0.995 = 23.58 zur Nullhypothese σ0 = 35 wegen der Prüfgröße: 9 3. 957.9 = 7,04 dass die Nullhypothese nicht verworfen werden darf. 1225 Vergleichstests: Diese Gruppe von Tests beschäftigt sich mit dem Vergleich der Ergebnisse zweier Stichproben, beispielweise wenn die Produktionsergebnisse mehrerer Maschinen oder verschiedener Tage verglichen werden sollen. Auf Vergleiche von Parametern von drei und mehr Stichproben im Rahmen der Varianzanalyse gehen wir hier nicht ein. Zum Vergleich zweier Varianzen führt man einen F-Test durch. Die Prüfgröße ist der Quotient der Varianzen, der zwischen den entsprechenden F-Quantilen liegen muss, damit die Nullhypothese: "Die Varianzen (bzw. Standardabweichungen) sind gleich." beibehalten wird. Die F-Quantile hängen neben der Irrtumswahrscheinlichkeit von den jeweiligen Stichprobenumfängen n1 der ersten und n2 der zweiten Stichprobe ab. Es ist zu prüfen, ob fn1−1;n2 −1;α / 2 s12 ≤ 2 ≤ fn1 −1;n 2 −1;1−α / 2 gilt. Die Power des Tests erhöht sich, wenn man die größere s2 der Varianzen in den Zähler setzt und nur die Nullhypothese σ1 ≤ σ2 prüft. Wenn diese nicht verworfen wird, ist die Gleichheit der Varianzen nicht widerlegt, d.h. wenn gilt: s12 ≤ fn1 −1;n2 −1;1−α (einseitiger F-Test). s22 Kann die Gleichheit der Varianzen nicht widerlegt werden, so spricht von einer vorliegenden Varianzhomogenität. Beispiel: Bei der Feinheitsbestimmung an zwei gleichen Ringspinnmaschinen hatten Stichproben ergeben: x1 = 20,1 s1 = 0,176 bei n1 = 10 und x2 = 20,1 s2 = 1,193 bei n2 = 10. Wir prüfen, ob die Nullhypothese σ1 ≤ σ2 mit einem einseitigen F-Test zur Irrtumswahrscheinlichkeit α = 1% : s22 1,422 Wegen 2 = = 45,71 ≥ 3,179 = f9;9;0,99 muss die Nullhypothese verworfen werden und s1 0,031 davon ausgegangen werden, dass die Varianz der zweiten Produktion signifikant größer ist.: Das virtuelle Bildungsnetzwerk für Textilberufe Statistische Analyse von Messergebnissen Stand: 17.02.2003 Seite 5 / 8 © 2003 Hochschule Niederrhein Autor: Prof. Dr. Rudi Voller Die Varianzhomogenität beeinflusst den Vergleich von zwei Mittelwerten. Liegt eine Varianzhomogenität vor, so testet man die Nullhypothese: Die Erwartungswerte sind gleich: µ1 = µ2 , durch einen T-Test, d.h. man vergleicht die Prüfgröße x1 − x2 n1n2 n1 +n2 (n1 + n2 − 2) (n1 − 1)s12 + (n 2 − 1)s22 mit dem Quantil t n1+ n2 −2;1−α / 2 . Ist sie größer als das Quantil, so wird die Nullhypothese verworfen. Liegt keine Varianzhomogenität vor, verwendet man die Prüfgröße x1 − x 2 s12 s22 + n1 n2 , die man mit dem Quantil t m;1− α / 2 , wobei m die größte ganze Zahl ist, die kleiner oder gleich ( s12 n1 ( ) s21 1 n1 − 1 n1 2 2 + ns22 + ) 2 1 n2 −1 ( ) s 22 n2 2 ist. (Asymptotischer t-Test). Beispiel: Es werden die Garndrehungen von Rotorgarn (20 tex) überprüft, produziert auf 2 Rotorspinnmaschinen gleichen Typs und Einstellungen. Es soll herausgefunden werden, ob die Abweichungen zufällig sind oder ob sie so beschaffen sind, dass die Maschinen nachgestellt werden müssen. Stichprobe Maschine 1 T/m Maschine 2 T/m 1 2 3 4 5 901 905 891 889 899 888 881 879 890 879 897 6,78 883 5,22 Mittelwerte: Standardabweichungen: F-Test auf Varianzhomogenität (α = 5%) : s22 6,782 = = 1,687 ≤ 6,388 = f4;4;0,95 , also gehen s12 5,222 wir von gleichen Varianzen aus. T-Test auf gleiche Erwartungswerte (α = 5%): x1 − x2 n1n2 n1 +n2 (n1 + n2 − 2) (n1 − 1)s21 + (n 2− 1)s22 man muss demnach von unterschiedlichen Erwartungswerten ausgehen. = 3,66 > 2,31 = t8;0,975 , Das virtuelle Bildungsnetzwerk für Textilberufe Statistische Analyse von Messergebnissen Stand: 17.02.2003 Seite 6 / 8 © 2003 Hochschule Niederrhein Autor: Prof. Dr. Rudi Voller 4. Anpassungstests: Die bisher beschrieben Tests gehen implizit davon aus, dass die untersuchten Merkmale normalverteilt sind. Dies muss insbesondere für kleine Stichproben (Umfang geringer als 50) aber zunächst einmal durch einen sogenannten Anpassungstest statistisch gesichert werden. Wir beschreiben hierzu einen Schnelltest von David, weiter Tests findet man in der Literatur im Anhang. Der Schelltest von David geht vom Verhältnis der Spannweite R zur Standardabweichung s aus. Eine Normalverteilung ist statistisch gesichert, wenn der Quotient R/s innerhalb bestimmter Grenzen liegt, hier einige Beispiel für Irrtumswahrscheinlichkeiten von 1% bzw. 5%. Stichprobenumfang Untere Schranke Obere Schranke q Signifikanzniveau α q 0,005 0,025 0,025 0,005 5 1,98 2,09 2,78 2,81 7 2,22 2,33 3,28 3,37 10 2,46 2,59 3,78 3,94 20 2,94 3,09 4,63 4,91 100 4,03 4,21 6,11 7,60 Beispiel.: Für die weiter oben bereist behandelte Drehungsprüfung soll die Normalverteiltheit getestet werden: Probe Nr. Drehungen pro 500mm x = 1105,2 Die Prüfgröße 1 2 3 4 1090 1110 1125 1050 s = 30.95 5 6 7 8 1057 1110 1141 1136 α = 5% 9 10 1123 1110 R = 1141 – 1050 = 91 R 91 = = 2,94 liegt zwischen den Tabellewerten 2,59 und 3,28. Daher s 30,95 kann die Nullhypothese "Die Grundgesamtheit ist normalverteilt." nicht widerlegt werden. Das virtuelle Bildungsnetzwerk für Textilberufe Statistische Analyse von Messergebnissen © 2003 Hochschule Niederrhein Autor: Prof. Dr. Rudi Voller 5. Stand: 17.02.2003 Seite 7 / 8 Ausreißertests: Bei der Auswertung von Stichproben insbesondere von kleinem Umfang können Einzelwerte, die von den übrigen Messwerten stark abweichen, das Ergebnis, speziell den ermittelten Mittelwert und die Streuung, verfälschen. Daher sind sie vorab zu prüfen. Lassen sich Messfehler, Rechenfehler, Schreib- und Datenerfassungsfehler nachweisen, sind diese Fehler zu korrigieren, sofern die richtigen Einzelwerte verfügbar sind, andernfalls sind sie bei der Auswertung wegzulassen. Auch stark abweichende Einzelwerte, die beispielsweise durch Verfahrensänderungen oder Maschinenumstellungen verursacht sind, werden bei der statistischen Auswertung nicht berücksichtigt. Allerdings sind in einem Prüfprotokoll die weggelassenen Einzelwerte und der Grund für die Nichtberücksichtigung festzuhalten. Kann das starke Abweichen von Einzelwerten nicht wie zuvor beschrieben begründet werden, so wendet man Ausreißertest an, wenn man mit Hilfe eines solchen Tests entscheiden will, ob ein abweichender Einzelwert noch der Gesamtheit angehören kann, aus der die anderen Einzelwerte stammen. Weist der Test nach, dass Abweichung nicht zufällig war, so bezeichnet man den Wert als Ausreißer und lässt ihn in der weiteren Auswertung weg. Im Prüfprotokoll ist dann anzugeben, dass dieser Einzelwert durch einen Ausreißertest eliminiert wurde. Die wiederholte Anwendung eines Ausreißertests auf die verbleibenden Einzelwerte ist nicht zulässig. Weist z.B. ein Punktdiagramm darauf hin, dass mehrere Einzelwerte "ausreißverdächtig" sind, ist ein Test zur gleichzeitigen Elimination mehrerer Ausreißer anzuwenden. Verbietet es sich grundsätzlich bei einem Prüfverfahren Einzelwerte wegzulassen, so kann man als alternatives Lagemaß den ausreißerunabhängigen Median verwenden. Bei normalverteilten Einzelwerten ist für Stichprobenumfänge n < 30 der Ausreißertest nach Dixon ein geeigneter Test. Dieser prüft, ob der größte (bzw. der kleinste) Einzelwert einer Stichprobe als Ausreißer angesehen werden kann. Dazu werden die Einzelwerte nach aufsteigender Größe geordnet und ein Prüfwert nach einer der Formeln in der folgenden Tabelle errechnet. Übersteigt bei gewähltem Signifikanzniveau α der berechnete Prüfwert den Tabellenwert, so kann der entsprechende Stichprobenwert als Ausreißer angesehen werden. Das virtuelle Bildungsnetzwerk für Textilberufe Statistische Analyse von Messergebnissen Stand: 17.02.2003 Seite 8 / 8 © 2003 Hochschule Niederrhein Autor: Prof. Dr. Rudi Voller Beispiel: Chromgehalt eines chromschwarz gefärbten Wollgarns Der Chromgehalt eines chromschwarz gefärbtem Wollgarns wurde viermal bestimmt: 0,53% 0,59% 0,41% 0,58% Der kleinste Wert x (1) = 0,41% wird als ausreißerverdächtig angesehen. Da keine Erklärung für diesen niedrigen Wert vorliegt, wird der Dixon-Test auf dem Signifikanzniveau α = 0,05 angewandt. Gemäß der Tabelle ist für n = 4 mit x (1) als ausreißerverdächtigem Einzelwert der Prüfwert für Ausreißer nach unten x(2) − x (1) x (n) − x(1) = 0,53 − 0,41 = 0,667 0,59 − 0,41 kleiner als der Tabellenwert 0,765. Der ausreißerverdächtige kleinste Wert x (1) = 0,41 darf also nicht als Ausreißer angesehen und fortgelassen werden.